- 首頁 > 動植物de novo測序
動植物de novo測序
動植物 de novo 測序即動植物從頭測序,指不需要任何參考序列信息即可對某個物種進行測序,用生物信息學分析方法進行拼接、組裝,從而獲得該物種的基因組序列圖譜。利用全基因組從頭測序技術,可以獲得動植物的全基因組序列,帶動這個物種下游一系列研究的開展,從而推進該物種的研究。全基因組序列圖譜完成后,可以構建該物種的基因組數據庫,為該物種的后基因組學研究搭建一個高效的平臺,為后續的基因挖掘、功能驗證提供DNA序列信息。
產品優勢
- 領先專業能力,提供全方位服務:依托專業的技術平臺,實驗和生信分析能力,提供 T2T 基因組、泛基因組以及種質資源數字化一站式解決方案;
- 強大提取能力,高質量測序結果:提取經驗豐富,從樣本提取、建庫到測序,嚴格質控,層層把關;
- 高水平組裝質量,分析結果可靠:超過 6000 次 De novo 組裝經驗,已完成 1200 多個重要物種的基因組構建專業分析流程確保組裝結果的準確性和可靠性;
- 標桿級別文章成果,項目經驗豐富:合作發表頂級期刊文章500余篇,其中封面文章34篇,成果卓越。
產品應用
- 獲得物種的參考序列
- 研究物種起源與進化歷史
- 挖掘功能基因
- 搭建物種數據庫
研究內容
- 基因組Survey:
1.通過多個Kmer 估計基因組大小和基因組雜合率,重復水平(軟件 Jellyfish+ genomeScope)
- 基因組組裝:
1.數據糾錯
2.組裝
3.組裝結果長讀長糾錯
4.組裝結果短讀長糾錯
5.BUSCO 評價
- Hi-C 輔助組裝:
1.文庫評估
2.Hi-C分析
3.手工矯正,獲得染色體
4.近緣物種比較,染色體定名(提供近源物種信息)
- 基因組注釋:
1.repeat 注釋
2.基因結構注釋(建議提供同源物種5-6個以及轉錄組數據)
3.基因功能注釋
- 進化分析:
提供已發表物種和近緣物種(選擇10個物種以內)
1.基因家族聚類;
2.共有特有基因家族分析;
3.物種系統進化分析;
4.物種分歧時間分析;
5.基因家族擴張收縮分析;
6.共線性分析;
- 定制化信息分析
可結合客戶的需求,協商確定定制化信息分析內容。
案例一 Nature發表“生命之樹”猴面包樹的演化歷史[1]
2024年5月15日,中國科學院武漢植物園/中國科學院中-非聯合研究中心、英國倫敦瑪麗女王大學、英國皇家植物園、華大科技等國內外研究團隊,在國際頂級學術期刊《自然》 (Nature) 雜志上發布了猴面包樹的演化歷史及保護研究論文 “The rise of baobab trees in Madagascar”。
主要結論
01. 猴面包樹的基因組序列全景圖
該研究利用 PacBio 長讀長測序技術結合短讀長 DNBSEQ 及 Hi-C 數據對猴面包樹的所有八個物種進行測序及組裝。組裝的基因組大小為 616 Mb-735 Mb;對基因組序列進行注釋獲得重復序列的比例為 47%-60%,基因數目在 4 萬左右。
02. 猴面包樹的系統發育關系
利用 SCN 基因并聯建樹,以及共線性塊建樹,CNV 獲得進化樹則與形態學一致,因此認為這一拓撲結構可能更能反映真實的演化歷史。

圖1. 猴面包樹的系統發育關系
03. 遺傳多樣性及種群歷史動態
研究了猴面包樹基因組的全基因組雜合度(GWH)和連續純合片段(ROH),還使用PSMC 模型估計了猴面包樹有效種群大小(Ne)的動態變化歷史。不同猴面包樹物種的 GWH 和 ROH 出現了明顯差異。

圖2. 馬達加斯加猴面包樹種群歷史動態及其生態驅動因素
04. 地質和環境的影響分析
生態位分化的環境驅動因素的主成分分析表明,馬達加斯加的溫度、海拔和降水的空間異質性可能是導致猴面包樹當前分布的主要環境因素,其中 A. madagascariensis 和 A. rubrostipa 主要受溫度和海拔的影響,而其它物種則受降水和海拔的影響。
05. 馬達加斯起源假說
馬達加斯加譜系與其它兩種猴面包樹譜系之間的地理隔離是在馬達加斯加猴面包樹分化之后開始的,這使得所有猴面包樹之間能夠產生基因流。這種情況與在馬達加斯加猴面包樹和 A. gregorii/A. digitata 之間檢測到的基因流動相吻合。此外,“馬達加斯加起源”假說還解釋了支持馬達加斯加譜系并非單系而是與其它兩個譜系混合的基因樹比例異常高的現象( 基于基因進化樹中為 81.2%,基于共線性進化樹中為 68.1% )。

圖3. 猴面包樹的演化歷史
參考文獻:[1] Wan, JN., Wang, SW., Leitch, A.R. et al. The rise of baobab trees in Madagascar. Nature 629, 1091–1099 (2024). https://doi.org/10.1038/s41586-024-07447-4
1. 基因家族鑒定
? ? ? ?通過同源基因的鑒定及基因家族的聚類分析,得到保守的單拷貝基因家族和多拷貝基因家族,以及物種特有的基因和家族,它們可能和物種的特異性有關,可以為物種特性的研究提供基礎。通過Orthofinder軟件對蛋白基因集進行聚類得到基因家族信息。

圖1:A圖表示不同物種間直系同源基因的種類及數量; B圖表示不同物種間直系同源基因的種類及數量韋恩圖;
2. 系統發育分析
? ? ? ?利用單拷貝基因家族構建物種發育樹。根據基因家族聚類的結果,使用單拷貝直系同源基因利用MUSCLE?、Gblocks?0.91b、RaxML軟件進行多序列比對,提取保守區域,構建進化樹,并使用FigTree進行定根。

圖2:系統發育樹
3. 物種分化時間估算
? ? ? ?通過每個單拷貝基因家族中的簡并位點、系統發育中的定根樹及已知物種的分化時間,使用PAML軟件估算分子鐘和物種間的分化時間。

圖3?物種分化時間。每個分枝長度代表中性進化速率,樹形結構節點處數字表示支持率
4. 基因家族擴張與收縮分析
? ? ? ?通過基因家族的信息、計算得到的系統發育樹和物種分化時間來進行基因家族的擴張與收縮分析。

圖4 擴張與收縮的基因家族GO功能富集
5. 基因組共線性分析
? ? ? ?共線性片段指同一個物種內部或者兩個物種之間,由于復制(基因組復制、染色體復制或者大片段復制)或者物種分化而產生的大片段的同源性現象。在共線性片段中的基因在物種進化過程中保持了高度的保守性。現在常采用 MCScan、MCScanX或JCVI軟件進行分析。

圖5 自身共線性分析

圖6 物種間共線性分析
6、全基因組復制分析(ks)
? ? ? ?Ks分析物種在進化史中是否發生全基因組復制事件、以及通過它與其它植物分化時間的比較區分發生全基因組復制相對時間的早晚。將篩選到的共線性基因及其比對結果利用PAML軟件對每個基因對進行Ks計算,推斷物種分化時間節點或者全基因組復制時間。
各平臺基因組DNA送樣要求
DNA要求無蛋白,RNA及鹽離子等污染,樣本無色透明不粘稠
平臺 | 文庫類型 | 樣本量 | 濃度 | OD值 | 完整性(膠圖) |
CycloneSEQ | Normal long標準文庫 | m≥12 μL | 90 ng/μL | OD260/280:1.8-2.0 | 無降解或輕微降解 |
DNBSEQ | 350 bp library | ≥0.2 μg (推薦0.4 μg) | 8 ng/μL | - | 無降解或輕微降解,主峰≥20 kb |
Nanopore | 20 kb-50 kb Normal long library | ≥2 μg | 50 ng/μL | OD260/280:1.8-2.0 OD260/230:≥1.5 | 無降解或輕微降解 |
Nanopore | Ultra long library | ≥10 μg | 50 ng/μL | OD260/280:1.8-2.0 OD260/230:≥1.5 | 無降解或輕微降解 |
PacBio Revio | 15kb-20kb HiFi library | ≥14 μg | 80 ng/μL | OD260/280:1.6-2.2 OD260/230: 1.6-2.5 | 主帶集中,無降解或輕微降解, 主帶≥40 kb,彌散不低于20 kb. |
組織樣本送樣建議
|
組織類型 |
Nanopore/PacBio |
DNBSEQ |
Hi-C |
|
新鮮植物組織 (富含多糖多酚等) |
建議≥6 g,最低≥4 g (可分裝為0.5/1 g每管) |
≥200 mg |
1 g 建議準備一管備份 |
|
新鮮植物組織 (少含多糖多酚等) |
建議≥4 g,最低≥2 g (可分裝為0.5/1 g每管) |
||
|
新鮮動物組織-常見脊椎動物(含哺乳動物、鳥類等) |
建議≥2 g,最低1 g (可分裝為0.5 g每管) |
≥25 mg |
≥0.5 g 建議準備1管備份 |
|
新鮮動物組織-節肢動物 (含蜂類、蟻類、蛹類等) |
建議≥3 g,最低2 g (可分裝為0.5 g每管) |
||
|
新鮮動物組織-海洋動物(蝦、蟹、海參等) |
建議≥3 g,最低2 g (可分裝為0.5 g每管) |
||
|
新鮮培養細胞 |
建議≥5×108個,最低≥1×108個 |
≥5×106 cell |
1×106至10×106個 |
|
全血(哺乳動物) |
建議6 mL,最低4 mL |
≥0.6 mL |
≥3 mL |
|
全血(非哺乳動物) |
建議≥400 μL,最低≥200 μL |
≥0.1 mL |
≥1 mL |
|
藻類 |
建議≥4 g,最低≥2 g |
≥1 g |
—— |
Q1:怎么查詢基因組的大小?
A1:查詢植物基因組大小的網站:http://data.kew.org/cvalues/CvalServlet?querytype=2;
查詢動物基因組大小的網站:http://www.genomesize.com/search.php。
換算關系:1pg=978Mb。
Q2:基因組從頭測序的組裝結果好壞如何判斷?
A2:一般用contig N50和scaffold N50 來衡量基因組組裝結果的好壞。N50 是指把組裝出的 contigs 或 scaffolds 從大到小排列,當其累計長度剛剛超過全部組裝序列總長度 50% 時,最后一個 contig 或 scaffold 的大小即為N50的大小,N50 對評價組裝序列的連續性、完整性有重要意義;N70 和 N90 的計算方法與N50類似,只是百分數變為 70% 或 90%。
Q3:如何判斷簡單基因組和復雜基因組?
A3:通常可以通過已測序的近緣種來判斷物種復雜程度,如一般鳥類和哺乳類動物都是簡單基因組,如果沒有近緣物種供參考,可以先做基因組 Survey 評估。
|
簡單基因組及復雜基因組定義 |
||
|
基因組分類 |
普通基因組 |
復雜基因組 |
|
基因組大小 |
≤3 Gb |
>3 Gb |
|
染色體倍性 |
單倍體或純合二倍體 |
雜合二倍體或多倍體 |
|
雜合率 |
<1.5% |
≥1.5% |
|
重復序列含量 |
<70% |
≥70% |
|
GC 含量 |
35-65% |
<35% 或 >65% |
|
備注 |
滿足所有條件為普通基因組 |
符合任一條件即為復雜基因組 |
Q4:進行基因組組裝有哪些測序策略推薦?
提供不同平臺的測序組裝策略服務,利用 DNBSEQ 短讀長測序平臺進行基因組 Survey,利用 PacBio /Nanopore/CycloneSEQ等高質量長讀長測序數據進行組裝。組裝獲得的 Contig 能輔以 Hi-C 數據錨定到染色體水平。

圖1 多平臺支持
動植物De novo各個平臺的測序策略推薦,如下:
表1 動植物De novo各個平臺的測序策略
|
測序平臺 |
文庫大小 |
測序讀長 |
推薦測序深度 |
主要用途 |
|
DNBSEQ |
350 bp Library |
PE150 |
≥100X |
Survey/糾錯 |
|
Hi-C Library |
PE150 |
≥100X |
錨定染色體 |
|
|
Nanopore |
Ultra long library
(N50: 100 K) |
Read length ≥50 kb |
40-100X |
組裝 |
|
PacBio Revio |
15 kb-20 kb CCS(HiFi)文庫 |
Read length N50≥100 kb |
≥30-60X |

