- 首頁 > 動植物全基因組重測序
動植物全基因組重測序
全基因組重測序是對已知基因組序列的物種進行DNA測序,并在此基礎上完成個體或群體分析。全基因組重測序通過序列比對,可以檢測到大量變異信息,包括單核苷酸多態性(SNP)、插入缺失(InDel)、結構變異(SV)和拷貝數變異(CNV)等。基于檢測到的變異能進一步研究動植物的物種特性、群體進化問題、定位目標性狀基因位點。
隨著測序成本降低和已知基因組序列物種的增多,全基因組重測序已經成為動植物分子育種、群體進化中最為迅速有效的方法之一。利用全基因組重測序技術有助于快速發現與動植物重要性狀相關的遺傳變異,應用于分子育種中,縮短育種周期。
產品優勢
· 技術簡單,穩定性好。
· 檢測變異類型豐富:可以檢測SNP、InDel、SV和CNV等多種變異類型,并可用作分子標記。
· 高密度標記: 能夠檢測到全基因組范圍的SNP信息,同時可檢測低頻SNP。
· 發現新的變異:與芯片方法相比較,可以檢測到新的變異序列。
· 高性價比:與全基因組從頭測序相比,耗時更短,成本更低。
· 樣品起始量低:華大基因經過不斷的研發,樣本起始量不斷降低,最低可至pg級。
· 個性化分析:具有豐富個性化分析經驗,可根據項目需要選擇最適宜的分析軟件,只為保障最精準結果。
· 數據精準:華大至今完成10萬+的動植物重測序樣本,嚴格質量控制流程保證結果準確度。
· 經驗豐富:動植物重測序領域掛名發表文章100余篇,IF加和>1,000,其中一作或通訊作者文章50+,涵蓋變異檢測、遺傳圖譜構建&QTL定位、群體進化和GWAS等各研究領域。
· 項目方案支持:大項目參與方案設計,使項目贏在起跑線。
· 分析團隊實力雄厚:發表影響因子10分以上動植物研究文章的人員20+。
信息分析內容

產品應用

案例一、群體研究案例——322個不同的紅豆品種基因組變異圖譜的繪制揭示基因組進化與關鍵的農藝性狀
2024年3月,Plant Biotechnology Journal 在線發表了北京農學院聯合華大基因,中科院遺傳與發育研究所和澳大利亞莫道克大學題為 “Chromosome-level reference genome and resequencing of 322 accessions reveal evolution, genomic imprint and key agronomic traits in adzuki bean” 的研究論文。研究人員開發了紅豆品 “Jingnong6” 的高質量染色體級別參考基因組,通過結合 PacBio Sequel長讀序列測序以及短讀序列和 Hi-C 技術,組裝的基因組覆蓋了紅豆基因組的 97.8%,contig N50 約為16 Mb,總共包含 32,738 個蛋白質編碼基因。此外,通過全基因組重測序(WGRS)技術對 322 個不同的紅豆品種進行了基因組變異圖譜的繪制,包括野生和栽培品種。通過比較基因組學和全基因組關聯研究(GWAS),研究人員鑒定了幾個與馴化性狀顯著相關的候選基因,包括VaCycA3;1、VaHB15、VaANR1 和 VaBm。特別是,VaANR1 和 VaBm 在調節種皮顏色方面的作用進行了功能性分析。該研究為赤豆育種工作提供了基因組數據,并揭示了赤豆馴化性狀的關鍵基因。研究為育種工作提供了重要的數據基礎,有助于改良赤豆的耐逆性和產量等關鍵農藝性狀,進一步選育擁有良好農藝性狀的高品質赤豆品種。
研究策略:紅豆進行基因組從頭組裝,并對322個紅豆品種進行全基因組重測序,包括 67 個野生種、39 個半野生種、160 個地方品種和 56 個改良品種,平均基因組覆蓋度為 8.92X。

圖1 322份野生和栽培紅豆的種群結構
案例二、DNBSEQ群體重測序——生菜馴化歷史及GWAS分析
華大與荷蘭遺傳資源中心、深圳國家基因庫、華中農業大學等多家單位合作,在Nature Genetics雜志發表題為“Whole-genome resequencing of 445 Lactuca accessions reveals the domestication history of cultivated lettuce”的研究論文,對來自全球47個國家的445份生菜種質資源利用DNBSEQ平臺進行測序,除12個野生種50X以上進行基因組組裝,其他樣本為20X重測序,囊括了生菜的所有栽培類型及主要野生近緣育種材料。全面揭示了栽培生菜的完整馴化進程,并對生菜的種質資源結構、重要農藝性狀和抗病基因來源進行了探索研究。
研究團隊通過系統進化分析發現,所有生菜樣品在進化樹上聚為一支,與野生近緣種野萵苣(L. serriola)有著最近的共同祖先,而且所有栽培生菜都源自一次獨立的馴化事件。對主成分分析和群體結構進行解析,我們將野萵苣分為六個具有不同群體特征的地理居群,而栽培生菜與高加索地區、兩河流域的野萵苣居群具有最近的遺傳距離。由此推斷,栽培生菜極有可能起源于高加索地區、兩河流域。

圖2 栽培生菜(圖中綠色所示)與野生近緣種的群體分析
通過有效群體大小分析發現,距今1萬年栽培生菜和野萵苣均經歷了種群收縮,可能由環境劇烈變化所致。而從公元前4000年開始,栽培生菜有效群體大小出現了更為劇烈的下降,暗示著生菜正在經歷人工馴化。對生菜種群結構和發展趨勢進行深入的分析,推測生菜最早在高加索或近高加索地區被馴化。在被人類馴化之后,生菜先傳播到古埃及并逐漸演變為如今的油用生菜。在古羅馬時代傳到南歐地區,與當地的野萵苣雜交之后,開始作為葉用生菜種植食用。

圖3 栽培生菜起源中心推測近高加索地區
栽培生菜有很多所謂的 “馴化綜合癥(domestication syndrome)”,如葉片全緣、缺少葉刺、無法散種等。本研究通過全基因組關聯分析,對重要的馴化和農藝性狀相關基因進行了精細定位。將以上三個馴化性狀的相關基因座位,分別定位于生菜基因組的第 3、5 和 6 號染色體上。對散種基因所在區域的變異位點進行系統進化分析,發現栽培生菜與高加索的野萵苣居群在進化樹上最近,揭示了散種的丟失可能是發生在生菜馴化的早期事件。對全緣葉關聯區域進行系統進化分析,發現栽培生菜與南歐的野萵苣居群聚為一支,表明全緣葉這一性狀很可能來自南歐地區的野萵苣。

圖4 生菜基因組中受人工選擇區域與重要馴化性狀關聯區域
葉用生菜在種植期間,易受各種病蟲害侵擾,其中由萵苣盤梗霉(Bremia lactucae)導致的霜霉病最為嚴重,在生菜生長期均可發病。成株期的葉片發病影響生菜外觀品質,嚴重時損失可達 20-40%,所以從野萵苣中鑒定霜霉病抗病基因一直是生菜育種中的重要內容。為了挖掘生菜基因組中的抗病基因資源,對栽培生菜和野萵苣進行了比較基因組分析,發現位于第 1、2 和 4 號染色體的主要抗病基因簇有著更多的野萵苣基因滲入。本研究利用霜霉病小種抗性調查數據開展全基因組關聯分析,發現栽培生菜的抗性位點通常位于單一抗病基因簇,而野萵苣的抗性基因座位則分布在不同染色體上,這表明利用野萵苣開展抗病育種有非常大的價值。

圖5 野萵苣基因滲入(紅色線條)對生菜基因組主要抗病基因簇的貢獻
案例三、群體研究案例——3K水稻重測序&泛基因組研究
由中國農業科學院作物科學研究所牽頭,聯合 IRRI、上海交大、華大基因、深圳農業基因組研究所、安徽農大等 16 家單位共同完成了“3000份亞洲栽培稻基因組研究” ,并于 2018 年 4 月發表在 Nature 上。研究針對水稻起源、分類和馴化規律進行了深入探討,揭示了亞洲栽培稻的起源和群體基因組變異結構,剖析了水稻核心種質資源的基因組遺傳多樣性。
3000 份水稻(來自全球 89 個國家和地區)代表了全球 78 萬份水稻種質約 95% 多樣性的核心種質。通過全基因重測序,每個樣本平均測序深度14X,利用重測序數據共檢測到 32M 的高質量 SNPs 和 InDels。對亞洲栽培稻群體的結構和分化進行了更為細致和準確的描述和劃分,由傳統的 5 個群體增加到 9 個。研究著重分析了 453 個測序深度 >20X 品系的 SVs,利用 SVs 構建的進化樹與 SNP 構建的進化樹類似。大量的 SVs 可能是不同程度雜種不育和 XI 與 GJ 雜種衰退的遺傳基礎。同時構建了亞洲栽培稻的泛基因組,包括 12,770 個(62.1%)核心(core)基因家族和 9,050 個(37.9%)分散式 (distributed) 基因家族。發現了 1.2 萬個全長新基因和數千個不完整的新基因。核心基因比較古老,大多數的新基因表現更年輕和長度偏短。

圖6 水稻泛基因組研究
a、基因家族PAVs;
b、泛基因組和一個單獨的基因組的組成成份;
c、基于500個隨機篩選的水稻基因組模擬泛基因組和核心基因組;
d、核心和分散式基因家族比例;
e、兩個品系間基因家族平均數量差異;
f、5733主要群組不平衡基因家族特性
變異檢測
? ? ? ? ?全基因組重測序數據與參考基因組比對,可以檢測某物種個體或群體的遺傳變異信息,包括單核苷酸多態性(SNP)、插入缺失(InDel)、結構變異(SV)、拷貝數變異(CNV)。變異信息是進行其他信息分析的基礎。

?圖1 各種變異在基因組上分布統計
從外到內依次為:染色體坐標、SNP密度分布、InDel密度分布、SV類型分布、CNV的拷貝數分布。
群體結構分析
? ?? ? 通過構建群體的系統進化樹(圖2a)、主成分分析(圖2b)和Structure分析(圖2c),研究樣本間的親緣關系和進化關系。進化樹是根據樣本間親緣關系的遠近,把各樣本安置在有分枝的樹狀的圖表上,簡明地表示生物的進化歷程和親緣關系。主成分分析(Principal Component Analysis,PCA),是將多個變量通過線性變換以選出較少個數重要變量的一種多元統計分析方法。群體結構研究的過程中通過將測序品系和SNP位點構成二維矩陣數據,經過PCA分析,計算出幾個主要的特征向量,并且將每一個品系在各特征向量上進行定位,也是研究群體品系間親緣關系的方法之一。Structure分析則是假設若干個品系起源于K個截然不同(或差異較大)的祖先,分析每一個品系的遺傳成分中,所具有的每一個假想祖先成分的比例。三種分析方法的結果可以相互驗證。

圖2?群體結構分析(?Nature genetics, 2010, 42(12): 1053-1059)。
a為進化樹;b為PCA分析;c為Structure分析,不同顏色代表不同的假想祖先;d為連鎖不平衡分析
連鎖不平衡分析
? ? ? ? 連鎖不平衡(linkage disequilibrium,LD),指群體內不同座位等位基因之間的非隨機關聯, 包括兩個標記間或兩個基因間或一個基因與一個標記座位間的非隨機關聯,可以用r2計算兩個標記間的連鎖不平衡度。LD受重組、人工選擇、群體類型等的影響,不同的物種LD變化情況不同,一般情況下我們會統計LD值衰減到一半的距離(圖2d)。LD值會對信息分析中標記數目的選擇有指導意義,LD大的物種所需要的標記密度相對低。
選擇分析(條件:群體有明顯的亞群分化)
? ? ? ?選擇在物種的遺傳變異形成過程中有巨大的貢獻,其中搭便車效應會對種群水平的分化產生劇烈的影響,由于較強的選擇效應,使得一個突變位點相鄰DNA上的核苷酸之間的差異下降或消除(selective
sweep)。通過分析大量的比較基因組學數據集和大量的SNP集,我們可以確定在野生種到栽培種/地方種的過程中,以及在不同的環境情況下,哪些區域的多態性發生了巨大的改變,檢測馴化或環境適應性相關的候選基因,而且受選擇的基因與進化相關的性狀也有關系。

圖3 選擇分析結果示例(?BMC plant biology, 2015, 15(1): 81)
綠色區域代表栽培種馴化過程中受選擇區域
GWAS分析
? ? ? ? 利用分布于全基因組水平的分子標記(例如SNP)通過一定的模型(如一般線性模型或混合線性模型)與表型進行關聯分析,檢測目標性狀相關基因位點。但是由于連鎖的存在,往往我們檢測到的標記并不是直接決定目標性狀的變異,如果進行基因克隆時還是要在一定的定位區間內完成。

圖4 GWAS結果示例(Nature genetics, 2010, 42(11): 961-967)。
Manhattan plot(圖4左)和QQ plot(圖4右)是查看GWAS定位結果和計算模型合理性的標配圖。Manhattan plot橫坐標是表示位置,縱坐標表示-lgP,在縱坐標上超過一定閾值的點被認為和表型關聯。QQ圖的意義在于基因型和性狀無關聯的情況下,各個標記P-value的觀察值和期望值是相等的(紅線),但是由于出現了基因型和性狀有關聯的情況,P-value往往會偏離y=x這條線。
表1 基因組 DNA樣品送樣建議
樣本類型 | 總量 | 濃度 | 完整性(膠圖) | 純度 | |
Genomic DNA | 常規文庫 | ≥0.2 μg(推薦 0.4 μg) | ≥8 ng/μL | 主峰>20Kb | 無蛋白, RNA/鹽離子等污染, 樣本無色透 |
PCR free 文庫 | ≥1 μg(推薦 2 μg) | ≥12.5 ng/μL | 主峰>20Kb | ||
表2 組織樣品判定標準
組織類型 | 常規DNA小片段文庫 | PCR free文庫 |
新鮮培養細胞 (細胞數) | ≥5×106 cells | ≥5×106 cells |
新鮮動物組織干重 | ≥25 mg | ≥50 mg |
新鮮植物組織干重 | ≥200 mg | ≥200 mg |
全血(哺乳動物) | ≥0.6 mL | ≥0.6 mL |
全血(非哺乳動物) | ≥0.1 mL | ≥0.1 mL |
Q1: 進行全基因組重測序數據推薦?
答:每個樣本推薦的數據量與樣本類型和要做的信息分析內容相關。例如關注個體樣本的SNP,對SNP的準確度和覆蓋度要求比較高,一般推薦測序深度>30X,對于稀有變異測序深度還要進一步提高;用于研究群體結構的樣本,測序深度推薦10X以上;純合樣本混樣檢測等位基因頻率,推薦平均每個樣本的測序深度在1X以上,混合樣本測序深度不低于30X;DH和RIL群體構建Bin Map,子代群體測序深度可以測序1X/樣本。
?
Q2: 樣本量選擇多大合適?
答:樣本量大小與樣本類型和研究目的相關。例如進行群體進化研究推薦30個樣本以上,因為從統計學上說30個以上才屬于大樣本;對于進行基因挖掘的項目來說,無論是利用自然群體進行GWAS分析或是用家系群體進行連鎖分析,都是群體越大越好,一般的情況下進行GWAS分析的樣本推薦300個樣本以上,對于家系群體推薦200個以上。
?
Q3: 連鎖圖譜構建適用于什么樣的群體?
答:連鎖圖譜的構建適用于作圖群體,它是由性狀差異顯著的親本雜交衍生的群體。親本選擇的要求:要考慮親本間的遺傳多態性、目標性狀差異、親本的純合度和雜交后代的可育性。構建分離群體類型,根據遺傳穩定性可將分離群體分成兩大類:暫時性分離群體如F1、F2、BC等,永久性分離群體如RIL、DH等。
?
Q4: 重測序reads與參考基因組比對率低,可能的原因是什么?
答:重測序reads比對率低原因可能是:1)因為測序樣本與參考基因組親緣關系比較遠。因為動植物品種多樣,但是目前已完成基因組組裝的往往只是其中的一個品種,同一個物種野生種與馴化種差異還是很大的;2)可能因為DNA不純,存在其他物種的污染;3)參考基因組序列組裝質量較差,引起比對率低;4)比對參數設置嚴格等

