- 首頁 > 人全基因組重測序
人全基因組重測序
DNBSEQ 人全基因組重測序(WGS),采用擁有自主知識產(chǎn)權(quán)的測序儀和云計算平臺,為廣大科研工作者提供高準(zhǔn)確度、高性價比的基因組測序服務(wù)和一站式科研解決方案,支持大型隊列研究,助力精準(zhǔn)醫(yī)學(xué)。
華大基因測序儀采用先進(jìn)的 DNBSEQTM 核心技術(shù),通過儀器氣液系統(tǒng)先將 DNA 納米球 (DNA nanoball, DNB) 泵入到規(guī)則陣列載片 (Patterned Array) 并加以固定,然后再將測序模板及測序試劑泵入。泵入后的測序模板與載片上的 DNB 的接頭互補雜交,在DNA聚合酶的催化下,測序模板與測序試劑中的帶熒光標(biāo)記的探針相結(jié)合。接下來,通過激發(fā)熒光基團(tuán)發(fā)光,不同熒光基團(tuán)所發(fā)射的光信號被儀器相機(jī)采集,經(jīng)過處理后可轉(zhuǎn)換成數(shù)字信號,傳輸?shù)接嬎銠C(jī)進(jìn)行再次處理,最終獲取待測樣本的堿基序列信息。
所有跟DNB相關(guān)的測序技術(shù)都屬于 DNBSEQTM。DNBSEQTM 測序技術(shù)主要包括: DNA 單鏈環(huán)化和 DNB 制備 (Make DNB),規(guī)則陣列 (Patterned Array),DNB 加載 (Load DNB),cPAS (combinatorial Probe Anchor Synthesis,聯(lián)合探針錨定聚合測序法),雙端測序技術(shù) (Pair-end),以及配套的流體和光學(xué)檢測技術(shù)、堿基識別 (Basecall) 算法等。
與其他測序技術(shù)相比,DNBSEQTM 測序技術(shù)具有滾環(huán)復(fù)制擴(kuò)增帶來的錯誤累積低和規(guī)則陣列載片帶來的信號密度高等原理性優(yōu)勢,大幅提高了測序準(zhǔn)確性;而且,基于DNBSEQTM 測序平臺的產(chǎn)出數(shù)據(jù)重復(fù)序列率低 (Dup 率低)、有效數(shù)據(jù)利用率高、標(biāo)簽跳躍少 (Index Hopping少),能有效降低“張冠李戴”的情況。此外,結(jié)合 PCR free 等建庫方法,DNBSEQTM 測序平臺擁有更好的 SNP 和 InDel 準(zhǔn)確性。

圖1 DNBSEQ 平臺測序原理
給您選擇我們的八個理由
- 穩(wěn)定的產(chǎn)出高質(zhì)量測序數(shù)據(jù)
對隨機(jī)挑選的1,000+條 lane DNBSEQ 平臺 WGS 數(shù)據(jù)質(zhì)量值進(jìn)行統(tǒng)計分析,下機(jī) Raw data Q20 平均值為96.16%,Raw data Q30 平均值為87.86%。

圖2 1000+條lane WGS序質(zhì)量統(tǒng)計
- 低 duplicates 獲更多有效數(shù)據(jù)和更高覆蓋度
Duplicates 低,用更少的數(shù)據(jù)量,得到更多的高準(zhǔn)確和高覆蓋度的比對數(shù)據(jù),可以發(fā)現(xiàn)更多變異位點,有助于挖掘疾病的低頻和罕見突變,獲取更加全面的基因組變異信息。
表1 主流二代測序平臺標(biāo)準(zhǔn)品duplicate比率、有效測序深度及覆蓋度比較
|
Sample |
X 測序平臺 |
N測序平臺 |
DNBSEQ平臺 |
|
Raw bases (Mb) |
99998.92 |
100001.72 |
100236.61 |
|
Clean bases (Mb) |
96314.26 |
98955.15 |
99886.02 |
|
Mapping rate (%) |
99.61 |
98.68 |
99.47 |
|
Unique rate (%) |
87.18 |
86.41 |
93.31 |
|
Duplicate rate (%) |
9.65 |
10.15 |
3.02 |
|
Mismatch rate (%) |
0.8 |
0.51 |
0.48 |
|
Average sequencing depth (X) |
29.08 |
29.52 |
32.8 |
|
Coverage (%) |
99.06 |
99.06 |
99.1 |
|
Coverage at least 4X (%) |
98.57 |
98.43 |
98.62 |
|
Coverage at least 10X (%) |
97.77 |
97.2 |
97.67 |
|
Coverage at least 20X (%) |
91.8 |
89.45 |
92.97 |
- 高精準(zhǔn)度和敏感度的變異結(jié)果
已發(fā)表文章結(jié)果顯示,BGISEQ-500自主平臺與HiSeq 2500測序平臺變異檢測的精準(zhǔn)度(Precision)和敏感度(Sensitivity)相當(dāng)[2]。
表2 BGISEQ-500與HiSeq 2500變異精準(zhǔn)度和敏感度比較[2]
|
SNP |
BGISEQ-500 |
HiSeq 2500 |
|
Precision |
99.78% |
99.86% |
|
Sensitivity |
96.20% |
96.60% |
- 罕見突變檢出率及與芯片分型的一致率高
DNBSEQ平臺變異結(jié)果與Illumina Human Omni基因分型芯片評估,結(jié)果表明罕見突變檢出率高,且檢出的罕見突變與芯片分型結(jié)果的一致性高。
表3 DNBSEQ平臺 30X rare SNP detection rate
|
Genotyping chip |
MAF |
NO. of rare SNP |
NO. of detection |
NO. of concordance |
檢出率 |
一致率 |
|
OMNI |
< 2% |
7414 |
7142 |
7132 |
96.33% |
99.86% |
|
OMNI |
< 1% |
3151 |
3025 |
3018 |
96.00% |
99.77% |
|
OMNI |
< 0.5% |
1129 |
1075 |
1070 |
95.22% |
99.53% |
- 無Index hopping擔(dān)憂
DNBSEQ測序儀利用獨特的DNA納米球(DNB)技術(shù),僅使用單個index就實現(xiàn)了前所未有的0.0001%至0.0004%低樣本錯誤分配率。用水代替DNA,加入index,增加空白對照,DNB測序平臺發(fā)生錯誤匹配的概率為36 million reads分之一,即0.0000028%[3]。

圖3 不同測序技術(shù)的index hopping比例
- 滿足多種樣本類型的需求
DNBSEQ平臺WGS數(shù)據(jù)來源樣本種類多樣,其中包含福爾馬林固定石蠟包埋(Formalin Fixed and Paraffin Embedded,F(xiàn)FPE)樣品、單細(xì)胞樣品、血液樣品、基因組DNA樣品、唾液樣品、常規(guī)冷凍保存的新鮮組織樣品等。常規(guī)基因組建庫測序成功率為99%,對于降解樣品如FFPE等,建庫測序成功率也在90%以上。

圖4 DNBSEQ平臺不同類型樣本交付成功率
- DNBSEQ WGS PCR-free文庫
PCR-free建庫 + DNB (DNA納米球)核心測序技術(shù),為您還原真實的全基因組序列。PCR-free WGS 高質(zhì)量InDel從75%提升到86%,而低質(zhì)量InDel從12%降低到3%[4],PCR-free建庫方法可明顯提高InDel calling的精準(zhǔn)度和敏感度。

圖5 高質(zhì)量、中等質(zhì)量和低質(zhì)量InDel在不同建庫方法的分布
參考文獻(xiàn)
[1] Drmanac R, Sparks A B, Callow M J, et al. Human genome sequencing using unchained base reads on self-assembling DNA nanoarrays.[J]. Science, 2010, 327(5961):78-81.
[2] Jie Huang, Xinming Liang, Yuankai Xuan, et al. A reference human genome dataset of the BGISEQ-500 sequencer. GigaScience, 2017.
[3] Li Q, Zhao X, Zhang W, et al. Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform. bioRxiv, 2018: 343137
[4] Han F, Wu Y, Narzisi G, et al. Reducing INDEL calling errors in whole genome and exome sequencing data[J]. Genome Medicine,6,10(2014-10-28), 2014, 6(10):89.
案例1??ChinaMAP 分析 10,588 個人的高深度全基因組序列[1]

研究材料:10588個中國人,隨機(jī)選擇于中國27個省份的8個民族(漢族、回族、滿族、苗族、蒙古族、彝族、藏族和壯族)?。平均基線年齡為54歲,女性為64.8%。
分析內(nèi)容:構(gòu)建高質(zhì)量的中國人群遺傳變異數(shù)據(jù)、中國人群體結(jié)構(gòu)分析、基因組特征比較以及變異頻譜和致病性變異解析。該研究也通過全基因組關(guān)聯(lián)分析探索了中國人群中2型糖尿病和肥胖遺傳相關(guān)因素。在血糖相關(guān)分析中,結(jié)果驗證了部分已知的2型糖尿病風(fēng)險高頻基因位點,包括CDKAL1、SLC30A8、SND1-PAX4、IDE-KIF11-HHEX、CDKN2A-CDKN2B、KCNQ1?等,也鑒定和發(fā)現(xiàn)了DENND5B、ORM1?、MAFA、PAX6、SOX4?等新位點。
重要研究成果:

圖1 ChinaMAP基因變異的分布和模式

圖2 體重指數(shù)與血糖的關(guān)聯(lián)分析
ChinaMAP研究也通過全基因組關(guān)聯(lián)分析探索了中國人群中2型糖尿病和肥胖遺傳相關(guān)因素。在體重指數(shù)BMI相關(guān)分析中,研究團(tuán)隊發(fā)現(xiàn)了新的東亞人群特異性CADM2基因位點,CADM2在動物研究中已證實參與調(diào)節(jié)體重和能量穩(wěn)態(tài)。而FTO等基因在歐美人群中發(fā)現(xiàn)的重要肥胖相關(guān)基因位點,在ChinaMAP研究結(jié)果中并不顯著。從這些發(fā)現(xiàn)可以提示我們,對大規(guī)模中國人群特異性的基因組學(xué)的研究,對分子機(jī)制和個體化診治的精準(zhǔn)醫(yī)學(xué)體系建立很重要。
案例2?NBT:主流高通量測序儀在人/細(xì)菌/宏基因組測序評測結(jié)果發(fā)布[2]

由生物分子資源設(shè)施協(xié)會(Association of Biomolecular Resource Facilities, ARBF)主導(dǎo)的ABRF NGS II期研究成果發(fā)表于Nature Biotechnology,文章題為“Performance assessment of DNA sequencing platforms in the ABRF Next-Generation Sequencing Study”。研究團(tuán)隊基于來自Illumina、Pacific Biosciences、Thermo Fisher Scientific、BGI、Oxford Nanopore Technologies和Genapsys的多款測序平臺,在多個實驗室對同一人類基因組家族、三個單獨菌株和十種細(xì)菌的宏基因組混合物進(jìn)行測序,并將各平臺數(shù)據(jù)進(jìn)行全方位、系統(tǒng)性比較,分析各個測序平臺的性能差異和測序質(zhì)量,以提供真實全面的參考證據(jù)。

數(shù)據(jù)顯示,在短讀長測序平臺中,DNBSEQ平臺提供了非常低的測序錯誤率。且SNP/Indel檢測的靈敏度和準(zhǔn)確度表現(xiàn)也非常優(yōu)秀。
案例3?DNBSEQ基因組測序揭示肺鱗癌的潛在治療靶標(biāo)[3]
Genomic sequencing and editing revealed the GRM8 signaling pathway as potential therapeutic targets of squamous cell lung cancer
肺腺癌和肺鱗癌(LUSC)是肺癌的主要病理類型,肺鱗癌占原發(fā)性肺癌的40%~51%。目前已經(jīng)有多種靶向藥物應(yīng)用于肺腺癌,但是肺鱗癌的治療靶點尚沒有突破性進(jìn)展。文章通過外顯子重測序(WES),人全基因組重測序(WGS)、靶區(qū)域捕獲測序(TS)和CRISPR-Cas9基因組編輯技術(shù),利用鱗狀細(xì)胞肺癌手術(shù)腫瘤和對應(yīng)的源自患者的異種移植瘤(PDX)樣本探索和驗證肺鱗癌的潛在治療靶標(biāo)。
文章亮點:
- Illumina HiSeq X Ten平臺WES測序+ DNBSEQ平臺WGS測序+ DNBSEQ平臺TS測序,多平臺數(shù)據(jù)聯(lián)合分析
- LUSC PDX模型可廣泛應(yīng)用于潛在治療目標(biāo)和策略的驗證
- 使用CRISPR系統(tǒng)對PDX腫瘤細(xì)胞中的驅(qū)動基因進(jìn)行功能驗證
通過基因組測序和CRISPR-Cas9基因組編輯的綜合分析,在手術(shù)和PDX腫瘤上整合鑒定并驗證了GRM8對LUSC腫瘤的促進(jìn)功能。cAMP活化劑和MEK抑制劑可顯著阻斷具有GRM8突變的LUSC腫瘤細(xì)胞的增殖和存活。因此,GRM8信號傳導(dǎo)通路的組成分子可能成為攜帶GRM8激活突變的鱗狀細(xì)胞肺癌的治療靶標(biāo)。

圖 cAMP激活劑和MEK抑制劑作為治療策略
圖A:Forskolin和Selumetinib的聯(lián)合治療對PDX腫瘤細(xì)胞活力具有抑制作用
圖B:GRM8活化通過抑制cAMP通路和激活MAPK通路促進(jìn)LUSC細(xì)胞的增殖
?
案例4?BGISEQ-500和HiSeq X Ten全基因組測序鑒定生殖細(xì)胞和體細(xì)胞變異[4]
Germline and somatic variant identification using BGISEQ-500 and HiSeq X Ten whole genome sequencing
該研究使用BGISEQ-500平臺對三種惡性胸膜間皮瘤及其對照的正常樣本進(jìn)行全基因組測序,并與Illumina HiSeq X Ten平臺測序結(jié)果進(jìn)行評估。兩平臺數(shù)據(jù)均使用相同的分析流程,分別比較生殖細(xì)胞和體細(xì)胞單核苷酸變異(SNP)、小插入或缺失(InDel)。結(jié)果表明BGISEQ-500平臺通過全基因組測序來鑒定腫瘤樣本的體細(xì)胞和生殖細(xì)胞突變是有潛力的可適用性的平臺,這也是該平臺首次公開可用的癌癥基因組數(shù)據(jù)。
研究結(jié)果:
- 生殖細(xì)胞突變:? ? ?
結(jié)果顯示,BGISEQ-500平臺和HiSeq X Ten平臺識別SNP的能力與SNP分型芯片(Infinium Omni2.5–8, Illumina )是高度一致的(> 99%)。在兩個測序平臺中鑒定的生殖細(xì)胞SNV和indels也是高度一致(分別為86%和81.5%)。
表??SNP芯片數(shù)據(jù)分別與BGISEQ-500和HiSeq X Ten數(shù)據(jù)比較,生殖細(xì)胞突變基因型一致性的百分比

- 體細(xì)胞突變:
? ??????三名患者中總共10,890個體細(xì)胞SNV,大部分體細(xì)胞SNV(72%)在兩個平臺中被識別,小部分為BGISEQ-500和HiSeq X Ten兩平臺特有的(分別為14%,14%)。

圖? 利用BGISEQ-500和HiSeq X Ten的數(shù)據(jù)鑒定3個胸膜間皮瘤的體細(xì)胞突變
案例5?基于DNB的測序平臺可有效避免index hopping[5]
Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform
本研究使用三種主要的文庫制備方法研究了DNB測序平臺的Index hopping問題。DNBSEQ測序儀利用獨特的DNA納米球(DNB)技術(shù),基于滾環(huán)復(fù)制(RCR)進(jìn)行文庫擴(kuò)增,這種線性擴(kuò)增可以避免常規(guī)PCR帶來的錯誤累積。基于DNB的NGS應(yīng)用僅使用單個index就實現(xiàn)了前所未有的0.0001%至0.0004%低樣本錯誤分配率。此外,用水代替DNA,加入index,增加空白對照,DNB測序平臺發(fā)生錯誤匹配的概率為36 million reads分之一,即0.0000028%。

圖? 不同測序技術(shù)的index hopping比例
研究結(jié)果:
- DNA納米球技術(shù)的高index保真度
? ? ? ? DNBSEQ平臺將DNB加載到規(guī)則陣列(patterned arrays)上,并利用組合引物錨定測序技術(shù)(cPAS)進(jìn)行測序。 獨特的DNB技術(shù)采用具有強鏈置換活性的Phi29聚合酶和能夠進(jìn)行線性擴(kuò)增的RCR工藝,每個擴(kuò)增循環(huán)都以原始的單鏈環(huán)狀DNA文庫為模板,保持每個拷貝子的獨立性(圖1a)。因此,即使出現(xiàn)寡核苷酸的index hopping等錯誤,也不會累積錯誤拷貝,正確的序列總是會在后面的DNA拷貝中復(fù)制,保證高的擴(kuò)增保真度。

圖??Index hopping在不同的測序平臺產(chǎn)生的機(jī)制
- PCR-free文庫index hopping污染率極低
? ??????除了常規(guī)PCR文庫外,文中還對PCR-free文庫在DNBSEQ平臺的index hopping情況進(jìn)行調(diào)查,未經(jīng)過任何Q30過濾的99.9998%精度再次證實了DNB可以在很大程度上降低index污染。與上面的常規(guī)PCR文庫類似,污染率平均約為0.0004%。

表? PCR-free 文庫index污染比率
研究意義:
1、? 高的檢測準(zhǔn)確度,保證體細(xì)胞低頻突變、HPV檢測等基因檢測的準(zhǔn)確性;
2、? Single index避免了繁瑣的non-combinatorial dual index帶來的額外成本和勞動力浪費;
3、? 避免大通量測序中樣本數(shù)據(jù)完整性的丟失。
參考文獻(xiàn)
[1]? ? Cao Y, Li L, Xu M, et al. The ChinaMAP analytics of deep whole genome sequences in 10,588 individuals[J]. Cell research, 2020, 30(9): 717-731.
[2]? ? Foox, J., Tighe, S.W., Nicolet, C.M. et al. Performance assessment of DNA sequencing platforms in the ABRF Next-Generation Sequencing Study. Nat Biotechnol 39, 1129–1140 (2021).
[1]? ??Genomic sequencing and editing revealed the GRM8 signaling pathway as potential therapeutic targets of squamous cell lung cancer.[J]. Cancer letters, 2018.
[2]? ???Patch A M, Nones K, Kazakoff S H, et al. Germline and somatic variant identification using BGISEQ-500 and HiSeq X Ten whole genome sequencing.[J]. Plos One, 2018, 13(1):e0190264.
[3]?? ? Li Q, Zhao X, Zhang W, et al. Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform. bioRxiv, 2018: 343137
數(shù)據(jù)展示
標(biāo)準(zhǔn)品數(shù)據(jù)展示
測試樣本選用了“瓶中基因組(Genome in a Bottle)”的人類樣本NA12878,這是目前被世界上認(rèn)為研究最透徹的二倍體人類基因組,并發(fā)布了高置信變異集,可作為一個重要工具來了解測序儀和檢測結(jié)果的表現(xiàn)。
1)有效深度30X數(shù)據(jù)展示
- 高測序數(shù)據(jù)質(zhì)量
測試數(shù)據(jù)有至少96%的堿基識別準(zhǔn)確率高達(dá)99%,至少89%的堿基識別準(zhǔn)確率高達(dá)99.9%。
表1 測序質(zhì)量
Sample | DNBSEQ-1 | DNBSEQ-2 | DNBSEQ-3 | N platform |
Raw reads | 666,666,668 | 666,666,668 | 666,666,668 | 666,666,668 |
Raw bases (Gb) | 100 | 100 | 100 | 100 |
Clean reads | 660,752,102 | 654,072,422 | 660,724,382 | 642,949,724 |
Clean bases (Gb) | 99.11 | 98.11 | 99.11 | 96.44 |
Clean data rate (%) | 99.11 | 98.11 | 99.11 | 96.44 |
Clean read Q20 (%) | 98.36 | 97.02 | 96.89 | 96.65 |
Clean read Q30 (%) | 94.39 | 91.35 | 89.43 | 91.41 |
GC content (%) | 40.42 | 40.66 | 40.11 | 41.61 |
測序質(zhì)量值可衡量堿基未正確檢出的概率。測序技術(shù),一種類phred算法[1,2]會為片段中的每個堿基分配一個質(zhì)量分值,與最初因桑格測序?qū)嶒灦_發(fā)的算法類似。
一個給定堿基的測序質(zhì)量分值Q定義為下面的等式:
Q = -10log10(e)
其中,e為預(yù)計堿基檢出不正確的概率。
? Q分值較高表示出錯的概率較小。
? Q分值較低可能會導(dǎo)致相當(dāng)大一部分的片段不可用,還可能導(dǎo)致假陽性的變異檢出增加,以致得出不準(zhǔn)確的結(jié)論。
如下所示,質(zhì)量分值20表示錯誤率為1/100,相應(yīng)的檢出精確度為99%。
表2 標(biāo)測序質(zhì)量分值與堿基檢出精確度的關(guān)系

- 高比對率和覆蓋度
應(yīng)用人的標(biāo)準(zhǔn)品 NA12878,分別在 DNBSEQ 和 N平臺分別測了 100Gb Raw data 數(shù)據(jù)。從下表可以看出,由于 N平臺 Duplicate rate 較高,需多測一定比例的數(shù)據(jù),才有和 DNBSEQ 平臺相當(dāng)?shù)挠行疃取?
表3 DNBSEQ 與 N平臺比對數(shù)據(jù)比較
Sample | DNBSEQ-1 | DNBSEQ-2 | DNBSEQ-3 | N platform |
Clean bases (Mb) | 99,112 | 98,110 | 99,108 | 96,442 |
Mapping rate (%) | 100 | 99.99 | 99.85 | 99.78 |
Unique rate (%) | 95.47 | 95.93 | 96.06 | 87.57 |
Duplicate rate (%) | 1.84 | 1.21 | 1.04 | 8.90 |
Mismatch rate (%) | 0.36 | 0.49 | 0.43 | 0.44 |
Average sequencing depth (X) | 32.65 | 32.39 | 32.70 | 28.67 |
Coverage (%) | 99.10 | 99.07 | 99.04 | 99.17 |
Coverage at least 4X (%) | 98.82 | 98.74 | 98.67 | 99.05 |
Coverage at least 10X (%) | 97.89 | 97.72 | 97.62 | 98.75 |
Coverage at least 20X (%) | 92.21 | 92.14 | 91.90 | 91.28 |
Clean bases:過濾掉接頭,低質(zhì)量和含N的reads后剩下的堿基數(shù)量;
Mapping rate:堿基比對率,比對到參考基因組的堿基數(shù)目除以clean data的堿基數(shù)目,如果測序樣本存在污染或者與參考基因組差異較大,比對率偏低會影響后續(xù)的信息分析;
Unique rate:比對到基因組上唯一位置的base比率,一條reads在相同數(shù)量的容錯時會有兩個或者兩個以上的位點都吻合,那么,它的比對結(jié)果不唯一。對于某些下游分析,需要去除比對多個位點的reads,只保留唯一比對的reads;
Duplicate reads:重復(fù)的 reads 所占比例,為了保證后續(xù)變異分析的準(zhǔn)確性,會去掉duplicate reads后進(jìn)行下游信息分析,相同數(shù)據(jù)量重復(fù)率越低,后續(xù)可用的數(shù)據(jù)量越多;
Mismatch rate:堿基的錯配率;
Average sequencing depth:有效平均深度(不計算duplication),比對到參考基因組的堿基數(shù)目除以基因組的大小;目前行業(yè)對外承諾的30X(90G)、40X(120G)等深度只是測序量的簡單換算,并不是指有效深度。
Coverage at least 1X(4X、10X、20X):覆蓋率,指測序深度達(dá)到1X、4X、10X、20X以上的全基因組占比。
- 高靈敏度和精準(zhǔn)度
高靈敏度(Sensitivity)和高精準(zhǔn)度(Precision)意味著 DNBSEQ 平臺檢測發(fā)現(xiàn)變異的能力更強,并且結(jié)果中為真的突變的概率也高。
表4 DNBSEQ 與 N平臺 SNP 精準(zhǔn)度和敏感度對比
Sample | True-pos | False-pos | False-neg | Precision | Sensitivity | F-measure | |
SNP | DNBSEQ-1 | 3,191,518 | 3,068 | 17,804 | 0.9990 | 0.9945 | 0.9967 |
DNBSEQ-2 | 3,194,803 | 2,922 | 14,519 | 0.9991 | 0.9955 | 0.9973 | |
DNBSEQ-3 | 3,192,513 | 3,574 | 16,809 | 0.9989 | 0.9948 | 0.9968 | |
N platform | 3,195,983 | 4,530 | 13,339 | 0.9986 | 0.9958 | 0.9972 |
表5 DNBSEQ 與 N平臺 InDel 精準(zhǔn)度和敏感度對比
Sample | True-pos | False-pos | False-neg | Precision | Sensitivity | F-measure | |
InDel | DNBSEQ-1 | 460,412 | 12,266 | 20,233 | 0.9740 | 0.9579 | 0.9659 |
DNBSEQ-2 | 455,816 | 14,400 | 24,829 | 0.9694 | 0.9483 | 0.9587 | |
DNBSEQ-3 | 462,648 | 10,458 | 17,997 | 0.9779 | 0.9626 | 0.9702 | |
N platform | 450,545 | 21,714 | 30,100 | 0.9540 | 0.9374 | 0.9456 |
Sensitivity:靈敏度,又叫真陽性率(TPR),計算公式:靈敏度=真陽性/(真陽性+假陰性)。是指實際為陽性的樣本中,判斷為陽性的比例。例如,真正突變中,被判斷為有突變的比例,它反映篩檢發(fā)現(xiàn)變異的能力,靈敏度越高,假陰性越低;
Precision:精準(zhǔn)度,也叫陽性預(yù)測值(PPV),計算公式:精準(zhǔn)度=真陽性/(真陽性+假陽性),指篩檢試驗檢出的全部陽性變異中,真正“變異”的例數(shù)(真陽性)所占的比例,反映篩檢變異結(jié)果陽性中為真的突變的可能性,精準(zhǔn)度越高,假陽性越低。
*上述分析結(jié)果由華大信息分析流程所得,本結(jié)果不代表交付指標(biāo),最終解釋權(quán)歸深圳華大基因股份有限公司所有。
參考文獻(xiàn)
[1] Li Q, Zhao X, Zhang W, et al. Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform. bioRxiv, 2018: 343137
[2] Illumina. Effects of Index Misassignment on Multiplexing and Downstream Analysis (white paper). 4 (2017). doi:10.1101/125724 ?
表1 DNA樣本送樣建議
WGS | ||||||
樣本類型 | 總量 | 體積 | 濃度 | 完整性(膠圖) | 純度 | |
Genomic DNA | 常規(guī)文庫 | ≥0.2 μg(推薦0.4 μg) | ≥15 μL | ≥8 ng/μL | 主峰>20 Kb | 無蛋白,RNA/鹽離子等污染,樣本無色透明不粘稠 |
PCR free 文庫 | ≥1 μg(推薦2 μg) | ≥15 μL | ≥12.5 ng/μL | 主峰>20 Kb | ||
微量建庫 (FFPE/cfDNA/其他) | ≥50 ng | ≥15 μL | ≥2.5 ng/μL | / | ||
注意事項:
1) 務(wù)必附上凝膠電泳、NanoDropTM、Qubit?、Agilent Bioanalyzer等其中至少一種的檢測結(jié)果,電泳圖需標(biāo)明所用marker的條帶大小。
2) 樣品質(zhì)量以BGI的質(zhì)檢結(jié)論為準(zhǔn),望合作伙伴理解,檢測結(jié)果可能會由于檢測地點,儀器設(shè)備和操作者等不同造成固有差異。因質(zhì)檢有一定的消耗量,合作伙伴寄送的樣本量必須高于各產(chǎn)品樣品標(biāo)準(zhǔn)至少50ng以上。強烈建議根據(jù)2倍以上標(biāo)準(zhǔn)制備樣品,否則很可能會導(dǎo)致大量樣本質(zhì)檢未能達(dá)標(biāo),延誤項目進(jìn)展。
3) BGI原則上只接收1.5mL/2.0mL EP管,要求每管樣品體積在15-100μL之間(推薦30μL),根據(jù)實驗要求,如果樣品體積小于15μL,BGI可能會在檢測之前稀釋原始樣品。
表2 組織樣本送樣建議
組織類型 | 需求量 |
新鮮培養(yǎng)細(xì)胞 (細(xì)胞數(shù)) | ≥5×106cell |
新鮮動物組織干重 | ≥50mg |
全血(哺乳動物) | ≥0.6 mL |
FFPE | ≥ 10 片,未染色,100 mm2,5 ~ 10μm厚度 |
注意事項:
1) 2 mL 螺紋旋蓋保存管
2) 組織樣品保存方法選擇:首選液氮速凍;沒有液氮條件的,可直接放入-80°C冰箱凍存; 環(huán)境條件限制的,可使用商業(yè)核酸保護(hù)液保存,并嚴(yán)格按相應(yīng)試劑說明操作。
3) 長年保存的組織:保存時間超過一年的組織不建議送樣。
Q1:DNBSEQ 人全基因組重測序的數(shù)據(jù)格式是否與 Illumina 平臺的一致?
是一致的。所以信息分析流程都一樣。
Q2:想對我們 DNBSEQ 產(chǎn)出的數(shù)據(jù)先分析確定一下格式和數(shù)據(jù)質(zhì)量,現(xiàn)在是否有測試過的數(shù)據(jù)可以提供?
華大智造官網(wǎng),測試數(shù)據(jù)下載:https://www.mgi-tech.com/Resource/demo/ping_id/3
Q3:如何實現(xiàn)基因組變異可視化?
基因組可視化軟件 IGV (Integrative Genomics Viewer) 是高性能的基因組數(shù)據(jù)可視化工具,能夠幫助使用者同時合并分析不同類型的基因組數(shù)據(jù),并能靈活放大基因組上的某個特定區(qū)域。IGV 軟件免費下載地址: http://www.broadinstitute.org/igv. IGV 可查看 SAM / BAM 比對文件和 VCF 變異檢測文件,下圖顯示的是 IGV 可視化窗口。

Q4:如何尋找候選變異?
可以使用“人基因組變異交互分析系統(tǒng)”進(jìn)行后續(xù)變異位點篩選,尋找候選變異位點時,可利用變異注釋結(jié)果,關(guān)注非同義突變、剪接突變、移碼突變。
1)去除千人基因組數(shù)據(jù)庫中 MAF >=1% 的變異
2)去除 NHLBI-ESP6500 European American 群體數(shù)據(jù)庫中 MAF >=1% 的 變異
3)去除 NHLBI-ESP6500 African American 群數(shù)據(jù)庫中 MAF >=1%的變異
4) 推 測 變 異 的 致 病 性 。 利 用 SIFT/PolyPhen2/Mutation assessor/Condel/FATHMM 進(jìn)行打分,預(yù)測某個變異和氨基酸置換是否影響蛋白 功 能 。
如 果 score<=0.05 或 PolyPhen2>=0.909 或 MA score>=1.9 或 Condel = deleterious 或 FATHMM=deleterious,就推測該變異可能是有害變異。
Q5:一般用什么方法來驗證 call SNP 準(zhǔn)確率?
華大炎黃計劃是用 Sanger 測序的方法和芯片分型兩種方法來驗證 SNP 的準(zhǔn)確性的, 因為 Sanger 測序被認(rèn)為是測序中的“金標(biāo)準(zhǔn)”。
Q6:GWAS后期驗證一般需要用什么方案?客戶已經(jīng)做過GWAS,找出的位點有一些在內(nèi)含子部分,想要進(jìn)行后期驗證。
1、在更大的群體上針對候選位點質(zhì)譜驗證;
2、動物模型上驗證。
Q7:FFPE樣本可以承諾什么指標(biāo)?
FFPE樣本由于保存年份和降解程度的差異,不同樣本的情況,測序質(zhì)量、duplication比率、覆蓋度等非常不同,屬于風(fēng)險建庫,只承諾Raw data的數(shù)據(jù)量,其他都不能承諾。
Q8:用人唾液測全基因組,效果如何?
可以做,因為會含有口腔里的微生物,存在污染,一些商業(yè)樣本的結(jié)果顯示,比對率、覆蓋度等均比血液樣本略低。
Q9:突變位點為有效位點時使用的 depth 閾值是多少?
GATK在call變異時SNP和InDel均要求depth大于等于4 。
Q10:數(shù)據(jù)中的 Duplication 指什么?如何定義?有何影響?
生物學(xué)意義:由同一個序列經(jīng)過PCR擴(kuò)增而產(chǎn)生的不同的reads,處理的時候去掉這些不同的reads只留一條。
生物信息學(xué)上意義:跟比對軟件有關(guān); 嚴(yán)格定義:起始和終止坐標(biāo)都一樣,mismatch 的位置和類型都一樣的不同的reads,算duplication; 寬松定義:起始坐標(biāo)一樣的不同的reads,定義為 duplication。位點一樣,堿基也一樣的就是確定的 duplication; 而那些去完 adaptor 之后的信息(起始終止坐標(biāo),mismatch 位置,類型等)一樣的不同 reads 不一定就是duplication,因為沒有算上去掉的那一部分。與測序深度可能有關(guān)系,理論上,測序深度越高,得到的 duplicate 的 reads 也會越多,因為這些 reads 也會比對到基因組上,在 call SNP 的時候,會對局部的覆蓋深度有影響, 甚至于影響到 SNP 的進(jìn)一步過濾,所以對于變異的檢測也是有干擾的。對于InDel 和 SV 也是類似的。

