- 首頁 > 人全基因組重測序
人全基因組重測序
DNBSEQ 人全基因組重測序(WGS),采用擁有自主知識產權的測序儀和云計算平臺,為廣大科研工作者提供高準確度、高性價比的基因組測序服務和一站式科研解決方案,支持大型隊列研究,助力精準醫學。
華大基因測序儀采用先進的 DNBSEQTM 核心技術,通過儀器氣液系統先將 DNA 納米球 (DNA nanoball, DNB) 泵入到規則陣列載片 (Patterned Array) 并加以固定,然后再將測序模板及測序試劑泵入。泵入后的測序模板與載片上的 DNB 的接頭互補雜交,在DNA聚合酶的催化下,測序模板與測序試劑中的帶熒光標記的探針相結合。接下來,通過激發熒光基團發光,不同熒光基團所發射的光信號被儀器相機采集,經過處理后可轉換成數字信號,傳輸到計算機進行再次處理,最終獲取待測樣本的堿基序列信息。
所有跟DNB相關的測序技術都屬于 DNBSEQTM。DNBSEQTM 測序技術主要包括: DNA 單鏈環化和 DNB 制備 (Make DNB),規則陣列 (Patterned Array),DNB 加載 (Load DNB),cPAS (combinatorial Probe Anchor Synthesis,聯合探針錨定聚合測序法),雙端測序技術 (Pair-end),以及配套的流體和光學檢測技術、堿基識別 (Basecall) 算法等。
與其他測序技術相比,DNBSEQTM 測序技術具有滾環復制擴增帶來的錯誤累積低和規則陣列載片帶來的信號密度高等原理性優勢,大幅提高了測序準確性;而且,基于DNBSEQTM 測序平臺的產出數據重復序列率低 (Dup 率低)、有效數據利用率高、標簽跳躍少 (Index Hopping少),能有效降低“張冠李戴”的情況。此外,結合 PCR free 等建庫方法,DNBSEQTM 測序平臺擁有更好的 SNP 和 InDel 準確性。

圖1 DNBSEQ 平臺測序原理
給您選擇我們的八個理由
- 穩定的產出高質量測序數據
對隨機挑選的1,000+條 lane DNBSEQ 平臺 WGS 數據質量值進行統計分析,下機 Raw data Q20 平均值為96.16%,Raw data Q30 平均值為87.86%。

圖2 1000+條lane WGS序質量統計
- 低 duplicates 獲更多有效數據和更高覆蓋度
Duplicates 低,用更少的數據量,得到更多的高準確和高覆蓋度的比對數據,可以發現更多變異位點,有助于挖掘疾病的低頻和罕見突變,獲取更加全面的基因組變異信息。
表1 主流二代測序平臺標準品duplicate比率、有效測序深度及覆蓋度比較
|
Sample |
X 測序平臺 |
N測序平臺 |
DNBSEQ平臺 |
|
Raw bases (Mb) |
99998.92 |
100001.72 |
100236.61 |
|
Clean bases (Mb) |
96314.26 |
98955.15 |
99886.02 |
|
Mapping rate (%) |
99.61 |
98.68 |
99.47 |
|
Unique rate (%) |
87.18 |
86.41 |
93.31 |
|
Duplicate rate (%) |
9.65 |
10.15 |
3.02 |
|
Mismatch rate (%) |
0.8 |
0.51 |
0.48 |
|
Average sequencing depth (X) |
29.08 |
29.52 |
32.8 |
|
Coverage (%) |
99.06 |
99.06 |
99.1 |
|
Coverage at least 4X (%) |
98.57 |
98.43 |
98.62 |
|
Coverage at least 10X (%) |
97.77 |
97.2 |
97.67 |
|
Coverage at least 20X (%) |
91.8 |
89.45 |
92.97 |
- 高精準度和敏感度的變異結果
已發表文章結果顯示,BGISEQ-500自主平臺與HiSeq 2500測序平臺變異檢測的精準度(Precision)和敏感度(Sensitivity)相當[2]。
表2 BGISEQ-500與HiSeq 2500變異精準度和敏感度比較[2]
|
SNP |
BGISEQ-500 |
HiSeq 2500 |
|
Precision |
99.78% |
99.86% |
|
Sensitivity |
96.20% |
96.60% |
- 罕見突變檢出率及與芯片分型的一致率高
DNBSEQ平臺變異結果與Illumina Human Omni基因分型芯片評估,結果表明罕見突變檢出率高,且檢出的罕見突變與芯片分型結果的一致性高。
表3 DNBSEQ平臺 30X rare SNP detection rate
|
Genotyping chip |
MAF |
NO. of rare SNP |
NO. of detection |
NO. of concordance |
檢出率 |
一致率 |
|
OMNI |
< 2% |
7414 |
7142 |
7132 |
96.33% |
99.86% |
|
OMNI |
< 1% |
3151 |
3025 |
3018 |
96.00% |
99.77% |
|
OMNI |
< 0.5% |
1129 |
1075 |
1070 |
95.22% |
99.53% |
- 無Index hopping擔憂
DNBSEQ測序儀利用獨特的DNA納米球(DNB)技術,僅使用單個index就實現了前所未有的0.0001%至0.0004%低樣本錯誤分配率。用水代替DNA,加入index,增加空白對照,DNB測序平臺發生錯誤匹配的概率為36 million reads分之一,即0.0000028%[3]。

圖3 不同測序技術的index hopping比例
- 滿足多種樣本類型的需求
DNBSEQ平臺WGS數據來源樣本種類多樣,其中包含福爾馬林固定石蠟包埋(Formalin Fixed and Paraffin Embedded,FFPE)樣品、單細胞樣品、血液樣品、基因組DNA樣品、唾液樣品、常規冷凍保存的新鮮組織樣品等。常規基因組建庫測序成功率為99%,對于降解樣品如FFPE等,建庫測序成功率也在90%以上。

圖4 DNBSEQ平臺不同類型樣本交付成功率
- DNBSEQ WGS PCR-free文庫
PCR-free建庫 + DNB (DNA納米球)核心測序技術,為您還原真實的全基因組序列。PCR-free WGS 高質量InDel從75%提升到86%,而低質量InDel從12%降低到3%[4],PCR-free建庫方法可明顯提高InDel calling的精準度和敏感度。

圖5 高質量、中等質量和低質量InDel在不同建庫方法的分布
參考文獻
[1] Drmanac R, Sparks A B, Callow M J, et al. Human genome sequencing using unchained base reads on self-assembling DNA nanoarrays.[J]. Science, 2010, 327(5961):78-81.
[2] Jie Huang, Xinming Liang, Yuankai Xuan, et al. A reference human genome dataset of the BGISEQ-500 sequencer. GigaScience, 2017.
[3] Li Q, Zhao X, Zhang W, et al. Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform. bioRxiv, 2018: 343137
[4] Han F, Wu Y, Narzisi G, et al. Reducing INDEL calling errors in whole genome and exome sequencing data[J]. Genome Medicine,6,10(2014-10-28), 2014, 6(10):89.
案例1??ChinaMAP 分析 10,588 個人的高深度全基因組序列[1]

研究材料:10588個中國人,隨機選擇于中國27個省份的8個民族(漢族、回族、滿族、苗族、蒙古族、彝族、藏族和壯族)?。平均基線年齡為54歲,女性為64.8%。
分析內容:構建高質量的中國人群遺傳變異數據、中國人群體結構分析、基因組特征比較以及變異頻譜和致病性變異解析。該研究也通過全基因組關聯分析探索了中國人群中2型糖尿病和肥胖遺傳相關因素。在血糖相關分析中,結果驗證了部分已知的2型糖尿病風險高頻基因位點,包括CDKAL1、SLC30A8、SND1-PAX4、IDE-KIF11-HHEX、CDKN2A-CDKN2B、KCNQ1?等,也鑒定和發現了DENND5B、ORM1?、MAFA、PAX6、SOX4?等新位點。
重要研究成果:

圖1 ChinaMAP基因變異的分布和模式

圖2 體重指數與血糖的關聯分析
ChinaMAP研究也通過全基因組關聯分析探索了中國人群中2型糖尿病和肥胖遺傳相關因素。在體重指數BMI相關分析中,研究團隊發現了新的東亞人群特異性CADM2基因位點,CADM2在動物研究中已證實參與調節體重和能量穩態。而FTO等基因在歐美人群中發現的重要肥胖相關基因位點,在ChinaMAP研究結果中并不顯著。從這些發現可以提示我們,對大規模中國人群特異性的基因組學的研究,對分子機制和個體化診治的精準醫學體系建立很重要。
案例2?NBT:主流高通量測序儀在人/細菌/宏基因組測序評測結果發布[2]

由生物分子資源設施協會(Association of Biomolecular Resource Facilities, ARBF)主導的ABRF NGS II期研究成果發表于Nature Biotechnology,文章題為“Performance assessment of DNA sequencing platforms in the ABRF Next-Generation Sequencing Study”。研究團隊基于來自Illumina、Pacific Biosciences、Thermo Fisher Scientific、BGI、Oxford Nanopore Technologies和Genapsys的多款測序平臺,在多個實驗室對同一人類基因組家族、三個單獨菌株和十種細菌的宏基因組混合物進行測序,并將各平臺數據進行全方位、系統性比較,分析各個測序平臺的性能差異和測序質量,以提供真實全面的參考證據。

數據顯示,在短讀長測序平臺中,DNBSEQ平臺提供了非常低的測序錯誤率。且SNP/Indel檢測的靈敏度和準確度表現也非常優秀。
案例3?DNBSEQ基因組測序揭示肺鱗癌的潛在治療靶標[3]
Genomic sequencing and editing revealed the GRM8 signaling pathway as potential therapeutic targets of squamous cell lung cancer
肺腺癌和肺鱗癌(LUSC)是肺癌的主要病理類型,肺鱗癌占原發性肺癌的40%~51%。目前已經有多種靶向藥物應用于肺腺癌,但是肺鱗癌的治療靶點尚沒有突破性進展。文章通過外顯子重測序(WES),人全基因組重測序(WGS)、靶區域捕獲測序(TS)和CRISPR-Cas9基因組編輯技術,利用鱗狀細胞肺癌手術腫瘤和對應的源自患者的異種移植瘤(PDX)樣本探索和驗證肺鱗癌的潛在治療靶標。
文章亮點:
- Illumina HiSeq X Ten平臺WES測序+ DNBSEQ平臺WGS測序+ DNBSEQ平臺TS測序,多平臺數據聯合分析
- LUSC PDX模型可廣泛應用于潛在治療目標和策略的驗證
- 使用CRISPR系統對PDX腫瘤細胞中的驅動基因進行功能驗證
通過基因組測序和CRISPR-Cas9基因組編輯的綜合分析,在手術和PDX腫瘤上整合鑒定并驗證了GRM8對LUSC腫瘤的促進功能。cAMP活化劑和MEK抑制劑可顯著阻斷具有GRM8突變的LUSC腫瘤細胞的增殖和存活。因此,GRM8信號傳導通路的組成分子可能成為攜帶GRM8激活突變的鱗狀細胞肺癌的治療靶標。

圖 cAMP激活劑和MEK抑制劑作為治療策略
圖A:Forskolin和Selumetinib的聯合治療對PDX腫瘤細胞活力具有抑制作用
圖B:GRM8活化通過抑制cAMP通路和激活MAPK通路促進LUSC細胞的增殖
?
案例4?BGISEQ-500和HiSeq X Ten全基因組測序鑒定生殖細胞和體細胞變異[4]
Germline and somatic variant identification using BGISEQ-500 and HiSeq X Ten whole genome sequencing
該研究使用BGISEQ-500平臺對三種惡性胸膜間皮瘤及其對照的正常樣本進行全基因組測序,并與Illumina HiSeq X Ten平臺測序結果進行評估。兩平臺數據均使用相同的分析流程,分別比較生殖細胞和體細胞單核苷酸變異(SNP)、小插入或缺失(InDel)。結果表明BGISEQ-500平臺通過全基因組測序來鑒定腫瘤樣本的體細胞和生殖細胞突變是有潛力的可適用性的平臺,這也是該平臺首次公開可用的癌癥基因組數據。
研究結果:
- 生殖細胞突變:? ? ?
結果顯示,BGISEQ-500平臺和HiSeq X Ten平臺識別SNP的能力與SNP分型芯片(Infinium Omni2.5–8, Illumina )是高度一致的(> 99%)。在兩個測序平臺中鑒定的生殖細胞SNV和indels也是高度一致(分別為86%和81.5%)。
表??SNP芯片數據分別與BGISEQ-500和HiSeq X Ten數據比較,生殖細胞突變基因型一致性的百分比

- 體細胞突變:
? ??????三名患者中總共10,890個體細胞SNV,大部分體細胞SNV(72%)在兩個平臺中被識別,小部分為BGISEQ-500和HiSeq X Ten兩平臺特有的(分別為14%,14%)。

圖? 利用BGISEQ-500和HiSeq X Ten的數據鑒定3個胸膜間皮瘤的體細胞突變
案例5?基于DNB的測序平臺可有效避免index hopping[5]
Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform
本研究使用三種主要的文庫制備方法研究了DNB測序平臺的Index hopping問題。DNBSEQ測序儀利用獨特的DNA納米球(DNB)技術,基于滾環復制(RCR)進行文庫擴增,這種線性擴增可以避免常規PCR帶來的錯誤累積。基于DNB的NGS應用僅使用單個index就實現了前所未有的0.0001%至0.0004%低樣本錯誤分配率。此外,用水代替DNA,加入index,增加空白對照,DNB測序平臺發生錯誤匹配的概率為36 million reads分之一,即0.0000028%。

圖? 不同測序技術的index hopping比例
研究結果:
- DNA納米球技術的高index保真度
? ? ? ? DNBSEQ平臺將DNB加載到規則陣列(patterned arrays)上,并利用組合引物錨定測序技術(cPAS)進行測序。 獨特的DNB技術采用具有強鏈置換活性的Phi29聚合酶和能夠進行線性擴增的RCR工藝,每個擴增循環都以原始的單鏈環狀DNA文庫為模板,保持每個拷貝子的獨立性(圖1a)。因此,即使出現寡核苷酸的index hopping等錯誤,也不會累積錯誤拷貝,正確的序列總是會在后面的DNA拷貝中復制,保證高的擴增保真度。

圖??Index hopping在不同的測序平臺產生的機制
- PCR-free文庫index hopping污染率極低
? ??????除了常規PCR文庫外,文中還對PCR-free文庫在DNBSEQ平臺的index hopping情況進行調查,未經過任何Q30過濾的99.9998%精度再次證實了DNB可以在很大程度上降低index污染。與上面的常規PCR文庫類似,污染率平均約為0.0004%。

表? PCR-free 文庫index污染比率
研究意義:
1、? 高的檢測準確度,保證體細胞低頻突變、HPV檢測等基因檢測的準確性;
2、? Single index避免了繁瑣的non-combinatorial dual index帶來的額外成本和勞動力浪費;
3、? 避免大通量測序中樣本數據完整性的丟失。
參考文獻
[1]? ? Cao Y, Li L, Xu M, et al. The ChinaMAP analytics of deep whole genome sequences in 10,588 individuals[J]. Cell research, 2020, 30(9): 717-731.
[2]? ? Foox, J., Tighe, S.W., Nicolet, C.M. et al. Performance assessment of DNA sequencing platforms in the ABRF Next-Generation Sequencing Study. Nat Biotechnol 39, 1129–1140 (2021).
[1]? ??Genomic sequencing and editing revealed the GRM8 signaling pathway as potential therapeutic targets of squamous cell lung cancer.[J]. Cancer letters, 2018.
[2]? ???Patch A M, Nones K, Kazakoff S H, et al. Germline and somatic variant identification using BGISEQ-500 and HiSeq X Ten whole genome sequencing.[J]. Plos One, 2018, 13(1):e0190264.
[3]?? ? Li Q, Zhao X, Zhang W, et al. Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform. bioRxiv, 2018: 343137
數據展示
標準品數據展示
測試樣本選用了“瓶中基因組(Genome in a Bottle)”的人類樣本NA12878,這是目前被世界上認為研究最透徹的二倍體人類基因組,并發布了高置信變異集,可作為一個重要工具來了解測序儀和檢測結果的表現。
1)有效深度30X數據展示
- 高測序數據質量
測試數據有至少96%的堿基識別準確率高達99%,至少89%的堿基識別準確率高達99.9%。
表1 測序質量
Sample | DNBSEQ-1 | DNBSEQ-2 | DNBSEQ-3 | N platform |
Raw reads | 666,666,668 | 666,666,668 | 666,666,668 | 666,666,668 |
Raw bases (Gb) | 100 | 100 | 100 | 100 |
Clean reads | 660,752,102 | 654,072,422 | 660,724,382 | 642,949,724 |
Clean bases (Gb) | 99.11 | 98.11 | 99.11 | 96.44 |
Clean data rate (%) | 99.11 | 98.11 | 99.11 | 96.44 |
Clean read Q20 (%) | 98.36 | 97.02 | 96.89 | 96.65 |
Clean read Q30 (%) | 94.39 | 91.35 | 89.43 | 91.41 |
GC content (%) | 40.42 | 40.66 | 40.11 | 41.61 |
測序質量值可衡量堿基未正確檢出的概率。測序技術,一種類phred算法[1,2]會為片段中的每個堿基分配一個質量分值,與最初因桑格測序實驗而開發的算法類似。
一個給定堿基的測序質量分值Q定義為下面的等式:
Q = -10log10(e)
其中,e為預計堿基檢出不正確的概率。
? Q分值較高表示出錯的概率較小。
? Q分值較低可能會導致相當大一部分的片段不可用,還可能導致假陽性的變異檢出增加,以致得出不準確的結論。
如下所示,質量分值20表示錯誤率為1/100,相應的檢出精確度為99%。
表2 標測序質量分值與堿基檢出精確度的關系

- 高比對率和覆蓋度
應用人的標準品 NA12878,分別在 DNBSEQ 和 N平臺分別測了 100Gb Raw data 數據。從下表可以看出,由于 N平臺 Duplicate rate 較高,需多測一定比例的數據,才有和 DNBSEQ 平臺相當的有效深度。
表3 DNBSEQ 與 N平臺比對數據比較
Sample | DNBSEQ-1 | DNBSEQ-2 | DNBSEQ-3 | N platform |
Clean bases (Mb) | 99,112 | 98,110 | 99,108 | 96,442 |
Mapping rate (%) | 100 | 99.99 | 99.85 | 99.78 |
Unique rate (%) | 95.47 | 95.93 | 96.06 | 87.57 |
Duplicate rate (%) | 1.84 | 1.21 | 1.04 | 8.90 |
Mismatch rate (%) | 0.36 | 0.49 | 0.43 | 0.44 |
Average sequencing depth (X) | 32.65 | 32.39 | 32.70 | 28.67 |
Coverage (%) | 99.10 | 99.07 | 99.04 | 99.17 |
Coverage at least 4X (%) | 98.82 | 98.74 | 98.67 | 99.05 |
Coverage at least 10X (%) | 97.89 | 97.72 | 97.62 | 98.75 |
Coverage at least 20X (%) | 92.21 | 92.14 | 91.90 | 91.28 |
Clean bases:過濾掉接頭,低質量和含N的reads后剩下的堿基數量;
Mapping rate:堿基比對率,比對到參考基因組的堿基數目除以clean data的堿基數目,如果測序樣本存在污染或者與參考基因組差異較大,比對率偏低會影響后續的信息分析;
Unique rate:比對到基因組上唯一位置的base比率,一條reads在相同數量的容錯時會有兩個或者兩個以上的位點都吻合,那么,它的比對結果不唯一。對于某些下游分析,需要去除比對多個位點的reads,只保留唯一比對的reads;
Duplicate reads:重復的 reads 所占比例,為了保證后續變異分析的準確性,會去掉duplicate reads后進行下游信息分析,相同數據量重復率越低,后續可用的數據量越多;
Mismatch rate:堿基的錯配率;
Average sequencing depth:有效平均深度(不計算duplication),比對到參考基因組的堿基數目除以基因組的大小;目前行業對外承諾的30X(90G)、40X(120G)等深度只是測序量的簡單換算,并不是指有效深度。
Coverage at least 1X(4X、10X、20X):覆蓋率,指測序深度達到1X、4X、10X、20X以上的全基因組占比。
- 高靈敏度和精準度
高靈敏度(Sensitivity)和高精準度(Precision)意味著 DNBSEQ 平臺檢測發現變異的能力更強,并且結果中為真的突變的概率也高。
表4 DNBSEQ 與 N平臺 SNP 精準度和敏感度對比
Sample | True-pos | False-pos | False-neg | Precision | Sensitivity | F-measure | |
SNP | DNBSEQ-1 | 3,191,518 | 3,068 | 17,804 | 0.9990 | 0.9945 | 0.9967 |
DNBSEQ-2 | 3,194,803 | 2,922 | 14,519 | 0.9991 | 0.9955 | 0.9973 | |
DNBSEQ-3 | 3,192,513 | 3,574 | 16,809 | 0.9989 | 0.9948 | 0.9968 | |
N platform | 3,195,983 | 4,530 | 13,339 | 0.9986 | 0.9958 | 0.9972 |
表5 DNBSEQ 與 N平臺 InDel 精準度和敏感度對比
Sample | True-pos | False-pos | False-neg | Precision | Sensitivity | F-measure | |
InDel | DNBSEQ-1 | 460,412 | 12,266 | 20,233 | 0.9740 | 0.9579 | 0.9659 |
DNBSEQ-2 | 455,816 | 14,400 | 24,829 | 0.9694 | 0.9483 | 0.9587 | |
DNBSEQ-3 | 462,648 | 10,458 | 17,997 | 0.9779 | 0.9626 | 0.9702 | |
N platform | 450,545 | 21,714 | 30,100 | 0.9540 | 0.9374 | 0.9456 |
Sensitivity:靈敏度,又叫真陽性率(TPR),計算公式:靈敏度=真陽性/(真陽性+假陰性)。是指實際為陽性的樣本中,判斷為陽性的比例。例如,真正突變中,被判斷為有突變的比例,它反映篩檢發現變異的能力,靈敏度越高,假陰性越低;
Precision:精準度,也叫陽性預測值(PPV),計算公式:精準度=真陽性/(真陽性+假陽性),指篩檢試驗檢出的全部陽性變異中,真正“變異”的例數(真陽性)所占的比例,反映篩檢變異結果陽性中為真的突變的可能性,精準度越高,假陽性越低。
*上述分析結果由華大信息分析流程所得,本結果不代表交付指標,最終解釋權歸深圳華大基因股份有限公司所有。
參考文獻
[1] Li Q, Zhao X, Zhang W, et al. Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform. bioRxiv, 2018: 343137
[2] Illumina. Effects of Index Misassignment on Multiplexing and Downstream Analysis (white paper). 4 (2017). doi:10.1101/125724 ?
表1 DNA樣本送樣建議
WGS | ||||||
樣本類型 | 總量 | 體積 | 濃度 | 完整性(膠圖) | 純度 | |
Genomic DNA | 常規文庫 | ≥0.2 μg(推薦0.4 μg) | ≥15 μL | ≥8 ng/μL | 主峰>20 Kb | 無蛋白,RNA/鹽離子等污染,樣本無色透明不粘稠 |
PCR free 文庫 | ≥1 μg(推薦2 μg) | ≥15 μL | ≥12.5 ng/μL | 主峰>20 Kb | ||
微量建庫 (FFPE/cfDNA/其他) | ≥50 ng | ≥15 μL | ≥2.5 ng/μL | / | ||
注意事項:
1) 務必附上凝膠電泳、NanoDropTM、Qubit?、Agilent Bioanalyzer等其中至少一種的檢測結果,電泳圖需標明所用marker的條帶大小。
2) 樣品質量以BGI的質檢結論為準,望合作伙伴理解,檢測結果可能會由于檢測地點,儀器設備和操作者等不同造成固有差異。因質檢有一定的消耗量,合作伙伴寄送的樣本量必須高于各產品樣品標準至少50ng以上。強烈建議根據2倍以上標準制備樣品,否則很可能會導致大量樣本質檢未能達標,延誤項目進展。
3) BGI原則上只接收1.5mL/2.0mL EP管,要求每管樣品體積在15-100μL之間(推薦30μL),根據實驗要求,如果樣品體積小于15μL,BGI可能會在檢測之前稀釋原始樣品。
表2 組織樣本送樣建議
組織類型 | 需求量 |
新鮮培養細胞 (細胞數) | ≥5×106cell |
新鮮動物組織干重 | ≥50mg |
全血(哺乳動物) | ≥0.6 mL |
FFPE | ≥ 10 片,未染色,100 mm2,5 ~ 10μm厚度 |
注意事項:
1) 2 mL 螺紋旋蓋保存管
2) 組織樣品保存方法選擇:首選液氮速凍;沒有液氮條件的,可直接放入-80°C冰箱凍存; 環境條件限制的,可使用商業核酸保護液保存,并嚴格按相應試劑說明操作。
3) 長年保存的組織:保存時間超過一年的組織不建議送樣。
Q1:DNBSEQ 人全基因組重測序的數據格式是否與 Illumina 平臺的一致?
是一致的。所以信息分析流程都一樣。
Q2:想對我們 DNBSEQ 產出的數據先分析確定一下格式和數據質量,現在是否有測試過的數據可以提供?
華大智造官網,測試數據下載:https://www.mgi-tech.com/Resource/demo/ping_id/3
Q3:如何實現基因組變異可視化?
基因組可視化軟件 IGV (Integrative Genomics Viewer) 是高性能的基因組數據可視化工具,能夠幫助使用者同時合并分析不同類型的基因組數據,并能靈活放大基因組上的某個特定區域。IGV 軟件免費下載地址: http://www.broadinstitute.org/igv. IGV 可查看 SAM / BAM 比對文件和 VCF 變異檢測文件,下圖顯示的是 IGV 可視化窗口。

Q4:如何尋找候選變異?
可以使用“人基因組變異交互分析系統”進行后續變異位點篩選,尋找候選變異位點時,可利用變異注釋結果,關注非同義突變、剪接突變、移碼突變。
1)去除千人基因組數據庫中 MAF >=1% 的變異
2)去除 NHLBI-ESP6500 European American 群體數據庫中 MAF >=1% 的 變異
3)去除 NHLBI-ESP6500 African American 群數據庫中 MAF >=1%的變異
4) 推 測 變 異 的 致 病 性 。 利 用 SIFT/PolyPhen2/Mutation assessor/Condel/FATHMM 進行打分,預測某個變異和氨基酸置換是否影響蛋白 功 能 。
如 果 score<=0.05 或 PolyPhen2>=0.909 或 MA score>=1.9 或 Condel = deleterious 或 FATHMM=deleterious,就推測該變異可能是有害變異。
Q5:一般用什么方法來驗證 call SNP 準確率?
華大炎黃計劃是用 Sanger 測序的方法和芯片分型兩種方法來驗證 SNP 的準確性的, 因為 Sanger 測序被認為是測序中的“金標準”。
Q6:GWAS后期驗證一般需要用什么方案?客戶已經做過GWAS,找出的位點有一些在內含子部分,想要進行后期驗證。
1、在更大的群體上針對候選位點質譜驗證;
2、動物模型上驗證。
Q7:FFPE樣本可以承諾什么指標?
FFPE樣本由于保存年份和降解程度的差異,不同樣本的情況,測序質量、duplication比率、覆蓋度等非常不同,屬于風險建庫,只承諾Raw data的數據量,其他都不能承諾。
Q8:用人唾液測全基因組,效果如何?
可以做,因為會含有口腔里的微生物,存在污染,一些商業樣本的結果顯示,比對率、覆蓋度等均比血液樣本略低。
Q9:突變位點為有效位點時使用的 depth 閾值是多少?
GATK在call變異時SNP和InDel均要求depth大于等于4 。
Q10:數據中的 Duplication 指什么?如何定義?有何影響?
生物學意義:由同一個序列經過PCR擴增而產生的不同的reads,處理的時候去掉這些不同的reads只留一條。
生物信息學上意義:跟比對軟件有關; 嚴格定義:起始和終止坐標都一樣,mismatch 的位置和類型都一樣的不同的reads,算duplication; 寬松定義:起始坐標一樣的不同的reads,定義為 duplication。位點一樣,堿基也一樣的就是確定的 duplication; 而那些去完 adaptor 之后的信息(起始終止坐標,mismatch 位置,類型等)一樣的不同 reads 不一定就是duplication,因為沒有算上去掉的那一部分。與測序深度可能有關系,理論上,測序深度越高,得到的 duplicate 的 reads 也會越多,因為這些 reads 也會比對到基因組上,在 call SNP 的時候,會對局部的覆蓋深度有影響, 甚至于影響到 SNP 的進一步過濾,所以對于變異的檢測也是有干擾的。對于InDel 和 SV 也是類似的。

