新聞資訊

SOLiD測序儀的關鍵技術及應用

目前市場上有四種高通量測序儀,分別是Solexa,454 (GS-FLX),SOLiD和Polonator。根據(jù)測序原理,它們可以被分為兩大類:使用合成法測序(Sequencing by Synthesis)的Solexa和454,及使用連接法測序(Sequencing by Ligation)的Polonator和SOLiD。這些高通量測序儀的共同點是不需要大腸桿菌系統(tǒng)進行DNA模板擴增,且測序所得序列較短:其中的454序列長,為200~300個堿基,其余三種序列都只有幾十個堿基。測序原理及序列長度的差異決定了各種高通量測序儀具有不同的應用領域。這就要求我們在熟悉各種高通量測序儀內(nèi)在技術特點的基礎上進行選擇。

基因組所引進的SOLiD (Sequencing by oligonucleotide Ligation and Detection)是ABI(Applied Biosystems)公司生產(chǎn)的高通量測序儀。目前這臺SOLiD運行穩(wěn)定,SOLiD實驗及數(shù)據(jù)分析小組也可以為大家提供專業(yè)的技術服務。所以接下來的關鍵是如何把SOLiD測序儀應用到符合其技術特點的科研項目中。本短文將簡單介紹SOLiD測序流程,雙堿基編碼原理及數(shù)據(jù)分析原理,以幫助大家了解SOLiD測序儀的技術特點和應用范圍。

1.SOLiD關鍵技術及其原理

SOLiD使用連接法測序獲得基于“雙堿基編碼原理”的SOLiD顏色編碼序列,隨后的數(shù)據(jù)分析比較原始顏色序列與轉換成顏色編碼的reference序列,把SOLiD顏色序列定位到reference上,同時校正測序錯誤,并可結合原始顏色序列的質(zhì)量信息發(fā)現(xiàn)潛在snp位點。

1.1. SOLiD文庫構建

使用SOLiD測序時,可根據(jù)實際需要,制備片段文庫(fragment library)或末端配對文庫(mate-paired library)。簡單地說,制備片段文庫就是在短dn**段(60~110 bp)兩端加上SOLiD接頭(P1、P2 adapter)。而制備末端配對文庫,先通過DNA環(huán)化、Ecop15I酶切等步驟截取長DNA片段(600bp到10kb)兩末端各25 bp進行連接,然后在該連接產(chǎn)物兩端加上SOLiD接頭。兩種文庫的終產(chǎn)物都是兩端分別帶有P1、P2 adapter的DNA雙鏈,插入片段及測序接頭總長為120~180 bp。

1.2:油包水PCR

我們知道,文庫制備得到大量末端帶P1、P2 adapter但內(nèi)部插入序列不同的DNA雙鏈模板。和普通PCR一樣,油包水PCR也是在水溶液進行反應,該水相含PCR所需試劑,DNA模板及可分別與P1、P2 adapter結合的P1、P2 PCR引物。但與普通PCR不同的是,P1引物固定在P1磁珠球形表面 (SOLiD將這種表面固定著大量P1引物的磁珠稱為P1磁珠)。PCR反應過程中磁珠表面的P1引物可以和變性模板的P1 adapter負鏈結合,引導模板合成,這樣一來,P1引物引導合成的DNA鏈也就被固定到P1磁珠表面了。

油包水PCR大的特點是可以形成數(shù)目龐大的獨立反應空間以進行DNA擴增。其關鍵技術是“注水到油”,基本過程是在pcr反應前,將包含PCR所有反應成分的水溶液注入到高速旋轉的礦物油表面,水溶液瞬間形成無數(shù)個被礦物油包裹的小水滴。這些小水滴就構成了獨立的PCR反應空間。理想狀態(tài)下,每個小水滴只含一個DNA模板和一個P1磁珠,由于水相中的P2引物和磁珠表面的P1引物所介導的PCR反應,這個DNA模板的拷貝數(shù)量呈指數(shù)級增加,PCR反應結束后,P1磁珠表面就固定有拷貝數(shù)目巨大的同來源DNA模板擴增產(chǎn)物。ABI公司提供的SOLiD實驗手冊已經(jīng)把小水滴體積及水相中DNA模板和磁珠的個數(shù)比等重要參數(shù)進行了技術優(yōu)化和流程固定,盡可能提高“上等小水滴”(水滴中只含一個DNA模板一個P1磁珠)的數(shù)量,為后續(xù)SOLiD測序提供只含有一種DNA模板擴增產(chǎn)物的高質(zhì)量P1磁珠。

1.3.含DNA模板P1磁珠的固定

SOLiD測序反應在SOLiD玻片表面進行。含有DNA模板的P1磁珠共價結合在SOLiD玻片表面。磁珠是SOLiD測序的小單元。每個磁珠SOLiD測序后形成一條序列(具體SOLiD測序過程請見圖5)。

1.4. SOLiD雙堿基編碼原理及測序流程

SOLiD“雙堿基編碼原理”實質(zhì)上是闡明了熒光探針的顏色類型與探針編碼區(qū)堿基對的對應關系。SOLiD連接反應的底物是8堿基單鏈熒光探針混合物。連接反應中,這些探針按照堿基互補規(guī)則與單鏈DNA模板鏈配對。如圖1“底物探針”所示,探針5’末端可分別標記“CY5,Texas Red,CY3,6-FAMTM”4種顏色的熒光染料,并且這四種顏色用數(shù)字“3,2,1,0”示意;探針3’端1~5位為隨機堿基,可以是“A,T,C,G”四種堿基中的任何一種堿基,其中第1、2位構成的堿基對是表征探針染料類型的編碼區(qū),“雙堿基編碼矩陣”規(guī)定了該編碼區(qū)16種堿基對和4種探針顏色的對應關系,而3~5位的“n”表示隨機堿基,6~8位的“z”指的是可以和任何堿基配對的特殊堿基,由上可知,SOLiD連接反應底物**有45 種底物探針。

單向SOLiD測序包括五輪測序反應。每輪測序反應含有多次連接反應(一般情況下,片段文庫是7次,mate-paired文庫是5次,所以片段文庫共有35個連接反應,而末端配對文庫共有25次連接反應)。每輪測序反應的**次連接反應由與P1引物區(qū)域互補的“連接引物”介導。這五種連接引物長度相同,但在P1引物區(qū)域的位置相差一個堿基(分別用n,n-1,n-2,n-3,n-4表示),都含有5’端磷酸,所以可以介導連接反應的進行?,F(xiàn)以圖5所示一個磁珠上發(fā)生的SOLiD測序反應為例進行說明。**輪測序的**次連接反應由連接引物“n”介導,由于每個磁珠只含有均質(zhì)單鏈DNA模板(也就是每個磁珠表面的單鏈DNA模板序列都是一樣的),所以這次連接反應摻入一種8堿基熒光探針,SOLiD測序儀記錄反應模板序列第1、2位堿基序列的探針第1、2位編碼區(qū)顏色信息,隨后的化學處理斷裂探針3’端第5、6位堿基間的化學鍵,并除去6~8位堿基及5’末端熒光基團,暴露探針第5位堿基5’磷酸,為下一次連接反應作準備。由此我們知道**次連接反應使合成鏈多了5個堿基,所以**次連接反應得到反應模板序列第6、7位堿基序列的顏色信息,而第三次連接反應得到的是第11、12位堿基序列的顏色信息… … 以此類推,**輪測序反應獲取了模板鏈7個堿基對的顏色信息。如圖5所示,由于**輪連接引物n-1比**輪錯開一位,所以**輪得到是以0,1位起始的7個堿基對的顏色信息。五輪測序反應反應后,按照第0、1位,第1、2位... …的順序把對應于模板序列的顏色信息連起來,就得到由“0,1,2,3”組成的SOLiD原始顏色序列。

1.5. 數(shù)據(jù)分析原理

SOLiD測序完成后,獲得了由顏色編碼組成的SOLiD原始序列(圖6.a)。理論上來說,按照“雙堿基編碼矩陣”(圖4),只要知道所測DNA序列中任何一個位置的堿基類型,就可以將SOLiD原始顏色序列“解碼”成堿基序列。但由于雙堿基編碼規(guī)則中雙堿基與顏色信息的兼并特性(一種顏色對應4種堿基對),前面堿基的顏色編碼直接影響緊跟其后堿基的解碼,所以一個錯誤顏色編碼就會引起“連鎖解碼錯誤”,改變錯誤顏色編碼之后的所有堿基(圖6.1)。

和所有其它測序儀一樣,測序錯誤在所難免,關鍵是對測序錯誤的評價和后續(xù)處理。為避免“連鎖解碼錯誤”的發(fā)生,SOLiD數(shù)據(jù)分析軟件不直接將SOLiD原始顏色序列解碼成堿基序列,而是依靠reference序列進行后續(xù)數(shù)據(jù)分析。SOLiD序列分析軟件首先根據(jù)“雙堿基編碼矩陣”把reference堿基序列轉換成顏色編碼序列,然后與SOLiD原始顏色序列進行比較,來獲得SOLiD原始顏色序列在reference的位置,及兩者的匹配性信息。Reference轉換而成的顏色編碼序列和SOLiD原始序列的不完全匹配主要有兩種情況:“單顏色不匹配”和“兩連續(xù)顏色不匹配”(圖6)。由于每個堿基都被獨立地檢測兩次(圖5),且SNP位點將改變連續(xù)的兩個顏色編碼(圖6.2),所以一般情況下SOLiD將單顏色不匹配處理成測序錯誤,這樣一來,SOLiD分析軟件就完成了該測序錯誤的自動校正;而連續(xù)兩顏色不匹配也可能是連續(xù)的兩次測序錯誤,SOLiD分析軟件將綜合考慮該位置顏色序列的一致性及質(zhì)量值來判斷該位點是否為SNP。

2.SOLiD測序技術的應用

2.1. 基因組測序

全基因組重測序。研究者可以基因組DNA為初始樣本構建SOLiD文庫(fragment文庫及mate-paired文庫),以恰當?shù)娜蚪M序列為reference,可以快速鑒定SNP,indel及基因組結構變化。

特定基因組區(qū)域測序。除應用于傳統(tǒng)的ChIP-seq,SOLiD技術平臺還可以結合芯片技術,富集特定基因組序列進行深度測序,快速鑒定SNP。其關鍵技術流程如下:SOLiD fragment文庫經(jīng)適當循環(huán)數(shù)PCR擴增得到足量樣品DNA(約30ug), 文庫擴增產(chǎn)物與Agilent芯片(或其它自訂制芯片)雜交,然后對芯片探針緊密結合的洗脫產(chǎn)物進行常規(guī)Emulsion PCR及SOLiD測序。SOLiD結合芯片技術對基因組特定區(qū)域的進行深度測序,可發(fā)現(xiàn)低頻率SNP(如腫瘤樣本中特定基因的體細胞突變)。

2.2. RNA-seq

高通量測序儀的問世,使得測序成本大大降低,提供了不依賴現(xiàn)有基因模型的大規(guī)?;虮磉_譜研究手段,促進了針對細胞全部轉錄產(chǎn)物(small RNA 等non-coding RNA,低拷貝protein-coding RNA及其可變剪接體)的深度挖掘及后續(xù)功能研究。

目前有兩種SOLiD試劑盒促進SOLiD測序儀在轉錄組上的應用。SOLiD small RNA 試劑盒以含5’段磷酸及3’段羥基的small RNA為初始樣本,2天就可完成與SOLiD RNA特異adapter連接,逆轉錄,PCR擴增等步驟, 得到SOLiD fragment 文庫。SOLiD whole transcriptome expression試劑盒針對序列較長的non-coding RNA或mRNA。該試劑盒使用RNA H將mRNA或去除rRNA的總RNA片段化并回收酶切產(chǎn)物,其后實驗流程和SOLiD small RNA完全相同。這兩種試劑盒以RNA為初始樣本,并且所用的RNA 特異adapter方向確定,所以后測序所得序列的方向也就確定了。而傳統(tǒng)方法大多以雙鏈cDNA為初始樣本,難以確定測序所得序列來自轉錄本的正義鏈還是反義鏈而干擾后續(xù)數(shù)據(jù)分析。同時,SOLiD強大的測序能力,使得高通量發(fā)掘低拷貝轉錄本成為可能。

3. 基因組所SOLiD測序儀運行情況

目前,ABI公司針對我所SOLiD實驗小組的技術培訓基本結束。SOLiD實驗小組已經(jīng)具備獨立構建基因組片段文庫和末端配對文庫的能力,所構建文庫各項質(zhì)量指標基本符合要求。作為ABI**客戶,我們獲得了SOLiD small RNA 和SOLiD whole transcriptome expression試劑盒各一個。相關轉錄組學實驗正在進行中。

4.小結

現(xiàn)在看來,SOLiD技術可對具有reference基因組序列的物種進行重測序,鑒定SNP,indel及基因組結構變化;對含有全基因組序列且轉錄本注釋較好的物種開展轉錄組學研究,解析細胞轉錄產(chǎn)物的數(shù)量變化及其結構信息。但SOLiD測序所得序列的長度只有幾十個堿基,數(shù)據(jù)分析過程依賴reference序列,目前尚沒有基于SOLiD原始顏色序列的從頭拼接(de novo assembly)軟件,這些不足之處大大限制了SOLiD技術在新物種測序領域的應用。SOLiD測序儀內(nèi)在技術特點決定其并不適合每個測序項目。我們要根據(jù)課題實際情況(物種基因組研究現(xiàn)狀和測序通量要求等)理性判斷。

目前市場上有四種高通量測序儀,分別是Solexa,454 (GS-FLX),SOLiD和Polonator。根據(jù)測序原理,它們可以被分為兩大類:使用合成法測序(Sequencing by Synthesis)的Solexa和454,及使用連接法測序(Sequencing by Ligation)的Polonator和SOLiD。這些高通量測序儀的共同點是不需要大腸桿菌系統(tǒng)進行DNA模板擴增,且測序所得序列較短:其中的454序列長,為200~300個堿基,其余三種序列都只有幾十個堿基。測序原理及序列長度的差異決定了各種高通量測序儀具有不同的應用領域。這就要求我們在熟悉各種高通量測序儀內(nèi)在技術特點的基礎上進行選擇。

滬公網(wǎng)安備 31011002002624號