2016年08月21日訊 最近,瑞典卡羅林斯卡學院和愛沙尼亞醫(yī)療技術能力中心的科學家合作,開發(fā)出了一種新的基因表達分析方法,讓通過全血RNA-seq進行生物標志物的發(fā)現(xiàn)和分析,將會變得更為簡單。
血液攜帶的細胞,可提供多種有用的生物標志物。血液作為一種液體活檢,在臨床研究中有著廣泛的應用,因為其取樣的簡便性和快速動態(tài)性:大多數(shù)的細胞是攜帶氧的紅細胞,在所有血液RNA當中致使球蛋白RNA分子50%-80%的富集。
球蛋白如此高的普遍性,因此,血液相關基因表達生物標志物的研究,就變得復雜化,從而造成了技術偏差,并留下了無法探測到的生物相關分子。根據(jù)研究人員介紹,這項研究首次介紹了一種詳細方法--GlobinLockTM--能夠克服紅細胞引起的血樣分析的局限性,紅細胞使得從血液中識別或跟蹤下游的任何生物標志物,都變得復雜化。已公布的和正在申請專利的試驗,最大限度地減少了對試劑和樣品材料的需求,從而使得它成為一種有效和強大的工具。
本文第一作者、Kaarel Krjut?kov博士說:“GlobinLock的球蛋白下降率,對于任何應用程序來說是足夠的。它將球蛋白的普遍率從以前的63 %減少到了5%,這使得它成為生物科技公司的一種有效工具,被添加到試劑盒中?!?/p>
這種新的方法包括一對短的合成DNA鏈,通過高度特異性結合,可沉默大多數(shù)的球蛋白RNA分子。根據(jù)研究人員解釋,這兩條鏈被引入到純化的RNA樣品中,并且,在RNA變性后是立即有效的,整個互補的DNA合成過程,只有十分鐘的潛伏期。
鎖定的DNA分子特異性地結合在球蛋白的RNA poly-A位點,這還需要進一步分析。因此,在下游操作之前,球蛋白RNA是被“鎖定的”,在血液RNA生物標志物的應用中并不會引起技術的偏差。
Juha Kere教授說:“我們發(fā)現(xiàn),球蛋白鎖定是完全有效的,不僅適用于人類的樣本,也廣泛適用于動物模型,如小鼠、大鼠、牛、狗甚至斑馬魚?!?/p>
應用測序技術尋找生物標志物,已經(jīng)有了一系列的研究進展,例如,2014年10月,蘇州大學第一附屬醫(yī)院譚友文副教授帶領的團隊對血清microRNA(miRNA)的表達譜進行研究,確定其是否可作為HCC的一種新的診斷標志物,研究成果發(fā)表在PLoS ONE上。
2015年,日本理化學研究所(RIKEN)生命科學技術中心(CLST)和澳大利亞Harry Perkins醫(yī)學研究所的研究人員通過RNA測序,發(fā)現(xiàn)了很多個基因,它們在許多不同類型的癌癥中是上調(diào)的,從而為開發(fā)生物標志物檢測、早期發(fā)現(xiàn)癌癥進而及時治療,提供了機會。相關研究結果發(fā)表于《Cancer Research》。
今年2月,浙江大學細胞生物學研究所李繼承教授領銜的課題組采用iTRAQ標記結合2D LC-MS/MS,以及Solexa測序?qū)DR-TB患者,藥物敏感結核病(DS-TB)患者,和健康對照組血清中的蛋白質(zhì)組和miRNA組進行了比較分析,鑒定出MDR-TB診斷的潛在生物標志物。
在過去的10年里,發(fā)展了多種單細胞方法,不同的方法影響了細胞的捕獲和擴增,以及每個細胞的read深度等[2]。每種方法都有各自的優(yōu)缺點,但一般說來,迄今為止發(fā)展起來的所有scrna-seq技術都共享一個共同的工作流程:樣品制備、單細胞捕獲、反轉錄和擴增、文庫制備、測序和分析[3]。
1、樣本制備(分離細胞)
單細胞RNA測序的一般實驗工作流程始于將感興趣的器官或組織解離。充分的樣本準備是產(chǎn)生良好的單細胞轉錄組數(shù)據(jù)的先決條件。樣品制備過程中的一個關鍵步驟,特別是對于致密組織,是單細胞解離,這通常是在溫和的機械攪拌(在某些情況下通過組織灌注)下通過酶促實現(xiàn)的,以限制過多的細胞溶解和背景噪音[4]。蛋白水解酶(如胰蛋白酶、膠原酶或解放酶)的選擇和消化時間也應仔細優(yōu)化,以最大限度地提高單細胞產(chǎn)量,同時將細胞死亡降至最低。
2、分離單個細胞
早期的單細胞捕獲方法包括顯微移液法、顯微操作法和激光捕獲顯微切割法[26-27]。與目前常用的幾種方法相比,這些方法通量低,技術上具有挑戰(zhàn)性,需要費時費力,但在需要分析的細胞數(shù)量較少(如稀有細胞)時仍可使用。
熒光激活細胞分選(FACS)是一種特殊類型的流式細胞術,它提供了一種方法,根據(jù)細胞大小和熒光,一次一個細胞地分選不同種類的細胞,與早期的方法相比,它具有更高的通量和更快的速度[29]。流式細胞儀的潛在限制包括需要特定的抗體,以及這些抗體可能干擾下游分析,但也包括所需的大量輸入材料(微升甚至毫升),這阻礙了從極少量樣本中分離細胞或分離稀有細胞[29]。
微流控設備的出現(xiàn)使其作為分離細胞的首選技術,因為它們相對于FACS和其他以前使用的方法需要較小體積的試劑。在微流控器件中,流體動力通量允許在幾十微米到幾百微米的通道中隔離和處理單胞,因此可以與單胞的大小相媲美。此外,微流控設備還可以使一些下游RNA處理反應自動進行測序,并允許測量和控制細胞外試劑濃度[30]。還有另外幾種分離技術和平臺,具體可看綜述[31]。
2、mRNAs捕獲
當細胞完全分離時,必須捕獲成熟的mRNAs,將其反轉錄成cDNA并進行擴增。細胞捕獲的方法通常由感興趣樣本的屬性(如細胞大小)決定。目前的scRNA-seq技術可以根據(jù)單細胞分離和捕獲的方法進行分類,不同的方法決定了不同的產(chǎn)量、規(guī)模、測序深度。細胞捕獲的效率取決于所使用的protocol。許多設備使用特定的barcode,它允許同時捕獲多個細胞和mRNA,這一過程被稱為“‘multiplexing”。例如inDrop和Drop-Seq方法都在液滴中包括了barcode的cDNA制備。
3、逆轉錄和PCR擴增
通常,使用寡聚脫氧核糖核酸引物進行mRNA的RT。這樣做是為了避免捕獲其他結構RNA,如核糖體RNA和轉運RNA,它們占細胞RNA的大部分。然而寡聚脫氧核糖核酸引物的使用存在捕獲效率低的問題,據(jù)報道,對于目前的protocols,捕獲效率約為10-15% [28]。
4、文庫制備
當單細胞被成功捕獲后,它們被裂解和加工,通過反轉錄產(chǎn)生第一鏈cDNA,然后進行第二鏈合成和PCR擴增。一些scRNA-seq方法(如Fluidigm C1 system)所需的PCR擴增反應與分析的細胞數(shù)量一樣多,但是其它技術(諸如基于液滴的方法)允許使用細胞barcoding技術(如10xGenomics Chromium)的混合PCR,降低了成本并提高了產(chǎn)量[5]。
4、測序
5、mapping
執(zhí)行下一代測序以產(chǎn)生原始數(shù)據(jù),當單細胞捕獲、文庫準備和測序完成后,可以將原始數(shù)據(jù)進行read比對。最初為bulk RNA-seq開發(fā)的mapping工具也適用于scRNA-SEQ數(shù)據(jù)。有多重mapping工具可以用來比對RNA-seq數(shù)據(jù),目前流行的比對工具如TopHat2、STAR和HISat在速度和準確性方面表現(xiàn)良好,它們可以有效地將數(shù)十億read比對到參考基因組或轉錄組上。其中STAR是一種基于后綴數(shù)組(suffix-array based)的方法,比TopHat2更快,但它所需內(nèi)存較大[22]。 HISAT是基于BWT和Ferragina-Manzini (FM)方法發(fā)展起來的。Kim等人的研究表明,HISat是目前最快的工具,并可以達到與其他可用的校準器( aligners)相等或更高的精度[23]。
可以使用通用的RNA-seq read比對軟件STAR生成具有公共可用平臺(如10x基因組公司的Cell Ranger)的特征條形碼( feature-barcode)矩陣。也可以使用Cell Ranger來過濾和計數(shù)barcode以及UMI。cellranger、dropEst、Dr.seq2 、scPipe都可以用于生成表達矩陣。
6、轉錄本定量
不同處理步驟帶來的高技術可變性阻礙了準確量化轉錄本豐度的能力。目前,這些問題的可能解決方案是增加定量標準,如添加Spike-in或唯一分子標識符(UMIS)。
Spike-ins 是一段已知序列和數(shù)量的RNA轉錄本,在細胞裂解液中按一定的量加入,用于校準rna雜交分析的測量在細胞分離后經(jīng)過所有的實驗步驟。使用這些分子的目的是提供關于分子的輸入數(shù)量和觀察到的測序讀數(shù)數(shù)量之間的關系的信息。最受歡迎的一組插入是ERCC的92個單一異構體合成RNA[32]。使用Spike-ins 的一個復雜之處在于,它們通常以較高的相對濃度添加到單細胞樣本中,因此,它們占據(jù)了相對較大的reads比例。因此,并不是所有的protocols都能適應它們的使用,例如基于液滴的技術 。
在scRNA-seq中使用的另一種類型的定量標準是UMI。它們是長度為4到12個核苷酸的核苷酸序列,它們在逆轉錄之前被合并到引物中,以唯一地對每個轉錄本的每個單獨mRNA拷貝的5‘或3’端進行barcode。同一種mRNA連上同樣的UMI概率幾乎為0,則我們可以忽略由于PCR造成的誤差,對于一種mRNA,測到的UMI數(shù)量可以近似看成mRNA的表達個數(shù)。其基本思想是能夠根據(jù)不同UMI的數(shù)量對每個轉錄本進行量化,從而避免由于PCR擴增而產(chǎn)生的偏差。為了避免低估高表達基因的原始轉錄本數(shù)量,必須選擇UMIS的長度n,以便唯一barcode的數(shù)量高于在最高水平表達的轉錄本的數(shù)量[28]?;赨MI的協(xié)議消除了與擴增和測序深度相關的偏差,因為與同一UMI相關聯(lián)的、來自同一轉錄拷貝的多個讀數(shù)被折疊成唯一的計數(shù)。然而,只有當所有的文庫都以足夠的深度進行測序,以便每個唯一標記的分子至少被觀察到一次時,這才是正確的。如果不是,一些UMI標記的cDNA分子可能會丟失[33]。
由于固有的協(xié)議差異,Spike-ins和UMIS并不適用于所有的scRNA-seq技術。Spike-ins用于Smart-seq2和Super-seq等方法,但與基于液滴的方法不兼容,而UMIS通常應用于3'端測序技術(如Drop-Seq、InDrop和Mars-Seq)。因此,用戶可以根據(jù)技術特性和優(yōu)點、要測序的細胞數(shù)量和成本考慮來選擇合適的scRNA-seq方法。
對于基因/轉錄本表達的定量,需要根據(jù)scRNA-seq捕獲的轉錄本序列的范圍,采用不同的方法。
對于全轉錄scRNA-seq方法(如Smart-seq2和MATQ-seq)生成的數(shù)據(jù)可以用為bulk RNA-seq開發(fā)的軟件進行分析,以定量基因/轉錄本的表達。
①目前比較流行的基因組組裝工具,包括Cufflinks、RSEM、Stringtie等已被廣泛用于許多scRNA-seq研究,以獲得相對基因/轉錄本的表達估計。其中Pertea等人[24]指出,StringTie在基因/轉錄本重建和表達定量方面優(yōu)于其他工具。
對于3'端scRNA-seq協(xié)議(例如CELseq2、MARS-seq、Drop-Seq和InDrop),需要特定的算法來基于UMIS計算基因/轉錄本的表達。
①SAVER是一種基于UMI的有效工具,用于精確估計單細胞的基因表達[25]。
為了確保高質(zhì)量的scRNA-seq數(shù)據(jù),在細胞捕獲之前適當?shù)貙⒔M織解聚成單個細胞是至關重要的。單細胞制備的主要挑戰(zhàn)包括起始樣品的脆性、物理應力、緩沖液的選擇、細胞解離的持續(xù)時間和單細胞的產(chǎn)量[18]。對于基于微滴的scRNA-seq,在單細胞捕獲之前需要制備活的單細胞群體,并且必須清除細胞聚集體或成團、死亡細胞碎片和自由漂浮的mRNA。傳統(tǒng)的細胞分離方法對于單細胞制備就足夠了,但是必須優(yōu)化將原生組織(primary tissue)酶解為單個活細胞的效率,以避免失去比較脆弱或容易死亡的細胞群體。細胞外基質(zhì)的組成和組織的類型可能會影響消化酶的選擇以及消化的溫度和持續(xù)時間,還應根據(jù)原始組織來選擇和優(yōu)化酶解方法[15]。
建議解離后立即用鈣黃綠素乙氧甲基等染料標記活細胞,然后用流式細胞儀(FACS)對活細胞進行陽性選擇,而一些核酸結合染料,如碘化丙啶等,能與自由漂浮的雙鏈核酸結合,通過流式細胞儀負選擇來分離活細胞[4]。在單細胞制備過程中使用商用細胞碎片清除解決方案有助于提高樣品清潔度和目標細胞計數(shù)的準確性,特別是對于存活率低于70%的細胞制劑[4]。
1、基于液滴(droplet)的方法: 基于液滴的方法使用了DNA條形碼技術對包裹在油滴中的單個細胞進行分析,大大減少了每次分析所需的時間和成本。大規(guī)模分析使得每個樣本可分析多達約10,000個細胞[11]。使得其具有高通量,捕獲效率高的特點。并可以提供更大的細胞通量和更低的細胞測序成本。因此,基于液滴的方案適用于產(chǎn)生大量細胞來識別復雜組織或腫瘤樣本的細胞亞群。
其中10x Genomics能夠?qū)崿F(xiàn)單細胞的3‘端或5’端測序,與平板或微流控方法相比,具有更高的規(guī)模和產(chǎn)量。每個細胞的read深度在10000到100000之間[13]?;谝旱蔚姆椒ㄍㄟ^3‘端或5’端測序來量化轉錄本,與現(xiàn)有的其他方法(10-20%)相比,轉錄本回收率(3-10%)降低了[12]。
細胞檢測率和mRNA的捕獲效率偏低。在靈敏度和read深度方面表現(xiàn)也有所欠佳,但其靈敏度仍然足以用于復雜異質(zhì)樣品的大規(guī)模分析,并有望隨著方法的不斷優(yōu)化和成本的降低而提高。
2、plate-based或microwell-based的方法: 如果實驗中細胞量不大,可以考慮plate-based的方法,將細胞分選到含有建庫PCR引物的多孔板中,捕獲細胞的性價比比較低,但檢出率較高[1],另外這些方法既支持3'/5'端測序,也支持全長轉錄本測序?;谄桨寤蚧谖⒖装宓姆桨甘褂米詣游⑽芑驘晒饧せ罴毎诌x(FACS)將單個細胞分離到包含裂解緩沖液和其他處理試劑的96孔板或384孔板中。這種方法的一個主要優(yōu)點是可以在分析前長期保存細胞樣本,這為實驗計劃和協(xié)調(diào)提供了靈活性。plate-based或microwell-based的方法通常具有很高的靈敏度,并且可以可靠地量化每個細胞多達10,000個基因。然而,這種方法的一個缺點是必須在單獨的well中進行逆轉錄,這可能會減慢工作流程,限制產(chǎn)出,并增加下游分析中的噪音[4]。
3、Microfluidic-based的方法: 基于微流控的自動化平臺,在微流控器件中,流體動力通量(hydrodynamic flux)允許在幾十微米到幾百微米的通道中隔離和處理單個細胞,其通道大小可以與單個細胞的大小相媲美。這種方法的一個關鍵特點是可以在反轉錄和擴增之前在顯微鏡下查看捕獲的細胞,此外,該技術所需的小體積細胞懸浮液(<150nL/孔)有助于降低外部污染的風險[6],并允許測量和控制細胞外試劑濃度。該方法具有較高的靈敏性,使用全長轉錄本測序可以檢測單核苷酸變體和轉錄起始點的特征以及單等位基因和印記基因等[6]。但是由于每個微流控陣列的單細胞捕獲位點數(shù)量有限,其在規(guī)模和產(chǎn)量方面受到限制(每次僅分析100到1,000個細胞)。
此外,這種方法還需要細胞大小的均勻性,而且比其他技術成本更高,限制了其在高通量實驗中的使用。
CEL-SEQ方法[9],結合了通過體外轉錄的線性擴增和標記了barcode樣本的匯集,以便于并行分析多個樣本。
CEL-seq2方法[8],實現(xiàn)了單一文庫的構建,并提高了轉錄本和基因檢測的靈敏度。與可以捕獲全長轉錄本的Smart-seq方法相比,CEL-seq2僅限于3‘端閱讀,因此不能檢測到替代剪接形式、microRNA或其他非多聚腺苷酸轉錄本[10]。
1、與基于液滴的方法不同,基于平板或基于微流控的方法可以容納各種大小和形狀的細胞,但受到繁瑣和昂貴的單細胞選擇和分離的限制[16]。
2、每種scRNA-seq協(xié)議都有其優(yōu)缺點,考慮到研究目的和測序成本之間的平衡,可能需要采用特定的scRNA-seq技術[17]。
3、先前的一項研究表明,通過比較CEL-seq2、MARS-seq、Smart-seq、Drop-seq 在內(nèi)的scRNA-seq技術,Smart-seq2可以檢測到更多的表達基因。
4、盛等人表明[18],一種全長轉錄本測序方法MATQ-seq在檢測低豐度基因方面可能優(yōu)于Smart-seq2。
5、不同的scRNA-seq protocols具有不同的優(yōu)點和缺點,一些發(fā)表的評論已經(jīng)詳細比較了其中的一部分[17,19]。
6、幾種scRNA-seq技術可以捕獲polyA+ 和 polyA? RNAs,例如SUPeR-seq [20]和MATQ-seq [21]。這些protocols對于對長非編碼RNA(LncRNAs)和環(huán)裝RNA(CircRNAs)進行測序非常有用。大量研究表明,lncRNAs和CircRNAs在細胞的多種生物學過程中發(fā)揮著重要作用,可能成為癌癥的重要生物標志物。因此,這種scRNA-seq方法可以在單細胞水平上全面探索蛋白質(zhì)編碼和非編碼RNA的表達動態(tài)。
生物標志物研究包括哪些介紹如下:
生物標志物研究包括細胞分子結構、功能變化,生化代謝過程變化,生理活動異常表現(xiàn)以及個體、群體或整個生態(tài)系統(tǒng)的異常變化等。
比如:傳統(tǒng)的生物標志物包括血壓的可測變化、運動后血液中乳酸的濃度水平、糖尿病患者的血糖指標等。細胞中DNA、RNA、代謝產(chǎn)物或蛋白質(zhì)含量水平在分子層面的具體變化等均可稱為生物標志物。
對于疾病研究,生物標志物一般是指可供客觀測定和評價的一個普通生理或病理或治療過程中的某種特征性的生化指標,通過對它的測定可以獲知機體當前所處的生物學過程中的進程。 檢查一種疾病特異性的生物標志物,對于疾病的鑒定、早期診斷及預防、治療過程中的監(jiān)控可能起到幫助作用。尋找和發(fā)現(xiàn)有價值的生物標志物已經(jīng)成為目前研究的一個重要熱點。
自1994年蛋白質(zhì)組概念提出,定量蛋白質(zhì)組學已經(jīng)成為蛋白質(zhì)組學研究的熱點和中心。定量蛋白質(zhì)組學便是檢測正常與疾病狀態(tài)下組織全部表達蛋白質(zhì)在量上的差別。定量蛋白質(zhì)組學中的蛋白質(zhì)定量技術也成為發(fā)現(xiàn)生物標志物的重要途徑。
生物標志物是生物體受到嚴重損害之前,在不同生物學水平(分子、細胞、個體等)上因受環(huán)境污染物影響而異常化的信號指標。它可以對嚴重毒性傷害提供早期警報。
這種信號指標可以是細胞分子結構和功能的變化、可以是某一生化代謝過程的變化或生成異常的代謝產(chǎn)物或其含量,可以是某一生理活動或某一生理活性物質(zhì)的異常表現(xiàn),可以是個體表現(xiàn)出的異?,F(xiàn)象,可以是種群或群落的異常變化,可以是生態(tài)系統(tǒng)的異常變化。
這是RNA-seq上游分析的最后一站,seq數(shù)據(jù)定量。這一篇文章會介紹基于k-mer定量兩軟件:kallisto和salmon。其中關于kallisto的部分我會附上TBtools插件的用法。
抱歉又更新晚了,之前一直想嘗試selected alignment method來定量RNA-seq數(shù)據(jù)。電腦不給力,試了好幾次都失敗了,只好放棄……
如果你有興趣,可以跳轉進一步了解。
https://cloud.tencent.com/developer/article/1613847
安裝kallisto還是很輕松
定量需要兩步,第一步是對你的數(shù)據(jù)建立index。之后就能用建立好的index做RNA-seq數(shù)據(jù)定量。
建立目錄的命令很簡單:
由于可變剪切等原因,同一個mRNA可能有不止一個isoform,如果你只在乎某個基因轉錄了多少,不在乎有多少同一個mRNA有多少個isoform的話,那么可以用TBtools提取每個mRNA的最獨特的序列。一般來講提取的是所有isoform中最長的那個序列。聽起來很合理,但有些時候會出問題,比如那個最長序列本身不太對的時候。
定量之后只需要一個for語句循環(huán)就能完成RNA-seq的定量
salmon的邏輯跟kallisto是一樣的,都是先建立index再定量。
跟kallisto不同得地方是,salmon支持更多種的index模式
小麥因為基因組太大了,試了好幾次建庫都不完整,索性只說最簡單的,既基于轉錄組數(shù)據(jù)建立index。如果你目標基因組比較?。ㄈ缢?,擬南芥),推薦你們嘗試一下selective alignment。
地址為:
https://combine-lab.github.io/alevin-tutorial/2019/selective-alignment/
廢話不多說,salmon的建立index得命令差不太多。就是把index和輸出參數(shù)換了個位置
具體命令:
其中
-t 是轉錄組數(shù)據(jù)文件
-i 是輸出地址
之后再進行定量就好
如果是雙端測序數(shù)據(jù)
其中
-i 對應的是index地址
-1和-2對應雙端測序兩個fastq文件
-p 是設定核心數(shù)量
-o 是輸出地址
這部分可能是最沒必要講的了。
都是最簡單的東西了,需要注意的是,TBtools插件每次定量前都默認會重新建立一次index,所以……數(shù)據(jù)多的時候耗時會比較久……
不過這個插件最后會自動統(tǒng)計并整理好gene counts和TPM文件,方便后續(xù)DEseq2的操作。
首先老版本好像有問題,新版本修復了。具體參考馬省偉大佬的文章。
http://blog.sciencenet.cn/blog-1094241-1133526.html
其次,好像是不是alignment-free最終準確率都差不多。但是基于k-mer明顯快很多,而且普通pc就能跑……具體參考發(fā)表在NC上的文章
https://www.nature.com/articles/s41467-017-00050-4
抱歉鴿了這么久……也不知道為啥會鴿……
目前我們主要分析的數(shù)據(jù)還是二代測序的數(shù)據(jù),也就是大家經(jīng)常掛在嘴邊的 NGS ,而這其中最大的贏家應該算是 illumina 測序公司了,其經(jīng)典的邊合成邊測序(sequencing by synthesis,SBS)巧妙地利用帶不同熒光的dNTP來讓堿基組成可視化,本身還是很有意思的。但隨之而來的就有一些問題,比如以RNA-seq為例, 如果你是一個經(jīng)典的從表達矩陣開始的數(shù)據(jù)分析選手,那其實建庫細節(jié)對你來說好像也沒那么重要;而如果你是一個從原始fastq下機數(shù)據(jù)(甚至建庫實驗)開始的數(shù)據(jù)分析選手,此時建庫的細節(jié)就可能顯得尤為重要,需要你做到知根知底。 或許你經(jīng)常遇到一些名詞,其中有一些可能讓你感到迷惑:
現(xiàn)在我們就以illumina經(jīng)典的 TruSeq Stranded mRNA 建庫測序為例來走一遍整個illumina測序的流程,為什么會選擇這個建庫策略呢? 首先,RNA-seq是目前我們觸手可及、應用最廣的基因表達量檢測技術;其次,相較之于鏈非特異性測序,鏈特異性測序?qū)Υ蠖鄶?shù)人來說更復雜,更難以理解。 關于鏈特異性測序我之前已經(jīng)有一個長篇大論談到了這個問題: 一文闡述鏈特異性測序——stranded? reverse-stranded? un-stranded? ,閱讀量還不錯,反饋也還可以,有興趣的可以去看看,在這里就只以 TruSeq Stranded mRNA 為例了。
老規(guī)矩,我還是以圖輔以文字的方式來先整體介紹一下 TruSeq Stranded mRNA :
對著流程看,提前說一下, 紅色始終代表sense strand的信息,天藍色代表antisense strand的信息 :
注意了,我們現(xiàn)在回到這個結構,開始走上機測序的流程:
做過fastq文件比對的人都知道,這個過程中非常重要的,大家掛在嘴邊的就是 去接頭 ,第三個名詞出來了: adapter 。那么到底什么是接頭? fastqc 這樣的軟件又是怎樣檢測到的? cutadapt 、 fastp 、 trimmomatic 、 trim_galore 這些軟件又是怎么去接頭的?似乎這些都是灰色地帶,下面是我的理解:
首先還是看文庫結構:
這實際上很好理解,我們沒有人去adapter是從fastq文件中每條read的開頭去的。那么什么是adapter呢?你可以簡單理解為,在一個文庫中,非生物學序列的其余序列都屬于adapter,包括 P5、P7、測序引物結合位點 。那么fastqc是怎么檢測adapter的呢?你去看看fastqc的GitHub,會發(fā)現(xiàn)它有這樣的幾個序列:
你可能會覺得很神奇,其實fastqc判斷你的序列有沒有adapter就是在和這幾個序列做簡單的匹配罷了。接踵而來的問題就是:
首先給答案:
聽起來很離譜,畫個圖就清楚了:
果然,不能說完全相同,只能說一模一樣,也就是說,現(xiàn)在市場上所有的Tn5轉座酶都必須將這段序列連接到DNA的兩端,這樣才能讓我們檢測到adapter。
你可能還是不信,好吧,那再來一個其它的例子吧:
這不能說完全相同,只能說一模一樣吧……總該信了?
結束了上面的測試,你或許會發(fā)現(xiàn)一個問題: 那按這么說,是不是read1和read2的測序引物的3'端總是會有部分是一樣的?。恳粯拥牟糠志褪亲鳛榕袛郺dapter是否存在的那條序列? 你自己看看上面的那個圖,不就知道了, 事實上就是這樣。
最后,為了讓你更信,我還把trim_galore的adapter序列也粘貼在這里,這不和fastqc的一模一樣?原來紛繁復雜的illumina測序竟然這么統(tǒng)一!
本文地址:http://www.mcys1996.com/jiankang/303782.html.
聲明: 我們致力于保護作者版權,注重分享,被刊用文章因無法核實真實出處,未能及時與作者取得聯(lián)系,或有版權異議的,請聯(lián)系管理員,我們會立即處理,本站部分文字與圖片資源來自于網(wǎng)絡,轉載是出于傳遞更多信息之目的,若有來源標注錯誤或侵犯了您的合法權益,請立即通知我們(管理員郵箱:douchuanxin@foxmail.com),情況屬實,我們會第一時間予以刪除,并同時向您表示歉意,謝謝!