據(jù)報道,臺灣地區(qū)工業(yè)技術(shù)研究院發(fā)表的研究成果稱,生醫(yī)中心開發(fā)的肝基因微陣列芯片(Liver2k)獲得重點突破,目前已完成1.6萬點基因測試,近期將完成3萬到4萬點基因芯片,開發(fā)全世界密度最高的基因芯片。
工研院生醫(yī)中心表示,該公司日前完成的肝基因微陣列基因芯片,包含1752點人類正常成人、胎兒及疾病相關(guān)肝細(xì)胞基因,另有60點用于品質(zhì)檢驗控制組噴點,已涵蓋目前人類99.8%的已知基因。
工研院生醫(yī)中心通過技術(shù)授權(quán)廠華聯(lián)生技公司的合作,將把這項產(chǎn)品移轉(zhuǎn)到該公司。華聯(lián)自去年成立后,已陸續(xù)完成2000點、4000點及6000點的基因晶片測試,預(yù)計今年7月完成3萬點全人類基因晶片。
業(yè)界估計,2004年全球高密度基因晶片需求約200萬片,全球基因晶片大廠Affymetrix公司和Agilent公司都是在今年2月才推出半人類基因晶片產(chǎn)品,且每片售價高達(dá)400美元至800美元,華聯(lián)的晶片通過生醫(yī)中心技術(shù)合作,每片售價可控制在100美元以下。
自從基因芯片技術(shù)產(chǎn)生以來,大量的生物數(shù)據(jù)需要分析,這些數(shù)據(jù)大多規(guī)格化之后以矩陣的形式表示和存儲,俗稱 DNA 微陣列矩陣或基因表達(dá)數(shù)據(jù)矩陣。一般的聚類是根據(jù)數(shù)據(jù)的全部屬性將數(shù)據(jù)聚類,這種聚類方式稱為傳統(tǒng)聚類。傳統(tǒng)聚類只能尋找全局信息,無法找到局部信息,而大量的生物學(xué)信息就隱藏在這些局部信息中。為了尋找在基因芯片數(shù)據(jù)中隱藏的局部信息,人們提出了雙聚類的概念。
雙聚類算法是同時對行和列進(jìn)行聚類,目的是為了找出基因集在條件集下有緊密聯(lián)系的子矩陣,這樣的子矩陣就稱為雙聚類。
上圖是一個基因表達(dá)矩陣的普通聚類(左一、左二)和雙聚類(右圖)對比。微陣列數(shù)據(jù)允許同時檢測在不同條件下的不同基因行為。對于一系列條件,每一基因都有對應(yīng)的表達(dá)譜(左一),這個表達(dá)譜可以被視為這一基因?qū)?yīng)這一系列條件的屬性表達(dá)譜。相反,在同一條件下,不同基因的表達(dá)水平所形成的向量或集合被稱為條件表達(dá)譜(左二)。一個 gene cluster(左一)必須包括所有的列,一個 condition cluster(左二)必須包括所有的行,而一個雙聚類 Biclusters 對應(yīng)的是行和列的任意子集。從圖中,我們也可以看出在雙聚類的算法中,基因或條件既可以屬于多個簇(雙聚類),也可以不在任何簇中,簇間也可以存在重疊區(qū)。
因為傳統(tǒng)的單聚類算法應(yīng)用到基因表達(dá)數(shù)據(jù)中得到的結(jié)果通常反映了所有條件下部分基因組的相關(guān)性,或部分條件組下的所有基因的相關(guān)性,但是大部分基因通常只在部分條件集下具有表達(dá)相關(guān)性。在基因表達(dá)分析中,具有相似表達(dá)趨勢而非相似表達(dá)值的基因在生物學(xué)過程中表現(xiàn)出協(xié)同調(diào)控,即變化相關(guān)的雙聚類對于生物學(xué)更有意義。因此,雙聚類不關(guān)心某一基因的具體數(shù)值,而是更關(guān)心某些基因是否在某些條件下呈現(xiàn)共同變化趨勢。所以采用雙聚類能夠?qū)W⒂趯ふ亿厔菀恢碌碾p聚類,從而找到對生物學(xué)更有意義的基因,即關(guān)鍵基因。
上圖為 Unibic 雙聚類算法的流程圖。Unibic 算法的基本思路是:首先將基因表達(dá)數(shù)據(jù)矩陣作為輸入,構(gòu)建索引矩陣,然后隨機(jī)挑選任意兩行并求其最長的公共序列長度,若兩行之間的公共序列長度滿足預(yù)先設(shè)置的閾值,則得到了初始的雙聚類種子。緊接著對初始的雙聚類種子進(jìn)行擴(kuò)展,得到完整的雙聚類。
不同算法初始雙聚類的設(shè)定不一樣,有的是直接采用整個原始矩陣(基因表達(dá)數(shù)據(jù)矩陣),然后通過刪減行列不斷靠近目標(biāo)函數(shù)值的方式來得到最終的雙聚類,如 CC 雙聚類算法。為了反映出原始矩陣數(shù)值的相對變化趨勢,可構(gòu)造原始矩陣對應(yīng)的索引矩陣來找到變化相關(guān)的雙聚類種子。下圖是我從某文拿到的原始矩陣數(shù)據(jù):
構(gòu)造索引矩陣的原因:(1)索引矩陣可以反應(yīng)數(shù)值大小的變化。(2)求索引矩陣行對之間的最長公共子序列可以得到基因之間具有順序一致表達(dá)的最大條件集。
求索引矩陣行對之間的最長公共序列的原因:這里可以將兩個基因行之間的最長公共序列看做兩個基因的相似度,那么如果最長公共序列短,則認(rèn)為這兩個基因僅在很少的條件下處于共同變化的情況,則他們的相關(guān)性低;反之,如果這兩個基因行間的最長公共序列長,則說明他們的相似度高。如果它們在很多條件下的表達(dá)值都處于同增同減的情況,那么它們很可能屬于同一個趨勢一致的雙聚類。下圖是圖3對應(yīng)的索引矩陣:
索引矩陣的求法:
設(shè)為原始矩陣, 為索引矩陣,其中 ,當(dāng)且僅當(dāng)? 是A中第? 行中第? 小的元素,即按表達(dá)值先升序排序,表達(dá)值的排列號作為表達(dá)值在索引矩陣所對應(yīng)的數(shù)值。
(1)以第一行為例,我們先將第一行 ?的元素進(jìn)行排序;(2)取排列后元素的列下標(biāo)作為索引矩陣的數(shù)值,構(gòu)造索引矩陣。然后我們就能得到如圖4所示的索引矩陣。構(gòu)造索引矩陣的方法如圖6所示:
得到索引矩陣之后,我們再任意選擇兩行并通過LCS 算法 計算兩行之間的最長公共序列,得到一個雙聚類種子(如圖7所示),這里我們就選擇第一行和第二行。這里可以看出我們的基因(行)是呈現(xiàn)單調(diào)遞增的趨勢,也就是嚴(yán)格保序。
因為目前得到的種子是從索引矩陣中任取兩行求得的,有可能會漏掉與種子中的基因同樣滿足最長公共子序列長度且超過顯著長度的基因。所以,我們要遍歷索引矩陣中除初始種子兩行之外的所有行,求出與種子中第一個基因所對應(yīng)的行的最長公共序列,挑選其中保持序列長度最長的行所對應(yīng)的基因,將這個基因添加到種子基因集合中構(gòu)成最終雙聚類種子。也就是說,最終的雙聚類種子是由3個基因(3行)組成,且滿足 嚴(yán)格保序 ??赡艿那闆r如下圖所示:
雖然最終的雙聚類種子是高度滿足趨勢一致的雙聚類,但是雙聚類中基因和條件的數(shù)量太少,而雙聚類需要一定的行列數(shù)支持。為了擴(kuò)展雙聚類,可以通過降低一致度來添加相關(guān)行或者列,最后使得雙聚類表達(dá)值呈現(xiàn) 大致一樣的變化趨勢 。
首先,作者以貪婪的方式一次加一行,直到保持序列的子矩陣的行數(shù)大于列數(shù)。這時候的雙聚類依然是嚴(yán)格保序的。如圖9所示:
在擴(kuò)展行之后,得到依舊嚴(yán)格保序的雙聚類的基礎(chǔ)上,滿足錯誤率(這里的個人理解是指添加列之后雙聚類保持趨勢的狀態(tài),?越接近0表示雙聚類更嚴(yán)格保序,?越接近1表示雙聚類不保序)的情況下,一次重復(fù)添加一個新的列,直到?jīng)]有新的列為止。此時得到的雙聚類是 近似保持趨勢 的雙聚類。如圖10所示:
在列擴(kuò)展之后,因為之前的行數(shù)并未全部擴(kuò)展完,所以還需要繼續(xù)對行擴(kuò)展,滿足錯誤率 ?的條件,直到?jīng)]有可用的行。這時就得到一個完整的雙聚類。這個雙聚類是滿足 近似保持趨勢 的。
參考文獻(xiàn)
Wang Z , Li G , Robinson R W , et al. UniBic: Sequential row-based biclustering algorithm for analysis of gene expression data[J]. Rep, 2016, 6(1):23466.
本文地址:http://www.mcys1996.com/zhongyizatan/69176.html.
聲明: 我們致力于保護(hù)作者版權(quán),注重分享,被刊用文章因無法核實真實出處,未能及時與作者取得聯(lián)系,或有版權(quán)異議的,請聯(lián)系管理員,我們會立即處理,本站部分文字與圖片資源來自于網(wǎng)絡(luò),轉(zhuǎn)載是出于傳遞更多信息之目的,若有來源標(biāo)注錯誤或侵犯了您的合法權(quán)益,請立即通知我們(管理員郵箱:douchuanxin@foxmail.com),情況屬實,我們會第一時間予以刪除,并同時向您表示歉意,謝謝!
上一篇: 日本學(xué)者發(fā)現(xiàn)熬夜使生物鐘紊亂的原因
下一篇: 安徽成功將1位供者器官移植給3位患者