實用的 ncRNA 資料庫

2012年6月26日 星期二
0 意見
自己準備 non-coding RNA (ncRNA) 的清單未嘗不可。讓我們來想像一下準備的步驟。一,從表現量的資料中過濾出可靠的轉錄物,二,找出這些轉錄物的座標,三,比對已知的蛋白質的對應的位置,四,分離出 protein-coding transcript 與 non-coding transcript。然而當中最麻煩的步驟可能就是找出所有已知蛋白質的資訊,因為這需要蒐集各大資料庫的蛋白質註記,還有令人白髮的諸多資料前置處理的程序。

建立自己的清單還是相當重要,不過若是資料來源相當的可靠(自己動手做也比不上人家的話),或者只是想初步檢驗問題的潛力,那麼使用別人已建立好的資源可能會是幫助自己研究過程更有效率的辦法之一。

在 2008 年,John S.Mattick 的實驗室建立了 NRED 資料庫,全名是 Noncoding RNA Expression Database。這個資料庫厲害之處在於不僅展示自己實驗室得到的數據,還搜刮了 GNF 與 Allen Brain Atlas 兩個大型資料庫的資訊,前者擁有 44,775 筆人類、36,182 筆老鼠的 transcript 的資料,後者則藏有成鼠大腦裡大約兩萬筆 transcript 表現量的資料。看來已是相當豐富。

他們將這些蒐集而來的轉錄物和底下三個來源的蛋白質資料做比對: Refseq [1] , MGC [2] , UCSC known genes [3] 。除此之外,他們也利用 CRITICA 演算法 [4] 來預測轉錄物有多少 protein-coding 的潛在能力。剩下的轉錄物,若沒有比對到已知的 ncRNA 就會被歸類為 'Unknown',比對到已知的 ncRNA 的話則歸類為 'noncoding'

NRED 擁有很貼心的介面,設計了許多過濾器(filter)。表現量: P-values, B-statistics, q-values。 fold change:M-values。表現量的強度: A-values, Affymetrix present/absent calls。另外還提供了許多有助於研究的資訊,如 transcript 有無 spliced,有沒有 PhastCons 的 conservation 分數,有沒有 RNAz 預測的二級結構等等。也提供了關於 sense, cis-antisense 等資訊。

決定要拿這個資料庫裡的資料來玩一陣子了。


[1] Pruitt, K.D., Tatusova, T. and Maglott, D.R. (2005) NCBI Reference Sequence (RefSeq): a curated non-redundant sequence database of genomes, transcripts and proteins. Nucleic Acids Res, 33, D501-504.
[2] Gerhard, D.S., Wagner, L., Feingold, E.A., Shenmen, C.M., Grouse, L.H., Schuler, G., Klein, S.L., Old, S., Rasooly, R., Good, P. et al. (2004) The status, quality, and expansion of the NIH full-length cDNA project: the Mammalian Gene Collection (MGC). Genome Res, 14, 2121-2127.
[3] Hsu, F., Kent, W.J., Clawson, H., Kuhn, R.M., Diekhans, M. and Haussler, D. (2006) The UCSC Known Genes. Bioinformatics, 22, 1036-1046.
[4] Badger, J.H. and Olsen, G.J. (1999) CRITICA: coding region identification tool invoking comparative analysis. Mol Biol Evol, 16, 512-524.


閱讀更多 »

淺論分辨蛋白質編碼基因和 ncRNA 的困難

2012年6月25日 星期一
0 意見
人類擁有超過三億個鹼基對,然而卻只有 2.3% 的部份能夠轉錄出 mRNA。這讓人們對於那些最終未能轉成蛋白質的 DNA 區域感到好奇,它們的存在有什麼作用呢?甚至於有些科學家還以 junk DNA 形容這些區域。直到 2005 一篇發表在 Science 的研究,指出了其實細胞內有大量不在預期中的轉錄產物,而這些轉錄產物絕大多數似乎都不會成為蛋白質,了解到這項發現的重要性,於是人們開始以「暗物質」(Dark matter ) 等引人遐想的名稱來形容這些物質 [1]。

毫無意外地,自那時候起便開始有了許多針對這些物質的研究。也因此出現了許多新的類別,比如: microRNA, PIWI-associated RNAs, endogenous small interfering RNAs ...等。而之後科學家在透過大規模地實驗發現長度較長的 (超過 200 nt) noncoding RNA (ncRNA) 似乎是這些「暗物質」的主要成份,研究結果也暗示這些長的轉錄產物可能是之後短的、具功能的 ncRNAs 的 precursor [2]。

然而這類的研究也並非總是一帆風順。有許多標記上的問題需要面對。怎麼說呢?在當時,老鼠的基因體中有 33% 的轉錄產物被標記為 noncoding,然而換成了人類的基因體,卻只有 7% 的轉錄產物被標記為 ncRNAs。 26% 是很大的差異,而這樣的差異也凸顯了將長 ncRNA 與 mRNA 清楚分類的困難度。

底下,筆者就會針對六種不同的策略,剖析科學界在區分 protein-coding 與 noncoding RNAs 上所面臨的混沌與挑戰。


策略一: Open reading frame 長度
有鑑於超過 95% 的蛋白質擁有超過 100 aa 的長度,所以FANTOM consortium 原本使用 300 nt,也就是 100 codons 的長度作為門檻,但誰都知道這樣是很粗糙的辦法。一些已知的具功能的 ncRNA 如 H19, Xist, Mirg, Gtl2 都會因此被剔除掉。另一方面,也有大約近 3700 個蛋白質會小於這麼門檻。


策略二: ORF conservation
科學界普遍存在的一種假設是,若 ORF 缺乏 conseravtion,則其「沒有功能」的可能性很高。一些常用的計算 ORF conservation 的工具有 BLASTX. Pfam, rsCDS, SUPERFAMILY。其它還有一些加入了跨物種資訊的計算工具,包括 CSTminer, CRITICA 等。這種方法的限制在於現有蛋白質資料庫的「完備程度」和「準確程度」。舉例來說, Xist 在 1992 年被確認為具功能性的 ncRNA 之前,被錯誤地歸類在蛋白質當中,時間長達十五年之久。另外,以 conservation 為依據也可能造成誤判,理由是一些 ncRNAs 可能是從 protein-coding 基因演化而來,因此可能留有 mRNA 的遺跡。比如說, Xist RNA 基因便是一個 protein-coding 基因 pseudogenization 後的結果 [3]。


策略三:Structural approaches
利用 conserved predicted RNA 的二級結構作為判斷 ncRNA 的依據。常用的工具有 QRNA, RNAz, EvoFOLD 等。然而這種方法很容易造成許多誤判,而且,其實 mRNA 裡頭也擁有許多 conserved 二極結構(尤其是 3'UTR)。


策略四:實驗手段
實驗室利用 In vitro translation assays 來鑑定一個 ORF 有無轉譯成為一個蛋白質。另一種方法是評估一個轉錄產物是否與 polysomes 緊密連結(雖然這種方法仍不是很可靠)。實驗手段很可能是所有手段裡最為可靠的(直覺上),然而在解讀這些實驗結果時我們仍須特別小心。原因是有些研究結果顯示, in vitro 中的肯定結果,在 in vivo 的情況下卻未能偵測到應該有的蛋白質。而另一方面,in vitro 實驗中的負面結果,我們也不能信心滿滿地百分之百地保證 in vivo 也能重複見到一樣的事情。


策略五:Artifact 過濾
舉例來說,FANTOM3 consortium 利用了很嚴謹的條件,包括 5'end 與 3'end 的 CAGE signal strength 和需吻合 polyadenylation 等,將原來的三萬多條 ncRNA 過濾到只剩三千六百多條 [4]。還有方法將那些會與另一股會產出 mRNA 重疊到的 ncRNA 通通丟棄。可想而知,若按照後者辦法,現在很熱門的 anti-sense transcript 等研究通通都無法做了。


策略六:綜合辦法
在 2006, 2007 年有兩個方法不約而同的使用了 SVM,透過學習 peptide length, amino acid composition, protein homologs, secondary structure, protein alignment information 等特徵,來預測 protein-coding 的機率值 [5,6]。這是一個將生物問題成功重塑為機器學習問題的好故事,也都刊上了很好的期刊。然而,光依賴(黑盒子)機器提供的預測數據,我們是無法對於核心問題 ─ protein-coding gene 與 ncRNA 之不同,有更清楚深入的了解的。


結論:
近來人們在多細胞和單細胞生物體內觀察到一種神奇的現象,那就是有些轉錄產物不僅可以以蛋白質的角色進行任務,也可以以 RNA 的角色執行工作。例子包括人類的 steroid receptor activator,果蠅的 Oskar mRNA,或者是 E.Coli 的 SgrS RNA。這些觀察都在挑戰著科學家之前對於轉錄產物的認知。RNA 事實上是可以有雙重角色的,一個是當它為蛋白質時擁有的,另一個是當它以 RNA 的角色出現時擁有的。這樣的結果衝擊人們熟悉的二分法,理論開始有了修補的需要。毫無疑問地,未來關於 ncRNA 的研究數量會更加速地成長,刺激人們的想像,開拓更多知識的疆土。眼前看來有無窮盡的寶藏即將開展。然而讓我們在此稍作歇息,拍拍肩上的灰塵,深呼吸,然後問問自己,你想出一個好問題了嗎?


[1] In the forests of RNA dark matter. Science, 2005
[2] RNA maps reveal new RNA classes and a possible function for pervasive transcription. Science, 2007
[3] The Xist RNA gene evolved in eutherians by pseudogenization of a protein-coding gene.Science, 2006
[4] The transcriptional landscape of the mammalian genome. Science, 2005
[5] Distinguishing protein-coding from non-coding RNAs through support vector machines. PLoS Genet, 2006
[6] CPC: Assess the protein-coding potential of transcripts using sequence features and support vector machine. Nucleic Acids Res, 2007

photo credit: NASA's Marshall Space Flight Center via photo pin cc
閱讀更多 »
 

Categories

 

© 2010 取火之路, Design by DzigNine
In collaboration with Breaking News, Trucks, SUV