自己準備 non-coding RNA (ncRNA) 的清單未嘗不可。讓我們來想像一下準備的步驟。一,從表現量的資料中過濾出可靠的轉錄物,二,找出這些轉錄物的座標,三,比對已知的蛋白質的對應的位置,四,分離出 protein-coding transcript 與 non-coding transcript。然而當中最麻煩的步驟可能就是找出所有已知蛋白質的資訊,因為這需要蒐集各大資料庫的蛋白質註記,還有令人白髮的諸多資料前置處理的程序。
建立自己的清單還是相當重要,不過若是資料來源相當的可靠(自己動手做也比不上人家的話),或者只是想初步檢驗問題的潛力,那麼使用別人已建立好的資源可能會是幫助自己研究過程更有效率的辦法之一。
在 2008 年,John S.Mattick 的實驗室建立了 NRED 資料庫,全名是 Noncoding RNA Expression Database。這個資料庫厲害之處在於不僅展示自己實驗室得到的數據,還搜刮了 GNF 與 Allen Brain Atlas 兩個大型資料庫的資訊,前者擁有 44,775 筆人類、36,182 筆老鼠的 transcript 的資料,後者則藏有成鼠大腦裡大約兩萬筆 transcript 表現量的資料。看來已是相當豐富。
他們將這些蒐集而來的轉錄物和底下三個來源的蛋白質資料做比對: Refseq [1] , MGC [2] , UCSC known genes [3] 。除此之外,他們也利用 CRITICA 演算法 [4] 來預測轉錄物有多少 protein-coding 的潛在能力。剩下的轉錄物,若沒有比對到已知的 ncRNA 就會被歸類為 'Unknown',比對到已知的 ncRNA 的話則歸類為 'noncoding'。
NRED 擁有很貼心的介面,設計了許多過濾器(filter)。表現量: P-values, B-statistics, q-values。 fold change:M-values。表現量的強度: A-values, Affymetrix present/absent calls。另外還提供了許多有助於研究的資訊,如 transcript 有無 spliced,有沒有 PhastCons 的 conservation 分數,有沒有 RNAz 預測的二級結構等等。也提供了關於 sense, cis-antisense 等資訊。
決定要拿這個資料庫裡的資料來玩一陣子了。
[1] Pruitt, K.D., Tatusova, T. and Maglott, D.R. (2005) NCBI Reference Sequence (RefSeq): a curated non-redundant sequence database of genomes, transcripts and proteins. Nucleic Acids Res, 33, D501-504.
[2] Gerhard, D.S., Wagner, L., Feingold, E.A., Shenmen, C.M., Grouse, L.H., Schuler, G., Klein, S.L., Old, S., Rasooly, R., Good, P. et al. (2004) The status, quality, and expansion of the NIH full-length cDNA project: the Mammalian Gene Collection (MGC). Genome Res, 14, 2121-2127.
[3] Hsu, F., Kent, W.J., Clawson, H., Kuhn, R.M., Diekhans, M. and Haussler, D. (2006) The UCSC Known Genes. Bioinformatics, 22, 1036-1046.
[4] Badger, J.H. and Olsen, G.J. (1999) CRITICA: coding region identification tool invoking comparative analysis. Mol Biol Evol, 16, 512-524.
訂閱:
張貼留言 (Atom)
0 意見:
張貼留言
嗨,我是 Seyna。歡迎您的留言 :)