顯示具有 學術 標籤的文章。 顯示所有文章
顯示具有 學術 標籤的文章。 顯示所有文章

你以及你的研究 ─ Richard Hamming

2012年9月2日 星期日
0 意見
「為什麼有些科學家能夠得到具有長遠影響的結果,而其他絕大多數都被遺忘了?」 Richard Hamming 時常問自己這個問題。

在具備高度競爭張力的 Bell 實驗室裡,人們相互競爭、相互學習模仿。綜合超過二十年以上的研究經驗, Richard 在 1986 年的一場演講裡分享了「如何從事屬於你個人的研究」。


當時的錄音帶被謄寫成了逐字稿,題名為 "You and Your Research" (pdf)

Richard Hamming 的這場演講給了我很多的啟發:尤其是在方法學構思題目個人特質等方面,在看了兩遍文稿後,讓我徹底反省過往的毛病,然後進而逐漸改善許多生活實務上的細節。

我利用 impress.js 製作了一個 browser-based 的簡報。

簡報 ─「你與你的研究」




為了便於(自己的)回顧,稍微將長達十幾頁的文字做幾點摘要:

迷思
|
|─ 優秀的科學成果是因為運氣好
|─ 要有好的腦袋才能有優秀的成果


具體的方法 (12原則)
|
|─ 轉變看問題的角度,或,稍微修改原先的問題
|─ 比別人多 10% 的努力
|─ 能夠忍受「不確定」以及「曖昧」狀態 (tolerate ambiguity)
|─ 問自己「什麼是重要的問題」
|─ 分配時間給「偉大的點子」
|─ 口袋裡有 10-20 個重要的問題
|─ 辦公室的門隨時敞開
|─ 發表可作為其他人研究基石的作品 (don't do isolated work)
|─ 不要埋怨工具
|─ 學會寫的好、寫的清楚
|─ 學會給予正式的演講
|─ 學會給予非正式的演講


人格特質
了解你的人格特質,了解你自己。比如,如果你不善於管理時間,因此而讓低效率影響研究的進展,請現在就學會時間管理,或者請專人幫助你。如果你時常因為邋遢的穿著而使別人不懂得尊重你的發言,請學會控制自尊心,下次穿著看起來更符合你專業的服裝出門。


Richard Hamming 是誰?
Richard Hamming 被視為數學與電腦科學領域中最偉大的人物之一,他的貢獻包括 Hamming window, Hamming numbers, Hamming distance ... 。他曾參與製作人類的第一顆原子彈;在 1968 年領取 Turing Award;在電腦科學領域裡擁有超過十本著作。


簡報 ─「你與你的研究」   "You and Your Research" (pdf)   
閱讀更多 »

實用的 ncRNA 資料庫

2012年6月26日 星期二
0 意見
自己準備 non-coding RNA (ncRNA) 的清單未嘗不可。讓我們來想像一下準備的步驟。一,從表現量的資料中過濾出可靠的轉錄物,二,找出這些轉錄物的座標,三,比對已知的蛋白質的對應的位置,四,分離出 protein-coding transcript 與 non-coding transcript。然而當中最麻煩的步驟可能就是找出所有已知蛋白質的資訊,因為這需要蒐集各大資料庫的蛋白質註記,還有令人白髮的諸多資料前置處理的程序。

建立自己的清單還是相當重要,不過若是資料來源相當的可靠(自己動手做也比不上人家的話),或者只是想初步檢驗問題的潛力,那麼使用別人已建立好的資源可能會是幫助自己研究過程更有效率的辦法之一。

在 2008 年,John S.Mattick 的實驗室建立了 NRED 資料庫,全名是 Noncoding RNA Expression Database。這個資料庫厲害之處在於不僅展示自己實驗室得到的數據,還搜刮了 GNF 與 Allen Brain Atlas 兩個大型資料庫的資訊,前者擁有 44,775 筆人類、36,182 筆老鼠的 transcript 的資料,後者則藏有成鼠大腦裡大約兩萬筆 transcript 表現量的資料。看來已是相當豐富。

他們將這些蒐集而來的轉錄物和底下三個來源的蛋白質資料做比對: Refseq [1] , MGC [2] , UCSC known genes [3] 。除此之外,他們也利用 CRITICA 演算法 [4] 來預測轉錄物有多少 protein-coding 的潛在能力。剩下的轉錄物,若沒有比對到已知的 ncRNA 就會被歸類為 'Unknown',比對到已知的 ncRNA 的話則歸類為 'noncoding'

NRED 擁有很貼心的介面,設計了許多過濾器(filter)。表現量: P-values, B-statistics, q-values。 fold change:M-values。表現量的強度: A-values, Affymetrix present/absent calls。另外還提供了許多有助於研究的資訊,如 transcript 有無 spliced,有沒有 PhastCons 的 conservation 分數,有沒有 RNAz 預測的二級結構等等。也提供了關於 sense, cis-antisense 等資訊。

決定要拿這個資料庫裡的資料來玩一陣子了。


[1] Pruitt, K.D., Tatusova, T. and Maglott, D.R. (2005) NCBI Reference Sequence (RefSeq): a curated non-redundant sequence database of genomes, transcripts and proteins. Nucleic Acids Res, 33, D501-504.
[2] Gerhard, D.S., Wagner, L., Feingold, E.A., Shenmen, C.M., Grouse, L.H., Schuler, G., Klein, S.L., Old, S., Rasooly, R., Good, P. et al. (2004) The status, quality, and expansion of the NIH full-length cDNA project: the Mammalian Gene Collection (MGC). Genome Res, 14, 2121-2127.
[3] Hsu, F., Kent, W.J., Clawson, H., Kuhn, R.M., Diekhans, M. and Haussler, D. (2006) The UCSC Known Genes. Bioinformatics, 22, 1036-1046.
[4] Badger, J.H. and Olsen, G.J. (1999) CRITICA: coding region identification tool invoking comparative analysis. Mol Biol Evol, 16, 512-524.


閱讀更多 »

淺論分辨蛋白質編碼基因和 ncRNA 的困難

2012年6月25日 星期一
0 意見
人類擁有超過三億個鹼基對,然而卻只有 2.3% 的部份能夠轉錄出 mRNA。這讓人們對於那些最終未能轉成蛋白質的 DNA 區域感到好奇,它們的存在有什麼作用呢?甚至於有些科學家還以 junk DNA 形容這些區域。直到 2005 一篇發表在 Science 的研究,指出了其實細胞內有大量不在預期中的轉錄產物,而這些轉錄產物絕大多數似乎都不會成為蛋白質,了解到這項發現的重要性,於是人們開始以「暗物質」(Dark matter ) 等引人遐想的名稱來形容這些物質 [1]。

毫無意外地,自那時候起便開始有了許多針對這些物質的研究。也因此出現了許多新的類別,比如: microRNA, PIWI-associated RNAs, endogenous small interfering RNAs ...等。而之後科學家在透過大規模地實驗發現長度較長的 (超過 200 nt) noncoding RNA (ncRNA) 似乎是這些「暗物質」的主要成份,研究結果也暗示這些長的轉錄產物可能是之後短的、具功能的 ncRNAs 的 precursor [2]。

然而這類的研究也並非總是一帆風順。有許多標記上的問題需要面對。怎麼說呢?在當時,老鼠的基因體中有 33% 的轉錄產物被標記為 noncoding,然而換成了人類的基因體,卻只有 7% 的轉錄產物被標記為 ncRNAs。 26% 是很大的差異,而這樣的差異也凸顯了將長 ncRNA 與 mRNA 清楚分類的困難度。

底下,筆者就會針對六種不同的策略,剖析科學界在區分 protein-coding 與 noncoding RNAs 上所面臨的混沌與挑戰。


策略一: Open reading frame 長度
有鑑於超過 95% 的蛋白質擁有超過 100 aa 的長度,所以FANTOM consortium 原本使用 300 nt,也就是 100 codons 的長度作為門檻,但誰都知道這樣是很粗糙的辦法。一些已知的具功能的 ncRNA 如 H19, Xist, Mirg, Gtl2 都會因此被剔除掉。另一方面,也有大約近 3700 個蛋白質會小於這麼門檻。


策略二: ORF conservation
科學界普遍存在的一種假設是,若 ORF 缺乏 conseravtion,則其「沒有功能」的可能性很高。一些常用的計算 ORF conservation 的工具有 BLASTX. Pfam, rsCDS, SUPERFAMILY。其它還有一些加入了跨物種資訊的計算工具,包括 CSTminer, CRITICA 等。這種方法的限制在於現有蛋白質資料庫的「完備程度」和「準確程度」。舉例來說, Xist 在 1992 年被確認為具功能性的 ncRNA 之前,被錯誤地歸類在蛋白質當中,時間長達十五年之久。另外,以 conservation 為依據也可能造成誤判,理由是一些 ncRNAs 可能是從 protein-coding 基因演化而來,因此可能留有 mRNA 的遺跡。比如說, Xist RNA 基因便是一個 protein-coding 基因 pseudogenization 後的結果 [3]。


策略三:Structural approaches
利用 conserved predicted RNA 的二級結構作為判斷 ncRNA 的依據。常用的工具有 QRNA, RNAz, EvoFOLD 等。然而這種方法很容易造成許多誤判,而且,其實 mRNA 裡頭也擁有許多 conserved 二極結構(尤其是 3'UTR)。


策略四:實驗手段
實驗室利用 In vitro translation assays 來鑑定一個 ORF 有無轉譯成為一個蛋白質。另一種方法是評估一個轉錄產物是否與 polysomes 緊密連結(雖然這種方法仍不是很可靠)。實驗手段很可能是所有手段裡最為可靠的(直覺上),然而在解讀這些實驗結果時我們仍須特別小心。原因是有些研究結果顯示, in vitro 中的肯定結果,在 in vivo 的情況下卻未能偵測到應該有的蛋白質。而另一方面,in vitro 實驗中的負面結果,我們也不能信心滿滿地百分之百地保證 in vivo 也能重複見到一樣的事情。


策略五:Artifact 過濾
舉例來說,FANTOM3 consortium 利用了很嚴謹的條件,包括 5'end 與 3'end 的 CAGE signal strength 和需吻合 polyadenylation 等,將原來的三萬多條 ncRNA 過濾到只剩三千六百多條 [4]。還有方法將那些會與另一股會產出 mRNA 重疊到的 ncRNA 通通丟棄。可想而知,若按照後者辦法,現在很熱門的 anti-sense transcript 等研究通通都無法做了。


策略六:綜合辦法
在 2006, 2007 年有兩個方法不約而同的使用了 SVM,透過學習 peptide length, amino acid composition, protein homologs, secondary structure, protein alignment information 等特徵,來預測 protein-coding 的機率值 [5,6]。這是一個將生物問題成功重塑為機器學習問題的好故事,也都刊上了很好的期刊。然而,光依賴(黑盒子)機器提供的預測數據,我們是無法對於核心問題 ─ protein-coding gene 與 ncRNA 之不同,有更清楚深入的了解的。


結論:
近來人們在多細胞和單細胞生物體內觀察到一種神奇的現象,那就是有些轉錄產物不僅可以以蛋白質的角色進行任務,也可以以 RNA 的角色執行工作。例子包括人類的 steroid receptor activator,果蠅的 Oskar mRNA,或者是 E.Coli 的 SgrS RNA。這些觀察都在挑戰著科學家之前對於轉錄產物的認知。RNA 事實上是可以有雙重角色的,一個是當它為蛋白質時擁有的,另一個是當它以 RNA 的角色出現時擁有的。這樣的結果衝擊人們熟悉的二分法,理論開始有了修補的需要。毫無疑問地,未來關於 ncRNA 的研究數量會更加速地成長,刺激人們的想像,開拓更多知識的疆土。眼前看來有無窮盡的寶藏即將開展。然而讓我們在此稍作歇息,拍拍肩上的灰塵,深呼吸,然後問問自己,你想出一個好問題了嗎?


[1] In the forests of RNA dark matter. Science, 2005
[2] RNA maps reveal new RNA classes and a possible function for pervasive transcription. Science, 2007
[3] The Xist RNA gene evolved in eutherians by pseudogenization of a protein-coding gene.Science, 2006
[4] The transcriptional landscape of the mammalian genome. Science, 2005
[5] Distinguishing protein-coding from non-coding RNAs through support vector machines. PLoS Genet, 2006
[6] CPC: Assess the protein-coding potential of transcripts using sequence features and support vector machine. Nucleic Acids Res, 2007

photo credit: NASA's Marshall Space Flight Center via photo pin cc
閱讀更多 »

另一則實驗:G-quadruplex 與轉錄因子 SP1 之結合

2012年3月12日 星期一
0 意見
《核酸研究》 (Nucleic Acids Research) 又刊出了一個關於 G-quadruplex 的文章。標題是「透過體外實驗,非典型的 DNA 結構是轉錄因子 SP1 的結合特徵序列」(A non-canonical DNA structure is a binding motif for the transcription factor SP1 in vitro)   

他們的研究與前人的研究有很大的差別在於,他們所使用的G-quadruplex 候選序列是只會形成兩個平面 (tetrad) 的,而不像之前人們多是採用會形成三個以上平面的候選序列。然而從他們的研究結果中他們認為,這種只會形成兩個平面的 G-quadruplex 在真實的細胞環境下有可能存在。它們被討論的太少了,不應該被如此忽視。   

已有前人展示過鋅手指(zinc-finger)蛋白質和 G-quadruplex 結合的能力。好玩的是,SP1 也是一個鋅手指蛋白質。而透過 DNA 突變的分析實驗,他們展示了 SP1 蛋白質除了辨識雙股 DNA 上的結合序列之外,也會將 DNA 是形成特殊結構的 G-quadruplex 視為結合的另一個對象。   SP1 蛋白質其中一個最短的辨識序列是 5'-GGGCGG-3',擁有相當多的鳥嘌呤(guanine)。他們的研究數據顯示 SP1 的結合位置有高達 77-87% 是和可能形成 G-quadruplex 的位置重疊的。   

更有甚者,之前科學家已發現 G-quadruplex 能夠限制 CpG 核苷酸的甲基化。Sp1 可能會透過和 G-quadruplex 結合,避免 DNA 序列後續的甲基化,達到調控基因的效果。   

「我們的研究展現了人們至今對於 SP1 蛋白質對於辨識結合上仍不了解的特質,未來可能被證明對於調控基因的表現至關重要」Balasubramanian 教授說道。  

原始文章: "A non-canonical DNA structure is a binding motif for the transcription factor SP1 in vitro"
Eun-Ang Raiber, Ramon Kranaster, Enid Lam, Mehran Nikan, and Shankar Balasubramanian Nucl. Acids Res. (2012) 40 (4): 1499-1508.


(本文同步刊載於生資櫥窗 BioWindow)
閱讀更多 »

測序儀大戰:GridION 和 MinION 出陣

2012年3月2日 星期五
0 意見


如果真如新華網的新聞稿所言 (英研製出"USB"基因組測序儀),能在串接的方式在 15 分鐘內以僅僅 5000 美元的代價定序完成人類的基因組,那未來定序儀的戰爭可會非常有趣了。儘管先前 Life technologies 已經率先宣成達到以 1000 美元定序人類基因組的目標 ("Ion Torrent claims to be first with $1K genome sequencer")。

但我不覺得 4% 的錯誤率與產品「一次性的特性」僅是「小小的瑕疵」。畢竟若要真能實際運用到學術研究上頭,相較於其他 I、L 公司不到 1% 的錯誤率,這個英國牛津納米孔技術公司的準確度就有點難以令人接受了。
閱讀更多 »

美女科學家對於人類新生基因起源的觀點

2011年11月11日 星期五
0 意見

2011 一月,
Aoife McLysaght 在都柏林的一場演講
在最新一期的 PLoS Genetics,愛爾蘭的演化生物學家 Aoife McLysaght 寫下了她對於人類新生基因 (De novo gene) 起源的觀點。(PLoS Genetics, 2011)

相較於其它對於此一問題的答案,比如 exon shuffling, tandem duplication, retrocopying, segmental duplication 以及 genome duplication。Aoife McLysaght 的答案與研究的方式顯然很與眾不同(也很直接)。

她試著從分析研究其他靈長類的非編碼區序列,找出最有可能的新生基因。

除了在科學上的表現,筆者(害羞地)認為 Aoife McLysaght 美的簡直就像是好萊塢的明星。不相信的話請看此影片(youtube)

閱讀更多 »

將 DNA 重新放入 DNA 甲基化裡

2011年10月29日 星期六
0 意見

長期以來, DNA 甲基化模式的由來一直都是個謎。最近的一個研究結果帶來了重大的突破, DNA 本身的序列便是決定此模式的重要因素。

引用 Adrian Bird 的說法,「 Dirk Schubeler 以及他的同事們進行了一個『優美的』實驗,建立了掌管 DNA 序列和甲基化模式之間關係的規則。」

閱讀更多 »

將資料視覺化的價值

2011年10月12日 星期三
0 意見
Column Five 製作的影片,「將資料視覺化的價值」 ( The Value of Data Visualization ),看起來真是可口啊。(棒極了)



The Value of Data Visualization from Column Five on Vimeo.

筆者非常喜歡影片使用簡約的顏色,富有創意的場景轉換,以及他們試圖傳達的核心概念。

視覺化資料的價值在於有更好的溝通,帶來更棒的創新!

DATA needs DESIGN

閱讀更多 »

歷年諾貝爾獎獎落何處?讓圖表告訴您

0 意見

Photo credit: Wikipedia
自 1901 年起,除了 1940 至 1942 之外 (因為德軍佔領挪威),每年頒發的諾貝爾獎都落入那些國家的手中呢?

美國商業週刊《富比士》喬恩布魯納 ( Jon Bruner ) 製作了一張漂亮清楚的圖表,每個點代表獲取一個獎項。呈現出主要得獎國的獲獎情形,此外還加入了近來年有加速獲獎的日本和中國。
閱讀更多 »

為什麼富含鳥嘌呤的DNA序列會妨礙轉錄

2011年10月6日 星期四
0 意見

人們已知許多的 DNA 序列因為能夠形成特別的結構因此影響轉錄,從而參與了基因表現量的調控甚或是基因體的穩定性。在眾多可能的序列之中,富含鳥嘌呤 (Guanine) 的 DNA 片斷因為在近年於免疫及端粒上的研究,逐漸為人所知,重要性日益增加。而在不同環境條件的測試下研究人員發現了,轉錄機制的阻撓 (transcription blockage) 很可能是由於形成了不尋常的、穩定的 RNA/DNA 混合 (hybrid)。

閱讀更多 »

剪開細胞多能性的奧祕

2011年10月3日 星期一
0 意見

photo credit:Cell
擁有萬能分化性(pluripotency)的細胞,因為具有轉化成其它超過兩百種細胞的能力,被寄予厚望成為未來治療疾病的新方法,可能用來訂做並取代損壞的組織。

就在今年(2011),嘉伯特 (Gabut) 與他的同事們的研究帶來了一則突破性的發展。他們找到了一個能直接調控負責多能性功能的基因(pluripotency genes)的表現 — 新的拼接變形 (splice variant) FOXP1。 

閱讀更多 »

如何以科學讀者的身分了解科學

2011年9月25日 星期日
0 意見

photo credit:科學人

林翰昌的"如何以科幻讀者的身分了解科幻"一文涵蓋廣泛,深入淺出,無論是試圖從理論與實務端了解科幻的人都應能於當中獲得啓發。儘管以「科幻」為名,然而竊以為當中所提許多論點皆可以作為「科學」研究者比較參考,進而提升在自身研究領域中的素養。

相信讀畢該篇文章的科學讀者自會產生一定程度的共鳴,與自己的處境連結並得到啓發,竊在此便不一一舉出文中的要義。竊只想就「閱讀數量」、「正典」與「建立自己的科學史」提出一點點心得。
閱讀更多 »

知性優雅的 BBC Knowledge

2011年9月21日 星期三
0 意見
優雅的氣氛籠罩著影片
當我們說到重新歸零,從零開始,指的是一個人下定主意脫胎換骨,然而對這部推銷 BBC Knowledge 頻道與雜誌的影片來說,則是所有畫面推進的核心。

無論是行星軌道、地球上的網路、細胞核的組成⋯影片都巧妙地運用零的「圓形」,佈置在影片的中心,踏著優雅的步伐充滿趣味地展現出人們知悉的科學事實。尤其是從 information is everywhere, and is there to be shared 到基因體複製,再到時光旅行。整個橋段畫面的轉換更是精彩巧妙。
閱讀更多 »

知識結合藝術般的呈現,是最美麗的境界

2011年9月18日 星期日
0 意見

當提到了科學新聞或科學影片,你的心中會浮現怎樣的畫面呢?樸素的畫面,單調的故事情節,缺乏美感和動人的元素?然而這些都不會在班傑明亞瑟 (Benjamin Arthur) 的作品裡出現。

羅伯特庫魯威希 (Robert Krulwich) 是國家公共廣播 (National Public Radio,簡稱 NPR)  的專欄作家,擅長深度剖析複雜事務。他與動畫師班傑明亞瑟的合作帶來了許多精彩的科學影片。其中最受人激賞與引發最多討論的,無非就是"為什麼我們無法走直線?"了。這部影片自從 2010-11-22 上傳 youtube 後至今,已經有十七萬的點閱數; 優雅、有趣、故事裡的口白帶著一絲神祕,使得這部影片大獲成功而令人印象深刻。

閱讀更多 »

怎樣的生命科學課程才算完滿

2011年9月16日 星期五
1 意見

怎樣的生命科學課程才算完滿?特別是針對研究所的學生而言,面臨的難題可不少,除了資訊爆炸,系統化的教學內容趕不上研究成果累積的速度之外,現代的生物醫學研究更需要跨領域的知識與技能以解決眼前的題目。而使情況更糟糕的是,調查發現傳統的系統生物學、生物化學、分子生物學⋯等課程的設計幾年來都維持不變,除了學會了使用 PowerPoint 和 Electures 。


閱讀更多 »
 

Categories

 

© 2010 取火之路, Design by DzigNine
In collaboration with Breaking News, Trucks, SUV