利用 partykit 進行遞迴區分 (recursive partitioning)

2011年11月19日 星期六
0 意見
遞迴區分 (Recursive partitioning) 是一種多變量分析的統計方法。遞迴區分,基於一些可二分的 (dichotomous)相依變數,試圖建立一個可以正確分類成員的決策樹。

雖然遞迴區分多用於醫療診斷測試,但其實它的應用程度相當廣泛。

相較於迴歸分析會建立一個公式,讓醫療照護者從中計算一個病患擁有疾病的機率;遞迴區分所建立的規則像是「如果病患身上有 x, y, 或 z, 那他可能會得了 q 疾病」

R 當中的 rpart 套件可以幫你做遞迴區分。 Torsten Hothorn 及 Achim Zeileis 進一步實作了擴充的工具組,稱作 partykit,可以幫助呈現、摘要以及視覺化所得模型的樹狀結構。

底下,我們會使用 HELP 資料,分類成員是否「無家可歸」(homeless)。

ds = read.csv("http://www.math.smith.edu/r/data/help.csv")
library(rpart); library(partykit)
ds$sub = as.factor(ds$substance)
homeless.rpart = rpart(homeless ~ female + i1 + sub + sexrisk + mcs +
  pcs, method="class", data=ds)
plot(homeless.rpart)
text(homeless.rpart)



好極了,有點樣子了 (儘管有點陽春,但沒關係,待會我們會美化它)。我們可以用指令 printcp() 將分類樹的產物顯示出來。

printcp(homeless.rpart)


接著我們要利用 partykit 套件製作漂亮的圖形。 注意我們使用了 plot.party() as.party(),強迫 rpart 物件轉成適當的格式。
 
plot(as.party(homeless.rpart), type="simple")


你也可以將 type="simple" 移掉,看一看終端節點 (terminal node) 的分類情況。

plot(as.party(homeless.rpart))



想要知道更多的資訊和更多迷人的圖片,不妨參考此文件。文件裏頭有取出每個中間節點的 p-value 的範例。

相關資源:
Quick-R: http://www.statmethods.net/advstats/cart.html
消息來源: R-bloggers
閱讀更多 »

你看過 R 食譜了沒?

0 意見
Yanchang Zhao 於 R-bloggers 上介紹了一個學習 R 的好網站 :  http://code.ca-net.org/R%20Cookbook。基於不藏私的理念,站主想將此分享給欲學習 R 的人們。

使用 R cookbook,你可以:
  • 藉由 RSQLiteRMySQLRdbiPgSQLRODBC
  • 您可以存取資料庫
  • 讀取與寫入資料
  • 日期/時間變數
  • 繪圖
  • 空間資訊 (Spatial data)
  • 除錯 (Debugging)

筆者非常感激裏頭精簡實用的程式碼,往往能幫助筆者很快地製作出渴望的圖表。相信您也能從中獲益許多。

更多相關資源:
RDataMining:  http://www.rdatamining.com 
Twitter: http://www.twitter.com/RDataMining
Group on Linkedin: http://group2.rdatamining.com

photo credit: Βethan via photo pin cc
閱讀更多 »

美女科學家對於人類新生基因起源的觀點

2011年11月11日 星期五
0 意見

2011 一月,
Aoife McLysaght 在都柏林的一場演講
在最新一期的 PLoS Genetics,愛爾蘭的演化生物學家 Aoife McLysaght 寫下了她對於人類新生基因 (De novo gene) 起源的觀點。(PLoS Genetics, 2011)

相較於其它對於此一問題的答案,比如 exon shuffling, tandem duplication, retrocopying, segmental duplication 以及 genome duplication。Aoife McLysaght 的答案與研究的方式顯然很與眾不同(也很直接)。

她試著從分析研究其他靈長類的非編碼區序列,找出最有可能的新生基因。

除了在科學上的表現,筆者(害羞地)認為 Aoife McLysaght 美的簡直就像是好萊塢的明星。不相信的話請看此影片(youtube)

閱讀更多 »

將 DNA 重新放入 DNA 甲基化裡

2011年10月29日 星期六
0 意見

長期以來, DNA 甲基化模式的由來一直都是個謎。最近的一個研究結果帶來了重大的突破, DNA 本身的序列便是決定此模式的重要因素。

引用 Adrian Bird 的說法,「 Dirk Schubeler 以及他的同事們進行了一個『優美的』實驗,建立了掌管 DNA 序列和甲基化模式之間關係的規則。」

閱讀更多 »

利用 R 製作台灣地圖

2011年10月15日 星期六
0 意見
photo credit: ClipArt ETC
這一篇文章的重點有二:

  • 提供製作台灣地圖的 R 指令以及相關資源
  • 顧慮到色盲人士的視覺效果下,給與色彩配製上的建議、方法


話不多說,R 的指令為:


閱讀更多 »

將資料視覺化的價值

2011年10月12日 星期三
0 意見
Column Five 製作的影片,「將資料視覺化的價值」 ( The Value of Data Visualization ),看起來真是可口啊。(棒極了)



The Value of Data Visualization from Column Five on Vimeo.

筆者非常喜歡影片使用簡約的顏色,富有創意的場景轉換,以及他們試圖傳達的核心概念。

視覺化資料的價值在於有更好的溝通,帶來更棒的創新!

DATA needs DESIGN

閱讀更多 »

歷年諾貝爾獎獎落何處?讓圖表告訴您

0 意見

Photo credit: Wikipedia
自 1901 年起,除了 1940 至 1942 之外 (因為德軍佔領挪威),每年頒發的諾貝爾獎都落入那些國家的手中呢?

美國商業週刊《富比士》喬恩布魯納 ( Jon Bruner ) 製作了一張漂亮清楚的圖表,每個點代表獲取一個獎項。呈現出主要得獎國的獲獎情形,此外還加入了近來年有加速獲獎的日本和中國。
閱讀更多 »

為什麼富含鳥嘌呤的DNA序列會妨礙轉錄

2011年10月6日 星期四
0 意見

人們已知許多的 DNA 序列因為能夠形成特別的結構因此影響轉錄,從而參與了基因表現量的調控甚或是基因體的穩定性。在眾多可能的序列之中,富含鳥嘌呤 (Guanine) 的 DNA 片斷因為在近年於免疫及端粒上的研究,逐漸為人所知,重要性日益增加。而在不同環境條件的測試下研究人員發現了,轉錄機制的阻撓 (transcription blockage) 很可能是由於形成了不尋常的、穩定的 RNA/DNA 混合 (hybrid)。

閱讀更多 »

剪開細胞多能性的奧祕

2011年10月3日 星期一
0 意見

photo credit:Cell
擁有萬能分化性(pluripotency)的細胞,因為具有轉化成其它超過兩百種細胞的能力,被寄予厚望成為未來治療疾病的新方法,可能用來訂做並取代損壞的組織。

就在今年(2011),嘉伯特 (Gabut) 與他的同事們的研究帶來了一則突破性的發展。他們找到了一個能直接調控負責多能性功能的基因(pluripotency genes)的表現 — 新的拼接變形 (splice variant) FOXP1。 

閱讀更多 »

如何以科學讀者的身分了解科學

2011年9月25日 星期日
0 意見

photo credit:科學人

林翰昌的"如何以科幻讀者的身分了解科幻"一文涵蓋廣泛,深入淺出,無論是試圖從理論與實務端了解科幻的人都應能於當中獲得啓發。儘管以「科幻」為名,然而竊以為當中所提許多論點皆可以作為「科學」研究者比較參考,進而提升在自身研究領域中的素養。

相信讀畢該篇文章的科學讀者自會產生一定程度的共鳴,與自己的處境連結並得到啓發,竊在此便不一一舉出文中的要義。竊只想就「閱讀數量」、「正典」與「建立自己的科學史」提出一點點心得。
閱讀更多 »

知性優雅的 BBC Knowledge

2011年9月21日 星期三
0 意見
優雅的氣氛籠罩著影片
當我們說到重新歸零,從零開始,指的是一個人下定主意脫胎換骨,然而對這部推銷 BBC Knowledge 頻道與雜誌的影片來說,則是所有畫面推進的核心。

無論是行星軌道、地球上的網路、細胞核的組成⋯影片都巧妙地運用零的「圓形」,佈置在影片的中心,踏著優雅的步伐充滿趣味地展現出人們知悉的科學事實。尤其是從 information is everywhere, and is there to be shared 到基因體複製,再到時光旅行。整個橋段畫面的轉換更是精彩巧妙。
閱讀更多 »

知識結合藝術般的呈現,是最美麗的境界

2011年9月18日 星期日
0 意見

當提到了科學新聞或科學影片,你的心中會浮現怎樣的畫面呢?樸素的畫面,單調的故事情節,缺乏美感和動人的元素?然而這些都不會在班傑明亞瑟 (Benjamin Arthur) 的作品裡出現。

羅伯特庫魯威希 (Robert Krulwich) 是國家公共廣播 (National Public Radio,簡稱 NPR)  的專欄作家,擅長深度剖析複雜事務。他與動畫師班傑明亞瑟的合作帶來了許多精彩的科學影片。其中最受人激賞與引發最多討論的,無非就是"為什麼我們無法走直線?"了。這部影片自從 2010-11-22 上傳 youtube 後至今,已經有十七萬的點閱數; 優雅、有趣、故事裡的口白帶著一絲神祕,使得這部影片大獲成功而令人印象深刻。

閱讀更多 »

怎樣的生命科學課程才算完滿

2011年9月16日 星期五
1 意見

怎樣的生命科學課程才算完滿?特別是針對研究所的學生而言,面臨的難題可不少,除了資訊爆炸,系統化的教學內容趕不上研究成果累積的速度之外,現代的生物醫學研究更需要跨領域的知識與技能以解決眼前的題目。而使情況更糟糕的是,調查發現傳統的系統生物學、生物化學、分子生物學⋯等課程的設計幾年來都維持不變,除了學會了使用 PowerPoint 和 Electures 。


閱讀更多 »
 

Categories

 

© 2010 取火之路, Design by DzigNine
In collaboration with Breaking News, Trucks, SUV