遇到 sparse matrix 是很棘手的事情。原因是一不小心它會使檔案變得肥大,佔盡了記憶體資源,同時拖垮了 script 的效率。
真的是很棘手的敵人。
幸虧已經有許多人研究、提出了一些解決辦法。比如說 R 的 Matrix 套件。
了解格式
比較推薦使用的是 MatrixMarket 格式。
5 5 8
1 1 1.000e+00
2 2 1.050e+01
3 3 1.500e-02
第一行記錄的分別是 rows, columns, entries (列、行、總數)。接著每一列表示每一個 entry。可加入註解,行首以 % 標示,放在檔案的開頭處。更詳細的說明可以見此網頁。
建立 sparse matrix
可參考底下的範例,試著在 R 重複一遍(鍵入 ?sparseMatrix 查更多說明)。
i <- c(1,3:8); j <- c(2,9,6:10); x <- 7 * (1:7)
(A <- sparseMatrix(i,...
用 Jensen-Shannon divergence 計算相似度
張貼者:
Unknown
2012年4月5日 星期四

今天認識到了 Jensen-Shannon divergence,它似乎是一個常用於計算兩個機率分佈間之相似程度的方法。
where and
is Kullback–Leibler divergence
根據維基百科的條目,它又被稱為 information radius...
訂閱:
文章 (Atom)