本文所提的TextRank演算法是參考 Rada Mihalcea 與 Paul Tarau 在 2004所提出的論文"TextRank: Bringing Order into Texts",而此篇論文被引用的次數有逐年增加的趨勢:
TextRank的演算法是在已經產生有權重的圖(Weighted Graph)下進行的,如下圖:
上圖裡,線上的數字(例如 自然 <==5==> 語言 為5)是計算【自然, 語言】兩個詞再語料中共同出現的次數。假設有下面一段文字:
每天|開心|,|天天|開心|。
那所有詞window size為3之間的共現次數(去除stopwords後再計算)如下表:
然後在使用底下公式不斷地迭代。
公式參數說明:
d:阻尼係數,通常設定為0.85。
Out(Vj):連出去的節點(node)
In(Vj):連進來的節點
WS(Vi):TextRank分數
Wij:節點之間的權重
在論文"TextRank: Bringing Order into Texts"提供了收斂曲線的圖,約20次左右的迭代就會收斂了,如此就可以找出分數比較高的關鍵字了。
參考資料:
[1] TextRank — 文字探勘 — 找出關鍵字 以 八卦版標題為例
參考資料:
[1] TextRank — 文字探勘 — 找出關鍵字 以 八卦版標題為例
沒有留言:
張貼留言