使用TextRank演算擷取關鍵字(Using TextRank to Extract Keywords)

若您覺得文章寫得不錯,請點選文章上的廣告,來支持小編,謝謝。

本文所提的TextRank演算法是參考 Rada MihalceaPaul Tarau 在 2004所提出的論文"TextRank: Bringing Order into Texts",而此篇論文被引用的次數有逐年增加的趨勢:

TextRank的演算法是在已經產生有權重的圖(Weighted Graph)下進行的,如下圖:

上圖裡,線上的數字(例如 自然 <==5==> 語言 為5)是計算【自然語言】兩個詞再語料中共同出現的次數。假設有下面一段文字:

每天|開心|,|天天|開心|。

那所有詞window size為3之間的共現次數(去除stopwords後再計算)如下表:



然後在使用底下公式不斷地迭代。
公式參數說明:
d:阻尼係數,通常設定為0.85。
Out(Vj):連出去的節點(node)
In(Vj):連進來的節點
WS(Vi):TextRank分數
Wij:節點之間的權重


在論文"TextRank: Bringing Order into Texts"提供了收斂曲線的圖,約20次左右的迭代就會收斂了,如此就可以找出分數比較高的關鍵字了。


參考資料:
[1] TextRank — 文字探勘 — 找出關鍵字 以 八卦版標題為例

沒有留言:

張貼留言