發表文章

目前顯示的是 6月, 2018的文章

Matplotlib 中文顯示

圖片
若您覺得文章寫得不錯,請點選文章上的廣告,來支持小編,謝謝。 筆者是參考此篇文章:「 解決Python 3 Matplotlib與Seaborn視覺化套件中文顯示問題 」,筆者只記錄和該文章不同的地方。因為筆者在Anaconda 內建了好幾個virtual environment(虛擬環境),於是照著文章內容來設定時,皆無法正確顯示中文字。仔細想一想後,發現筆者需要依照下面兩個步驟來設定才能正常顯示中文字: 1. 修改virtual enviroment 環境的 matplotlibrc 設定檔 筆者是用Windows系統,路徑如下: C:\Users\您的使用者名稱\envs\虛擬環境名稱\Lib\site-packages\matplotlib\mpl-data 筆者用Notepad++開起來修改內容: 2. 刪除.matplotlib快取資料夾 成功。

使用OpenSource打造一個聊天機器人 Part 1:Word2Vec

圖片
若您覺得文章寫得不錯,請點選文章上的廣告,來支持小編,謝謝。 最近筆者在尋找NLP的套件時,發現這個 https://github.com/zake7749/Chatbot 的專案,於是將它給git clone下來 筆者是使用VS Code加上python 3.6的版本,所需要的套件有 gensim https://github.com/RaRe-Technologies/gensim fuzzywuzzy https://github.com/seatgeek/fuzzywuzzy BeautifulSoup https://pypi.python.org/pypi/beautifulsoup4 jieba 结巴中文分词 https://github.com/fxsjy/jieba 依照專案的說明,需要先建立訓練好的中文詞向量,此部分筆者參考此篇文章「 以 gensim 訓練中文詞向量 」 取得語料(corpus) 筆者所使用的資料集是 維基百科2018/03/01的文章備份資料 ,而 維基百科的中文資料集在此 。再來git clone 此專案 https://github.com/zake7749/word2vec-tutorial ,使用此專案的程式 py wiki_to_txt.py zhwiki-20180301-pages-articles.xml.bz2 這需要一點時間將文章從xml檔案抽出來。 接著使用 OpenCC ( Windows系統請至此下載 )將所有文章轉成繁體字。 opencc -i wiki_texts.txt -o wiki_zh_tw.txt -c s2tw.json 斷詞並去除停用詞(Stop word) py segment.py 訓練出word2vector的model py train.py 訓練時間在Lenovo ThinkPad T440 Core i7-4500U跑了約五十分鐘。 (註:因為在gensim出現了MemoryError所以筆者將Word2Vector的min_count設為10,也就是忽略出現次數少於10的詞。) 而訓練好的詞向量能做什麼呢?請先看下圖 詞向量的用意是將一個詞轉換成空間上的一個點,...