雲林SONG

發表文章

目前顯示的是 6月, 2018的文章

Matplotlib 中文顯示

- 6月 23, 2018

若您覺得文章寫得不錯，請點選文章上的廣告，來支持小編，謝謝。筆者是參考此篇文章：「解決Python 3 Matplotlib與Seaborn視覺化套件中文顯示問題」，筆者只記錄和該文章不同的地方。因為筆者在Anaconda 內建了好幾個virtual environment(虛擬環境)，於是照著文章內容來設定時，皆無法正確顯示中文字。仔細想一想後，發現筆者需要依照下面兩個步驟來設定才能正常顯示中文字： 1. 修改virtual enviroment 環境的 matplotlibrc 設定檔筆者是用Windows系統，路徑如下： C:\Users\您的使用者名稱\envs\虛擬環境名稱\Lib\site-packages\matplotlib\mpl-data 筆者用Notepad++開起來修改內容： 2. 刪除.matplotlib快取資料夾成功。

使用OpenSource打造一個聊天機器人 Part 1：Word2Vec

- 6月 20, 2018

若您覺得文章寫得不錯，請點選文章上的廣告，來支持小編，謝謝。最近筆者在尋找NLP的套件時，發現這個 https://github.com/zake7749/Chatbot 的專案，於是將它給git clone下來筆者是使用VS Code加上python 3.6的版本，所需要的套件有 gensim https://github.com/RaRe-Technologies/gensim fuzzywuzzy https://github.com/seatgeek/fuzzywuzzy BeautifulSoup https://pypi.python.org/pypi/beautifulsoup4 jieba 结巴中文分词 https://github.com/fxsjy/jieba 依照專案的說明，需要先建立訓練好的中文詞向量，此部分筆者參考此篇文章「以 gensim 訓練中文詞向量」取得語料(corpus) 筆者所使用的資料集是維基百科2018/03/01的文章備份資料，而維基百科的中文資料集在此。再來git clone 此專案 https://github.com/zake7749/word2vec-tutorial ，使用此專案的程式 py wiki_to_txt.py zhwiki-20180301-pages-articles.xml.bz2 這需要一點時間將文章從xml檔案抽出來。接著使用 OpenCC ( Windows系統請至此下載 )將所有文章轉成繁體字。 opencc -i wiki_texts.txt -o wiki_zh_tw.txt -c s2tw.json 斷詞並去除停用詞(Stop word) py segment.py 訓練出word2vector的model py train.py 訓練時間在Lenovo ThinkPad T440 Core i7-4500U跑了約五十分鐘。 (註：因為在gensim出現了MemoryError所以筆者將Word2Vector的min_count設為10，也就是忽略出現次數少於10的詞。) 而訓練好的詞向量能做什麼呢？請先看下圖詞向量的用意是將一個詞轉換成空間上的一個點，...