#jieba

Articles tagged with #jieba

結巴分詞解析三部曲, 第三集
How jieba works, part 3 本篇將用 Part 2 介紹的隱藏式馬可夫模型與 Viterbi 演算法將剩下的字 (大、學、與、老、師、討、論、力、學) 分詞。字的隱藏狀態一個人的身體可以有健康、生病的隱藏狀態。那一個字可以有幾種？結巴的程式碼定義了四種隱藏狀態：詞首、詞中、詞尾、以及單獨存在，分別用 B, M, E, S 標示。這四種狀態其實就是字位於詞的不同位置。例如：我: S 『我』只有一個字，所以標示 S 單獨存在。的: S 『的』只有一個字，所以標示...
Aug 19, 20229 min read114
結巴分詞解析三部曲, 第二集
How jieba works, part 2 這篇將解釋何謂馬可夫模型 Markov model、隱藏式馬可夫模型 Hidden Markov model (HMM)、與 Viterbi 演算法。馬可夫模型 Markov model 馬可夫模型是一個用來解釋偽隨機系統的模型。它假設未來事件只受到現在事件影響，不受更早事件影響。範例：假設你是醫生，從你的臨床經驗來看，一個人身體前一天健康、今天也健康的機率是 0.7；前一天健康、今天生病的機率是 0.3；前一天生病、今天健康的機率是 0.4；...
Aug 19, 20223 min read102
結巴分詞解析三部曲, 第一集
How jieba works, part 1 有做過中文自然語言處理 (natural language processing, NLP) 的夥伴們一定都會面對中文分詞的問題：要怎麼把一個句子切成多個詞彙讓電腦理解一個句子的組成。例如『我昨天去上海交通大學與老師討論量子力學』可以被分詞成『我』『昨天』『去』『上海』『交通』『大學』『與』『老師』『討論』『量子』『力學』。但這要如何實現呢？結巴是一個由 Python 實現的中文分詞工具。除了分詞以外也支援關鍵字抽取 (TF-IDF keywo...
Aug 19, 20225 min read289