Skip to main content

Command Palette

Search for a command to run...

#jieba

Articles tagged with #jieba

  1. 結巴分詞解析三部曲, 第三集

    How jieba works, part 3 本篇將用 Part 2 介紹的隱藏式馬可夫模型與 Viterbi 演算法將剩下的字 (大、學、與、老、師、討、論、力、學) 分詞。 字的隱藏狀態 一個人的身體可以有健康、生病的隱藏狀態。那一個字可以有幾種?結巴的程式碼定義了四種隱藏狀態:詞首、詞中、詞尾、以及單獨存在,分別用 B, M, E, S 標示。這四種狀態其實就是字位於詞的不同位置。 例如: 我: S 『我』只有一個字,所以標示 S 單獨存在。 的: S 『的』只有一個字,所以標示...

    Aug 19, 20229 min read114
  2. 結巴分詞解析三部曲, 第二集

    How jieba works, part 2 這篇將解釋何謂馬可夫模型 Markov model、隱藏式馬可夫模型 Hidden Markov model (HMM)、與 Viterbi 演算法。 馬可夫模型 Markov model 馬可夫模型是一個用來解釋偽隨機系統的模型。它假設未來事件只受到現在事件影響,不受更早事件影響。 範例:假設你是醫生,從你的臨床經驗來看,一個人身體前一天健康、今天也健康的機率是 0.7;前一天健康、今天生病的機率是 0.3;前一天生病、今天健康的機率是 0.4;...

    Aug 19, 20223 min read102
  3. 結巴分詞解析三部曲, 第一集

    How jieba works, part 1 有做過中文自然語言處理 (natural language processing, NLP) 的夥伴們一定都會面對中文分詞的問題:要怎麼把一個句子切成多個詞彙讓電腦理解一個句子的組成。 例如『我昨天去上海交通大學與老師討論量子力學』可以被分詞成『我』『昨天』『去』『上海』『交通』『大學』『與』『老師』『討論』『量子』『力學』。但這要如何實現呢? 結巴是一個由 Python 實現的中文分詞工具。除了分詞以外也支援關鍵字抽取 (TF-IDF keywo...

    Aug 19, 20225 min read289