文本數(shù)據(jù)分析：分詞是什么意思？

更新時間:2022年11月28日12時21分來源:傳智教育瀏覽次數(shù):

好口碑IT培訓

　　分詞是指將由連續(xù)字符組成的語句，按照一定的規(guī)則劃分成一個個獨立詞語的過程。不同的語言具有不同的語法結(jié)構(gòu)，以常見的英文和中文為例，英文的句子中是以空格為分隔符的，所以可以指定空格為分詞的標記，而中文并沒有一個形式上的分界符，它只有字、句和段能通過明顯的分界符來簡單地劃分。因此，中文分詞要比英文分詞困難很多。

　　根據(jù)中文的結(jié)構(gòu)特點，可以把分詞算法分為以下三類：

　　1.基于規(guī)則的分詞方法

　　基于規(guī)則的分詞方法，又稱為機械分詞方法，它是按照一定的策略將待分析的中文句子與一個“充分大的”機器詞典中的詞條進行匹配。如果在詞典中找到了某個字或詞語，則表示匹配成功。

　　基于規(guī)則的分詞方法，其優(yōu)點是簡單且易于實現(xiàn)，缺點是匹配速度慢，而且不同的詞典產(chǎn)生的歧義也那你慢慢弄，，，嗎會不同。

　　2.基于統(tǒng)計的分詞方法

　　基于統(tǒng)計的分詞方法，它的基本思想是常用的詞語是比較穩(wěn)定的組合。在上下文中，相鄰的字同時出現(xiàn)的次數(shù)多，就越有可能構(gòu)成一個詞，所以字與字相鄰出現(xiàn)的頻率能夠較好地反映成詞的可信度。當訓練文本中相鄰出現(xiàn)的緊密程度高于某個閾值時，便可以認為此字組可能構(gòu)成了一個詞。

　　基于統(tǒng)計的分詞方法所應用的主要統(tǒng)計模型有：N元文法模型（N-gram）、隱馬爾可夫模型（Hiden Markov Model，HMM）、最大熵模型（ME）、條件隨機場模型（Conditional Random Fields,CRF）等。