教育行業(yè)A股IPO第一股(股票代碼 003032)

全國(guó)咨詢(xún)/投訴熱線:400-618-4000

文本數(shù)據(jù)分析:分詞是什么意思?

更新時(shí)間:2022年11月28日12時(shí)21分 來(lái)源:傳智教育 瀏覽次數(shù):

好口碑IT培訓(xùn)

  分詞是指將由連續(xù)字符組成的語(yǔ)句,按照一定的規(guī)則劃分成一個(gè)個(gè)獨(dú)立詞語(yǔ)的過(guò)程。不同的語(yǔ)言具有不同的語(yǔ)法結(jié)構(gòu),以常見(jiàn)的英文和中文為例,英文的句子中是以空格為分隔符的,所以可以指定空格為分詞的標(biāo)記,而中文并沒(méi)有一個(gè)形式上的分界符,它只有字、句和段能通過(guò)明顯的分界符來(lái)簡(jiǎn)單地劃分。因此,中文分詞要比英文分詞困難很多。

  根據(jù)中文的結(jié)構(gòu)特點(diǎn),可以把分詞算法分為以下三類(lèi):

  1.基于規(guī)則的分詞方法

  基于規(guī)則的分詞方法,又稱(chēng)為機(jī)械分詞方法,它是按照一定的策略將待分析的中文句子與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配。如果在詞典中找到了某個(gè)字或詞語(yǔ),則表示匹配成功。

  基于規(guī)則的分詞方法,其優(yōu)點(diǎn)是簡(jiǎn)單且易于實(shí)現(xiàn),缺點(diǎn)是匹配速度慢,而且不同的詞典產(chǎn)生的歧義也那你慢慢弄,,,嗎會(huì)不同。

  2.基于統(tǒng)計(jì)的分詞方法

  基于統(tǒng)計(jì)的分詞方法,它的基本思想是常用的詞語(yǔ)是比較穩(wěn)定的組合。在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)多,就越有可能構(gòu)成一個(gè)詞,所以字與字相鄰出現(xiàn)的頻率能夠較好地反映成詞的可信度。當(dāng)訓(xùn)練文本中相鄰出現(xiàn)的緊密程度高于某個(gè)閾值時(shí),便可以認(rèn)為此字組可能構(gòu)成了一個(gè)詞。

  基于統(tǒng)計(jì)的分詞方法所應(yīng)用的主要統(tǒng)計(jì)模型有:N元文法模型(N-gram)、隱馬爾可夫模型(Hiden Markov Model,HMM)、最大熵模型(ME)、條件隨機(jī)場(chǎng)模型(Conditional Random Fields,CRF)等。

  3.基于理解的分詞方法

  基于理解的分詞方法是通過(guò)計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果,它的基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息處理歧義對(duì)象。這種分詞方法需要使用大量的語(yǔ)言知識(shí)和信息。

  由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語(yǔ)言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。

0 分享到:
和我們?cè)诰€交談!