1、可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。
2、分詞是指將信息里的關(guān)鍵詞拆分成單個的字,根據(jù)分詞后的字進行關(guān)鍵詞的擴展,是錯誤的。分詞的意思:中文分詞指的是將一個漢字序列切分成一個個單獨的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。
3、關(guān)鍵詞通常是通過一定的算法或技術(shù)從文本中自動或手動提取出來的。關(guān)鍵詞可以體現(xiàn)文本的主題、內(nèi)容或重點信息,常用于文本摘要、信息檢索和文本分類等應(yīng)用中。分詞和關(guān)鍵詞之間的聯(lián)系在于,關(guān)鍵詞往往是在分詞的基礎(chǔ)上提取出來的。
4、百度搜索引擎分詞技術(shù)(用百度的官方說法)是百度對于用戶提交查詢的關(guān)鍵詞串進行的查詢處理后,根據(jù)用戶的關(guān)鍵詞串用各種匹配方法進行處理的一種技術(shù)。
5、分詞技術(shù)是搜索引擎針對用戶提交查詢的關(guān)鍵串進行的查詢處理后根據(jù)用戶的關(guān)鍵詞串用各種匹配方法進行的一種技術(shù)。再細(xì)分為中文分詞技術(shù)和英文分詞技術(shù)。中文分詞是將一句話或一個短語按照日常閱讀習(xí)慣進行機械分解。
1、基于字典的分詞法:將待分析的一段文字與一個事先編制好的字典中的詞條進行匹配,在待分析文字中掃描到字典中已有的詞條則匹配成功,或者切分出一個單詞,這種分詞方法的準(zhǔn)確性在很大程度上取決于字典的完整性。
2、當(dāng)前百度搜索引擎分詞主要采用字典匹配和統(tǒng)計學(xué)這兩種方法。
3、分詞算法常用的兩種運行方式:用戶搜索及匹配。例如:我們在百度搜索一個詞 “手機回收”,那么百度會先把這個詞分為手機和回收兩個詞這個時候呢百度會先在庫中搜索手機這個詞然后進行第一輪的篩選。
4、中文分詞的應(yīng)用 目前在自然語言處理技術(shù)中,中文處理技術(shù)比西文處理技術(shù)要落后很大一段距離,許多西文的處理方法中文不能直接采用,就是因為中文必需有分詞這道工序。
1、目前基于理解的分詞方法主要有專家系統(tǒng)分詞法和神經(jīng)網(wǎng)絡(luò)分詞法等。
2、基于統(tǒng)計的分詞模型其主要思想是把每個詞看作是由詞的最小單位的各個字組成的,如果相連的字在不同的文本中出現(xiàn)的次數(shù)越多,就證明這相連的字很可能就是一個詞。
3、這種分詞方法是通過讓計算機模擬人對句子的理解,達(dá)到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。