分析在Lucene中指的是將域文本轉(zhuǎn)換為最基本的索引表示單元—項(xiàng)的過(guò)程。分析器對(duì)分析操作進(jìn)行了封裝,通過(guò)執(zhí)行一系列操作,將文本語(yǔ)匯單元化,這些操作包括提取單詞、去除標(biāo)點(diǎn)符號(hào)、去除語(yǔ)匯單元上的音調(diào)符號(hào)、將大寫(xiě)字母轉(zhuǎn)換成小寫(xiě)、移除常用詞、將單詞轉(zhuǎn)換為詞干(詞干還原)等。這個(gè)過(guò)程也可稱(chēng)為語(yǔ)匯單元化過(guò)程,而從文本流中得到的文本塊稱(chēng)為語(yǔ)匯單元(tokens)。各tokens與關(guān)聯(lián)的Field名結(jié)合就構(gòu)成了各個(gè)項(xiàng)(Term)。在Lucene中,一個(gè)標(biāo)準(zhǔn)的分析器Analyzer由兩部分組成,一部分是分詞器,被稱(chēng)為T(mén)okenizer;另一部分是過(guò)濾器,被稱(chēng)為T(mén)okenFilter。一個(gè)分析器Analyzer往往由一個(gè)分詞器和多個(gè)過(guò)濾器組成。這里所說(shuō)的過(guò)濾器,和檢索時(shí)用的過(guò)濾器是完全不同的兩個(gè)概念,這里所講的過(guò)濾器是用于對(duì)用戶(hù)切分出來(lái)的詞進(jìn)行一些處理,
關(guān)于我們 | 友情鏈接 | 網(wǎng)站地圖 | 聯(lián)系我們 | 最新產(chǎn)品
浙江民營(yíng)企業(yè)網(wǎng) dgmlhs.cn 版權(quán)所有 2002-2010
浙ICP備11047537號(hào)-1