信息檢索系統的核心是搜索引擎,它需要從紛繁復雜的大量信息中,篩選出符合用戶需求的信息。根據搜索引擎查找相關信息方式的不同,可將信息檢索分為:布爾邏輯模型、向量空間模型以及概率模型等。 (1)布爾型信息檢索模型 布爾型信息檢索模型,是最早也是最簡單的信息檢索模型。在布爾檢索模型中,用戶輸入的關鍵字被轉化成布爾表達式,使用邏輯運算符將提問詞連接起來。其文檔組織形式分為兩種:順排文檔和倒排文檔。順排文檔是檢索系統的主文檔,它是將規范化的文獻記錄順序存儲在存儲介質上,數據量非常大;倒排文檔是將文獻記錄中所有的檢索點抽出,經過排序、整理后形成類似索引的文件。檢索時,檢索系統將提問式與文檔進行邏輯匹配操作,得出檢索命中的文獻,即檢索結果,檢索結果一般不進行相關性排序。在檢索策略的使用方面,以布爾邏輯為基礎的文本檢索系統,可能提供位置檢索、截斷檢索以及自然語言檢索等檢索手段。標準布爾邏輯模型為二值邏輯,所搜索的文檔要么與查詢相關,要么與查詢無關。如查詢“計算機”,只要文檔中出現關鍵詞“計算機”,則全部包含在查詢結果中。 基于布爾型信息檢索模型的系統特點是實現容易、用戶操作方便、查全率比較好。它的缺點是和用戶交互的比較少、沒有充分利用用戶信息、查準率相對較低。為了克服布爾型信息檢索模型查詢結果的無序性,在查詢結果處理中引進了模糊邏輯運算,它以邏輯真值為[0,1]的模糊邏輯為基礎,以隸屬函數概念來描述現象差異的中間過渡。將所檢索的數據庫文檔信息與用戶的查詢要求進行模糊邏輯比較,按照相關的優先次序排列查詢結果。例如,查詢“互聯網”,那么,出現“互聯網”較多的文檔將排列在較前的位置。 (2)向量空間模型 向量空間模型用檢索項的多維向量空間來表示用戶的提問和文本集信息,其中每一維為一個特征。檢索時它把表示文獻的向量和用戶描述向量的內容進行比較,不僅可以方便地產生有效的檢索結果,而且能提供相關文檔的文摘,并進行檢索結果分類,為用戶準確定位所需的信息。 向量空間模型中表示文獻的方法。在向量空間模型中,存在兩種向量:用戶提問(描述)向量和文本向量。用某個用戶提問向量或文本向量的第i個元素表示該用戶提問或文本的第i個特征的重要程度,即權重或稱權值。用戶提問向量的權值由用戶指定。文本向量的權值則根據特征在文本或文本集中的出現頻率決定。提問向量與文本向量間的余弦角通常用來測定該文本與該用戶提問詞之間的匹配程度。 |