(1)搜索引擎的組成 從技術角度說,搜索引擎基本由三部分組成:第一部分是蜘蛛軟件(Spider),即自動的收集程序,它的作用是負責收集網頁的內容;第二部分是索引器(Indexer),其作用是將收集回來的內容進行分析,然后做一個索引;第三部分是搜索器(Searcher),即響應用戶的檢索請求。當用戶輸入關鍵字后,搜索器用這個關鍵字與建立的索引器匹配,匹配后做相關性排序,再將排序結果送給用戶。 (2)搜索引擎的工作過程 通常,搜索引擎通過某種界面(例如動態網頁)跟用戶交互,接受用戶查詢特定信息的請求,然后對用戶查詢請求進行分析,比如將查詢請求分解成若干關鍵字,在分析用戶請求之后,在索引數據庫中不斷進行匹配,挑出符合條件的信息,同時按照匹配程度的高低對結果進行排序,最后將排序后的結果返回給用戶。因為網絡信息時刻變動,所以搜索引擎在后臺通過蜘蛛程序漫游互聯網,收集網絡信息,自動對收集到的信息進行分析,并按照一定的格式,將收集到的信息保存到本地索引數據庫中。因此,搜索引擎要完成搜索任務必須完成三方面的工作:建立索引數據庫,分析、匹配用戶的查詢,處理并給出查詢結果。 ①建立索引數據庫。建立索引數據庫要用到蜘蛛程序。初始化時,蜘蛛程序一般指向一個URL池(用于存儲互聯網上網站地址,大小與搜索引擎可以搜索的范圍有關)。在遍歷互聯網的過程中,按照深度優先、廣度優先或其他算法,從URL池中取出若干URL進行處理,同時將未訪問的URL放入 URL池中,這樣處理直到URL池空為止。對Web文檔的索引,根據文檔的標題、首段落甚至整個頁面內容進行,這取決于搜索服務的數據收集策略。蜘蛛程序在漫游的過程中,根據頁面的標題、頭、鏈接等生成摘要放在索引數據庫中。如果是全文搜索,還需要將整個頁面的內容保存到本地數據庫,例如google的網頁快照功能。 ②處理信息。對于搜索到的信息需要經過信息預處理、信息索引等幾個階段進行處理。 a.信息預處理。信息預處理包括信息格式轉換和過濾兩個不同層次。信關作為訪問不同信息的機構,能夠訪問不同組織形式的數據信息,如各種數據庫、不同文件系統以及網絡 Web頁面等。同時,信息預處理也能夠過濾不同格式的文檔。如MicrosoftWord,WPS、Text和 HTML等。這使得搜索引擎不僅能夠檢索正文文檔,而且能夠檢索原始格式的文檔信息。 b.信息索引。信息索引就是創建文檔信息的特征記錄,它使用戶能很容易地檢索到所需信息。建立索引需要進行下列處理。 |