信息的迅速增長必然需要強大的信息檢索工具,而在信息檢索工具中,全文檢索是最具通用性和實用性的。互聯網迅速發展所代表的信息爆炸對全文檢索技術又提出了新的要求。
應用領域
互聯網的普及,使得全文檢索技術真正成熟起來,其應用范圍已經擴展到Internet的各個領域:
Internet搜索引擎
Internet搜索引擎包括三個部分:收集網頁的機器人、分類和索引及檢索引擎,全文檢索技術是搜索引擎的核心支撐技術。搜索引擎比傳統的信息檢索更為復雜,表現在:
信息是分布在Web空間的,要求系統對平臺、網絡等各種復雜環境的適應能力強;信息不穩定,動態性強,因此要求系統的動態索引技術具有超級性能;信息是海量的,要求檢索引擎具有先進的查詢算法,并且對相關排序要求很高;由于搜索引擎的用戶是普通用戶,因此使用知識詞典進行啟發式檢索就顯得特別重要;相關排序(Relevance Ranking)和相關反饋(Relevance Feedback)技術對Internet搜索特別重要。一次最普通的檢索可能得到成千上萬的結果。用戶應該首先得到最相關的結果,可惜的是,單純基于IDF的相關性模型,很難得到理想的結果,應該很好地利用HTML文檔的"結構特征"。相關反饋能夠根據用戶對檢索引擎的命中結果的判別執行更加符合用戶意圖的查詢。
.COM網站的站點檢索
一個好的檢索引擎是一個理想站點的關鍵。很多人在訪問一個站點時喜歡使用站點檢索,站點檢索應是分類目錄導航和全文檢索的完美結合,具體包括以下幾個方面:
分類目錄導航的關鍵是檢索范圍,檢索范圍的限制能使得檢索結果不會太多、太濫;全文檢索對于站點檢索是必不可少的,在通常情況下能夠幫助人們很快地找到所要的網頁;有時利用分類目錄導航和全文檢索還很難定位到所要的信息,這時就要組合檢索輔助;必須有相關排序功能,因為當檢索結果太多時,用戶不可能一一瀏覽,大多數用戶只瀏覽前面幾條,沒有相關排序,可能準確的檢索結果排在后面,用戶不能瀏覽到,而排在前面的檢索結果卻相關性很少,造成用戶的錯覺。
此外,我們還要考慮HTML/XML的特殊性、支持大量并發用戶突發訪問、Web站點的動態特性、要求索引維護效率很高等方面。
企業信息門戶的檢索引擎
根據未來協會經濟學家Tim Oren的理論:你與消費者甚至競爭者分享的東西越多,你就越成功。電子化企業應以建立企業信息門戶為重點,把企業信息庫的信息發布到公司的Internet/Intranet Web站點上,與Intranet的同事共享公司信息,或者與公司的客戶/合作伙伴分享公司信息。企業信息門戶的一個核心問題是建立一個高效的知識檢索解決方案,在該解決方案中,對信息檢索的要求包括:
* 跨越所有的數據源。包括文件系統、消息系統(E-mail System)、新聞組、各種關系數據庫管理系統以及Web網站等,支持各種數據和信息格式。
* 檢索結果需要按照商業分類規則(Business Classification Rules)進行排列。對于用戶某個特殊的知識檢索請求,把所有不同信息類別中的命中結果按照相關性或分類排列。
* 能夠瀏覽不同格式的信息。用戶不需要安裝產生這些信息和知識的原始軟件。
電子商務網站的內容檢索引擎
全文檢索等信息檢索手段對于一個電子商務站點是很重要的,借助信息檢索技術可以幫助客戶快速定位到所要的信息或產品。檢索成為商機,成為一筆業務成功的一個要素,如拍賣行電子商務站點,客戶通常根據關鍵詞或者摘要中的關鍵詞來查找所要的物品。在電子商務系統中,數據全部在具有嚴格安全控制的數據庫中,信息檢索不是靜態網頁,而是動態生成網頁,對電子商務站點的系統資源開銷是很大的。大量并發用戶突發訪問情況下的可靠性,是電子商務對全文檢索系統的基本要求。
Internet時代信息收集和交換的桌面平臺
Internet時代,需要這么一個信息收集和交換的桌面平臺:它不僅能夠進行桌面文檔的管理和Internet信息的收集,而且它還可以作為信息交換的桌面平臺。
* 桌面文檔的管理:管理PC桌面上的文件, 并加以歸檔分類。可以管理的文件應包括Text、 HTML/XML、 PDF、 Microsoft Office、 WPS、S2/PS2/PS等流行格式。
* Internet信息的收集:使用IE等瀏覽器瀏覽Internet網頁時,能夠把要保存的網頁拖入本地PC桌面上的個人資料庫, 并加以歸檔分類以便日后再利用。
* 作為B2C/C2C信息交換的桌面平臺:個人或企業可通過它交換和銷售資料庫。
發展趨勢
全文檢索(Full Text Retrieval)在技術上日趨成熟。中文全文檢索技術的研發始于1987年左右,目前已經商品化的軟件有近10種。可喜的是,國內廠商自主開發的全文檢索系統居于領先地位,市場占有率超過90%以上,包括fullsearcher、TRS、Quick IMS、南辰、 天宇、I-Search等。自主中文全文檢索技術已經達到了較高水平,在傳統市場也獲得了很高的占有率,但是要在整體上提高中文全文檢索系統的水平和可用性,必須在如下幾個方面有突破:
(1) 中文自然語言處理技術 無論從數據挖掘角度來提高全文檢索的查全率和查準率,還是提供更易使用的自然語言查詢接口方面,中文自然語言處理仍然是關鍵因素,這也是中文全文檢索系統領先于國外同類產品的問題所在。 (2) 全文檢索系統的評價 與其他領域一樣,我國全文檢索技術的研究和系統開發缺乏科學的評價,國際上TREC Conference(http://trec.nist.gov) 被認為是最具權威的信息檢索技術評測規范,實驗室系統、商業系統均積極參加。但國內的系統至今沒有參與,要得到國際上的認可,就必須參加TREC。 (3)系統的可靠性 沒有99.999%以上的可靠性,就無法適應NonStop eBusiness(永不停頓電子商務)等關鍵業務的苛刻需求。 (4)系統的響應速度 分析用戶檢索表達式的使用頻度,大大加速在子集里檢索的速度。無論數據庫多大,檢索詞的檢索速度均在1秒之內。
最新進展
以中文全文檢索為核心開發的fullsearcher檢索系統,可以廣泛地應用于各種信息數據庫、信息門戶的建設, 以及從Web站點檢索、Internet搜索引擎到電子商務等各種應用中文信息的發布檢索。在眾多的中文全文檢索軟件中,其最新的進展表現在: (1)領先的中文信息處理技術 內嵌漢語自動分詞系統,支持按詞索引、按字索引、按關鍵詞索引、字詞混合索引,大大提高了檢索的準確性和響應時間。 (2)檢索信息快、準而且全 基于成本優化的查詢算法,使得G級數據庫查詢速度達到亞秒級,并支持大量并發用戶同時訪問。允許使用文中的任意字、詞、句和片段進行檢索,提供了基于文獻內容而不僅僅是文獻外部特征的全文檢索手段。TRS所提供的按詞和按用戶自定義關鍵詞進行索引和檢索,以及基于知識詞典的擴展檢索功能,滿足了特殊應用領域的高查準率和高查全率的要求。 (3)檢索功能強大 全方位檢索手段,支持與搜索、去除搜索等標準的國際搜索語法。另外拼音搜索、南方音模糊搜索、多字漏字錯字模糊搜索、對檢索結果按與檢索表達式的相關性和重要性程序排序等。
詳情請點擊查看“全文檢索者搜索軟件系列介紹”
全文檢索已經成為網站的必備功能,隨著政府上網、企業上網的深入開展,網上中文信息和電子商務應用的不斷豐富,必然對基于互聯網的中文全文檢索技術提出更高的要求。技術的進步是沒有終點的,更快更準永遠是全文檢索技術的追求。 |