|
|
當前位置:首 頁 > 信息檢索的核心支撐技術 |
|
信息檢索的核心支撐技術 |
發布日期:2007-5-25 |
關鍵詞:信息檢索 |
(Information Retrieval),通常指文本信息檢索,包括信息的存儲、組織、表現、查詢、存取等各個方面,其核心為文本信息的索引和檢索。從歷史上看,信息檢索經歷了手工檢索、計算機檢索到目前網絡化、智能化檢索等多個發展階段。
目前,信息檢索已經發展到網絡化和智能化的階段。信息檢索的對象從相對封閉、穩定一致、由獨立數據庫集中管理的信息內容擴展到開放、動態、更新快、分布廣泛、管理松散的Web內容;信息檢索的用戶也由原來的情報專業人員擴展到包括商務人員、管理人員、教師學生、各專業人士等在內的普通大眾,他們對信息檢索從結果到方式提出了更高、更多樣化的要求。適應網絡化、智能化以及個性化的需要是目前信息檢索技術發展的新趨勢。
信息檢索技術的熱點
◆ 智能檢索或知識檢索
傳統的全文檢索技術基于關鍵詞匹配進行檢索,往往存在查不全、查不準、檢索質量不高的現象,特別是在網絡信息時代,利用關鍵詞匹配很難滿足人們檢索的要求。智能檢索利用分詞詞典、同義詞典,同音詞典改善檢索效果,比如用戶查詢“計算機”,與“電腦”相關的信息也能檢索出來;進一步還可在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典,形成一個知識體系或概念網絡,給予用戶智能知識提示,最終幫助用戶獲得最佳的檢索效果,比如用戶可以進一步縮小查詢范圍至“微機”、“服務器”或擴大查詢至“信息技術”或查詢相關的“電子技術”、“軟件”、“計算機應用”等范疇。另外,智能檢索還包括歧義信息和檢索處理,如“蘋果”,究竟是指水果還是電腦品牌,“華人”與“中華人民共和國”的區分,將通過歧義知識描述庫、全文索引、用戶檢索上下文分析以及用戶相關性反饋等技術結合處理,高效、準確地反饋給用戶最需要的信息。
◆ 知識挖掘
目前主要指文本挖掘技術的發展,目的是幫助人們更好的發現、組織、表示信息,提取知識,滿足信息檢索的高層次需要。 知識挖掘包括摘要、分類(聚類)和相似性檢索等方面。
自動摘要就是利用計算機自動地從原始文獻中提取文摘。在信息檢索中,自動摘要有助于用戶快速評價檢索結果的相關程度,在信息服務中,自動摘要有助于多種形式的內容分發,如發往PDA、手機等。相似性檢索技術基于文檔內容特征檢索與其相似或相關的文檔,是實現用戶個性化相關反饋的基礎,也可用于去重分析。自動分類可基于統計或規則,經過機器學習形成預定義分類樹,再根據文檔的內容特征將其歸類;自動聚類則是根據文檔內容的相關程度進行分組歸并。自動分類(聚類)在信息組織、導航方面非常有用。
◆ 異構信息整合檢索和全息檢索
在信息檢索分布化和網絡化的趨勢下,信息檢索系統的開放性和集成性要求越來越高,需要能夠檢索和整合不同來源和結構的信息,這是異構信息檢索技術發展的基點,包括支持各種格式化文件,如TEXT、HTML、XML、RTF、MS Office、PDF、PS2/PS、MARC、ISO2709等處理和檢索;支持多語種信息的檢索;支持結構化數據、半結構化數據及非結構化數據的統一處理;和關系數據庫檢索的無縫集成以及其他開放檢索接口的集成等。所謂“全息檢索”的概念就是支持一切格式和方式的檢索,從目前實踐來講,發展到異構信息整合檢索的層面,基于自然語言理解的人機交互以及多媒體信息檢索整合等方面尚有待取得進一步突破。
另外,從工程實踐角度,綜合采用內存和外部存儲的多級緩存、分布式群集和負載均衡技術也是信息檢索技術發展的重要方面。
隨著互聯網的普及和電子商務的發展,企業和個人可獲取、需處理的信息量呈爆發式增長,而且其中絕大部分都是非結構化和半結構化數據。內容管理的重要性日益凸現,而信息檢索作為內容管理的核心支撐技術,隨著內容管理的發展和普及,亦將應用到各個領域,成為人們日常工作生活的密切伙伴。
信息檢索不等于 搜索引擎
互聯網的發展明顯地促進了信息檢索技術的發展和應用,一大批搜索引擎產品誕生,為網民提供了很好的快速信息獲取和網絡信息導航工具,但是將信息檢索等同于使用搜索引擎就陷入了誤區。搜索引擎技術中也普遍采用了全文信息檢索技術,但互聯網信息搜索和企業信息搜索是不同的。
一是數據量。傳統信息檢索系統一般索引庫規模多在GB級,但互聯網網頁搜索需要處理幾千萬上億的網頁,搜索引擎的基本策略都是采用檢索服務器群集,對大多數企業應用是不合適和不必要的,并不適用于企業應用。
二是內容相關性。信息太多,查準和排序就特別重要,Google等搜索引擎發展了網頁鏈接分析技術,根據互聯網上網頁被連接次數作為重要性評判的依據。但企業網站內部的網頁鏈接由網站內容采編發布系統決定,其鏈接次數存在偶然因素,不能作為判別重要性的依據。真正的企業應用的檢索要求基于內容的相關性排序,就是說,和檢索要求最相關的信息排在檢索結果的前面,鏈接分析技術此種排序基本不起作用。
三是實時性。搜索引擎的索引生成和檢索服務是分開的,周期性更新和同步數據,大的搜索引擎的更新周期需要以周乃至月度量;而企業信息檢索需要實時反映內外信息變化,搜索引擎系統機制并不能適應企業中動態性數據增長和修改的要求。
四是安全性。互聯網搜索引擎都基于文件系統,但企業應用中內容一般均會安全和集中地存放在數據倉庫中以保證數據安全和管理的要求。
五是個性化和智能化。由于搜索引擎數據和客戶規模的限制,相關反饋、知識檢索、知識挖掘等計算密集的智能技術很難應用,而專門針對企業的信息檢索應用能在智能化和個性走得更遠。
信息檢索的起源
信息檢索起源于圖書館的參考咨詢和文摘索引工作,從19世紀下半葉首先開始發展,至20世紀40年代,索引和檢索成已為圖書館獨立的工具和用戶服務項目。
隨著1946年世界上第一臺電子計算機問世,計算機技術逐步走進信息檢索領域,并與信息檢索理論緊密結合起來;脫機批量情報檢索系統、聯機實時情報檢索系統相繼研制成功并商業化,20世紀60年代到80年代,在信息處理技術、通訊技術、計算機和數據庫技術的推動下,信息檢索在教育、軍事和商業等各領域高速發展,得到了廣泛的應用。Dialog國際聯機情報檢索系統是這一時期的信息檢索領域的代表,至今仍是世界上最著名的系統之一。
| |
|
上一條:
互聯網需要全文檢索 |
|
下一條:
搜索引擎的技術發展趨勢
|
|
|
|