注意:原創文章,無版權,可以任意轉載,但必須完整轉載全文、url和內部解釋性鏈接
WEB結構化信息抽取就是將網頁中的非結構化數據按照一定的需求抽取成結構化數據。是垂直搜索引擎和通用搜索引擎最大的差別。 如:比較購物搜索那就需要抓取網頁后,對網頁中的商品信息進行抽取,抽取出商品名稱、價格、簡介……甚至可以進一步將筆記本簡介細分成“品牌、型號、CPU、內存、硬盤、顯示屏、……” 房產信息搜索那就應該抽取出那應該抽取出:類型、地域、地址、房型、面積、裝修情況、租金、聯系人、聯系電話…… 公司企業信息搜索那就應該抽取出:公司名稱、地址、電話、聯系人…… ………… 結構化信息抽取有兩種方式可以實現,比較簡單的是模板方式,還有一種是對網頁不依賴的網頁庫級的結構化信息抽取方式。
模板方式是事先對特定的網頁進行配置模板,抽取模板中設置好的需要的信息,可以針對有限個網站的信息進行精確的采集。 特點:簡單、精確、技術難度低、方便快速部署。 缺點:需要針對每一個信息源的網站模板進行單獨的設定在信息源多樣性的情況下維護量巨大是不可完成的維護量。所以這種方式適合少量信息源的信息處理,不是搜索引擎級的應用,很難滿足用戶對查全率的需求。
網頁庫結構化信息抽取是采用頁面結構分析與智能節點分析轉換的方法,自動抽取結構化的數據。 特點:可對任意的正常網頁進行抽取,完全自動化,不用對具體網站事先生成模板,對每個網頁自動實時得生成抽取規則,完全不需要人工干預。智能抽取準確率高,不是機械的匹配,采用智能分析技術,準確率能達到98%以上。能保證較快處理速度,由于采用頁面的智能分析技術,先去除了垃圾塊,降低分析的壓力,是處理速度大大提高。通用性較好,易于維護,只需設定參數、配置相應的特征就能改進相應的抽取性能;一般的非專業人員經過簡單培訓就能維護。 缺點:技術難度高,前期研發成本高,周期長。適合網頁庫級別結構化數據采集和搜索的高端應用。
我們的技術是對網頁不依賴的web結構化信息抽取技術,適合高端的垂直搜索應用或者高端的競爭情報分析系統。
|