欧美三级视频在线观看-欧美三级视频在线播放-欧美三级视频网-欧美三级片在线观-欧美三级啪啪视频在-欧美三级欧美做a爱

人妻无码中文字幕,久久精品免费一区二区三区,亚洲日本在线播放

建站流程

河南鄭州網站建設銷售咨詢電話：13073728811(24小時值班) 客服電話0371-60988783

首頁網站建設網站推廣 5107網站伴侶域名注冊虛擬主機企業郵局關于我們合作代理網上商店企業郵箱

征途新聞

公司新聞

行業新聞

服務項目

網站建設	網站推廣
域名注冊	虛擬主機
網站伴侶	運營維護

聯系我們

聯系電話：
0371－60273020       60273015
      60273016
      60273017
傳    真：
0371－60273018

當前位置：首頁 > WEB網頁結構化信息抽取

WEB網頁結構化信息抽取技術介紹(網頁庫級)

發布日期：2007-5-25

關鍵詞：結構化信息抽取，信息抽取

注意：原創文章，無版權，可以任意轉載，但必須完整轉載全文、url和內部解釋性鏈接

WEB結構化信息抽取就是將網頁中的非結構化數據按照一定的需求抽取成結構化數據。是垂直搜索引擎和通用搜索引擎最大的差別。
　　如：比較購物搜索那就需要抓取網頁后，對網頁中的商品信息進行抽取，抽取出商品名稱、價格、簡介……甚至可以進一步將筆記本簡介細分成“品牌、型號、CPU、內存、硬盤、顯示屏、……”
　　房產信息搜索那就應該抽取出那應該抽取出：類型、地域、地址、房型、面積、裝修情況、租金、聯系人、聯系電話……
　　公司企業信息搜索那就應該抽取出：公司名稱、地址、電話、聯系人……
　　…………
　　結構化信息抽取有兩種方式可以實現，比較簡單的是模板方式，還有一種是對網頁不依賴的網頁庫級的結構化信息抽取方式。

　　模板方式是事先對特定的網頁進行配置模板，抽取模板中設置好的需要的信息，可以針對有限個網站的信息進行精確的采集。
　　特點：簡單、精確、技術難度低、方便快速部署。
　　缺點：需要針對每一個信息源的網站模板進行單獨的設定在信息源多樣性的情況下維護量巨大是不可完成的維護量。所以這種方式適合少量信息源的信息處理，不是搜索引擎級的應用，很難滿足用戶對查全率的需求。

網頁庫結構化信息抽取是采用頁面結構分析與智能節點分析轉換的方法，自動抽取結構化的數據。
　　特點：可對任意的正常網頁進行抽取，完全自動化，不用對具體網站事先生成模板，對每個網頁自動實時得生成抽取規則，完全不需要人工干預。智能抽取準確率高，不是機械的匹配，采用智能分析技術，準確率能達到98%以上。能保證較快處理速度，由于采用頁面的智能分析技術，先去除了垃圾塊，降低分析的壓力，是處理速度大大提高。通用性較好，易于維護，只需設定參數、配置相應的特征就能改進相應的抽取性能；一般的非專業人員經過簡單培訓就能維護。
　　缺點：技術難度高，前期研發成本高，周期長。適合網頁庫級別結構化數據采集和搜索的高端應用。

我們的技術是對網頁不依賴的web結構化信息抽取技術，適合高端的垂直搜索應用或者高端的競爭情報分析系統。

上一條: 全套垂直搜索引擎技術

下一條: 什么是垂直搜索？[原創]

本站關鍵詞：鄭州網站建設公司　鄭州網站建設　鄭州電子商務　鄭州網站設計鄭州網站策劃　河南鄭州網站建設　鄭州網站制作　鄭州建網站
鄭州網站制作　鄭州做網站的公司　網站托管　鄭州　鄭州網絡公司　新鄉網絡公司　河南網絡公司　洛陽網絡公司　網站建設　電子商務網站
建網站網站設計鄭州虛擬主機新鄉網站建設鄭州網站制作安陽網絡公司焦作網絡公司網頁設計鄭州網頁設計鄭州網站制作在線客服
網頁制作網站制作河南網站建設烽火臺　網絡推廣鄭州網站推廣　網站建設方案　網絡營銷　河南網站建設公司　鄭州5107網站伴侶