一、互聯網信息采集與處理檢索系統
1. 新聞搜索引擎SPIDER
2. 網頁搜索引擎SPIDER
3. 定向專業搜索SPIDER
4. 基于視覺的正文智能提取模塊(自動正文提取)
5. 智能摘要提取模塊
6. 去重模塊
7. 智能分類模塊
8. 檢索前端類聚模塊
9. 分詞模塊
10. 索引模塊
11. 最大可支持10TB以上數據容量,可分層建索引庫、分布索引、分布檢索、分布采集處理。
二、WEB結構化信息抽取技術(格式化數據抽取)
應用于垂直搜索引擎的重要技術,抽取出結構化數據,對具體網頁無依賴,直接針對數據類型進行抽取。
元數據(結構化信息提取) 采集技術:模板方式,作為 WEB結構化信息抽取技術的補充。
三、自然語言的結構化信息抽取技術
應用于垂直搜索引擎,情報分析處理(科研產品)
|