公司简介 产物系统7409.com 解决方案葡京娱乐场 征询取效劳 新闻中心 联络我们
 
www.8466.com 首页  -  解决方案

内容搜刮效劳体系白皮书V6.0

 

一、概述

互联网已成为最大的信息中心。传统的体式格局是经由过程报纸、杂志收集或经由过程google、百度停止检索。但google、百度的信息不实时且内容检索的不正确,一样限定了快速获得有效的信息。

搜刮效劳体系能够更好的处理上述题目。搜刮效劳体系能及时监控和采集目的网站的内容,对采集到的信息停止过滤和主动分类处置惩罚,实时将最新内容实时公布出来,实现同一的信息导航功用,同时供应包孕全文检索、日期(局限)检索、题目检索、URL检索等在内的全方位信息查询手腕。体系能够凭据用户的阅读喜好,恰当为用户供应相干的检索信息。为了更轻易用记能快速检索到数据,体系供应了提醒词功用和相干的检索信息等。

二、体系组成

体系由采集管理、检索管理、信息管理、日记管理、用户管理、监测统计六局部组成。

体系供应从互联网采集信息,停止分类、剖析后导入资源库,并可有挑选的正在网站公布的功用。

采集体系基于超链剖析手艺,实现对目的网站web页面的信息停止采集。主要功能包孕:

l  及时采集网站中公布的种种网页信息,包孕静态网页和静态网页;

l  支撑增量式的信息采集形式;

l  可以或许对多种网页范例的信息停止采集,包孕:静态网页,如htmlxmlshtmlrss等;静态网页:如phpjspasp等几十种静态网页。

l  体系借可以或许采集由www.8466.com天生的静态超链信息。

l  除各种形式的网页信息中,体系借支撑对网页中链接的多种文档花样停止采集,支撑的文档花样有:MS-WORDMS-EXCELRTFPPTPPSPDF、和TXT文件等;

l  可采集文章正文中的图片,包孕GIFJPG等图形文件格式;

l  采集事后的数据信息能够经由过程XML、文件和数据库的体式格局停止存储,便于用户对其停止二次应用,并提供响应的XML范例和数据库接口;

l  分类接纳成熟的主题-关键词手艺停止信息的主动归类,分类后的信息凭据差别字段属性存储正在XML文件或数据库中,以便用户对信息及时监控;

l  信息管理中,体系主动把相干划定规矩下的信息,停止主动分类;

l  检索模块供应全文检索,包孕初级检索(恍惚,前缀,时间段等体式格局)。借能够凭据配置文件定制检索体式格局,知足差别情况下的产物需求。供应分布式接见,凭据和自力的IP和端口绑定,自力向外供应效劳;

l  管理接纳基于WEB的管理体式格局,可以或许实现对全部搜索引擎体系停止周全的系统管理。

体系供应全文检索,包孕初级检索(恍惚,前缀,时间段等体式格局)。借能够凭据配置文件定制检索体式格局,知足差别情况下的产物需求。供应分布式接见,凭据和自力的IP和端口绑定,自力向外供应效劳。

接纳先辈中文分词手艺,充裕包管检索的正确性。单机便可支撑每秒上百次的并发恳求,同时支撑多机计划。包孕:高效的内存索引手艺、天真的检索排序体式格局、检索效果静态择要手艺、中英文混淆检索、N次渐进式检索、多前提组合检索。搜刮效劳体系正在多项中文智能盘算手艺基础上,针对海量信息处理和多种运用体系的需求,供应雄厚壮大的检索功用。搜刮效劳体系支撑基元检索、复元检索、组配检索、支撑逻辑检索、支撑中英文检索、支撑GBK、支撑Unicode、支撑n阶渐进检索、支撑同义词检索、支撑自定义用户辞书等。

检索流程图为:

对数据信息停止格式化

数据索引模块

索引库

权限过滤模块对信息级别停止判定

用户检索页面

索引检索模块

近程数据源信息

当地数据源信息(能够是数据库,文件系统等数据存储介质)

-www.8466.com

三、体系功用

1.        采集管理模块

采集管理模块重要包罗:网站采集、数据库采集、目次采集和义务实行。

l  网站采集:用户能够经由过程设置,对各种型的网站停止采集;

l  数据库采集:用户能够恰当的设置,对不同类型的数据库中的数据,停止采集;

l  目次采集:对磁盘上的批定范例的文件,停止数据采集,用于数据的重用和数据的检索;

l  义务实行:用户关于采集管理下不同类型的义务,设置准时启动工夫;

2.        检索管理模块

检索管理管理模块重要包罗:索引库管理、索引数据管理、辞书管理、权重调解、信息导航、模板管理、搜索引擎推行。

l  索引库管理:索引库管理包孕新建索引库、数据建索引、优化索引等操纵;

l  索引库数据管理:供应对索引库中的索引数据的管理功用;

l  辞书管理:用户能够经由过程辞书管理功用为索引过程建立同义辞书、提醒词辞书、禁用词辞书,具体操作包孕新建同义词、删除同义词和查找同义词;

l  权重调解:用户能够经由过程权重调解,对检索词停止调解,以进步所查询词正在信息中所占比重;

l  模板管理:模板管理是用于管理网站前端查询列表界面的设置,用户能够经由过程上传管理功用轻易界说多个模板,用于差别网站的检索运用;

l  搜索引擎推行:把相干的信息推荐到支流的搜索引擎主,如百度和360搜刮等;

l  信息导航:用户能够设置关键词取运用天链的联系关系,正在用户检索关键词时刻,能够为检索用户供应运用地点的入口;

3.        信息管理

信息管理模块重要包罗:分类管理、信息同享。

l  分类管理:分类管理是界说肯定的分类划定规矩,把所采集的数据,放入指定的分类,对分类数据,能够以xml花样把分类数据停止导出,也能够按指定的分类,对数据停止公布展现;

l  信息同享:信息同享是把指定分类的数据,经由过程数据接口,推送到内容管理平台;

4.        日记管理

日记管理模块重要包罗:体系日记、采集日记、检索日记。

l  体系日记:体系日记重要纪录了管理员对体系的操纵日记,包孕用户的登录取退出;

l  采集日记:采集日记重要纪录了采集模块对指定划定规矩网站所采集纪录的日记;

l  检索日记:检索日记重要纪录了前台检索用户所检索的信息和用户检索翻开的信息;

5.        用户管理

用户管理模块重要包罗:用户管理、脚色管理和用户受权。

l  用户管理:用户管理主要功能是对登录背景的用户停止增删改查;

l  脚色管理:脚色管理主要功能是对背景管理脚色停止增删改查的操纵;

l  用户受权:为体系中所存在的用户,授与相干的脚色;

6.        监测统计

监测统计模块重要包罗:体系监测、采集统计和检索统计。

l  体系监测: 体系监测重要卖力监测体系采集模块、搜刮模块取管理模块的体系负载状况,功能模块的状况及模块的详细信息。其重要显现情势表现为:饼状图、柱状条形图、折线图和列表。

l  采集统计:采集统计是用来统计采集效劳,对指定划定规矩的采集义务的采集状况,以柱状图去示意各采集义务的采集状况;

l  检索统计:检索统计是统计前台检索用户的检索状况,能够按地区停止统计、按检索量、检索词停止统计;

四、产物特性

l  检索接纳海内较为先辈中文分词手艺,充裕包管检索的正确性。

l  管理接纳基于WEB的管理体式格局,可以或许实现对全部搜索引擎体系停止周全的系统管理。

l  接纳内存索引手艺,可以或许将网页信息立刻正在体系内存中竖立索引,运用户正在检索时可以或许立刻获得最新信息。

l  支撑多种检索效果排序体式格局,可按抓取工夫排序,或按相干度排序等等。相干度凭据关键词正在文献中泛起的位置,频次等综合盘算出来。

l  接纳静态择要手艺,即检索效果可以或许凭据用户提交的关键词正在题目和正文中泛起的位置和频次,主动的为每条检索效果天生择要信息,而且关键词正在择要中以赤色反隐。

l  支撑对中文或英文检索词的零丁检索,关于用户输入的中文和英文的混淆信息,检索子系统仍然可以或许准确的对检索词停止处置惩罚,并返回准确的检索效果。

l  N次渐进式检索即“正在效果中检索”。用户能够正在检索效果中继承输入检索词停止检索,供应有限次的渐进检索,直到资助用户找到检索目的,实现准确定位所要查找的信息。

l  供应多种检索前提可供用户挑选,包孕:正在题目中检索、正在正文中检索,和根据工夫局限检索等。用户能够挑选单一前提输入检索词检索,也能够根据上述多种前提停止组合前提检索。

五、运转情况

软件设置发起:

l  操作系统:Windows系列、LinuxUnix等种种平台。

l  运用服务器:TomcatJbossWeblogicTongwebApusic等。

l  数据库:OracleMysqlDMGbaseKingbaseOscar等。

l  终究用户端:MS Internet Explorer 6.0 以上。

硬件设置发起:

序号

装备

目标

设置要求

数目

备注

1

运用

服务器

处理器

2*Intel单核处理器(4*2.0GHzCPU或更好)

2

内存

4GB DDR400 ECC 内存或更好 8DIMM插槽以上

硬盘

3*146GB 10krpm Ultra320热插拔SCSI硬盘Raid1或更好

网卡

单千兆网卡接口或更好

【打印】 【封闭】
北京航天四创软件技术有限责任公司
地点:北京市海淀区阜成路16号航天科技大厦B座6层 京ICP备07502835号-1
www.8466.com