信息采集系统的技术实现
信息采集系统指的是按标准格式采集指定网络信息,同搜索引擎的区别在于其采集的目的性更强,采集源范围也比较小。这里简单介绍一下信息采集系统实现上的几个关键问题:
1) 采集网页数据
VC,Java,VB的网络通讯功能都足够实现信息采集,VC中的Get/Post方式可采集网页信息,也可以直接用socket方式采集,但一般用前一种模式,另外为了提高采集效率都采用多线程技术,在网上的一些Spider程序都是多线程的,可以借鉴.
2) 如何按关键字来信息
信息采集的一大特点是按多个关键字将信息拆分出来,例如供求信息中的商机标题、联系人、电话、Email、内容等,实现时需要事先定义好这些关键字,然后在网页中搜索,将夹在两个关键字当中的信息采集出来,另外还要注意,网页中的许多关键字是包含空格的,空格数量也不能确定,例如"邮 件",这就要求在查找关键字时要把关键字按单个汉字拆开来匹配,遇到中间的空格要跳过去.这一步实现了,信息就会变的非常有规则,也就可以导入本地库了.
3) 网页中的链结获取算法
了解HTML的应该清楚,网页中的链结都是通过的标签定义的,但也会分很多情况,例如: < a href = "..."> 这是常见的链结格式,但要注意采集出来的链结可能是完整的http://...,也可能是相对路径,要分别处理; < a href = ''> 用单引号分隔的,所以用算法获取链结的时候要根据双引号和单引号两种标记来分隔;< a href = .. onclick = javascript:view('..','')> 通过javascript的函数处理链结,算法上就麻烦了许多。
4) 无效数据的过滤
即使通过关键字的方式摒弃了许多广告信息,但在关键字信息中也会有不少无效数据,包括一些信息开头的空格
5) 特定数据的获取算法
Email,电话等数据符合一定的规范,一般可以用一些算法提取出来,也可以用正则表达式技术来获取,在网络上有不少此类算法.在信息采集中,Email和电话等关键信息是比较分散的,需要用提取算法把这些信息提取出来放在正确的位置.这是非常有必要的,因为信息采集系统往往会有邮件群发的功能.
信息采集的整个流程可总结如下:
a) 首先,获取网页的完整信息
b) 用算法获取网页中的正文信息,即抛弃HTML的标签文本
c) 去除多余的空行
d) 按定义好的关键字将信息分隔开
e) 对信息进行无效数据过滤
f) 信息入本地库
g) 获取网页中的链结,对该链结从a)步骤开始重复,但注意网页中的许多链结是广告或无效的,因此要事先定义好一些链结关键字,只有包含关键字的链结才处理
分享到:
相关推荐
用户用电信息采集系统的定位是营销技术支持系统的重要组成部分,既可通过文件、中间库、WebService方式为营销业务应用系统提供数据支撑,同时也可独立运行,完成档案管理、数据采集管理、负荷管理、费控管理、线损...
在智能电网的用电信息采集系统建设中,将应用多种通信技术。其中采集设备的下行通信主要采用低压 电力线载波方式,它利用电力线进行数据传输,实现方便,覆盖范围广,没有铺设线路和运行的成本。本文介绍 了低压...
无缝化位置信息采集技术的研究顺应我国着力发展室内外无缝导航的战略需求,采用不同定位技术以达到对室内外各种定位应用的无缝覆盖,同时保证各种场景下定位技术、定位算法、定位精度和覆盖范围的平滑过渡和无缝连接,...
提出一种将蓝牙与Zigbee技术相结合,形成以Zigbee为传输网络,利用蓝牙技术为输入的井下局域网,可实现环境监测、人员定位以及井下人员信息采集。尤其是在突发事故时,被困人员的信息能够及时上传地面监控中心。实验结果...
按照坚强智能电网建设的总体要求,保证智能电网建设规范有序推进,实现电力用户用电信息采集系统建设“全覆盖、全采集、全预付费”的总体目标,规范统一用电信息采集系统及主站、采集终端、通信单元的功能配置、型式...
表明利用该App进行土壤剖面信息采集系统切实可行,在土壤剖面信息采集方面具有很好的数据一致性,减少后期录入与整理的人工成本,可为科研工作者野外土壤剖面采样及第三次土壤普查等工作提供技术支撑,具有较强的...
通过建立网页资源库,结合Spider技术、内容分析技术、引入用户数据项和替换抽取指令编辑器等,提供和定制可视化通用性较强的互联网信息采集系统,能定期自动跟踪相关网站或网页,进行比较分析、抽取、规整入库、分类...
基于GPRS的水文信息采集系统关键技术研究 水利现代化首先要求水文现代化,及时准确的水文信息采集和分析是各项水利工作 的基础。水文资料在水利行业中起着非常重要的作用,但我国在水文数据传输方面与发 达国家还有...
二、技术实现 后台框架:JSP、Servlet、JDBC 数据库:MySQL 开发环境:JDK、Eclipse、Tomcat 三、系统功能 该超市业务信息采集分析系统采用B/S结构,使用JAVA开发语言,以MySQL作为后台数据库。该系统共包含两...
运用系统工程的方法,初步构建了土壤采集信息处理系统的通用设计和开发框架,并在此基础上,利用组件技术开发了车载土壤采集信息处理系统。该系统解决了GIS、GPS和RS之间的逻辑链接,实现了基于GIS和GPS的土壤样品...
【摘要】在本文中,设计了一个针对TCP/IP网络的基于SNMP网络设备的MIB信息采集系统。这个系统采用三层模型进行设计,最底层负责SNMP中基本对象编码、定义,与设备连接通信等;中间层在底层的基础上定义了MIB对象,...
基于XML的Web信息采集系统设计与实现.pdf
基于嵌入式组件技术的精准农业农田信息采集系统的设计与实现-孟志军.doc
无线传感网在智能电网电能信息采集系统中的应用是为了保证智能电网建设规范有序推进,实现电力用户用电信息采集系统建设“全覆盖、 全采集、全预付费”的总体目标,规范统一用电信息采集系统及主站、采集终端、通信...
八、 交通流信息采集系统设计 交通信息采集系统背景简介 交通信息是城市交通规划和交通管理的重要基础信息,通过获取全面的、丰富的、实 时的交通信息不但可以把握城市道路的发展现状,而且可以对未来发展进行预测,...
通用互联网信息采集系统的设计与初步实现.docx
电力系统电能计量信息采集通讯实现.pdf
数据采集系统(DAs)是CT机的核心技术之一,其主要功能是将来自检测器 (Deteetor)的微弱电流信号经户以D转换后变成数字信号,整理并添加辅助信息, 然后送给中央控制器及图像重建系统进行相应的处理。数据采集系统作为...
知识点:常用的数据采集技术 ;数据采集技术;数据采集技术;要用大数据对关系数据库上的数据进行分析处理,很多时候都必须要将数据从关系数据库导入到大数据平台上。;应用程序日志一方面记录了系统运行期的各种程序...
数据采集技术是信息科学的重要分支,它不仅应用在智能仪器中,而且在现代工业生产、国防军事及科学研究等方面都得到广泛应用,无论是过程控制、状态监测,还是故障诊断、质量检测,都离不开数据采集系统[1]。...