乐思信息采集系统：信息抽取/信息采集/信息抓取/网页数据抓取/网页数据采集

首页 | 产品 | 服务 | 技术 | 支持 | 公司

系统简介

Web是信息的海洋，网页数量超过400亿页，而且还在以每天新增一百万个页面的速度增长，90%是非结构化或半结构化形式。信息的数量呈爆炸性的增长，人们的时间与精力却是有限的不变的。然而对企业或个人有巨大价值的信息就在隐藏在这片遍布全球的信息海洋中，如何把它们提取出来呢？这已成为目前信息检索、数据挖掘，知识管理，竞争情报等研究领域的重要课题。

乐思信息采集系统就是这片信息海洋中的一头蓝鲸，帮助你在信息过载的，有大量无关信息干扰（如页眉，页脚，栏目列表，广告）的网页海洋中，自动而精确地获取有价值的信息，得到结构规范便于利用的仅包含你感兴趣信息的数据库。

乐思信息采集系统是乐思软件公司历时一年开发出来的功能强大的网络信息抽取系统，采用分层架构与松耦合组件化设计，由多个软件子系统组成。它可以把网络上的各种指定信息批量抽取到指定的关系数据库中，帮助客户从庞大的网络矿藏中挖掘宝石，将信息由半结构化变为结构化，由分布变为集中，由远端变为本地，由视觉呈现变为数据记录，便于后续深度利用。

乐思信息采集系统独创SmartExtract技术，可以胜任多种类型网站的信息抽取，既能抽取网页中具有半结构化的字段数据，也可以抽取仅具有某种特征的自由文本信息，如电子邮件地址，还能下载各种多媒体文件。它具有稳定运行，智能爬行，精确抽取的特点。它是一个抽取平台，当需要针对新的任务抽取时，需要利用该平台配置新的网络爬行与抽取指令序列。

乐思信息采集系统开发了一个通用的数据库存取层，后端可以连接到任何关系数据库，如MS SQL Server, Oracle, DB2, Sybase, MySQL, InterBase等甚至还可以是文件型的Access数据库。采集后的数据，无论是哪种数据库，都可以通过一个通用的数据库浏览器来查看数据库元数据与数据记录，并可以导出数据到多种格式，如XML，CVS，HTML，Excel等等。

应用范围：

关键信息获取：获取各种因特网上各种各样的专业信息数据库

竞争情报系统：通过关键字监视网络媒体上自己与竞争对手的市场信息

企业内容管理：批量精确地获取外部内容，并自动化处理

数据库营销：抽取留言本，论坛，新闻组上面目标潜在用户的留言信息与联系信息

企业整合门户：在EIP中嵌入外部网站的实时内容

比较系统：商品价格比较系统

网络信息集成：从多个同类网站中抽取信息并集成在一起，如个人简历，招聘信息，租赁信息，商品信息，公司名录

个性化信息代理：将个人或企业感兴趣的多个网站最新内容整合在一起，通过Email的形式或者网页形式提供给用户，节约用户的逐个网站下载并浏览的时间