![]() |
![]() |
|
||||
|
系统简介 Web是信息的海洋,网页数量超过400亿页,而且还在以每天新增一百万个页面的速度增长,90%是非结构化或半结构化形式。信息的数量呈爆炸性的增长,人们的时间与精力却是有限的不变的。然而对企业或个人有巨大价值的信息就在隐藏在这片遍布全球的信息海洋中,如何把它们提取出来呢?这已成为目前信息检索、数据挖掘,知识管理,竞争情报等研究领域的重要课题。 乐思信息采集系统就是这片信息海洋中的一头蓝鲸,帮助你在信息过载的,有大量无关信息干扰(如页眉,页脚,栏目列表,广告)的网页海洋中,自动而精确地获取有价值的信息,得到结构规范便于利用的仅包含你感兴趣信息的数据库。 乐思信息采集系统是乐思软件公司历时一年开发出来的功能强大的网络信息抽取系统,采用分层架构与松耦合组件化设计,由多个软件子系统组成。它可以把网络上的各种指定信息批量抽取到指定的关系数据库中,帮助客户从庞大的网络矿藏中挖掘宝石,将信息由半结构化变为结构化,由分布变为集中,由远端变为本地,由视觉呈现变为数据记录,便于后续深度利用。 乐思信息采集系统独创SmartExtract技术,可以胜任多种类型网站的信息抽取,既能抽取网页中具有半结构化的字段数据,也可以抽取仅具有某种特征的自由文本信息,如电子邮件地址,还能下载各种多媒体文件。它具有稳定运行,智能爬行,精确抽取的特点。它是一个抽取平台,当需要针对新的任务抽取时,需要利用该平台配置新的网络爬行与抽取指令序列。 乐思信息采集系统开发了一个通用的数据库存取层,后端可以连接到任何关系数据库,如MS SQL Server, Oracle, DB2, Sybase, MySQL, InterBase等甚至还可以是文件型的Access数据库。采集后的数据,无论是哪种数据库,都可以通过一个通用的数据库浏览器来查看数据库元数据与数据记录,并可以导出数据到多种格式,如XML,CVS,HTML,Excel等等。 应用范围: 关键信息获取:获取各种因特网上各种各样的专业信息数据库
|
|