Nutch & Lucene 之 搜索引擎文本分析


0搜索引擎文本分析 ——网络爬虫处理互联网信息,从数量上看比例较大的是静态网页和动态的HTML页面。但整个网络上散落的各种格式化文本文件也非常重要。这部门文件包括了各种文章、各种产品文档等,对用户有很大的帮助。

1——非结构化文本概述

互联网上和企业网内有很多专业的文档资料,尤其在检索一些专业资料时,往往会在出现网页文档的同时出现一些DOC PDF PPT等格式的文档。非结构化的文本通常具有一定得格式,格式化的文件一般结构复杂,通常有多家厂商的不同系统生成,这些格式使得普通程序读取内容无从下手(如htmlParser)

2 ——HTML文档分析:

HTML网页需要分析处理后才能用于索引和检索的,HTML网页的分析处理工具主要完成网页格式文档的解析,过滤网页中显示格式控制元素和无意义信息。 —— HTMLParser工具包

3——PDF 文档分析:

它是国内使用率非常高的一种文档格式,这种文件格式把文字图像等多种信息集合在一个文档中,必须根据他的文档格式,提取基本的文本信息,才能用于检索。—— PDFBox工具包是一款免费的开源软件 http://pdfbox.apache.org/download.cgi

4——Office 文档分析:

它是目前最流行的文档格式,几乎成为事实的文档标准,互联网上散落着大量的这样文档,几乎所有的搜索引擎都提供了这种格式文档的检索。但是,微软的文件格式不公开,并且不断的变化 —— POI工具包是Apache Jakarta 的一个项目。http://poi.apache.org/download.html

Microsoft 的Office格式非常复杂,往往包含了各种文档属性信息、文档内的格式信息,有时候甚至包含了复合文档。文档属性信息主要包括文档的标题、主题、摘要、类别、关键词等;文档内部的格式信息包括了文档的字体、字号、表格、图标,其他OLE2的正文元素等。POI 提供了访问Office的API(HSSF HWPF HSLF)分别处理excel word powerpoint

5——XML 文档分析:

是一种较为 通用的文档格式,XML是可扩展标记语言(eXtensible MarkU盘Language),是一种简单的数据存储语言,使用系列简单的标记描述数据,广泛用于数据交换领域 —— JDOM工具包,功能强大,使用灵活方便,可以非常方便的完成XML的解释和读取操作,能够帮助开发者快速实现XML应用程序。http://jdom.org/downloads/index.html

技术分享

郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。