首页 >> 文摘 >> JAVA

使用xpdf来处理中文PDF文档

采集日期:2008-4-30作者:sunnydream(注:本数据由系统自动采集,内容与BHCODE无关)
PDFBox看起来非常的方便,它的API功能强大。甚至能和Lucene进行无缝的结合。但是它有一个致命的弱点,就是它不支持中文。要提取中文的文本,可以采用另一个非常出色的工具xpdf。 1  xpdf的下载 读者可以到http://www.foolabs.com/xpdf/download.html下载最新版本的xpdf。如图1所示。 图1  xpdf的下载页面 本书采用的是xpdf-3.01pl2-win32.zip。另外,还需要下载一个中文包xpdf-chinese-simplified.tar.gz。 2  配置 将xpdf-3.01pl2-win32.zip解压到c:\xpdftest目录下,然后将xpdf-chinese-simplified.tar.gz解压倒c:\xpdftest\xpdf\目录下,解压后的目录结构如图2所示。 图2  Xpdf解压后的目录 打开目录下的xpdfrc文件,编辑文件内容,如下代码所示。 代码1 cidToUnicode    Adobe-GB1       c:\xpdftest\xpdf\xpdf-chinese-simplifie
本周推荐
MORE
热点关注
MORE