使用xpdf来处理中文PDF文档
采集日期:2008-4-30作者:sunnydream(注:本数据由系统自动采集,内容与BHCODE无关)
PDFBox看起来非常的方便,它的API功能强大。甚至能和Lucene进行无缝的结合。但是它有一个致命的弱点,就是它不支持中文。要提取中文的文本,可以采用另一个非常出色的工具xpdf。
1 xpdf的下载
读者可以到http://www.foolabs.com/xpdf/download.html下载最新版本的xpdf。如图1所示。
图1 xpdf的下载页面
本书采用的是xpdf-3.01pl2-win32.zip。另外,还需要下载一个中文包xpdf-chinese-simplified.tar.gz。
2 配置
将xpdf-3.01pl2-win32.zip解压到c:\xpdftest目录下,然后将xpdf-chinese-simplified.tar.gz解压倒c:\xpdftest\xpdf\目录下,解压后的目录结构如图2所示。
图2 Xpdf解压后的目录
打开目录下的xpdfrc文件,编辑文件内容,如下代码所示。
代码1
cidToUnicode Adobe-GB1 c:\xpdftest\xpdf\xpdf-chinese-simplifie