首页 >> 文摘 >> JAVA

PDFBox与lucene的集成

采集日期:2008-4-30作者:sunnydream(注:本数据由系统自动采集,内容与BHCODE无关)
PDFBox提供和Lucene的集成,它提供了一套简单的方法把PDF Documents加入到Lucene的索引中去,请看以下代码: Document lucenedocument = LucenePDFDocument.getDocument(…); 其中,LucenePDFDocument是PDFBox中提供的一个类,它的getDocument被重载为3个方法,分别接收一个File对象、InputStream对象或者URL对象作为参数,然后从该参数传递进来的PDF文件中,提取并生成Lucene的Document对象。 当通过PDFBox从一个PDF文档中得到一个Lucene Document后,可以直接使IndexWriter把它加到Lucene的index中。LucenePDFDocument自动从PDF文件中提取各种元数据Field,并把它们加入到Document中。 下面通过LucenePDFDocument,直接对PDF建立索引,在ch7.pdf包下面新建一个PdfLuceneTest类,该类的代码如下: public class PdfLuceneTest {  pub
本周推荐
MORE
热点关注
MORE