首页 >> 文摘 >> JAVA

提取Word里面的内容

采集日期:2008-4-30作者:sunnydream(注:本数据由系统自动采集,内容与BHCODE无关)
Word里面的内容比较简单: 除了支持对Excel文件的读取外,POI还提供对Word的DOC格式文件的读取。但在它的发行版本中没有发布对Word支持的模块,需要另外下载一个POI的扩展的Jar包。用户可以到http://www.ibiblio.org/maven2/org/textmining/tm-extractors/0.4/下载,本书采用的是tm-extractors-0.4_zip。 下载后,把该包加入工程的Build Path中,然后在ch7.poi包下新建一个类WordReader,该类提供一个静态方法readDoc,读取一个DOC文件并返回文本。函数内容很简单,就是调用WordExtractor的API来提取DOC的内容到字符串,该函数的代码如下。 public static String readDoc(String doc) throws Exception {  // 创建输入流读取DOC文件  FileInputStream in = new FileInputStream(new File(doc));  WordExtractor extractor =
本周推荐
MORE
热点关注
MORE