Heritrix-1.12.1在Eclipse中的配置
采集日期:2008-5-3作者:sunnydream(注:本数据由系统自动采集,内容与BHCODE无关)
关于网络爬虫Heritrix,在配置上真是一件不容易的事情,之所以这样会说,是因为Heritrix开发之初就是基于在Unix平台的(可以参考官方Manual,网址为http://crawler.archive.org/articles/user_manual/index.html),可以保证非常容易地在Unix平台下轻松地启动。因此,在Windows平台下,配置起来让人感觉有点非常规。
在网络上有很多关于配置它的求助帖子,我感觉看了那些帖子后,感觉更加迷茫了。
个人认为,关键是理解它的内在机制,这才是核心所在。
下面,我把个人在配置Heritrix的心得记录如下,供大家参考。
准备工作
1、下载Heritrix-1.12.1
可以到SourceForge.net上去下载,下载地址链接为:http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980
需要下载的压缩文件包有两个,如下:
heritrix-1.12.1.zip 和 heritrix-1.12.1-src.zip
2、解压缩Heritr