C#实现网络蜘蛛的思路
采集日期:2008-4-26作者:kidtalent(注:本数据由系统自动采集,内容与BHCODE无关)
分析已经下载的主页文本,提取其中所有的Url地址信息,再依次下载得到的Url地址指向的链接即可。//为线程申请资源,确定线程总数。好了,实现控制开启线程数是不是很简单啊?这个问题也好解决,只要建立一下Url地址表,表中的每个地址只允许被一个线程申请即可。当有线程申请后,将对应线程一列设定为当前线程编号,并将是否申请过一列设置为申请一次,这样,别的线程就无法申请该页。线程标志(初值为-1,线程标志是从0开始的整数)四个字段。&&查找尚未下载成功且应下载的属于本线程权限的Url地址,thisNum是当前线程的编号,