首页 | 乐园 | 淘宝店 | 社区 | 电驴 | 网页游戏 | 网址大全

VeryCD / 社区 / 下载强迫症候群

资源管理小组

相关主题

主题: 快速高效地抓取VC资源连接的办法

相关分类: 资料

吾谁与归 (楼主) 2009/12/11 23:23:31 顶楼 举报

我意外地从网站的机器人协议(http://www.VeryCD.com/robots.txt)中发现了网站地图,追下去是6个打包的存档文件,每个文件解开都是xml格式,里面存放了所在资源及分类的连接。因此只需要把xml文件里的连接抓下来就可以获得资源的ED2K连接、介绍、相关资源及评论等(如果用wget递归1级下载还能得到图片,当然也会多也很多垃圾)。由于数据非常庞大,当然最好得写程序来自动处理。这比用工具简单爬整个网站会有效得多,所需的空间也会少很多。
http://www.VeryCD.com/sitemaps/sitemap.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-1.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-2.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-3.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-4.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-5.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-6.xml.gz
有兴趣的会写程序的可以去试一下。


测试了一下能一块抓取图片的命令:
wget -k -p -H -D image-7.VeryCD.com <URL>
<URL>当然是 那些xml里提取出来的资源主题URL(在每个元素url里的loc子元素)。

分享到开心网  分享到校内  收藏到QQ书签    订阅本主題RSS更新  美味书签

2009/12/12 00:15:25吾谁与归 最后编辑 | 查看全部

a19911991 2009/12/12 00:46:11 2楼 举报

8错


[0] [0] [回复]

Ricky_Ciel 2009/12/12 01:18:30 3楼 举报

还可以这样..


[0] [0] [回复]


返回组首页

快速回复

(?) 附件上传

关于我们 | 诚聘英才 | 著作权声明 | 合作信息 | 广告事务
沪ICP备05001009号
©2003 - 2009 VeryCD.com Some Rights Reserved.