我意外地从网站的机器人协议(http://www.VeryCD.com/robots.txt)中发现了网站地图,追下去是6个打包的存档文件,每个文件解开都是xml格式,里面存放了所在资源及分类的连接。因此只需要把xml文件里的连接抓下来就可以获得资源的ED2K连接、介绍、相关资源及评论等(如果用wget递归1级下载还能得到图片,当然也会多也很多垃圾)。由于数据非常庞大,当然最好得写程序来自动处理。这比用工具简单爬整个网站会有效得多,所需的空间也会少很多。
http://www.VeryCD.com/sitemaps/sitemap.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-1.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-2.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-3.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-4.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-5.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-6.xml.gz
有兴趣的会写程序的可以去试一下。
测试了一下能一块抓取图片的命令:
wget -k -p -H -D image-7.VeryCD.com <URL>
<URL>当然是 那些xml里提取出来的资源主题URL(在每个元素url里的loc子元素)。