首页 | 乐园 | 淘宝店 | 社区 | 电驴 | 网页游戏 | 网址大全

VeryCD / 社区 / 操作系统爱好者

资源管理小组

相关主题

主题: 快速有效地抓取VC网站上资源连接的办法

相关分类: 资料

吾谁与归 (楼主) 2009/12/11 23:18:02 顶楼 举报

我意外地从网站的机器人协议(http://www.VeryCD.com/robots.txt)中发现了网站地图,追下去是6个打包的存档文件,每个文件解开都是xml格式,里面存放了所在资源及分类的连接。因此只需要把xml文件里的连接抓下来就可以获得资源的ED2K连接、介绍、相关资源及评论等(如果用wget递归1级下载还能得到图片,当然也会多也很多垃圾)。由于数据非常庞大,当然最好得写程序来自动处理。这比用工具简单爬整个网站会有效得多,所需的空间也会少很多。
http://www.VeryCD.com/sitemaps/sitemap.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-1.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-2.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-3.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-4.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-5.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-6.xml.gz
有兴趣的会写程序的可以去试一下。


测试了一下能一块抓取图片的命令:
wget -k -p -H -D image-7.VeryCD.com <URL>
<URL>当然是 那些xml里提取出来的资源主题URL(在每个元素url里的loc子元素)。

分享到开心网  分享到校内  收藏到QQ书签    订阅本主題RSS更新  美味书签

2009/12/12 00:12:09吾谁与归 最后编辑 | 查看全部

hrdabc 2009/12/11 23:55:18 2楼 举报

早点发布啊,今天抓了一天


[0] [0] [回复]

吾谁与归 (楼主) 2009/12/12 00:14:37 3楼 举报

引用(hrdabc @ 2009-12-11, 11:55 PM) *
早点发布啊,今天抓了一天


不好意思,我今天晚上才开始琢磨要不要爬,于是就先看一下它的机器人协议看要不要遵守


[0] [0] [回复]

luoxin_pro 2009/12/12 01:21:59 4楼 举报

引用(hrdabc @ 2009-12-11, 11:55 PM) *
早点发布啊,今天抓了一天

这么说你会编写程序了,写好了给我一份啊。


[0] [0] [回复]

hrdabc 2009/12/12 01:30:59 5楼 举报

引用(luoxin_pro @ 2009-12-12, 01:21 AM) *
引用(hrdabc @ 2009-12-11, 11:55 PM) *
早点发布啊,今天抓了一天

这么说你会编写程序了,写好了给我一份啊。

用getleft简单


[0] [0] [回复]

吾谁与归 (楼主) 2009/12/12 03:06:22 6楼 举报

开始爬了,明天看什么情况


[0] [0] [回复]


返回组首页


您可能需要登录以后才能回复!

关于我们 | 诚聘英才 | 著作权声明 | 合作信息 | 广告事务
沪ICP备05001009号
©2003 - 2009 VeryCD.com Some Rights Reserved.