首页 | 乐园 | 淘宝店 | 社区 | 电驴 | 网页游戏 | 网址大全

VeryCD / 社区 / 软件爱好者之家

资源管理小组

相关主题

主题: 快速高效地抓取VC资源连接的办法

相关分类: 资料

吾谁与归 (楼主) 2009/12/11 23:16:45 顶楼 举报

我意外地从网站的机器人协议(http://www.VeryCD.com/robots.txt)中发现了网站地图,追下去是6个打包的存档文件,每个文件解开都是xml格式,里面存放了所在资源及分类的连接。因此只需要把xml文件里的连接抓下来就可以获得资源的ED2K连接、介绍、相关资源及评论等(如果用wget递归1级下载还能得到图片,当然也会多也很多垃圾)。由于数据非常庞大,当然最好得写程序来自动处理。这比用工具简单爬整个网站会有效得多,所需的空间也会少很多。
http://www.VeryCD.com/sitemaps/sitemap.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-1.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-2.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-3.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-4.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-5.xml.gz
http://www.VeryCD.com/sitemaps/sitemap-6.xml.gz
有兴趣的会写程序的可以去试一下。


测试了一下能一块抓取图片的命令:
wget -k -p -H -D image-7.VeryCD.com <URL>
<URL>当然是 那些xml里提取出来的资源主题URL(在每个元素url里的loc子元素)。

分享到开心网  分享到校内  收藏到QQ书签    订阅本主題RSS更新  美味书签

2009/12/12 00:08:18吾谁与归 最后编辑 | 查看全部

reetow 2009/12/12 00:04:07 2楼 举报

我是菜鸟,不懂你说的。


[0] [0] [回复]

fzq1252 2009/12/12 00:15:56 3楼 举报

我也是不太明白你说的啊 楼主能说的再通俗一点吗啊?


[0] [0] [回复]

吾谁与归 (楼主) 2009/12/12 00:23:44 4楼 举报

你把我上面贴子里的连接下载下来,然后解压缩(RAR应该可以吧),然后就是一些xml文件,用文本编辑器(比如notepad)打开,就会看到下面这样的内容:
<url>
<loc>http://www.VeryCD.com/topics/2729930/</loc>
<lastmod>2009-10-12T18:05:07+08:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.5</priority>
</url>
<url>
<loc>http://www.VeryCD.com/topics/2729922/</loc>
<lastmod>2009-10-12T18:05:15+08:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.5</priority>
</url>
<url>
<loc>http://www.VeryCD.com/topics/2729730/</loc>
<lastmod>2009-10-12T18:05:25+08:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.5</priority>
</url>

然后把每个url里的loc所指一的连接,用我上面给出的wget命令就能把页面及图片抓下来(有些图片我就懒得抓了,比如logo、相关资源的icon等)


[0] [0] [回复]

吾谁与归 (楼主) 2009/12/12 03:07:21 5楼 举报

写了个程序,开始爬了,明天看结果如何


[0] [0] [回复]

dovepease 2009/12/12 04:14:24 6楼 举报

期待中。支持的驴友们,都来顶一个吧,给楼主加把劲!!!!


[0] [0] [回复]

Robin19870509 2009/12/12 07:20:50 7楼 举报

不懂~~~


[+1] [0] [回复]

吾谁与归 (楼主) 2009/12/12 11:28:47 8楼 举报

我已经用java写了一个程序,但运行了7个小时进度才不到5%,平均网络传输速度16K/s。我准备再改进成多线程模式来增加并行的连接数以提高下载速度。
目前的版本我已经放在我的电骡共享目录中,我电骡的昵称与这里的ID是一样的,你们自己去找吧。


[+2] [0] [回复]

吾谁与归 (楼主) 2009/12/13 01:09:18 9楼 举报

工具升级,可并行处理多个站点地图文件。

电驴资源
下面是用户共享的文件列表,安装电驴后,您可以点击这些文件名进行下载
VCCrawler-1.0.zip 详情 17KB
17KB

[0] [0] [回复]


返回组首页


您可能需要登录以后才能回复!

关于我们 | 诚聘英才 | 著作权声明 | 合作信息 | 广告事务
沪ICP备05001009号
©2003 - 2009 VeryCD.com Some Rights Reserved.