请专家分析，百度蜘蛛爬取的原理问题

2013-12-13 21:30| 发布者: 黄忠| 查看: 1764| 评论: 0

　　小弟不才，对百度蜘蛛的爬取的原理比较模糊后者说理解的有偏差，希望高手赐教。

　　1、新站刚刚解析域名后，做百度提交或者做外链“引蜘蛛”爬取，假设做的首页锚文本外链，蜘蛛是只爬取首页，然后顺着首页的连接进行抓取?还是网站的根目录下所有没被robots禁止的目录都被有可能抓取。

　　2、url伪静态后不在根目录文件夹生成文件的形式，对蜘蛛抓取，或者说收录影响多大?dz伪静态后会生成文件吗?之梦的会产生成静态页。

　　3、根目录下.jsp格式的模版文件会被抓取吗?

　　主要是对抓取的原理不太懂，写的乱糟糟的，同时希望给些资料查看。

　　回复：

　　回答：百度会先访问robots.txt文件，看一下哪些目录不被收录，然后从首页开始抓取首页所放置的链接，爬取策略包括深度遍历和广度遍历。robots.txt协议说的是不想被收录，但是百度蜘蛛有时候还会爬的。

　　2、url伪静态后不在根目录文件夹生成文件的形式，对蜘蛛抓取，或者说收录影响多大?dz伪静态后会生成文件吗?之梦的会产生成静态页。

　　回答：蜘蛛是顺着链接抓的，只要你的链接用户能打开，蜘蛛就能抓，伪静态会对页面打开速度有一定的影响，页面打开速度又影响蜘蛛抓取的效率。伪静态不会生成静态文件，生成静态文件就叫做静态网页了，织梦生成的静态文件。

　　3、根目录下.jsp格式的模版文件会被抓取吗?

　　回答：模板文件、js、css什么的，你如果不屏蔽，蜘蛛也是会爬的。

　　回复：

　　我一直很稀奇一件事情，百度站长平台中的站长资讯给的资料已经够好的了，我做这行五年了，现在里面的文章过段时间就看看。可发现很多人都不知道?

　　里面有个搜索引擎抓取系统概述一和搜索引擎抓取系统概述二，看完之后，或许对你有很大帮助。

　　百度蜘蛛他进不了你的服务器去查看你的网站根目录的，他只能通过网站前台的链接往里抓取。

　　所以这就要求我们，尽量做成扁平式结构：通过首页抓取所有目录页面，再通过所有目录页面抓取内容页。

上一篇：网站有几百万个url怎么做Sitemap下一篇：日志的最后怎么还带一个IP地址?

GMT+8, 2025-4-4 03:00

相关分类