A5站长网SEO团队 首页 SEO问答 查看内容

请专家分析,百度蜘蛛爬取的原理问题

2013-12-13 21:30| 发布者: 黄忠| 查看: 1624| 评论: 0

  小弟不才,对百度蜘蛛的爬取的原理比较模糊后者说理解的有偏差,希望高手赐教。

  1、新站刚刚解析域名后,做百度提交或者做外链“引蜘蛛”爬取,假设做的首页锚文本外链,蜘蛛是只爬取首页,然后顺着首页的连接进行抓取?还是网站的根目录下所有没被robots禁止的目录都被有可能抓取。

  2、url伪静态后不在根目录文件夹生成文件的形式,对蜘蛛抓取,或者说收录影响多大?dz伪静态后会生成文件吗?之梦的会产生成静态页。

  3、根目录下.jsp格式的模版文件会被抓取吗?

  主要是对抓取的原理不太懂,写的乱糟糟的,同时希望给些资料查看。

  回复:

  1、新站刚刚解析域名后,做百度提交或者做外链“引蜘蛛”爬取,假设做的首页锚文本外链,蜘蛛是只爬取首页,然后顺着首页的连接进行抓取?还是网站的根目录下所有没被robots禁止的目录都被有可能抓取。

  回答:百度会先访问robots.txt文件,看一下哪些目录不被收录,然后从首页开始抓取首页所放置的链接,爬取策略包括深度遍历和广度遍历。robots.txt协议说的是不想被收录,但是百度蜘蛛有时候还会爬的。

  2、url伪静态后不在根目录文件夹生成文件的形式,对蜘蛛抓取,或者说收录影响多大?dz伪静态后会生成文件吗?之梦的会产生成静态页。

  回答:蜘蛛是顺着链接抓的,只要你的链接用户能打开,蜘蛛就能抓,伪静态会对页面打开速度有一定的影响,页面打开速度又影响蜘蛛抓取的效率。伪静态不会生成静态文件,生成静态文件就叫做静态网页了,织梦生成的静态文件。

  3、根目录下.jsp格式的模版文件会被抓取吗?

  回答:模板文件、js、css什么的,你如果不屏蔽,蜘蛛也是会爬的。

  回复:

  我一直很稀奇一件事情,百度站长平台中的站长资讯给的资料已经够好的了,我做这行五年了,现在里面的文章过段时间就看看。可发现很多人都不知道?

  里面有个搜索引擎抓取系统概述一和搜索引擎抓取系统概述二,看完之后,或许对你有很大帮助。

  百度蜘蛛他进不了你的服务器去查看你的网站根目录的,他只能通过网站前台的链接往里抓取。

  所以这就要求我们,尽量做成扁平式结构:通过首页抓取所有目录页面,再通过所有目录页面抓取内容页。


路过

雷人

握手

鲜花

鸡蛋

QQ|SEO服务 ( 苏B2-20110049 )

GMT+8, 2024-5-9 07:41

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

返回顶部