小弟不才,对百度蜘蛛的爬取的原理比较模糊后者说理解的有偏差,希望高手赐教。 1、新站刚刚解析域名后,做百度提交或者做外链“引蜘蛛”爬取,假设做的首页锚文本外链,蜘蛛是只爬取首页,然后顺着首页的连接进行抓取?还是网站的根目录下所有没被robots禁止的目录都被有可能抓取。 2、url伪静态后不在根目录文件夹生成文件的形式,对蜘蛛抓取,或者说收录影响多大?dz伪静态后会生成文件吗?之梦的会产生成静态页。 3、根目录下.jsp格式的模版文件会被抓取吗? 主要是对抓取的原理不太懂,写的乱糟糟的,同时希望给些资料查看。 回复: 1、新站刚刚解析域名后,做百度提交或者做外链“引蜘蛛”爬取,假设做的首页锚文本外链,蜘蛛是只爬取首页,然后顺着首页的连接进行抓取?还是网站的根目录下所有没被robots禁止的目录都被有可能抓取。 回答:百度会先访问robots.txt文件,看一下哪些目录不被收录,然后从首页开始抓取首页所放置的链接,爬取策略包括深度遍历和广度遍历。robots.txt协议说的是不想被收录,但是百度蜘蛛有时候还会爬的。 2、url伪静态后不在根目录文件夹生成文件的形式,对蜘蛛抓取,或者说收录影响多大?dz伪静态后会生成文件吗?之梦的会产生成静态页。 回答:蜘蛛是顺着链接抓的,只要你的链接用户能打开,蜘蛛就能抓,伪静态会对页面打开速度有一定的影响,页面打开速度又影响蜘蛛抓取的效率。伪静态不会生成静态文件,生成静态文件就叫做静态网页了,织梦生成的静态文件。 3、根目录下.jsp格式的模版文件会被抓取吗? 回答:模板文件、js、css什么的,你如果不屏蔽,蜘蛛也是会爬的。 回复: 我一直很稀奇一件事情,百度站长平台中的站长资讯给的资料已经够好的了,我做这行五年了,现在里面的文章过段时间就看看。可发现很多人都不知道? 里面有个搜索引擎抓取系统概述一和搜索引擎抓取系统概述二,看完之后,或许对你有很大帮助。 百度蜘蛛他进不了你的服务器去查看你的网站根目录的,他只能通过网站前台的链接往里抓取。 所以这就要求我们,尽量做成扁平式结构:通过首页抓取所有目录页面,再通过所有目录页面抓取内容页。 |
|SEO服务 ( 苏B2-20110049 )
GMT+8, 2024-11-22 00:02
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.