seo外包优化过程认识蜘蛛抓取爬行的那点事(菜鸟必看)

当前位置:首页 >> seo外包 12-30 阅读:327 评论:0

seo外包优化过程认识蜘蛛抓取爬行作为新人站长我们到底要注意哪些点,亿人在本文介绍了些我们要注意操作的点。

1. 蜘蛛重要性

seo外包优化过程里我们首先得认识蜘蛛,只有我们了解懂得,才能知道自己网站到底有没有蜘蛛来过,才能判断蜘蛛的真伪,也才能针对相应蜘蛛做相应后期优化方向与应对策略。

 2.常见的蜘蛛

   百度蜘蛛:Baiduspider ,谷歌蜘蛛:Googlebot ,360蜘蛛:360Spider  ,搜狗蜘蛛:Sogou News Spider,必应蜘蛛:bingbot,SOSO蜘蛛:Sosospider,雅虎蜘蛛:Yahoo! Slurp China或者Yahoo! Slurp,MSN蜘蛛:msnbot,msnbot-media。

3.robots协议

seo外包优化必须注意的一个点,每个网站必须要写robots协议,即使你网站全部都允许蜘蛛爬行,但必须要存在robots.txt文件,因为这是搜索引擎蜘蛛爬行每个网站之前第一时间要阅读的。

4.Sitemap

方便蜘蛛了解我们网站的结构,链接层级,同时把Sitemap.xml放置在robots.txt內能让蜘蛛第一时间抓取到,方便蜘蛛对网站抓取,减少蜘蛛的爬行抓取时间,深受蜘蛛的喜爱。 

5.链接跟踪策略

(1) 深度优先:蜘蛛从上到下的抓取,蜘蛛抓取第一个页面抓取到的第一个链接,再抓这个链接里面的第一个链接,知道抓取完成才抓后面存在的链接。

(2) 宽度优先:从左到右一次抓取,但蜘蛛抓取一个页面时首先把这个页面上所有的链接一个抓取存放,才会对每个链接内部的链接进行相同的操作。

(3) 权重判断:

a. 低权重宽度优先,高权重深度优先:蜘蛛爬行时针对新站或者权重较低的页面时它首先会根据权重,内容重要性来调整抓取爬行策略,权重低或者新站,蜘蛛优先使用宽度抓取爬行,高质量,高权重的页面或者网站会进行深度抓取策略。

6. 链接层级

蜘蛛抓取页面或者链接时优先抓取短的链接,因为链接层级的多或者少代表了这个链接的重要性,链接层级越少越重要,页面,内容越重要,比如我们的首页>栏目页>内容页,这也是链接层级所决定的,同时链接层级少代表着这个链接的地位越高,相应的权重也越高,一次蜘蛛抓取会根据链接层级来判断我们网站结构,同时得出内容的重要性,因此在我们做网站时就要求我们链接层级不要过多,过长,一般链接最好不要超过3层,层级多了会分散我们的权重,同时也不方便蜘蛛的抓取。 

7.重返抓取

全部重返抓取:蜘蛛每次都对整个网站依次全部抓取一遍

单个重返:针对页面写死,或者不更新,长年不更新的页面蜘蛛抓过一次之后就不再抓取,而是选择抓取经常有新内容更新的,这就要求我们在建站时一定要设置经常内容更新栏目方便勾引蜘蛛抓取爬行。

8. 勾引蜘蛛

seo外包优化过程那该如何吸引蜘蛛每天来爬行我们的网站,对网站进行快速搜素,索引排名。

(1)网站和页面权重,要求我们层级最少最优,打造层级少的页面,保证页面的高权重,这样一个一个高权重的页面组成的网站对蜘蛛肯定是有吸引力的。

(2)页面更新度:要求我们要经常或者坚持对网站内容进行更新,保证网站经常有新内容的生产,吸引蜘蛛爬行抓取,要求两点:

a. 质量:我们网站内容一定要是高质量的原创或者伪原创,为用户提供有用的搜索信息,满足用户需求,解决用户问题。

b. 频率:每天更新文章要有相应发布文章的数量和明确的发文时间,这不仅能促进蜘蛛习惯的养成,能对我们每天发文进行快速收录,索引排名,对网站非常有帮助。

(3)导入链接:外链所在网站的权重:这就要求我们做外链时要有针对性,选择在高权重的网站发布外链比选择在低权重的网站发布外链更有效果,做外链时在高权重网站做更能让蜘蛛发现找到我们的网站。

(4)与首页点击距离:就是在首页能找到链接入口就越受蜘蛛的青睐,不仅缩短了蜘蛛抓取的时间,使网站内部相通。因此我们在布置首页时尽量给蜘蛛留些有用的入口方面蜘蛛爬行我们的网站,而不是每次都通过栏目进来抓取。

9.地址库

(1)人工录入:早期互联网技术不发达时采用的一种链接人工手动录入,现在基本上已经没有了,是我们地址库最初形成的方式。

(2)蜘蛛抓取到的:搜索引擎蜘蛛更喜欢它自己能抓取,自己看到的东西,而不是我们给他的,这就启发我们需要给我们的网站去高权重网站做外链让蜘蛛发现我们的网站,让它自己来爬行我们的网站,同时就要求我们做外链时自己一定要记录好定期查看自己的外链是否存活,也能了解自己外链建设情况。

(3)站长检索:我们每天除了发布文章,我们不要忘了推送给蜘蛛,让蜘蛛知道我们有内容更新。

10.简单检测

seo外包优化过程里蜘蛛在爬行或者抓取文件过程中会对具有一定程度复制内容进行检测,但我们网站是新站或者权重低时采集或者抄袭别人的,会造成蜘蛛流失,严重的蜘蛛放弃你的网站不再来抓取爬行我们的网站,有些网站经常在网站日志中发现蜘蛛的存在,但就是不收录就是因为网站存在大量别人网站的内容,不是蜘蛛需要的,因此在做内容时最好是高质量的原创或者高质量的伪原创,切不可偷懒原模原样照抄,不仅不受蜘蛛喜欢还会遭受搜索引擎惩罚,白白浪费时间和精力。

 

  

 

 


版权声明

本文仅代表作者观点,部分文章内容图片来自网络如有侵权请联系删除1298482034@qq.com。
如需转载本站文章请带上文章链接

分享:

扫一扫在手机阅读、分享本文

评论