津门在线科技 互联网正文

「靖歌阁」关于百度蜘蛛的那些你不得你知道的事儿

2017/11/9 16:51:37   来源:互联网

百度蜘蛛,是百度搜索引擎的一个自动程序。它的作用是访问收集整理互联网上的网页、图片、视频等内容,然后分门别类建立索引数据库, 使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。今天靖歌阁就带你去了解下关于百度蜘蛛的那些你不得你知道的事儿…

  

「靖歌阁」关于百度蜘蛛的那些你不得你知道的事儿

 

  1.问:为什么收录量像坐过山车一样的,还有为什么有些网页今天在明天就没了?

  答:百度会周期建库,且每个库的收录量是恒定的,你老是有新增,肯定会再从库里淘汰一些,反正总是保持那个库是满的。在建库的过程中,你会感觉有波动。具体的怎么筛,哪个页面会留下哪个页面会淘汰,这个策略是有很多的,随着时间的变化,收录的标准策略也是在发生微调。

  2.问:站点使用CDN加速会不会比较容易造成蜘蛛无法抓取?因为有时候修改掉他绑定的什么东西。

  答:如果要修改掉一定要通知到上一级,现在不存在这个问题,现在你如果修改掉也可以解析掉,之前可能会存在这个问题。

  

「靖歌阁」关于百度蜘蛛的那些你不得你知道的事儿

 

  3.问:百度自己也有一个CDN加速,对抓录排名有没有影响?

  答:在使用CDN加速这个问题上,对所有站点一视同仁。但我建议你使用技术能力强的CDN服务商,保证站点的稳定和速度,百度会更喜欢。

  4.问:多个域名,他有相同的一些内容,怎么建库?

  答:如果是多域名在同一个主域下面有相同内容的话,不可能所有都建库,而且被建库的那个可能不是你希望的那个,所以尽量不要有相同的内容。

  

「靖歌阁」关于百度蜘蛛的那些你不得你知道的事儿

 

  5.问:刚才讲的IP如果是多域名的话,好几百个IP域名,现在也用了CDN,按照刚才的说法,单个IP最多抓多少?1000万是说对站点还是对IP?

  答:对IP,但1000万是我举例,不是实际的数据,这个数据不会分享出来的

  6.问:现在我的网站被很多蜘蛛爬,我想只让百度蜘蛛爬,百度蜘蛛IP多少?能设白名单么?

  答:百度蜘蛛IP是不断变的,现在网上的确有一些白名单的说法,暂时是有效的,但不保证今后不会变,所以建议站点还是通过ua进行判断,百度站长平台上有相关的文章,你可以找一下。

  

「靖歌阁」关于百度蜘蛛的那些你不得你知道的事儿

 

  7.问:如果我写robots只想禁掉动态链接的话,会不会影响动态参数前面正常链接的抓取?

  答:不会的,你原来的页面还在,肯定会抓。

  8.问:比如一个域名www.abcde.com,想把带?号的url全部禁掉,首页不要禁掉,怎么弄?

  答:?前面有个*,后面再有个*就可以了。

  

「靖歌阁」关于百度蜘蛛的那些你不得你知道的事儿

 

  9.问:我想了解,如果我现在收录有5万,大概多长时间才能把我原来收录5万重新抓取一遍?

  答:不同站点不好说,一个是你站点做的很好,知名度很响更新很快质量很好就会快;如果你的站点默默无闻,贡献很少,可能就会很慢。

  10.问:百度站长平台上有数据提交的工具,实时提交,也会实时抓取吗?

  答:不会,他会有一层判断。现在只是通知你提交成功,后面什么时候抓,什么时候建库没有,正在研究要不要把这个分享出来。

  

「靖歌阁」关于百度蜘蛛的那些你不得你知道的事儿

 

  11.问:我网站有一些列表页,都没有链接,担心百度抓不到

  答:现在百度站长平台的站内搜索工具有一个绿色收录通道,在那里提交种子页,就知道的。

  12.问:如果说页面里url特别多的话,蜘蛛会不会有选择性的进行抓取?

  答:不会,他都会一个不漏给你提出来,但会把JS、CSS这样的链接给过滤掉。但请注意,全部抓取过来之后会进行筛选,并不是所有都会建库。

  

「靖歌阁」关于百度蜘蛛的那些你不得你知道的事儿

 

  13.问:现在很多网站都有自己的站内搜索,都会产生站内搜索结果页,百度不喜欢搜索结果页的话,用这个会不会对有影响?只是不喜欢还是对网站会有惩罚

  答:蜘蛛会去抓,抓完之后重要是提取里面的链接。如果只有一两条这样的页面质量不好问题不大,如果整体质量较差,有可能受到惩罚。

  14.问:站点每天最高爬虫多少次?

  答:这个其实说不好,有的站点一天会抓一两千万,有的站点只抓几个、几十个,看你的规模和质量,而且这个抓取量也是会根据网站的情况进行调整的。

  

「靖歌阁」关于百度蜘蛛的那些你不得你知道的事儿

 

  靖歌阁温馨提示:为了避免网站被百度惩罚,亲爱的你要学会查看网站日志,分析百度蜘蛛爬取网站的IP字段,要是网站日志中有大量的123.125.68.*、220.181.68.*IP字段,那么就说明网站真的被惩罚了,进入了让众多站长闻风丧胆的沙盒期。这个时候,站长们真的要注意了,要是再不注意的话,百度对你的惩罚会越来越严重的。

  所以要赶紧的想办法解决它,让我们的网站赶紧度过沙盒期,重新让百度爱上你。

  第一,每天有规律的发原创文章,加入目标关键词的内链,去引导蜘蛛发型网站。

  第二,每天有规律的在各大论坛、博客、微博、问答平台发原创的文章去诱导百度蜘蛛进入网站。

  第三,事件活动,引导更多用户来点击访问网站。

  

「靖歌阁」关于百度蜘蛛的那些你不得你知道的事儿

 

  靖歌阁关于网络营销的技巧,愿与广大的网络营销爱好者分享关于网络营销方案、技巧、策划、案例、SEO、网络推广、社会化媒体营销等知识。网络营销,选「靖歌阁」!权威认证,助您快速赢得买家信任,诚信创造财富!

  来源:靖歌阁网络, 转载注明出处!

  责任编辑:靖歌阁 网址:http://jggwl.com/


责任编辑:hujing

相关阅读

津门在线 Copylift © 2017 jinmenonline.com All Right Reserved.

稿件、媒介合作:media@mitiplus.com 客服、投诉建议:service@mitiplus.com