百度搜索引擎蜘蛛Baiduspider系列详解

首页

当前位置：首页 > 网站教程 > 建站经验 >

时间：2017-07-04 08:16 来源：网络整理作者：网络浏览：次收藏挑错推荐打印

Baiduspider是百度搜索引擎的一个自动顺序，它的作用是拜访互联网上的网页，树立索引数据库，运用户能在百度搜索引擎中搜索到您网站上的网页。

一、百度蜘蛛Baiduspider的user-agent是什么?

百度各个产品运用不同的user-agent：

产品称号对应user-agent

无线搜索 Baiduspider

图片搜索 Baiduspider-image

视频搜索 Baiduspider-video

旧事搜索 Baiduspider-news

百度搜藏 Baiduspider-favo

百度联盟 Baiduspider-cpro

商务搜索 Baiduspider-ads

网页以及其他搜索 Baiduspider

二、百度蜘蛛Baiduspider对一个网站效劳器形成的拜访压力如何?

为了到达对目的资源较好的检索效果，Baiduspider需求对您的网站保持一定量的抓取。我们尽量不给网站带来不合理的担负，并会依据效劳器接受才能，网站质量，网站更新等综合因历来停止调整。假设您觉得百度spider的拜访行为有任何不合理的状况，您可以反应至百度赞扬平台。

三、为什么百度蜘蛛Baiduspider不停的抓取我的网站?

关于您网站上新产生的或许继续更新的页面，Baiduspider会继续抓取。此外，您也可以反省网站拜访日志中Baiduspider的拜访能否正常，以避免有人恶意冒充Baiduspider来频繁抓取您的网站。假设您发现Baiduspider非正常抓取您的网站，请经过赞扬平台反应给我们，并请尽量给出Baiduspider对贵站的拜访日志，以便于我们跟踪处置。

四、如何判别能否冒充百度蜘蛛Baiduspider的抓取?

建议您运用DNS反查方式来确定抓取来源的ip能否属于百度，依据平台不同验证办法不同，如linux/windows/os三种平台下的验证办法辨别如下：

1.在linux平台下，您可以运用host ip命令反解ip来判别能否来自Baiduspider的抓取。Baiduspider的hostname以*.百度.com或*.百度.jp的格式命名，非*.百度.com或*.百度.jp即为冒充。

$ host 123.125.66.120

120.66.125.123.in-addr.arpa domain name pointer

百度spider-123-125-66-120.crawl.百度.com.

host 119.63.195.254

254.195.63.119.in-addr.arpa domain name pointer

BaiduMobaider-119-63-195-254.crawl.百度.jp.

2.在windows平台或许IBM OS/2平台下，您可以运用nslookup ip命令反解ip来判别能否来自Baiduspider的抓取。翻开命令处置器输入nslookup xxx.xxx .xxx.xxx(IP地址)就能解析ip，来判别能否来自Baiduspider的抓取，Baiduspider的hostname以*.百度.com或*.百度.jp的格式命名，非*.百度.com或*.百度.jp即为冒充。

3.在mac os平台下，您可以运用dig命令反解ip来判别能否来自Baiduspider的抓取。翻开命令处置器输入dig xxx.xxx.xxx.xxx(IP地址)就能解析ip，来判别能否来自Baiduspider的抓取，Baiduspider的hostname以*.百度.com或*.百度.jp的格式命名，非*.百度.com或*.百度.jp即为冒充。

五、我不想我的网站被百度蜘蛛Baiduspider拜访，我该怎样做?

Baiduspider遵守互联网robots协议。您可以应用robots.txt文件完全制止Baiduspider拜访您的网站，或许制止Baiduspider拜访您网站上的部分文件。留意：制止Baiduspider拜访您的网站，将使您的网站上的网页，在百度搜索引擎以及一切百度提供搜索引擎效劳的搜索引擎中无法被搜索到。

您可以依据各产品不同的user-agent设置不同的抓取规则，假设您想完全制止百度一切的产品收录，可以直接对Baiduspider设置制止抓取。

以下robots完成制止一切来自百度的蜘蛛抓取：

User-agent: Baiduspider

Disallow: /

以下robots完成制止一切来自百度的抓取但允许图片搜索抓取/image/目录：

User-agent: Baiduspider

Disallow: /

User-agent: Baiduspider-image

Allow: /image/

请留意：Baiduspider-cpro抓取的网页并不会建入索引，只是执行与客户商定的操作，所以不遵守robots协议，假设Baiduspider-cpro给您形成了困扰，请联络union1@百度.com。

Baiduspider-ads抓取的网页并不会建入索引，只是执行与客户商定的操作，所以不遵守robots协议，假设Baiduspider-ads给您形成了困扰，请联络您的客户效劳专员。

六、为什么我的网站曾经加了robots.txt，还能在百度搜索出来?