您好,欢迎来到12图资源库!分享精神,快乐你我!我们只是素材的搬运工!!
  • 首 页
  • 当前位置:首页 > 网站教程 > 建站经验 >
    百度搜索引擎蜘蛛Baiduspider系列详解
    时间:2017-07-04 08:16 来源:网络整理 作者:网络 浏览:收藏 挑错 推荐 打印

    Baiduspider是百度搜索引擎的一个自动顺序,它的作用是拜访互联网上的网页,树立索引数据库,运用户能在百度搜索引擎中搜索到您网站上的网页。

    一、百度蜘蛛Baiduspider的user-agent是什么?

    百度各个产品运用不同的user-agent:

    产品称号 对应user-agent

    无线搜索 Baiduspider

    图片搜索 Baiduspider-image

    视频搜索 Baiduspider-video

    旧事搜索 Baiduspider-news

    百度搜藏 Baiduspider-favo

    百度联盟 Baiduspider-cpro

    商务搜索 Baiduspider-ads

    网页以及其他搜索 Baiduspider

    二、百度蜘蛛Baiduspider对一个网站效劳器形成的拜访压力如何?

    为了到达对目的资源较好的检索效果,Baiduspider需求对您的网站保持一定量的抓取。我们尽量不给网站带来不合理的担负,并会依据效劳器接受才能,网站质量,网站更新等综合因历来停止调整。假设您觉得百度spider的拜访行为有任何不合理的状况,您可以反应至百度赞扬平台。

    三、为什么百度蜘蛛Baiduspider不停的抓取我的网站?

    关于您网站上新产生的或许继续更新的页面,Baiduspider会继续抓取。此外,您也可以反省网站拜访日志中Baiduspider的拜访能否正常,以避免有人恶意冒充Baiduspider来频繁抓取您的网站。 假设您发现Baiduspider非正常抓取您的网站,请经过赞扬平台反应给我们,并请尽量给出Baiduspider对贵站的拜访日志,以便于我们跟踪处置。

    四、如何判别能否冒充百度蜘蛛Baiduspider的抓取?

    建议您运用DNS反查方式来确定抓取来源的ip能否属于百度,依据平台不同验证办法不同,如linux/windows/os三种平台下的验证办法辨别如下:

    1.在linux平台下,您可以运用host ip命令反解ip来判别能否来自Baiduspider的抓取。Baiduspider的hostname以*.百度.com或*.百度.jp的格式命名,非*.百度.com或*.百度.jp即为冒充。

    $ host 123.125.66.120

    120.66.125.123.in-addr.arpa domain name pointer

    百度spider-123-125-66-120.crawl.百度.com.

    host 119.63.195.254

    254.195.63.119.in-addr.arpa domain name pointer

    BaiduMobaider-119-63-195-254.crawl.百度.jp.

    2.在windows平台或许IBM OS/2平台下,您可以运用nslookup ip命令反解ip来判别能否来自Baiduspider的抓取。翻开命令处置器 输入nslookup xxx.xxx .xxx.xxx(IP地址)就能解析ip,来判别能否来自Baiduspider的抓取,Baiduspider的hostname以*.百度.com或*.百度.jp的格式命名,非*.百度.com或*.百度.jp即为冒充。

    3.在mac os平台下,您可以运用dig命令反解ip来判别能否来自Baiduspider的抓取。翻开命令处置器输入dig xxx.xxx.xxx.xxx(IP地址)就能解析ip,来判别能否来自Baiduspider的抓取,Baiduspider的hostname以*.百度.com或*.百度.jp的格式命名,非*.百度.com或*.百度.jp即为冒充。

    五、我不想我的网站被百度蜘蛛Baiduspider拜访,我该怎样做?

    Baiduspider遵守互联网robots协议。您可以应用robots.txt文件完全制止Baiduspider拜访您的网站,或许制止Baiduspider拜访您网站上的部分文件。 留意:制止Baiduspider拜访您的网站,将使您的网站上的网页,在百度搜索引擎以及一切百度提供搜索引擎效劳的搜索引擎中无法被搜索到。

    您可以依据各产品不同的user-agent设置不同的抓取规则,假设您想完全制止百度一切的产品收录,可以直接对Baiduspider设置制止抓取。

    以下robots完成制止一切来自百度的蜘蛛抓取:

    User-agent: Baiduspider

    Disallow: /

    以下robots完成制止一切来自百度的抓取但允许图片搜索抓取/image/目录:

    User-agent: Baiduspider

    Disallow: /

    User-agent: Baiduspider-image

    Allow: /image/

    请留意:Baiduspider-cpro抓取的网页并不会建入索引,只是执行与客户商定的操作,所以不遵守robots协议,假设Baiduspider-cpro给您形成了困扰,请联络union1@百度.com。

    Baiduspider-ads抓取的网页并不会建入索引,只是执行与客户商定的操作,所以不遵守robots协议,假设Baiduspider-ads给您形成了困扰,请联络您的客户效劳专员。

    六、为什么我的网站曾经加了robots.txt,还能在百度搜索出来?

    由于搜索引擎索引数据库的更新需求时间。虽然Baiduspider曾经中止拜访您网站上的网页,但百度搜索引擎数据库中曾经树立的网页索引信息,能够需求数月时间才会肃清。另外也请反省您的robots配置能否正确。

    假设您的拒绝被收录需求十分急切,也可以经过赞扬平台反应央求处置。

    七、我希望我的网站内容被百度索引但不被保存快照,我该怎样做?

    Baiduspider遵守互联网meta robots协议。您可以应用网页meta的设置,使百度显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。

    和robots的更新一样,由于搜索引擎索引数据库的更新需求时间,所以虽然您曾经在网页中经过meta制止了百度在搜索结果中显示该网页的快照,但百度搜索引擎数据库中假设曾经树立了网页索引信息,能够需求二至周围才会在线上失效。

    八、百度蜘蛛Baiduspider抓取形成的带宽梗塞?

    Baiduspider的正常抓取并不会形成您网站的带宽梗塞,形成此现象能够是由于有人冒充Baiduspider恶意抓取。假设发现有名为Baiduspider的agent抓取并且形成带宽梗塞,可以将信息反应至赞扬平台,假设可以提供网站该时段的拜访日志将更好了。

    (责任编辑:admin)