本文作者:sukai

网站网络技术(网站的技术分析)

sukai 2023-10-27 88

  一、Robots文件使用方法

  搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。

  您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。robots.txt文件应该放在网站根目录下。

  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

  

  在服务器设置有问题的情况下,robots文件不存在时会返回200状态码及一些错误信息,而不是404状态码,这样可能会使搜索引擎错误解读robots文件信息,所以就算允许抓取所有内容,也要建一个空的robots.txt文件放在根目录下;

  robots.txt文件的格式:

  “robots.txt”文件包含一条或更多的记录,这些记录通过空行分开,每一条记录的格式如下所示:

  field:optionalspacevalueoptionalspace

  域:可选空格域值可选空格

  例1. 禁止所有搜索引擎抓取任何内容,该robots.txt文件:

  User-agent: *

  Disallow: /

  例2. 禁止某个搜索引擎的访问

  User-agent: baiduspider

  Disallow: /

  例3. 允许某个搜索引擎的访问

  User-agent: baiduspider

  例4.告诉蜘蛛不要抓取/cgi-bin/和/tmp/目录下的内容及文件/aa/index.html

  User-agent: *

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /aa/index.html

  例5.Allow告诉蜘蛛应该抓取某些文件,单独写没有意义,需要和Disallow配合使用,可以告诉蜘蛛某个目录下大部分不允许抓取,只允许抓取一部分

  User-agent: *

  Disallow: /ab/

  Allow: /ab/cd/

  例6.$通配符匹配URL结尾的字符,如允许蜘蛛抓取以.htm为后缀的URL

  User-agent: *

  Allow: .htm$

  禁止百度抓取所有.jpg文件

  User-agent: Baiduspider

  Disallow: .jpg$

  例7.*通配符告诉蜘蛛匹配任意一段字符,如禁止蜘蛛抓取所有htm文件

  User-agent: *

  Disallow: /*.htm

  只要有导入链接指向这个URL,搜索引擎就知道这个URL的存在,虽然不抓取页面内容,但会以一下几种形式显示在搜索引擎结果中:

  1.只显示URL,没有标题,描述;

  2.显示开放目录或雅虎等重要目录的标题和描述;

  3.导入链接的锚文字显示为标题和描述;

  4.要想使URL完全不出现在结果中,需要使用页面上的meta robots标签;

  主流搜索引擎都支持robots文件指令,robots.txt禁止抓取的文件搜索引擎将不访问,不抓取。但注意的是,被禁止抓取的URL还是可能出现在结果中。只要有导入链接指向这个URL,搜索引擎就知道这个URL的存在,虽然不抓取页面内容,但会以一下几种形式显示在搜索引擎结果中:

  1.只显示URL,没有标题,描述;

  2.显示开放目录或雅虎等重要目录的标题和描述;

  3.导入链接的锚文字显示为标题和描述;

  要想使URL完全不出现在结果中,需要使用页面上的meta robots标签;

  

  二、Meta robots文件使用方法

  Meta robots标签是页面head部分meta标签的一种,用于指令搜索引擎禁止索引本页内容

网站网络技术(网站的技术分析)

  最简单的meta robots标签格式为:

  meta name=“robots” content=“noindex,nofollow”

  禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接

  标签不区分大小写

  各标签使用方法:

  1、NOINDEX:告诉蜘蛛不要搜索本页面

  2、NOFOLLOW:告诉蜘蛛不要跟踪本页面上的链接

  3、NOSNIPPET:告诉搜索引擎不要在搜索结果中显示说明文字

  4、NOARCHIVE:告诉搜索引擎不要显示快照

  5、NOODP:告诉搜索引擎不要使用开放目录中的标题和说明

  百度官方目前只支持NOFOLLOW和NOARCHIVE

  meta name=“robots” content=“index,follow”

  没有意义。需要被收录、索引,链接需要被跟踪的页面,不用写meat robots标签

  三、Nofollow文件使用方法

  Nofollow属性只适用于本链接。

  Nofollow代码形式为:

  :a href=“https://www.example.com” rel=“nofollow”这里是锚文字/a。

  Nofollow标签常用于博客、论坛、社会化网站、留言板等地方

阅读
分享