欢迎光临来到我们官方网站!
打开客服菜单
南京网站优化
南京网站优化首页 > SEO经验 > 禁止抓取、收录机制怎么合理运用?
禁止抓取、收录机制怎么合理运用?
时间 : 2018-09-06 14:57 浏览量 : 91

     有的时候,站长并不希望某些页面被收录(或者说被索引),如复制内容页面。网站上不出现链接,或者使用 JavaScript、 Flash链接,使用 nofollow等方法都不能保证页面一定不被收录。站长自己虽然没有链接到不想被收录的页面,其他网站上可能由于某种原因出现导入链接,导致页面被抓取和收录。

      有的时候不希望某些页面被抓取,如付费内容、还在测试阶段的网站。还有一种很常见的情况,搜索引擎抓取了大量没有意义页面,如电子商务网站按各种条件过滤筛选的页面,各种排版格式的页面,这些页数量庞大,抓取过多会消耗掉搜索引擎分配给这个网站的总抓取时间,造成真正有意义的页面反倒不能被抓取和收录。如果通过检查日志文件发现这些无意义页面被反复大量取,想要收录的页面却根本没被抓取过那应该直接禁止抓取无意义的页面。

       抓取和收录(索引)是不同的两个过程。要确保页面不被抓取,需要使用 I robots文件。要确保页面不被收录,要使用 Noindex Meta Robots标签。

  1. robots文件

    搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有一个命名为 J robots. txt的纯文本文件, robots txt用于指令搜索引擎禁止抓取网某些内容或指定允许抓取某些内容如百度的 rorobots文件位于: https://www.xinrunjin.com.cn/robots.txt

    只有在需要禁止抓取某些内容时,写 robots.txt有意义。 robots文件不存在或者是空文件都意味着允许搜索引擎抓取所有内容。有的服务器设置有问题, robots文件不存在时会返回200状态码及一些错误信息,而不是404状态码,这有可能使搜索引擎错误解读 robots文件信息,所以建议就算允许抓取所有内容,也要建一个空的 robots.xt文件,放在根目录下。

    主流搜索引擎都遵守 robots文件指令, robots. txt禁止抓取的文件搜索引擎将不访问,不抓取。但要注意的是,被 robots文件禁止抓的URL还是可能被索引并出现在搜索结果中。只要有导入链接指向这个URL,搜索引擎就知道这个URL的存在,虽然不会抓取页面内容,但是索引库中还是有这个UR的信息,并以下面几种形式显示在搜索结果中:

    只显示URL,没有标题、描述

    显示开放目录或雅虎等重要目录收录的标题和描述。

    导入链接的锚文字显示为标题和描述。

    搜索引擎从其他地方获得的信息显示为标题和描述。

    最著名的例子,淘宝整站用robots文件禁止百度蜘蛛抓取。

  2. noindex meta robots标签

     meta robots标签是页面head部分meta标签的一种,用于指令搜索引擎禁止索引本页内容,因而也就不会出现在搜索结果中

    最简单的 meta robots标签格式为:<meta name=w robots content=noindex, noroLow>

    上面标签的意义是禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接 Google、必应、雅虎都支持的 meta robots标签如下

     NOINDEX:告诉蜘蛛不要索引本页面

     NOFOLLOW:告诉蜘蛛不要跟踪本页面上的链接

     NOSNIPPET:告诉搜索引擎不要在搜索结果中显示摘要文字

     NOARCHIVE:告诉搜索引擎不要显示快照

     NOODP:告诉搜索引擎不要使用开放目录中的标题和描述

    百度的官方说法是目前只支持 NOFOLLOW和 NOARCHIVE

     meta robots标签内容可以写在一起,以逗号间隔,中间可以有空格,也可以没有多个 meta robots内容也可以写成不同标签

     <META NAME="ROBOTS" CONTENT="NOINDEXI>

     <META NAME="ROBOTSI CONTENTEINO FOLLOW>

    与下面这个是一样的:

    <META NAME="ROBOTS"CONTENT="NOINDEX, NOFOLLOW">

     meta robots标签不区分大小写

    只有禁止索引时,使用 meta robots才有意义。以下这个标签

     <META NAME=ROBOTS"CONTENT=INDEX, FOLLOW>

    是没有意义的,等于没写。普通需要被收录、索引,链接需要被跟踪的页面,不用写meta robots标签。

    这个标签有时会用到:

     <meta name="robots" content="noindex">

    效果是禁止索引本页面,但允许蜘蛛跟踪页面上的链接,也可以传递权重。

    使用了 noindex meta robots标签的页面会被抓取(只要 robots文件没有禁止),但不会被索引,页面URL不会出现在搜索结果中,这一点与 robots文件不同。

    抓取和索引(收录)是不同的概念。 robots文件的作用是禁止抓取,但不禁止索引 meta noindex的作用是禁止索引/收录。如小节开始说明的,这两者的应用场景是完全不同的

    网上很多资料说 meta noindex的作用是禁止抓取,这是错误的,正相反,要让meta noindex起作用,必须允许抓取,如果蜘蛛不抓取这个页面,根本看不到 meta noindex标签。


标签:
cache
Processed in 0.003570 Second.