robots协议禁止收录网站某一篇文章地址的方法

时间：2023-12-28 13:28:09 栏目：教程学院

【导读】：起點源站(6012.cn)在线提供,教程学院「2把火烧过之后供应链谁能存活？」，供教程学院爱好者免费阅读。本文地址：http://www.55ou.com/news/1542.html

网站 robots.txt 文件配置方法，如何禁止搜索引擎收录指定网站某一篇超链接地址呢，今天跟着麦站一起学学吧。

搜索引擎通过网络蜘蛛抓取网页的内容，并展示在相关的搜索结果中。但是有些网页内容我们可能并不想被搜索引擎收录和索引，如管理员后台等。

我们就可以通过 robots.txt 文件来声明允许/禁止搜索引擎的蜘蛛抓取某些目录或网页，从而限制搜索引擎的收录范围。

什么是 robots.txt

Robots是站点与spider沟通的重要渠道，站点通过robots文件声明本网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

Robots.txt用法：

User-agent：用于指定指令所作用于的目标抓取工具（网络蜘蛛），后接抓取工具名称；

Disallow：指定不允许抓取的目录或网页，后面为空则表示允许抓取一切页面；

Allow：指定允许抓取的目录或网页；

Sitemap：站点地图的位置，必须是绝对路径；

*：表示通配符；

$：表示网址结束；

/：匹配根目录以及任何下级网址。

禁止抓取某一个超链接：

Disallow: /news/hangyejishu/43.html

robots.txt文件用法举例

Robots.txt工具：

http://tool.chinaz.com/robots/

Robots.txt文件常用写法示例(完整版)

robots.txt文件用法举例：

1. 允许所有的robot访问

User-agent: * Allow: / 或者 User-agent: * Disallow:

2. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

3. 仅禁止Baiduspider访问您的网站

User-agent: Baiduspider

Disallow: /

4. 仅允许Baiduspider访问您的网站

User-agent: Baiduspider

Disallow:

5. 禁止spider访问特定目录

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

6. 允许访问特定目录中的部分url

User-agent: *

Allow: /cgi-bin/see

Allow: /tmp/hi

Allow: /~joe/look

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

7. 使用”*”限制访问url

禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

User-agent: *

Disallow: /cgi-bin/*.htm

8. 使用”$”限制访问url

仅允许访问以”.htm”为后缀的URL。

User-agent: *

Allow: .htm$

Disallow: /

例9. 禁止访问网站中所有的动态页面

User-agent: *

Disallow: /*?*

10. 禁止Baiduspider抓取网站上所有图片

仅允许抓取网页，禁止抓取任何图片。

User-agent: Baiduspider

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

11. 仅允许Baiduspider抓取网页和.gif格式图片

允许抓取网页和gif格式图片，不允许抓取其他格式图片

User-agent: Baiduspider

Allow: .gif$

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .png$

Disallow: .bmp$

12. 仅禁止Baiduspider抓取.jpg格式图片

User-agent: Baiduspider

Disallow: .jpg$

阅读全文

标签：

1、本文系转载，版权归原作者所有，旨在传递信息，不代表看本站的观点和立场。

2、本站仅提供信息发布平台，不承担相关法律责任。

3、若侵犯您的版权或隐私，请联系本站管理员删除。

4、、文章来源：http://www.55ou.com/news/1542.html

上一篇：WordPress网站404页面如何重定向至首页? 下一篇：帝国cms后台出现 Duplicate entry '3261' for key 'PRIMARY'

起點源站

robots协议禁止收录网站某一篇文章地址的方法

什么是 robots.txt

Robots.txt用法：

禁止抓取某一个超链接：

robots.txt文件用法举例

Robots.txt工具：

Robots.txt文件常用写法示例(完整版)

教程学院导航

教程学院推荐

最新

起點源站

robots协议禁止收录网站某一篇文章地址的方法

什么是 robots.txt

Robots.txt用法：

禁止抓取某一个超链接：

robots.txt文件用法举例

Robots.txt工具：

Robots.txt文件常用写法示例(完整版)

教程学院导航

教程学院热点

教程学院推荐

最新