robots.txt写法技巧与实例

湖南SEO磐石网络  2017-04-06 11:42  阅读 302 次

很多新宝5最新app下载都有robots.txt这个文件,比如湘潭SEO博客也有:http://www.xiangtanseo.com/robots.txt,那么问题就来了robots.txt的文件应该放在什么位置,而且它有具有什么效果、robots协议它该怎么写?下面湘潭SEO小编就来跟大伙说说robots.txt写法技巧与实例!

robots.txt写法技巧与实例

一、什么是Robots?

我们可以简单的理解为通过这个robots位于新宝5最新app下载根目录的文件协议来告诉蜘蛛哪些是可以访问收录哪些是不可以访问收录的!搜索引擎爬行抓取新宝5最新app下载页面的时候,robots协议文件是蜘蛛进入新宝5最新app下载后首先要爬行抓取的文件,有时候我们不想让蜘蛛爬行和抓取新宝5最新app下载的一些页面,比如:新宝5最新app下载的js文件和新宝5最新app下载登录后台页面等等!这些我们都不想让搜索引擎蜘蛛爬行抓取,那么这个时候就嘚用robots屏蔽蜘蛛不给它去抓取!那么robots就只能屏蔽js文件和登录页面?当然不是,新宝5最新app下载出现以下情况的时候都可以使用robots协议!

二、Robots使用范围:

1、新宝5最新app下载统一路径。

例如:新宝5最新app下载动态路径改成伪静态的时候,就要使用来屏蔽掉动态链接,比如湘潭SEO博客就使用了伪静态规则,所以屏蔽了动态链接如下图所示:

 

2、新宝5最新app下载的搜索链接。

例如:因为搜索的链接是要生成的,而且如果搜索的中文字符,那么搜索链接上也会出现中文,例如我新宝5最新app下载上的“http://www.xiangtanseo.com/?s=湘潭SEO”当搜索湘潭SEO的时候,搜索结果的链接就会带上中文。那么我们就得用robots屏蔽,如上图所示:

Disallow: /?s=*

Disallow: /*/?s=*\

这两段代码就是用于屏蔽搜索出现的中文字符。

3、新宝5最新app下载的tag标签链接。

例如:新宝5最新app下载的tag标签,是没有进行因为命名的,那么点击之后的页面也是会出现中文,这时候就应该进行屏蔽tag标签。我的博客没做tag标签屏蔽那是因为我不做tag标签屏蔽!

例如:Disallow: /tag/*/page/

4、新宝5最新app下载的js链接。

5、新宝5最新app下载的css链接。

6、新宝5最新app下载带中文的链接。

7、没有质量的页面。例如新宝5最新app下载有些留言的页面。

8、后台登陆界面。新宝5最新app下载的后台页面,同样不能让搜索引擎蜘蛛进行抓取。

9、数据库链接。

11、新宝5最新app下载已经收录的死链接。

例如:新宝5最新app下载的死链接当然是不想被搜索引擎抓取了。关于死链的可以看《死链对新宝5最新app下载的危害及死链的处理方法》这一片文章是小编写的有关于死链生产与怎么去处理!

三、robots协议的基本语法:

以上我已经说了robots的用处和使用范围,接下来我就开始说怎么书写一个robots协议文件!要写一个robots协议文件,首先要了解robots协议的基本语法:

1、User-agent: 应用下文规则的搜索引擎,比如Googlebot,Baiduspider等。

2、Disallow: 要拦截的网址,不允许机器人访问。

3、Allow: 允许访问的网址

4、“*” : 通配符匹配0或多个任意字符包括字母。

5、“$” : 匹配行结束符。

6、“#” : 注释—说明性的文字,不写也可。

7、目录、网址的写法:都以以正斜线 (/) 开头。

以上的基本语法都是要了解知道的,不用死记硬背的这些我们不常用,只有做robots协议时候才用到,需要的时候来我博客找一下即可!

四、robots.txt写法实例:

例如:拿我博客已经做好的robots协议当做参考,我是怎么写robots协议的:

robots.txt写法实例

1、User-Agent:*

写法:User-Agent就是规则的搜索引擎也就是同意哪些搜索引擎能进行抓取,冒号我就不说了大家都知道,*号我已经介绍过是通配符,加载这里的意思就是能通配所有搜素引擎的意思。

2、Disallow:/?s=*

“Disallow:”的意思就是拒绝或者禁止的意思,冒号这些都是需要的大家也知道的过滤;
那么“/”也要注意的,robots里面“/”全部都是正斜杠开头的没有反“\”;
“?s=”这个我在使用范围跟大家说过这是我博客站内搜索结果的开头;
“*”通配符代表所有,知道这个意思就很简单了;
“?s=*”就是拒绝或者禁止所有的搜索结果的链接抓取。

3、Disallow:/wp-*

“Disallow:”的意思同上;
“wp-*”禁止抓取新宝5最新app下载根目录包含wp-开头的文件

4、Disallow:/.js$、Disallow:/.php$

“.js”代表所有js文件;
“.php”代表所有PHP文件;
“$”这个上面小编说过就是匹配行结束,你就理解它为结束符就行;
“/.js$”和".php$"就是禁止搜索引擎爬行抓取js文件和PHP文件,就是这个简单!

5、Disallow:/wp-admin

我们都是到"wp-admin"是wordpress博客的后台登陆页面,所以我们就要在Robots里面加上这段,禁止搜索引擎抓取后台登陆页面

6、Sitemap: http://www.xiangtanseo.com/sitemap_baidu.xml

这个好理解了,意思就是告诉搜索引擎你的Sitemap的位置,方便抓取。如果还不懂如何知足Sitemap的话可以看看小编写过的一篇文章《Sitemap的制作与提交百度的方法

五、写robots协议注意要点:

1、首字母要大写。

例如:“User-agent”和“Disallow”头一个字母技术大写的!

2、冒号是英文状态下的冒号。

例如:“User-agent:”和“User-agent:”中文状态下的“:”搜索引擎无法识别

3、冒号后要有一个空格,而且有且只能有一个。

例如:“Disallow:空格+你所要屏蔽的内容”!

书写文件名要点:文件名必须为小写,也就是”robots.txt”,不是”ROBOTS.TXT””Robots.txt””roBots.txt”或者其他,不能有大写。

六、robots协议写好后放在哪?

写好的robots协议放在新宝5最新app下载的根目录下面就可以,例如:http://www.xiangtanseo.com/robots.txt。

七、robots.txt生成软件

robots.txt生成软件

这里小编推荐使用爱站工具包,爱站相信大家做SEO不会陌生吧,软件的话你们就自行百度去下载了。

首先单击菜单“实用小工具” ,然后点击Robots制作就可以进行懒人操作了。。。。如下图所示

robots.txt生成软件

按照上面的选项根据自己要求设置好,再单击生成即可。

总结,制作robots是我们SEO必须要做的一件事情,软件虽然可以偷懒,但是你也可以看到这只是能帮你生成一部分通用功能,更多详细的设置还是需要你自己手动写进robots.txt里面,所以学习robots的书写语法是必须的。好了,写了这么多相信你对robots也有了一定的了解了,如果在实战过程中还是不懂得话,进入湘潭SEO博客查找资料即可。

本文地址:http://www.xiangtanseo.com/seojichu/308.html
关注我们:请关注一下我们的微信公众号:扫描二维码,公众号:aiboke112
版权声明:本文为原创文章,版权归 湖南SEO磐石网络 所有,欢迎分享本文,转载请保留出处!

发表评论


表情