robots文件如何写比较好?写robots文件时需要注意事项
robots文件如何写比较好?写robots文件时需要注意事项
一、什么是robots.txt文件?
搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息.当spider访问一个网站时,它将首先检查网站的根域下是否有一个叫做robots的网站.txt的纯文本文件.您可以在您的网站上创建纯文本文件robots.txt,在文件中,声明该网站不想被spider访问或指定搜索引擎只包含特定部分.该文件是robotss.txt文件.
二、robots.txt文件放置位置:
robots.txt文件应放置在网站根目录下.例如:
当Spoder访问一个网站(如httppp)://www.chendian.com/)时间.首先检查网站根目录中是否存在httpp://www.chendian.com/robots.txt文件,如果spoder在目录下找到文件,它将根据文件的内容确定哪些文件不被捕获,从而确定其访问权限的范围.
三、robots.txt的作用:
1、引导搜索引擎蜘蛛抓取指定栏目或内容;
2、网站修改或URL重写优化时,屏蔽对搜索引擎不友好的链接;
3、屏蔽死链接,404错误页面;
4、屏蔽无内容、无价值的页面;
5、屏蔽重复页面,如评论页面、搜索结果页面;
6、屏蔽任何不想被收录的页面;
7、引导蜘蛛抓取网站地图;
四、robots.Txt基本语法:
1、User-agent:定义搜索引擎.正常情况下,网站内部有:User-agent:*,这里*的意思是所有,表示所有搜索引擎的定义.例如,我想定义百度,那么User就是User-agent:Baiduspider;定义google,User-agent:Googlebot.
2、Disallow:禁止爬行.例如,我想禁止爬我的admin文件夹,那就是Disallow:/admin/.禁止爬取admin文件夹下的login.html,Disallow:/admin/login.html.
3、Allow:允许.我们都知道,在默认情况下,是允许的.那么,为什么要允许这种语法呢?例如,我想禁止admin文件夹下的所有文件,除了.html网页,怎么写?我们知道Disallow可以一一禁止,但是太费时间和精力了.这时,使用Allow解决了复杂的问题,并写道:
Allow:/admin/.html$
Disallow:/admin/
4、$:结束符.例:例:Disallow:.php$这句话的意思是屏蔽所有的东西.无论前面有多长的URL,如abc//aa/bb//index.php也被屏蔽了.
5、*:通配符号0或多个任意字符.例:Disallow:*?*这意味着屏蔽所有带“?”的文件,以及所有的动态URL.
五、robots.txt文件写法例说明:
所有搜索引擎,如谷歌/百度,都禁止访问整个网站
User-agent:*
Disallow:/
允许所有搜索引擎spider访问整个网站(Disallow:Allow可以使用:/替代)
User-agent:*
Disallow:
禁止Baiduspider访问您的网站,Gogle等搜索引擎不阻止Baiduspider访问您的网站,
User-agent:Baiduspider
Disallow:/
只允许Googlespider:Googlebot访问您的网站,禁止百度等搜索引擎
User-agent:Googlebot
Disallow:
User-agent:*
Disallow:/
禁止搜索引擎蜘蛛spider访问指定目录
(spider不访问这些目录.每个目录应单独声明,不能合在一起)
User-agent:*
Disallow:/cgi-bin/
Disallow:/admin/
Disallow:/~jjjj/
搜索引擎spider不允许访问指定目录,但允许访问指定目录的子目录
User-agent:*
Allow:/admin/far
Disallow:/admin/
使用通配符星号“*”设置禁止访问的url
(禁止所有搜索引擎抓取//cgi-bin/目录下的一切都是“.html网页格式(包括子目录)
User-agent:*
Disallow:/cgi-bin/*.html
使用美元符号“$”设置禁止访问某一后缀的文件
(只允许访问”.html网页文件的格式.)
User-agent:*
Allow:.html$
Disallow:/
防止google、百度等所有搜索引擎访问网站都有动态网站页面
User-agent:*
Disallow:/*?*
阻止Goglespided:Googlebot访问网站上某种格式的图片
(禁止访问.jpg格式的图片)
User-agent:Googlebot
Disallow:.jpg$
只允许Googlespider:Goglebot抓取网页.gif格式图片
(Googlebot只能捕捉Gif格式的图片和网页,禁止其他格式的图片;未设置其他搜索引擎)
User-agent:Googlebot
Allow:.gif$
Disallow:.jpg$
只禁止Googlespider:谷Goglebot抓取.jpg格式图片
(不禁止其他搜索引擎和其他格式图片)
User-agent:Googlebot
Disallow:.jpg$
声明网站地图sitemapp
这告诉搜索引擎你的sitemap在哪里,比如:
Sitemap:http://www.AAAA.com/sitemap.xml
六、蜘蛛长什么样:
国内搜索引擎蜘蛛:
百度蜘蛛:baiduspider
搜狗蜘蛛:sogouspider
有道蜘蛛:YodaoBot和OutfoxBot
搜搜蜘蛛:Sosospider
国外搜索引擎蜘蛛:
谷ogle蜘蛛:googlebot
yahoo蜘蛛:Yahoo!Slurp
alexa蜘蛛:ia_archiver
bing蜘蛛(MSN):msnbot
robots.txt编写的细节:
1.插入反斜杠
还是Disallow:/a/b.以html为例,在编写句子时,如果忘记添加反斜杠,则对所有内容开放,这与编写句子的想法相反,因为反斜杠的意义是根目录.
2.空间的出现
很容易理解空间的出现,因为搜索引擎不识别这个特殊符号的出现,它的加入只会使句子失去应有的效果.
以上就是关于"robots文件如何写比较好?写robots文件时需要注意事项"的相关内容,希望对您有所帮助,更多SEO优化教程,敬请关注沉淀SEO.
【robots文件如何写比较好?写robots文件时需要注意事项】文章内容来源:https://www.chendianseo.com/news/164.html版权声明
本站资讯除标注“原创”外的信息均来自互联网以及网友投稿,版权归属于原始作者,如果有侵犯到您的权益,请联系我们提供您的版权证明和身份证明,我们将在第一时间删除相关侵权信息,谢谢.联系地址:977916607@qq.com