什么是robots.txt协议呢?可能好多人还不太明白,下面我来简单介绍一下Robots.txt的作用及其用法。
(这里提醒一下管理员们,有时候你们惊心编写的robots.txt有可能把你们的后台地址暴露,小心用之)
其实Robots.txt是网站管理员用来禁止搜索引擎蜘蛛来本站收录部分页面的一个文本。
其中robots.txt必须放在网站根目录,而且robots.txt这个文件名不能用大写。
robots.txt写法:
User-agent: * ---- 这里的解释是允许所有搜索引擎蜘蛛抓取
User-agent: Baiduspider ---- 这样是禁止百度蜘蛛抓取
Disallow: ---- 允许全部抓取
Disallow: / ---- 禁止全部抓取
例子:
User-agent: *
Disallow: /seo/24.html
允许所有搜索引擎抓取整个站点,但是禁止抓取seo目录下的24.html这个页面
常见搜索引擎蜘蛛名称:
百度蜘蛛: baiduspider
google蜘蛛: googlebot
alexa蜘蛛: ia_archiver
yahoo蜘蛛: slurp
msn蜘蛛: msnbot
altavista蜘蛛:scooter
lycos蜘蛛: lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler/
inktomi蜘蛛: slurp
附,WP博客的robots优化
★ Wordpress中利用Robots.txt优化搜索引擎
User-agent: *
Crawl-delay: 10
# Directories 目录
Disallow: /database/
Disallow: /includes/
Disallow: /sites/
Disallow: /themes/
Disallow: /misc/
Disallow: /modules/
Disallow: /scripts/
Disallow: /updates/
Disallow: /profiles/
# Files 单个文件
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /INSTALL.txt
Disallow: /update.php
Disallow: /install.php
Disallow: /CHANGELOG.txt
Disallow: /MAINTAINERS.txt
Disallow: /LICENSE.txt
Disallow: /UPGRADE.txt
# Paths (clean URLs) 静态路径
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /admin/
Disallow: /logout/
Disallow: /node/add/
Disallow: /aggregator/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /user/login/
# Paths (no clean URLs) 动态路径
Disallow: /?q=admin/
Disallow: /?q=aggregator/
Disallow: /?q=logout/
Disallow: /?q=node/add/
Disallow: /?q=comment/reply/
Disallow: /?q=contact/
Disallow: /?q=search/
Disallow: /?q=user/register/
Disallow: /?q=user/password/
Disallow: /?q=user/login/
转载请注明:天津SEO优化 http://www.022seoer.com