我们的
万事屋采用的是WordPress做为网站程序,所以对此程序作了些许研究,发现90%的新手在robots.txt上犯致命错误!错误的设置轻则导致搜索引擎不收录,重则暴露数据库隐私。本文将用十年实战经验,手把手教你编写专业级robots.txt文件。
一、robots.txt核心设置原则
- 精准放行:开放所有SEO价值内容
- 安全封锁:屏蔽敏感目录和后台路径
- 效率优化:阻止无效爬虫消耗服务器资源
二、必封禁的8大高危目录(安全红线)
危险路径 |
封锁原因 |
/wp-admin/ |
防止暴力破解后台登录 |
/wp-includes/ |
屏蔽核心文件访问 |
/*/comments/feed/ |
避免垃圾评论采集 |
/?s= |
禁止搜索页面收录 |
/wp-json/ |
关闭REST API入口 |
/xmlrpc.php |
封堵DDoS攻击通道 |
/trackback/ |
阻止垃圾引用通告 |
/*?replytocom |
防评论表单劫持 |
三、2024专业版robots.txt模板
# 放行所有主流搜索引擎
User-agent: *
Allow: /wp-content/uploads/
Allow: /*.css
Allow: /*.js
# 核心安全封锁区域
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-login.php
Disallow: /wp-signup.php
Disallow: /readme.html
Disallow: /license.txt
Disallow: /xmlrpc.php
Disallow: /trackback/
Disallow: /feed/
Disallow: /?s=
Disallow: /*?replytocom
# 特殊爬虫策略(按需启用)
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Crawl-delay: 10
# 指定Sitemap位置
Sitemap: https://你的域名.com/sitemap_index.xml
四、高阶优化技巧
- 动态屏蔽采集器:在.htaccess添加:
RewriteCond %{HTTP_USER_AGENT} (MJ12bot|DotBot) [NC]
RewriteRule ^ - [F,L]
- 开放AMP页面:添加
Allow: /*/amp/
- 多语言站点:为每种语言开放目录
Allow: /en/blog/
五、三大验证工具
- Google Search Console – robots测试工具
- Ahrefs – Robots.txt检查器
- TechnicalSEO – 实时解析工具
避坑提醒:使用缓存插件时,务必在设置中勾选“更新robots.txt后自动清除缓存”,否则修改可能不生效!
本文提供的方案已通过Google核心算法更新测试(2024版),兼顾SEO收录效率与服务器安全防护。建议每季度检查一次爬虫访问日志,及时更新屏蔽规则。
没有回复内容