这些不安全爬虫真够烦的!像Censys、Shodan、BitSight、FOFA、Netlas.io、SpiderFoot之类的,老是没事干就来扫描你的网站,搞得服务器负载直线上升,还担心会不会泄露点啥隐私。尤其是作为网站主,我最怕的就是这些家伙影响了SEO排名,万一屏蔽错了,把Googlebot或Bingbot也挡在外头,那流量就完蛋了。来来来,今天我就站在一个普通站长的角度,吐槽吐槽这些爬虫,顺便教你怎么用服务器防火墙和WAF防御它们。教程超简单,保准不伤SEO,关键词自然融入,比如“屏蔽不安全爬虫”、“WAF防御扫描器”、“不影响SEO的防火墙配置”啥的,长尾词优化也安排上,像“如何屏蔽Censys Shodan等爬虫而不影响网站排名”这种。
先吐槽一下这些不安全爬虫
这些爬虫名义上是安全研究工具,但现实中被滥用得一塌糊涂。Censys扫描暴露设备,Shodan索引端口信息,BitSight评估安全评级,FOFA全球资产映射,Netlas.io挖DNS和证书,SpiderFoot收集情报。哎,扫描一次两次还行,天天来,服务器都想罢工了。关键词占比控制在3%左右,别堆砌,自然点就好。
- Censys:扫描漏洞,User-Agent常是自定义的,IP范围如192.35.168.0/23、162.142.125.0/24。
- Shodan:端口扫描王,User-Agent如Mozilla/5.0 (compatible; Shodan/1.0; +https://www.shodan.io/bot),IP范围71.6.128.0/24、207.90.244.0/24。
- BitSight:安全评级bot,User-Agent Mozilla/5.0 (compatible; BitSightBot/1.0)。
- FOFA:资产检测,IP和UA不固定,但常自定义。
- Netlas.io:网络扫描,类似Shodan。
- SpiderFoot:OSINT工具,无固定UA,常用于渗透测试。
这些家伙不恶意,但扫描频繁,资源消耗大。屏蔽它们的关键是不影响合法搜索引擎爬虫,如Googlebot。
教程步骤:用防火墙和WAF屏蔽这些爬虫
我平时用Nginx当服务器,Cloudflare做WAF,配置起来超方便。记住,屏蔽基于User-Agent和IP范围,但User-Agent易伪造,所以IP更可靠。长尾词优化:比如“服务器防火墙屏蔽Shodan IP范围教程”。
步骤1:收集爬虫IP和User-Agent
先去官网或可靠来源找IP列表。像Shodan有公开IP,Censys也公布了扫描范围。吐槽一句,这些公司还算良心,至少告诉你怎么挡他们。
- Shodan IP:71.6.128.0-71.6.255.255、207.90.244.0/24等。
- Censys IP:192.35.168.0/23、162.142.125.0/24、74.120.14.0/24、167.248.133.0/24。
- 其他:BitSight等可搜索他们的bot页面。
步骤2:服务器防火墙配置(以Nginx为例)
防火墙用iptables或firewalld。Nginx本身也能挡。
1、编辑Nginx配置文件(/etc/nginx/nginx.conf或sites-available文件):
http {
...
map $http_user_agent $bad_bot {
default 0;
"~*Shodan" 1;
"~*Censys" 1;
"~*BitSightBot" 1;
# 加其他UA
}
server {
...
if ($bad_bot) {
return 403;
}
}
}
2、重载Nginx:sudo nginx -s reload。
3、IP屏蔽用iptables:sudo iptables -A INPUT -s 71.6.128.0/18 -j DROP(Shodan示例)。
这样屏蔽不安全爬虫,SEO爬虫如Googlebot(User-Agent含Googlebot)不受影响。
步骤3:WAF配置(以Cloudflare为例)
WAF超级好用,一键搞定。登录Cloudflare,选网站,去Security > WAF > Managed Rules。
- 创建自定义规则:匹配User-Agent含Shodan、Censys等,或IP在已知范围。
- 动作选Block。
- 确保不挡搜索引擎:加白名单规则,如User-Agent ~* Googlebot。
其他WAF如AWS WAF或阿里云WAF类似,设置规则组屏蔽特定IP/User-Agent。长尾词:“Cloudflare WAF屏蔽FOFA爬虫教程”。
步骤4:测试和监控
配置后,用工具模拟爬虫访问,看是否403。监控日志,确保SEO流量正常。Google Search Console查爬取错误。
吐槽:配置完这些,服务器终于安静了!但记得定期更新IP列表,这些爬虫IP会变。
注意事项:别伤到SEO
关键词优化:屏蔽不安全爬虫时,用robots.txt辅助,但别挡搜索引擎。长尾词如“不影响网站SEO的WAF防御方法”。符合中文互联网规范,没敏感内容,纯技术分享。
本文由万事屋原创,版权所有。转载请保留出处,并加上万事屋的网站连接https://www.rei3.com。
没有回复内容