服务器反爬虫攻略：Apache/Nginx/PHP 禁止某些 User Agent 抓取网站

时间：2019-01-07

阅读：

服务器反爬虫攻略：Apache/Nginx/PHP禁止某些User Agent抓取网站 wordpress

我们都知道网络上的爬虫非常多，有对网站收录有益的，比如百度蜘蛛（Baiduspider），也有不但不遵守 robots 规则对服务器造成压力，还不能为网站带来流量的无用爬虫，比如 YY 蜘蛛（YisouSpider）。最近张戈发现 nginx 日志中出现了好多宜搜等垃圾的抓取记录，于是整理收集了网络上各种禁止垃圾蜘蛛爬站的方法，在给自己网做设置的同时，也给各位站长提供参考。

一、Apache

①、通过修改 .Htaccess 文件

修改网站目录下的.htaccess，添加如下代码即可（2 种代码任选）：

可用代码 (1)：

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (^$|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) [NC]
RewriteRule ^(.*)$ - [F]

可用代码 (2)：

SetEnvIfNoCase ^User-Agent$ .*(FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) BADBOT
Order Allow,Deny
Allow from all
Deny from env=BADBOT

②、通过修改 Httpd.Conf 配置文件

找到如下类似位置，根据以下代码新增 / 修改，然后重启 Apache 即可：

DocumentRoot /home/wwwroot/xxx
<Directory "/home/wwwroot/xxx">
SetEnvIfNoCase User-Agent ".*(FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms)" BADBOT
        Order allow,deny
        Allow from all
       deny from env=BADBOT
</Directory>

二、Nginx 代码

进入到 nginx 安装目录下的 conf 目录，将如下代码保存为 agent_deny.conf

cd /usr/local/nginx/conf

vim agent_deny.conf

#禁止Scrapy等工具的抓取
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
     return 403;
}
#禁止指定UA及UA为空的访问
if ($http_user_agent ~ "FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) {
     return 403;             
}
#禁止非GET|HEAD|POST方式的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) {
    return 403;
}

然后，在网站相关配置中的 location / { 之后插入如下代码：

include agent_deny.conf;

如张戈博客的配置：

[marsge@Mars_Server ~]$ cat /usr/local/nginx/conf/zhangge.conf 
location / {
        try_files $uri $uri/ /index.php?$args;
        #这个位置新增1行：
        include agent_deny.conf;
        rewrite ^/sitemap_360_sp.txt$ /sitemap_360_sp.php last;
        rewrite ^/sitemap_baidu_sp.xml$ /sitemap_baidu_sp.php last;
        rewrite ^/sitemap_m.xml$ /sitemap_m.php last;

保存后，执行如下命令，平滑重启 nginx 即可：

/usr/local/nginx/sbin/nginx -s reload

三、PHP 代码

①、PHP 通用版

将如下方法放到贴到网站入口文件 index.php 中的第一个 <?php之后即可：

/**
* 服务器反爬虫攻略：Apache/Nginx/PHP禁止某些User Agent抓取网站 - 龙笑天下
* https://www.ilxtx.com/anti-web-spiders.html
* 出自：zhange.net
*/
//获取UA信息
$ua = $_SERVER['HTTP_USER_AGENT'];
//将恶意USER_AGENT存入数组
$now_ua = array('FeedDemon ','BOT/0.1 (BOT for JCE)','CrawlDaddy ','Java','Feedly','UniversalFeedParser','ApacheBench','Swiftbot','ZmEu','Indy Library','oBot','jaunty','YandexBot','AhrefsBot','MJ12bot','WinHttp','EasouSpider','HttpClient','Microsoft URL Control','YYSpider','jaunty','Python-urllib','lightDeckReports Bot');
//禁止空USER_AGENT，dedecms等主流采集程序都是空USER_AGENT，部分sql注入工具也是空USER_AGENT
if(!$ua) {
header("Content-type: text/html; charset=utf-8");
    die('请勿采集本站，因为采集的站长木有小JJ！');
}else{
    foreach($now_ua as $value )
//判断是否是数组中存在的UA
    if(eregi($value,$ua)) {
    header("Content-type: text/html; charset=utf-8");
    die('请勿采集本站，因为采集的站长木有小JJ！');
    }
}

②、Wordpress 适用版

将下面的代码贴到 functions.php 中的最后一个 ?>之前即可：

/**
* 服务器反爬虫攻略：Apache/Nginx/PHP禁止某些User Agent抓取网站 - 龙笑天下
* https://www.ilxtx.com/anti-web-spiders.html
*/
add_action('wp_head', 'deny_mirrored_request', 0);
function deny_mirrored_request()
{
$ua = $_SERVER['HTTP_USER_AGENT'];
$now_ua = array('FeedDemon ','BOT/0.1 (BOT for JCE)','CrawlDaddy ','Java','Feedly','UniversalFeedParser','ApacheBench','Swiftbot','ZmEu','Indy Library','oBot','jaunty','YandexBot','AhrefsBot','MJ12bot','WinHttp','EasouSpider','HttpClient','Microsoft URL Control','YYSpider','jaunty','Python-urllib','lightDeckReports Bot');
if(!$ua) {
header("Content-type: text/html; charset=utf-8");
wp_die('请勿采集本站，采集者木有小JJ！请正常访问，并认准【龙笑天下网】官方网址！');
}else{
    foreach($now_ua as $value )
    if(eregi($value,$ua)) {
    header("Content-type: text/html; charset=utf-8");
    wp_die('请勿采集本站，采集者木有小JJ！请正常访问，并认准【龙笑天下网】官方网址！');
    }
}
}

四、测试效果

如果是服务器的话，就很简单，直接通过 curl 命令来检测；当然，如果是虚拟主机的话，也可以通过百度站长平台里的“抓取诊断”来测试~ 下面以服务器为例：

模拟 YY 蜘蛛抓取：

curl -I -A 'YYSpider' https://www.domain.com

模拟 UA 为空的抓取：

curl -I -A '' https://www.domain.com

模拟百度蜘蛛的抓取：

curl -I -A 'Baiduspider' https://www.domain.com

三次抓取结果显示，YY 蜘蛛和 UA 为空的返回是 403 禁止访问标识，而百度蜘蛛则成功返回 200，说明生效！

五、附录：UA 收集

下面是网络上常见的垃圾 UA 列表，仅供参考，同时也欢迎你来补充。

FeedDemon             内容采集
BOT/0.1 (BOT for JCE) sql注入
CrawlDaddy            sql注入
Java                  内容采集
Jullo                 内容采集
Feedly                内容采集
UniversalFeedParser   内容采集
ApacheBench           cc攻击器
Swiftbot              无用爬虫
YandexBot             无用爬虫
AhrefsBot             无用爬虫
YisouSpider           无用爬虫（已被UC神马搜索收购，此蜘蛛可以放开！）
MJ12bot               无用爬虫
ZmEu phpmyadmin       漏洞扫描
WinHttp               采集cc攻击
EasouSpider           无用爬虫
HttpClient            tcp攻击
Microsoft URL Control 扫描
YYSpider              无用爬虫
jaunty                wordpress爆破扫描器
oBot                  无用爬虫
Python-urllib         内容采集
Indy Library          扫描
FlightDeckReports Bot 无用爬虫
Linguee Bot           无用爬虫

本文的方法也可用来防止镜像。

从引流这件事的底层逻辑上来说，无论任何生意，线上获取精准的意向用户的方法，无非就是主动引流和被动引流这两种，何解?主动引流：就是先找到有需求的用户是哪类人群，以及这类用户在

2024-12-07 20:15:35

小红书天然适合旅游业，做小红书旅游号，太容易出成绩了。当然，做好小红书也需要一些运营技巧，很庆幸我当初遇到了无敌的星球，使我能够快速掌握爆款技巧，并且跟紧平台趋势，找到了适合

2024-12-07 20:14:49

今年微信对生态内的流量打通可谓是煞费苦心，在问一问、视频号、公众号、搜一搜、看一看、评论区等等通道调整后，把微信内部流量高效盘活流转的同时，也给内容创作者制造了巨大的

2024-12-07 20:14:00

这段时间一直没有更新我的网站以及公众号，很多人私信问我是不是不做了，其实不是的。这段时间我一直都在测试项目，其中包括小说推文以及短剧CPS等，由于先在市场上很多授课都是教

2024-12-07 20:13:37

最近大环境不好已是路人皆知的事情，行业里人心惶惶，老员工担心裁员、不敢跳槽，年轻人找不到就业机会，近期和不少朋友、小同学聊过，分享下自己的见解，希望对大家有所帮助。1、不要

2024-12-07 20:13:21

阅读提示：说实话，因为这篇文章内容含金量较高，所以本来我是不太愿意公开分享的，毕竟免费的东西很多人不懂得珍惜!这篇文章会帮助你突破找细分领域、选高客单价产品的瓶颈期;在本

2024-11-30 21:16:42

有需求就会有市场，这是亘古不变的铁律。今天分享的这个项目就是洞察到了大学生的需求，大学生毕业之际，学校都要求学生得有实习证明才给毕业，其实学校并不会真正的去调查学生在哪

2024-11-27 20:33:22

现在ai 、ChatGPT可以说是非常火，国内外也涌现了一大批AI聊天工具。最火的就是chatgpt了，其他比如:国外:Chatgpt：可以说是最强AINotion：非常高效的写作软件AutoGPT：有人评价潜力

2024-11-27 20:32:58

看标题，你是不是在想，白杨想引导你点击故意这么写的?讲真，真不是哈，看完全文你就知道我为什么这么写了。好，言归正传，我们正式开始。我们先来说第1种搞流量误区：公域引流量到私域核

2024-11-27 20:32:28

私域零售的本质，是做用户复购关系，爆款则是建立关系的最好手段。私域爆款商品跟互联网产品的运行逻辑一样，遵从稀缺规律，它永远只属于小部分比例，零售企业借此建立强关系，建立消费

2024-11-27 20:32:09

1、公众号如何申请注册?首先，打开微信公众平台官网(mp.weixin.qq.com/ )，点击右上角“立即注册”，然后选择账号类型，如订阅号、服务号等(个人仅支持注册订阅号)。接着

2024-11-27 20:31:36

这篇文章标题是针对新手，事实上已经在互联网运营几年的老朋友，也非常值得细品。这篇文章是纯干货内容，可以说是行业内实战派的内幕。互联网上，有人在不断找项目，有人在不断用项目

2024-11-27 20:30:57

虚拟资源概念应该都不陌生，例如各种小吃技术、考研课程、源码、网站插件、引流教程等等。每天都会有大量搜素需求，知识付费时代。每个人都会在某一个节点获取一些自己想要的资

2024-11-17 21:21:39

最近家里养了只猫，就是这货某日，喵食欲不振，遂在群里问了下猫粮的事：“有推荐幼猫罐头吗?想给猫加点餐，找个靠谱的渠道。”碰巧土豆有朋友比较懂这个，向她打听得知。宠

2024-11-15 23:45:48

想要更好的玩转于打造爆款视频号，首先持续不断的打磨自己的作品这一点是必可可少的事情，那么如果只是自己来摸索的话，你就会发现一个问题，自己学习起来特别的慢，有可能一天或者很

2024-11-15 23:45:27

最近很多做淘宝运营的粉丝找我，他们始终对搜索流量、推荐流量、标签的理解不够清晰，因此很难精准获取流量。为此我特写一篇文章，你们用心看完，店铺流量必定更上一层楼。如图所示

2024-11-13 23:47:38

今天要介绍的这个项目，不敢妄言日入万元，但日入1000元+是可以实现的，成功的最好方法是什么?别人成功了，你复制就可以，别的不用管!您肯定有这样的经历，想学习一技之长，就会去买学习

2024-11-13 00:45:47

现在的女生都越来独立了，无论是未婚的，还是已婚的。尤其是很多在家带娃的宝妈，都会去找一份自己的副业，让自己在家也有一份收入。其实这也不是说，结婚生宝宝后老公就不爱自己了，不

2024-11-13 00:45:23

抖音小店最近可以说是电商行业最热门的话题了，但凡提到抖音无货源电商，一定离不开两个字“蓝海”。抖音无货源电商能月赚多少?咱们先看两组数据。这是我运营了15天

2024-11-13 00:45:02

本文大纲：一、流量焦虑的破局二、流量运营的底层逻辑三、流量运营的4大痛点四、流量获取的方式有哪些五、6种不同流量类型的核心要点六、结语这篇文章是七叔过去8年花了大几

2024-11-13 00:44:35

抖音小店无货源模式，开始至今已有1年之久，何为抖音无货源?其实就是10年前的某宝无货源。通过软件复制其他平台的优质产品，加价上传到自己的抖店里，一个赚差价的模式。01怎么卖货

2024-11-08 14:41:01

大家好，我是铭则，今天再来分享一个干货，我认为是非常干的哈，只要不是个老韭菜，基本都能操作有效果的。(当然你也可能已经知道了)事情是这样的，在抖音上大家会看到那种测试类小程序

2024-11-04 20:21:16

01我对于圈子的理解，大致经历了三个阶段。第一阶段，我觉得圈子非常重要，一定要挤进优秀的圈子，宁做凤尾，不做鸡头，这样哪怕自己什么也不是，也可以被那些牛人带起来。结果，很长一段时

2024-11-04 20:20:35

这几天接触到一个新词叫“躺平”，但凡是一个成年人都会对此嗤之以鼻，辛苦操劳十几年，钱都不见得够花，躺平?这一躺，可能就再也站不起来了。01希望现在的年轻人了解到一

2024-11-04 20:20:01

大家好，我是一名草根，我叫钱幕，互联网摸爬打滚10年有余。目前为全职自由职业，混的一般勉强能度日养家吧。通过此平台，我能带给你思维上的提升或项目实操，以及我这一路走来所遇到的

2024-10-30 17:23:14

1、不要卖产品，今天不缺好的产品，不缺会卖产品的聪明人，更不缺好的商业模式，今天缺的是消费，大家都没钱消费不敢消费了!今天商业模式是创造消费，刚需创造必需，是物与物的等值交换，创

2024-10-30 17:22:58

相信大家再刷视频号的时候，总会在3分钟5分钟内刷到一些精彩的影视剪辑类的短视频，长久以来，电影解说，都是久经不衰，说明非常受到大众的欢迎，想必大家在刷视频号的时候也许会觉得，那

2024-10-30 17:22:37

在即将到来的5G时代，所有精彩的文字内容都会以视频的方式再从新演绎一遍。也就是说，个体崛起的时代即将来临。在当代互联网这个大环境下，流量意味着赚不完的生意。但这种生意的

2024-10-30 17:22:18

最近圈子里关于流量套利的信息可谓是铺天盖地，这个项目不用过多的去阐述在各个论坛或者谷歌搜索都是一大堆信息，这些信息大多来自于各个服务商提供，广告商代理/追踪/自动化等等

2024-10-30 17:21:58

本文会教学八种抖音变现方法，以本文变现为基础，结合抖音各类爆款视频制作方法，让每个人都能利用抖音赚钱。本文只讲变现方法，如何制作爆款视频会在下期详解。1.挂抖音小程序赚广

2024-10-22 22:09:26

/** * 全局唯一id生产类 * https://segmentfault.com/a/1190000007769660 * 基于Twitter的SnowFlake算法改造 * twitter的结构： * 64bit = 1bit为空缺 + 41bit毫秒时间戳 + 1

2019-01-07 21:07:51

不废话，直接上代码，大家参考一下：function format_date($time) { $nowtime = time(); $difference = $nowtime - $time; switch ($difference) { case $differ

2019-01-07 20:59:35

继麒麟980在Mate 20系列上一炮走红后，CES上，华为又为我们带来了新的惊喜，移动领域基于ARM的CPU备受关注，但服务器市场却进展较缓慢。为此，华为公布了用于服务器的ARM CPU - Kunpe

2019-01-07 18:35:03

ps ax | egrep httpd | wc -l如果数量大的话需要查看一下配置或者检查是否被CC啦

2019-01-06 23:22:06

针对phpsso模块添加过滤代码，最好的方式应该是将转义和过滤放在数据库操作的前一步，这样可以极有效缓解SQL注入带来的问题打开：\phpcms\modules\member\index.php 大概673行左

2019-01-05 11:14:01

第一步：在网站根目录创建一个文件夹，以后就要通过这个文件夹进入后台登录界面的，所以文件夹名就要取一个不易被人轻易猜到的名称。这里作为演示，我就取为 adminweb 好

2019-01-05 11:11:30

1、nginx相对于apache的优点：轻量级，同样起web 服务，比apache 占用更少的内存及资源抗并发，nginx 处理请求是异步非阻塞的，而apache 则是阻塞型的，在高并发下nginx 能保持低资源

2018-12-31 14:31:39

直接上代码：$filename = GUIDv4() . '.jpg';$save_path = $save_dir . DIRECTORY_SEPARATOR . $filename;file_put_contents($save_path, $data);$curl = curl_i

2018-12-31 14:26:46

什么是Opcache呢？ Opcache 的前生是 Optimizer+ ，它是PHP的官方公司 Zend 开发的一款闭源但可以免费使用的 PHP 优化加速组件。 Optimizer+ 将PHP代码预编译生成的脚本

2018-12-31 14:23:38

Homebrew 1.5 宣布放弃 homebrew/php, 转而使用homebrew/core维护, 详见https://brew.sh/2018/01/19/homebrew-1.5.0/ Today I’d like to announce Homebre

2018-12-31 14:21:25

2020-02-20

2019-02-13

2021-09-24

2019-01-11

2019-11-19

2019-12-16

2018-12-30

2019-08-04

2018-12-23

服务器反爬虫攻略：Apache/Nginx/PHP 禁止某些 User Agent 抓取网站

一、Apache

二、Nginx 代码

三、PHP 代码

四、测试效果

五、附录：UA 收集

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道