小知识：nginx 防盗链防爬虫配置详解

新建配置配置文件（例如进入到nginx安装目录下的conf目录，创建： agent_deny.conf）

禁止Scrapy等工具的抓取 if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { return 403; }

禁止指定UA及UA为空的访问

#forbidden Scrapy

if ($http_user_agent ~* (Scrapy|Curl|HttpClient))

{

return 403;

}

#forbidden UA

{

return 403;

}

#forbidden not GET|HEAD|POST method access

if ($request_method !~ ^(GET|HEAD|POST)$)

{

return 403;

}

然后，在网站相关配置中的 server段插入如下代码： include agent_deny.conf;

重启nginx：

/data/nginx/sbin/nginx -s reload

测试使用curl -A 模拟抓取即可，比如：

curl -I -A YYSpider <<<a href=”http://www.xxx.con%3e%3e/” rel=”external nofollow”>www.xxx.con>></a>

结果

[root@11 conf]# curl -I -A YYSpider www.xxx.cn

HTTP/1.1 403 Forbidden

Server: nginx/1.12.0

Date: Wed, 24 Apr 2019 11:35:21 GMT

Content-Type: text/html

Content-Length: 169

Connection: keep-alive

模拟UA为空的抓取：

curl -I -A <<<a href=”http://www.xxx.cn>>” rel=”external nofollow”>www.xxx.cn>></a>

结果

[root@11 conf]# curl -I -A www.xxx.cn

HTTP/1.1 403 Forbidden

Server: nginx/1.12.0

Date: Wed, 24 Apr 2019 11:36:06 GMT

Content-Type: text/html

Content-Length: 169

Connection: keep-alive

模拟百度蜘蛛的抓取：

curl -I -A Baiduspider <<<www.xxx.cn>>>

[root@11 conf]# curl -I -A Baiduspider www.xxx.cn

HTTP/1.1 200 OK

Server: nginx/1.12.0

Date: Wed, 24 Apr 2019 11:36:47 GMT

Content-Type: text/html

Content-Length: 612

Last-Modified: Fri, 12 Apr 2019 13:49:36 GMT

Connection: keep-alive

ETag: “5cb09770-264”

Accept-Ranges: bytes

UA类型

FeedDemon 内容采集

BOT/0.1 (BOT for JCE) sql注入

CrawlDaddy sql注入

Java 内容采集

Jullo 内容采集

Feedly 内容采集

UniversalFeedParser 内容采集

ApacheBench cc攻击器

Swiftbot 无用爬虫

YandexBot 无用爬虫

AhrefsBot 无用爬虫

YisouSpider 无用爬虫（已被UC神马搜索收购，此蜘蛛可以放开！）

jikeSpider 无用爬虫

MJ12bot 无用爬虫

ZmEu phpmyadmin 漏洞扫描

WinHttp 采集cc攻击

EasouSpider 无用爬虫

HttpClient tcp攻击

Microsoft URL Control 扫描

YYSpider 无用爬虫

jaunty wordpress爆破扫描器

oBot 无用爬虫

Python-urllib 内容采集

Indy Library 扫描

FlightDeckReports Bot 无用爬虫

Linguee Bot 无用爬虫

nginx 防盗链配置

背景：防止第三方引用链接访问我们的图片，消耗服务器资源和网络流量，我们可以在服务器上做防盗链限制。

实现防盗链的方式有两种：refer方式和签名方式。

refer方式实现防盗链

工作模块：ngx_http_referer_module。

作用变量：$invalid_referer，全局变量。

配置域：server, location

配置：

server {

listen 80;

server_name www.imcati.com refer-test.imcati.com;

root /usr/share/nginx/html;

location ~*\.(gif|jpg|jpeg|png|bmp|swf)$ {

valid_referers none blocked www.imcati.com;

if ($invalid_referer) {

return 403;

}

valid_referers: 指定资源访问是通过以下几种方式为合法，即白名单。 vaild_referers 有效的引用连接，如下，否则就进入$invaild_refere,返回403 forbiden。 none：允许缺失的头部访问。 blocked：允许referer没有对应值的请求。 server_names：若referer站点域名与server_name中本机配的域名一样允许访问。

到此这篇关于nginx 防盗链防爬虫配置详解的文章就介绍到这了,更多相关nginx 防盗链防爬虫配置内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家！

原文链接：https://segmentfault.com/a/1190000037437691

声明： 猿站网有关资源均来自网络搜集与网友提供，任何涉及商业盈利目的的均不得使用，否则产生的一切后果将由您自己承担！本平台资源仅供个人学习交流、测试使用所有内容请在下载后24小时内删除，制止非法恶意传播，不对任何下载或转载者造成的危害负任何法律责任！也请大家支持、购置正版！。本站一律禁止以任何方式发布或转载任何违法的相关信息访客发现请向站长举报，会员发帖仅代表会员个人观点，并不代表本站赞同其观点和对其真实性负责。本网站的资源部分来源于网络，如有侵权烦请发送邮件至：2697268773@qq.com进行处理。

{{userData.name}}已认证

小知识：nginx 防盗链防爬虫配置详解

小知识：详解Docker 容器跨主机多网段通信解决方案

小知识：Linux中FTP账号无法删除文件夹的解决方案

支持亿级连接并开源的分布式MQTT消息服务器分享

Nginx配置同时支持http和https的两种方式

Docker搭建Redis Cluster集群

如何基于Docker镜像逆向生成Dockerfile

服务器配置参数怎么看？服务器配置参数详解

访问nginx显示未找到站点的问题分析及解决方案

{{userData.name}}已认证

小知识：详解Docker 容器跨主机多网段通信解决方案

小知识：Linux中FTP账号无法删除文件夹的解决方案

小知识：RAKsmart香港裸机云服务器精品网线路测评

小知识：详解apache编译安装httpd-2.4.54及三种风格的init程序特点和区别

小知识：Kubernetes(K8S)容器集群管理环境完整部署详细教程-中篇

小知识：Kubernetes(K8S)容器集群管理环境完整部署详细教程-上篇