IIS 网站限制爬虫抓取频次限制 robots.txt 文件

IIS 网站限制爬虫抓取频次限制 robots.txt 文件 ,如果网站的带宽流量过高,一般都是爬虫搞的鬼,如果不加限制会影响正常网站运行以及用户体验。但有点爬虫可能无视这一规则,就要另求他法,找到爬虫的IP,然后让服务器拒绝此IP的访问。

robots.txt 是一个纯文本配置文件,放置在网站根目录下,用于告知搜索引擎爬虫哪些页面可以抓取、哪些页面禁止抓取,是网站与爬虫之间的 “协议”(无强制约束力,恶意爬虫可绕过)。

必须放在网站根目录(如 IIS 站点的 wwwroot 文件夹),访问路径为 https://yourdomain.com/robots.txt,爬虫会自动读取。

指令 作用 示例

User-agent 指定适用的爬虫标识,* 代表所有爬虫 User-agent: Baiduspider / User-agent: *

Allow 允许爬虫访问的路径 Allow: /article/(允许抓取文章目录)

Disallow 禁止爬虫访问的路径 Disallow: /admin/(禁止抓取后台目录)

Crawl-delay 爬虫两次请求的最小间隔时间(单位:秒) Crawl-delay: 5(间隔 5 秒)

Sitemap 告知爬虫网站地图的位置,帮助爬虫快速索引 Sitemap: https://yourdomain.com/sitemap.xml

User-agent: *

Crawl-delay: 3

Allow: /

User-agent: *

表示该规则适用于所有爬虫(* 是通配符,匹配任意爬虫的 User-agent 标识)。

**Crawl-delay: 3

** 要求爬虫在发送两次请求之间,至少间隔 3 秒。

作用:避免爬虫短时间内高频请求,减轻服务器压力。

注意:部分爬虫(如百度、谷歌的部分爬虫)可能不严格遵守该指令,需结合 IIS 爬虫限制功能(如 IP 限流)辅助管控。

Allow: /

允许爬虫访问网站的所有目录和页面(/ 代表网站根目录)。

若你需要限制特定目录(如后台 /admin),可添加 Disallow 规则,示例:

plaintext

User-agent: *

Crawl-delay: 3

Allow: /

Disallow: /admin/

Disallow: /api/private/

若要针对某一特定爬虫(如百度爬虫)单独设置规则,可指定 User-agent,示例:

plaintext

# 针对百度爬虫

User-agent: Baiduspider

Crawl-delay: 2

Allow: /

# 针对其他所有爬虫

User-agent: *

Crawl-delay: 5

Allow: /

Disallow: /admin/

robots.txt 仅为爬虫协议,不具备强制约束力,恶意爬虫可能会绕过该规则,需配合 IIS 的 IP 黑名单、请求频率限制等功能加强防护。

文件名精灵2025年最新版 机器翻译 AI智能
...
批量修改文件名称、文件夹名称

免费使用 功能无限制

全面接入机器自动翻译功能,主流AI大模型智能改名

方便快捷,支持正则表达式、无需安装功能齐全、支持定制无广告、无插件,放心使用。

免费下载
本站中所有的计算器的计算结果仅供参考,本站对此结果的准确性不承担任何责任,实际数额以银行/保险公司/国家相关机构确认的结果为准。
在线客服QQ:543690914,备案号: 苏ICP备15037649号-27。东海县白塔埠镇佳诚电脑经营部版权所有。