HTML 防止爬虫抓取方法

HTML About 193 words

robots.txt

设置robots.txt爬虫抓取规则，一般放置在域名根目录。

如：不允许抓取/admin下的路径及子路径。

User-agent: *
Disallow: /admin/

<meta name="robots" content="NONE">

单页面应用也能应对爬虫，使用JavaScript动态切换HTML页面。

Views: 2,124 · Posted: 2023-09-13

——— Thanks for Reading ———

Give me a Star, Thanks:)

https://github.com/fendoudebb/LiteNote

扫描下方二维码关注公众号和小程序↓↓↓