Robots协议是一种用于告知网络爬虫哪些网站页面可以抓取,哪些页面不可以抓取的规范,它的具体使用形式是在网站根目录下放置一个robots.txt文件,在这个文件中写明当前网站里哪些目录是允许爬虫去爬取,哪些目录是不允许,Robots协议的作用就是网站告知网络爬虫哪些页面可以抓取,哪些不行。
Robots协议分为三个部分:User-agent、Disallow和Allow,通过这三个部分的组合,可以实现对网络爬虫的精确控制。
Robots协议是一种用于告知网络爬虫哪些网站页面可以抓取,哪些页面不可以抓取的规范,它的具体使用形式是在网站根目录下放置一个robots.txt文件,在这个文件中写明当前网站里哪些目录是允许爬虫去爬取,哪些目录是不允许,Robots协议的作用就是网站告知网络爬虫哪些页面可以抓取,哪些不行。
Robots协议分为三个部分:User-agent、Disallow和Allow,通过这三个部分的组合,可以实现对网络爬虫的精确控制。
还没有评论,来说两句吧...