python爬虫请求头设置代码
更新时间:2020年7月28日 15:22 点击:1335
一、requests设置请求头:
import requests url="http://www.targetweb.com" headers={ 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Cache-Control':'max-age=0', 'Connection':'keep-alive', 'Referer':'http://www.baidu.com/', 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400'} res=requests.get(url,headers=headers) #图片下载时要用到字节流,请求方式如下 #res=requests.get(url,stream=True,headers)
二、Selenium+Chrome请求头设置:
from selenium import webdriver options = webdriver.ChromeOptions() options.add_argument('lang=zh_CN.UTF-8')# 设置中文 options.add_argument('user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400"')# 设置头部 browser = webdriver.Chrome(chrome_options=options) url="http://www.targetweb.com" browser.get(url) browser.quit()
三、selenium+phantomjs请求头设置:
from selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities des_cap = dict(DesiredCapabilities.PHANTOMJS) des_cap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400") browser = webdriver.PhantomJS(desired_capabilities=des_cap) url="http://www.targetweb.com" browser.get(url) browser.quit()
四、爬虫框架scrapy设置请求头:
在settings.py文件中添加如下:
DEFAULT_REQUEST_HEADERS = { 'accept': 'image/webp,*/*;q=0.8', 'accept-language': 'zh-CN,zh;q=0.8', 'referer': 'https://www.baidu.com/', 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400',}
五、Python异步Aiohttp请求头设置:
import aiohttp url="http://www.targetweb.com" headers={ 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Cache-Control':'max-age=0', 'Connection':'keep-alive', 'Referer':'http://www.baidu.com/', 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400'} asyncwithaiohttp.ClientSession(headers=headers)assession: asyncwithsession.get(url)asresp: print(resp.status) print(awaitresp.text())
内容扩展:
1、为什么要设置headers?
在请求网页爬取的时候,输出的text信息中会出现抱歉,无法访问等字眼,这就是禁止爬取,需要通过反爬机制去解决这个问题。
headers是解决requests请求反爬的方法之一,相当于我们进去这个网页的服务器本身,假装自己本身在爬取数据。
对反爬虫网页,可以设置一些headers信息,模拟成浏览器取访问网站 。
2、 headers在哪里找?
谷歌或者火狐浏览器,在网页面上点击:右键–>检查–>剩余按照图中显示操作,需要按Fn+F5刷新出网页来
有的浏览器是点击:右键->查看元素,刷新
以上就是python爬虫请求头设置代码的详细内容,更多关于python爬虫请求头如何设置的资料请关注猪先飞其它相关文章!
上一篇: 虚拟机下载python是否需要联网
下一篇: Python常用类型转换实现代码实例
相关文章
- 这篇文章主要介绍了vue+axios全局添加请求头和参数操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-07-24
python爬虫用request库处理cookie的实例讲解
在本篇内容里小编给大家整理的是一篇关于python爬虫用request库处理cookie的实例讲解内容,有需要的朋友们可以学习参考下。...2021-02-21- 这篇文章主要介绍了如何快速一键生成Python爬虫请求头,帮助大家更好的理解和学习使用python爬虫,感兴趣的朋友可以了解下...2021-03-05
解决Spring Cloud Feign 请求时附带请求头的问题
这篇文章主要介绍了解决Spring Cloud Feign 请求时附带请求头的问题,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2020-10-19- 在本篇文章里小编给大家整理的是一篇关于python爬虫智能翻页批量下载文件的实例详解内容,有兴趣的朋友们可以学习下。...2021-02-04
- 这篇文章主要介绍了VUE项目axios请求头更改Content-Type操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-07-24
- 这篇文章主要介绍了Asp.Net Core添加请求头自定义认证的示例,帮助大家更好的理解和学习使用.net技术,感兴趣的朋友可以了解下...2021-09-22
- 在本篇文章里小编给大家整理的是一篇关于Python爬虫UA伪装爬取的实例讲解内容,有需要的朋友们可以学习参考下。...2021-02-20
- 在本篇文章里小编给大家整理的是一篇关于python爬取2021猫眼票房字体加密实例内容,有兴趣的朋友们可以学习下。...2021-02-20
- 在本篇文章里小编给大家整理了一篇关于python爬虫实现爬取同一个网站的多页数据的实例内容,有兴趣的朋友们可以学习参考下。...2021-01-18
- 这篇文章主要介绍了Spring MVC获取HTTP请求头的两种方式小结,帮助大家更好的理解和使用Spring MVC,感兴趣的朋友可以了解下...2021-01-26
- 在本篇文章里小编给大家整理的是一篇关于python爬取微博评论的实例讲解,有兴趣的朋友们可以学习下。...2021-01-16
- 在本篇内容中小编给大家整理的是关于python爬虫用mongodb的理由,需要的朋友们可以跟着学习参考下。...2020-07-28
- 在本篇文章里小编给大家整理了关于Python小白学习爬虫常用请求报头的相关知识点,需要的朋友们可以学习下。...2020-06-04
- 在本篇文章里小编给大家整理的是一篇关于python爬虫爬取图片的简单代码内容,有兴趣的朋友们可以测试下。...2021-01-18
- 在本篇文章里小编给大家整理的是一篇关于python爬虫请求头如何设置内容,需要的朋友们可以学习下。...2020-07-28