Spider理论系列-request模块的入门使用

一、requests模块的入门运用

学习方针：

了解 requests模块的介绍
把握 requests的根本运用
把握 response常见的特点
把握 requests.text和content的差异
把握处理网页的解码问题
把握 requests模块发送带headers的恳求
把握 requests模块发送带参数的get恳求

1、为什么要要点学习requests模块，而不是urllib

企业中用的最多的便是requests
requests的底层完成便是urllib
requests在python2 和python3中通用，办法完全相同
requests简单易用

2、requests的效果与安装

效果：发送网络恳求，回来呼应数据

指令： pip install requests

3、requests模块发送简单的get恳求、获取呼应

需求：经过requests向百度主页发送恳求，获取百度主页的数据

import requests
# 方针url
url = 'https://www.baidu.com'
# 向方针url发送get恳求
response = requests.get(url)
# 打印呼应内容
print(response.text)

response的常用特点：

response.text 呼应体 str类型
response.encoding 从HTTP　header中猜想的呼应内容的编码办法
respones.content 呼应体 bytes类型
response.status_code 呼应状态码
response.request.headers 呼应对应的恳求头
response.headers 呼应头
response.cookies 呼应的cookie（经过了set-cookie动作）
response.url 获取访问的url
response.json() 获取json数据得到内容为字典 (假如接口呼应体的格局是json格局时)
response.ok
假如status_code小于等于200，response.ok回来True。
假如status_code大于200，response.ok回来False。

博主一般抓页面源码的时分运用的便是response.content.decode(),其间decode()的编码格局一般为utf-8,遇到utf-8处理不了的,就换gbk,在下文也有对这两种办法的细节解释

考虑：text是response的特点还是办法呢？

一般来说名词，往往都是方针的特点，对应的动词是方针的办法

3.1 response.text 和response.content的差异

response.text

类型：str
解码类型： requests模块自动根据HTTP 头部对呼应的编码作出有根据的推测，推测的文本编码
怎么修正编码办法：response.encoding="gbk/UTF-8"

response.content

类型：bytes
解码类型：没有指定
怎么修正编码办法：response.content.deocde("utf8")

获取网页源码的通用办法：

response.content.decode()
response.content.decode("UTF-8")
response.text

以上三种办法早年往后测验，可以100%的处理一切网页解码的问题

所以：更推荐运用response.content.deocde()的办法获取呼应的html页面

3.2 操练：把网络上的图片保存到本地

咱们来把www.baidu.com的图片保存到本地

考虑：

以什么办法翻开文件
保存什么格局的内容

分析：

图片的url: https://www.6hu.cc/wp-content/uploads/2023/06/1685897605-4f5c207e941fd8d.png
运用requests模块发送恳求获取呼应
以2进制写入的办法翻开文件，并将response呼应的二进制内容写入

import requests
# 图片的url
url = 'https://www.6hu.cc/wp-content/uploads/2023/06/1685897605-4f5c207e941fd8d.png'
# 呼应本身便是一个图片,并且是二进制类型
response = requests.get(url)
# print(response.content)
# 以二进制+写入的办法翻开文件
with open('baidu.png', 'wb') as f:
    # 写入response.content bytes二进制类型
    f.write(response.content)

4、发送带header的恳求

咱们先写一个获取百度主页的代码

import requests
url = 'https://www.baidu.com'
response = requests.get(url)
print(response.content)
# 打印呼应对应恳求的恳求头信息
print(response.request.headers)

4.1 考虑

对比浏览器上百度主页的网页源码和代码中的百度主页的源码，有什么不同？

代码中的百度主页的源码非常少，为什么？

4.2 为什么恳求需求带上header？

模仿浏览器，诈骗服务器，获取和浏览器共同的内容

4.3 header的形式：字典

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

4.4 用法

requests.get(url, headers=headers)

4.5 完好的代码

import requests
url = 'https://www.baidu.com'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
# 在恳求头中带上User-Agent，模仿浏览器发送恳求
response = requests.get(url, headers=headers)
# print(response.content)
# 打印恳求头信息
print(response.request.headers)

5、发送带参数的恳求

咱们在运用百度搜索的时分经常发现url地址中会有一个 ?，那么该问号后边的便是恳求参数，又叫做查询字符串

5.1 什么叫做恳求参数：

例1： http://www.webkaka.com/tutorial/server/2015/021013/

例2：https://www.baidu.com/s?wd=python&a=c

例1中没有恳求参数！例2中?后边的便是恳求参数

5.2 恳求参数的形式：字典

kw = {'wd':'长城'}

5.3 恳求参数的用法

requests.get(url,params=kw)

5.4 关于参数的注意点

在url地址中，许多参数是没有用的，比方百度搜索的url地址，其间参数只要一个字段有用，其他的都可以删去怎么确认那些恳求参数有用或者没用：挨个测验！对应的,在后续的爬虫中，越到许多参数的url地址，都可以测验删去参数

5.5 两种办法：发送带参数的恳求

对https://www.baidu.com/s?wd=python建议恳求可以运用requests.get(url, params=kw)的办法

# 办法一：运用params参数发送带参数的恳求
import requests
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
# 这是方针url
# url = 'https://www.baidu.com/s?wd=python'
# 最后有没有问号结果都相同
url = 'https://www.baidu.com/s?'
# 恳求参数是一个字典 即wd=python
kw = {'wd': 'python'}
# 带上恳求参数建议恳求，获取呼应
response = requests.get(url, headers=headers, params=kw)
# 当有多个恳求参数时，requests接收的params参数为多个键值对的字典，比方 '?wd=python&a=c'-->{'wd': 'python', 'a': 'c'}
print(response.content)

也可以直接对https://www.baidu.com/s?wd=python完好的url直接发送恳求，不运用params参数

# 办法二：直接发送带参数的url的恳求
import requests
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
url = 'https://www.baidu.com/s?wd=python'
# kw = {'wd': 'python'}
# url中包含了恳求参数，所以此时无需params
response = requests.get(url, headers=headers)

6、小结

requests模块的介绍：可以协助咱们建议恳求获取呼应
requests的根本运用：requests.get(url)
以及response常见的特点：

response.text 呼应体 str类型
respones.content 呼应体 bytes类型
response.status_code 呼应状态码
response.request.headers 呼应对应的恳求头
response.headers 呼应头
response.request._cookies 呼应对应恳求的cookie
response.cookies 呼应的cookie（经过了set-cookie动作）

把握 requests.text和content的差异：text回来str类型，content回来bytes类型
把握处理网页的解码问题：

response.content.decode()
response.content.decode("UTF-8")
response.text

把握 requests模块发送带headers的恳求：requests.get(url, headers={})
把握 requests模块发送带参数的get恳求：requests.get(url, params={})

request的根本运用就这些,小伙伴假如哪里有忘记了,记住回来看看

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。