作为一个爬虫必须摸不一样的鱼,平常我们怎么看热榜,今天爬一个热榜数据,咱就在ied中读热榜。仍是一个乌龙事情听我细细道来网站地址

1,话不多说,今天图也不看了直接进入主题,翻开网站主页抓个包

热榜排行爬虫详解
2,可见接口中有两个参数,第二个参数盲猜是恳求时候的时刻戳,第一个参数有点长不像是正常的时刻戳,多翻几页发现第一个参数也是一个时刻戳仅仅后面加了三个000,咱们就去掉三个零(这里多恳求了几页没有发现翻页的改变规则)

热榜排行爬虫详解
2.1,第二个参数转化发现便是恳求时刻没错

热榜排行爬虫详解
2.2,第一个参数转化瞬间我这充溢才智的大脑里出现了无数主意(这是随机的)(这是文章发布时刻)(文章发布时刻放到翻页怎么获取呢)(这是网站反爬生成一堆时刻戳映射到page上做翻页)(这是通过算法和恳求时刻做比较生成对应的page进行翻页)(。。。)然后我就去了后台看看查一下这个参数名

热榜排行爬虫详解

热榜排行爬虫详解
只一眼,并带着对这种小网站的瞧不起,直接到response中一检索公然。小网站哪有什么高端反爬

热榜排行爬虫详解
3,直接上代码,翻页就不再多谢,拿到参数之后能够自己向下弥补了

headers = {
    'Accept': 'application/json, text/javascript, */*; q=0.01',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Cache-Control': 'no-cache',
    'Connection': 'keep-alive',
    'Cookie': 'deviceId=web.eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiJhNjNkZjYxZS00ODZhLTQzNTgtODNmMy1hNDlkMjdkMmI4ZmUiLCJleHBpcmUiOiIxNjY1MjIyMzY3MDAwIn0.eQF9za4cSq8huEESJPn0nDP3PUsDiVNZ4CM_fTAeWMg; Hm_lvt_03b2668f8e8699e91d479d62bc7630f1=1662630378',
    'Pragma': 'no-cache',
    'Referer': 'https://dig.chouti.com/',
    'Sec-Fetch-Dest': 'empty',
    'Sec-Fetch-Mode': 'cors',
    'Sec-Fetch-Site': 'same-origin',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest',
    'sec-ch-ua': '" Not A;Brand";v="99", "Chromium";v="100", "Google Chrome";v="100"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
}
import time
params = {
    'afterTime': '1681236005077000',
    '_': f'{int(time.time()*1000)}',
}
response = requests.get('https://dig.chouti.com/link/hot', params=params, headers=headers).json()['data']
next_afterTime = response[-1]['operateTime']
print(next_afterTime)
for res in response:
    title = res['title']
    url = res['url']
    print(title)
    yes = input()
    if yes == '1':
        print(url)

4,ok这样的话就只需要看到想看的标题就输入1返回url,就能够自行观赏了,跑一下

热榜排行爬虫详解