python爬虫破解字体加密案例详解
本次案例以爬取起小点小说为例
案例目的:
通过爬取起小点小说月票榜的名称和月票数,介绍如何破解字体加密的反爬,将加密的数据转化成明文数据。
程序功能:
输入要爬取的页数,得到每一页对应的小说名称和月票数。
案例分析: 找到目标的url:
(右键检查)找到小说名称所在的位置:
通过名称所在的节点位置,找到小说名称的xpath语法:
(右键检查)找到月票数所在的位置:
由上图发现,检查月票数据的文本,得到一串加密数据。
我们通过xpathhelper进行调试发现,无法找到加密数据的语法。因此,需要通过正则表达式进行提取。
通过正则进行数据提取。
正则表达式如下:
得到的加密数据如下:
破解加密数据是本次案例的关键:
既然是加密数据,就会有加密数据所对应的加密规则的Font文件。
通过找到Font字体文件中数据加密文件的url,发送请求,获取响应,得到加密数据的woff文件。
注:我们需要的woff文件,名称与加密月票数前面的class属性相同。
如下图,下载woff文件:
找到16进制的数字对应的英文数字。
其次,我们需要通过第三方库TTFont将文件中的16进制数转换成10进制,将英文数字转换成阿拉伯数字。如下图:
解析出每个加密数据对应的对应的月票数的数字如下:
注意:
由于我们在上面通过正则表式获得的加密数据携带特殊符号
因此解析出月票数据中的数字之后,除了将特殊符号去除,还需把每个数字进行拼接,得到最后的票数。
最后,通过对比不同页的url,找到翻页的规律:
对比三个不同url发现,翻页的规律在于参数page
所以问题分析完毕,开始代码:
import requests from lxml import etree import re from fontTools.ttLib import TTFont import json if __name__ == '__main__': # 输入爬取的页数、 pages = int(input('请输入要爬取的页数:')) # eg:pages=1,2 for i in range(pages): # i=0,(0,1) page = i+1 # 1,(1,2) # 确认目标的url url_ = f'https://www.qidian.com/rank/yuepiao?page={page}' # 构造请求头参数 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36' } # 发送请求,获取响应 response_ = requests.get(url_,headers=headers) # 响应类型为html问文本 str_data = response_.text # 将html文本转换成python文件 py_data = etree.HTML(str_data) # 提取文本中的目标数据 title_list = py_data.xpath('//h4/a[@target="_blank"]/text() ') # 提取月票数,由于利用xpath语法无法提取,因此换用正则表达式,正则提取的目标为response_.text mon_list = re.findall('</style><span class=".*?">(.*?)</span></span>',str_data) print(mon_list) # 获取字体反爬woff文件对应的url,xpath配合正则使用 fonturl_str = py_data.xpath('//p/span/style/text()') font_url = re.findall(r"format\('eot'\); src: url\('(.*?)'\) format\('woff'\)",str_data)[0] print(font_url) # 获得url之后,构造请求头获取响应 headers_ = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36', 'Referer':'https://www.qidian.com/' } # 发送请求,获取响应 font_response = requests.get(font_url,headers=headers_) # 文件类型未知,因此用使用content格式 font_data = font_response.content # 保存到本地 with open('加密font文件.woff','wb')as f: f.write(font_data) # 解析加密的font文件 font_obj = TTFont('加密font文件.woff') # 将文件转成明文的xml文件 font_obj.saveXML('加密font文件.xml') # 获取字体加密的关系映射表,将16进制转换成10进制 cmap_list = font_obj.getBestCmap() print('字体加密关系映射表:',cmap_list) # 创建英文转英文的字典 dict_e_a = {'one':'1','two':'2','three':'3','four':'4','five':'5','six':'6', 'seven':'7','eight':'8','nine':'9','zero':'0'} # 将英文数据进行转换 for i in cmap_list: for j in dict_e_a: if j == cmap_list[i]: cmap_list[i] = dict_e_a[j] print('转换为阿拉伯数字的映射表为:',cmap_list) # 去掉加密的月票数据列表中的符号 new_mon_list = [] for i in mon_list: list_ = re.findall(r'\d+',i) new_mon_list.append(list_) print('去掉符号之后的月票数据列表为:',new_mon_list) # 最终解析月票数据 for i in new_mon_list: for j in enumerate(i): for k in cmap_list: if j[1] == str(k): i[j[0]] = cmap_list[k] print('解析之后的月票数据为:',new_mon_list) # 将月票数据进行拼接 new_list = [] for i in new_mon_list: j = ''.join(i) new_list.append(j) print('解析出的明文数据为:',new_list) # 将名称和对应的月票数据放进字典,并转换成json格式及进行保存 for i in range(len(title_list)): dict_ = {} dict_[title_list[i]] = new_list[i] # 将字典转换成json格式 json_data = json.dumps(dict_,ensure_ascii=False)+',\n' # 将数据保存到本地 with open('翻页起小点月票榜数据爬取.json','a',encoding='utf-8')as f: f.write(json_data)
爬取了两页的数据,每一页包含20个数据
执行结果如下:
到此这篇关于python爬虫破解字体加密案例详解的文章就介绍到这了,更多相关python爬虫破解字体加密内容请搜索猪先飞以前的文章或继续浏览下面的相关文章希望大家以后多多支持猪先飞!
相关文章
- 这篇文章主要介绍了python-opencv-画外接矩形框的实例代码,代码简单易懂,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-09-04
Python astype(np.float)函数使用方法解析
这篇文章主要介绍了Python astype(np.float)函数使用方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下...2020-06-08- 2022虎年新年即将来临,小编为大家带来了一个利用Python编写的虎年烟花特效,堪称全网最绚烂,文中的示例代码简洁易懂,感兴趣的同学可以动手试一试...2022-02-14
- 在本篇文章里小编给大家分享的是一篇关于python中numpy.empty()函数实例讲解内容,对此有兴趣的朋友们可以学习下。...2021-02-06
- 有时为了网站安全和版权问题,会对自己写的php源码进行加密,在php加密技术上最常用的是zend公司的zend guard 加密软件,现在我们来图文讲解一下。 下面就简单说说如何...2016-11-25
python-for x in range的用法(注意要点、细节)
这篇文章主要介绍了python-for x in range的用法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-05-10- 这篇文章主要介绍了Python 图片转数组,二进制互转操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-09
- 这篇文章主要介绍了Python中的imread()函数用法说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-16
- 这篇文章主要介绍了python如何实现b站直播自动发送弹幕,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下...2021-02-20
python Matplotlib基础--如何添加文本和标注
这篇文章主要介绍了python Matplotlib基础--如何添加文本和标注,帮助大家更好的利用Matplotlib绘制图表,感兴趣的朋友可以了解下...2021-01-26- 这篇文章主要介绍了解决python 使用openpyxl读写大文件的坑,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-13
- 今天小编就为大家分享一篇python 计算方位角实例(根据两点的坐标计算),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-04-27
- 这篇文章主要为大家详细介绍了python实现双色球随机选号,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...2020-05-02
- 在本篇文章里小编给大家整理的是一篇关于python中使用np.delete()的实例方法,对此有兴趣的朋友们可以学习参考下。...2021-02-01
- 这篇文章主要介绍了使用Python的pencolor函数实现渐变色功能,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-03-09
- 这篇文章主要介绍了python自动化办公操作PPT的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2021-02-05
Python getsizeof()和getsize()区分详解
这篇文章主要介绍了Python getsizeof()和getsize()区分详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2020-11-20- 这篇文章主要介绍了PyTorch一小时掌握之迁移学习篇,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-09-08
- 这篇文章主要为大家详细介绍了python实现学生通讯录管理系统,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...2021-02-25
- 这篇文章主要介绍了vue接口请求加密实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-08-12