python 开心网和豆瓣日记爬取的小爬虫
更新时间:2021年5月29日 00:00 点击:2184
项目地址:
https://github.com/aturret/python-crawler-exercise
用到了BeautifulSoup4,请先安装。
pip install beautifulsoup4
开心网日记爬取
kaixin001.py
使用
登录开心网,浏览器F12看http请求的header,获取自己的cookie。
填写cookie,要爬的日记的url,要爬的总次数。走你。
之后会生成HTML文件,格式是<:title>-<YYYYMMDDHHMMSS>
代码
# -*- coding: utf-8 -*- from urllib.request import urlopen import urllib.request import urllib.parse #为了获取HTTP response from bs4 import BeautifulSoup #BS4 import string # 为了去掉空白字符 import time # 防止被杀cookie import unicodedata # 字符修正 # 在这里放第一个链接 urlx = '链接' #写你想爬的文 def request(url): global urlx #引用外面的链接作为全局变量,后面还会取下一个进行循环的 # 使用urllib库提交cookie获取http响应 headers = { 'GET https':url, 'Host':' www.kaixin001.com', 'Connection':' keep-alive', 'Upgrade-Insecure-Requests':' 1', 'User-Agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36', 'Accept':' application/json, text/javascript, */*; q=0.01', 'Accept-Language':' zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7', 'Cookie':' ', #改成自己的cookie,自己浏览器打开网站F12调试,自己找http请求的header } request = urllib.request.Request(url=url,headers=headers) response = urllib.request.urlopen(request) contents = response.read() # 使用BS4获得所有HTMLtag bsObj = BeautifulSoup(contents,"html.parser") # 使用BS4的find函数得到想要的东西:标题、发表时间和博客正文 title = bsObj.find("b", attrs={"class":"f14"}) titleT = bsObj.find("b", attrs={"class":"f14"}).get_text() #开心网日记的标题是一个b标签,class属性值是f14 date = bsObj.find("span", attrs={"class":"c6"}) dateT = bsObj.find("span", attrs={"class":"c6"}).get_text() #开心网日记的发表时间是一个span标签,class属性值是c6 text = bsObj.find("div", attrs={"class":"textCont"}) textT = bsObj.find("div", attrs={"class":"textCont"}).get_text() #开心网日记的正文是一个div标签,class属性值是textCont # 测试输出 print(title) print(dateT) # print(text) # 生成HTML文件。这里直接用file.open()和file.write()了,也可以用jinja2之类的框架生成。 remove = string.whitespace+string.punctuation table = str.maketrans(':',':',remove) fileTitle=str(titleT).replace(':',':').replace('''"''','''“''')+'-'+str(dateT).translate(table).replace('发表','')+'.html' print(fileTitle) #测试输出 f = open(fileTitle,'w',encoding="utf-8") #注意用utf-8编码写入,不然会因为一些旧博文采用的gbk编码不兼容而出问题。 # 写入message message = """ <html> <head></head> <body> <h1>%s</h1> <b>%s</b> <br></br> %s </body> </html>"""%(title.get_text(),date.get_text(),unicodedata.normalize('NFD',text.prettify())) f.write(message) f.close() # webbrowser.open(fileTitle,new = 1) # 定位下一篇博文的URL nextUrl=bsObj.find("a",text="下一篇 >").attrs["href"] #下一篇是一个a标签,使用tag对象的attrs属性取href属性的值。开心网的日记系统里,如果到了最后一篇日记,下一篇的链接内容是第一篇日记,所以不用担心从哪篇日记开始爬。 # print(nextUrl) urlx="http://www.kaixin001.com"+nextUrl print(urlx) # 主循环,给爷爬 num=328 #设定要爬多少次。其实也可以写个数组检测重复然后中止的啦,但我懒得弄了。 for a in range(num): request(urlx) print('We get '+str(a+1)+' in '+str(num)) time.sleep(1) # 慢点,慢点。测试过程中出现了没有设置限制爬一半cookie失效了的情况,可能是太快了被搞了。
豆瓣日记爬取
douban.py
使用
登录豆瓣,浏览器F12看http请求的header,获取自己的cookie。
填写变量COOKIE,要爬的日记页的url。走你。
之后会生成HTML文件,格式是<:title>-<YYYYMMDDHHMMSS>
代码
# -*- coding: utf-8 -*- from urllib.request import urlopen import urllib.request import urllib.parse #为了获取HTTP response from bs4 import BeautifulSoup #BS4 import string # 为了去掉空白字符 import unicodedata # 字符修正 import re # 在这里放链接 url = '' #写你想爬的人 https://www.douban.com/people/xxx/notes 这样 COOKIE = '' def request(urlx): global url #引用外面的链接作为全局变量,后面还会取下一个进行循环的 global boolean global COOKIE # 使用urllib库提交cookie获取http响应 headers = { 'GET https':urlx, 'Host':' www.douban.com', 'Connection':' keep-alive', 'Upgrade-Insecure-Requests':' 1', 'User-Agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36', 'Accept':' application/json, text/javascript, */*; q=0.01', 'Accept-Language':' zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7', 'Cookie':COOKIE, #改成自己的cookie,自己浏览器打开网站F12调试,自己找http请求的header } request = urllib.request.Request(url=urlx,headers=headers) response = urllib.request.urlopen(request) contents = response.read() # 使用BS4获得所有HTMLtag bsObj = BeautifulSoup(contents,"html.parser") # 使用BS4的find函数获取当前页面的所有日记链接 article = bsObj.find("div", attrs={"class":"article"}) titleSet = article.findAll("h3") # print(titleSet) for title in titleSet: titleText = title.findAll("a",attrs={"class":"j a_unfolder_n"}) for link in titleText: noteUrl = str(link.attrs["href"]) print(noteUrl) requestSinglePage(noteUrl) next = bsObj.find("a",text="后页>") if next==None: print("结束了") boolean=1 else: url = str(next.attrs["href"]).replace("&type=note","") print(url) def requestSinglePage(urly): global COOKIE headers = { 'GET https':urly, 'Host':' www.douban.com', 'Connection':' keep-alive', 'Upgrade-Insecure-Requests':' 1', 'User-Agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36', 'Accept':' application/json, text/javascript, */*; q=0.01', 'Accept-Language':' zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7', 'Cookie':COOKIE, #改成自己的cookie,自己浏览器打开网站F12调试,自己找http请求的header } request = urllib.request.Request(url=urly,headers=headers) response = urllib.request.urlopen(request) contents = response.read() # 使用BS4获得所有HTMLtag bsObj = BeautifulSoup(contents,"html.parser") # 使用BS4的find函数得到想要的东西:标题、发表时间和博客正文 title = bsObj.find("h1").get_text() date = bsObj.find("span", attrs={"class":"pub-date"}) dateT = bsObj.find("span", attrs={"class":"pub-date"}).get_text() text = bsObj.find("div", attrs={"id":"link-report"}) # textT = bsObj.find("div", attrs={"class":"textCont"}).get_text() # 测试输出 print(title) print(dateT) # 生成HTML文件。这里直接用file.open()和file.write()了,也可以用jinja2之类的框架生成。 remove = string.whitespace+string.punctuation # 去掉日期的标点符号 table = str.maketrans(':',':',remove) fileTitle=str(title)+'-'+str(dateT).translate(table)+'.html' print(fileTitle) #测试输出 f = open(fileTitle,'w',encoding="utf-8") #注意用utf-8编码写入,不然会因为一些旧博文采用的gbk编码不兼容而出问题。 # 写入message message = """ <html> <head></head> <body> <h1>%s</h1> <b>%s</b> <br></br> %s </body> </html>"""%(title,dateT,unicodedata.normalize('NFD',text.prettify())) f.write(message) f.close() # 主循环,给爷爬 boolean=0 while(boolean==0): a=1 request(url) print('We finished page '+str(a)+' .') a+=1
Roadmap
豆瓣四月份时候还有bug,手机端可以看到全部日记,半年隐藏无效。最近修好了。
不过现在的隐藏依然没有针对到具体的日记,或许可以想办法通过其他手段爬下来。
以上就是python 开心网日记爬取的示例步骤的详细内容,更多关于python 开心网日记爬取的资料请关注猪先飞其它相关文章!
相关文章
- 这篇文章主要介绍了python-opencv-画外接矩形框的实例代码,代码简单易懂,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-09-04
Python astype(np.float)函数使用方法解析
这篇文章主要介绍了Python astype(np.float)函数使用方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下...2020-06-08- 2022虎年新年即将来临,小编为大家带来了一个利用Python编写的虎年烟花特效,堪称全网最绚烂,文中的示例代码简洁易懂,感兴趣的同学可以动手试一试...2022-02-14
- 在本篇文章里小编给大家分享的是一篇关于python中numpy.empty()函数实例讲解内容,对此有兴趣的朋友们可以学习下。...2021-02-06
python-for x in range的用法(注意要点、细节)
这篇文章主要介绍了python-for x in range的用法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-05-10- 这篇文章主要介绍了Python 图片转数组,二进制互转操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-09
- 这篇文章主要介绍了Python中的imread()函数用法说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-16
- 这篇文章主要介绍了python如何实现b站直播自动发送弹幕,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下...2021-02-20
python Matplotlib基础--如何添加文本和标注
这篇文章主要介绍了python Matplotlib基础--如何添加文本和标注,帮助大家更好的利用Matplotlib绘制图表,感兴趣的朋友可以了解下...2021-01-26- 这篇文章主要介绍了解决python 使用openpyxl读写大文件的坑,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-13
- 今天小编就为大家分享一篇python 计算方位角实例(根据两点的坐标计算),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-04-27
- 这篇文章主要为大家详细介绍了python实现双色球随机选号,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...2020-05-02
- 在本篇文章里小编给大家整理的是一篇关于python中使用np.delete()的实例方法,对此有兴趣的朋友们可以学习参考下。...2021-02-01
- 这篇文章主要介绍了使用Python的pencolor函数实现渐变色功能,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-03-09
- 这篇文章主要介绍了python自动化办公操作PPT的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2021-02-05
Python getsizeof()和getsize()区分详解
这篇文章主要介绍了Python getsizeof()和getsize()区分详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2020-11-20- 这篇文章主要介绍了解决python 两个时间戳相减出现结果错误的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-12
- 这篇文章主要为大家详细介绍了python实现学生通讯录管理系统,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...2021-02-25
- 这篇文章主要介绍了PyTorch一小时掌握之迁移学习篇,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-09-08
- 这篇文章主要介绍了Python绘制的爱心树与表白代码,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-04-06