设为首页收藏本站

切换到宽版

五花八门论坛首页BBS

»五花八门论坛首页 › Python › Python学习 › 爬取电影论坛前十页分析存储电影类型到Excel ...

发新帖

查看: 5740|回复: 0

爬取电影论坛前十页分析存储电影类型到Excel

504 主题	7万元宝	80万积分

Rank: 9 Rank: 9 Rank: 9

积分: 802318

发表于 2021-5-21 15:36:55 | 显示全部楼层 |阅读模式

import requests
from pyquery import PyQuery
from openpyxl import Workbook
wb = Workbook() #创建一个Excel文件
sheet = wb.active
sheet['a1'] = '类型'
sheet['b1']= '个数'
move = [] #存储电影全称
cla = [] #存储电影类型
tem = 'https://club.coovm.com/forum-53-{pn}.html'
for page in range(1,11):
url = tem.format(pn=page)
spon = requests.get(url=url)
#print(spon.text) #获得HTML网页数据
#print(spon.content) #获得返回的数据（二进制）
doc = PyQuery(spon.text)
for item in doc.items('#threadlisttableid .xst'):
move.append([item.text()])
cla.append(item.text().split('】')[0]+'】')
cls = []
wordset = list(set(cla))
for word in wordset:
freq = cla.count(word)
cls.append([word,freq])
sheet.append([word,freq])
wb.save('电影类型1.xlsx')

复制代码

代码还能精简，整了几个小时有点头蒙，以后有机会再弄

回复

使用道具举报

发新帖

Archiver|手机版|小黑屋|五花八门论坛 ( 豫ICP备15031300号-3 )

GMT+8, 2026-4-1 01:57 , Processed in 0.051991 second(s), 18 queries .

本站已稳定运营：

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表