找回密码
 立即注册
搜索
热搜: Excel discuz
查看: 1695|回复: 0

爬取多页多列数据代码

[复制链接]

492

主题

7万

元宝

77万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
770449
发表于 2021-5-22 17:21:55 | 显示全部楼层 |阅读模式
  1. import requests
  2. from pyquery import PyQuery as pq
  3. from openpyxl import Workbook
  4. wb = Workbook()
  5. sheet = wb.active
  6. sheet['a1'] = '标题'
  7. sheet['b1'] = '作者'
  8. url = 'https://club.coovm.com/forum-53-{pn}.html'
  9. headers = {
  10.     "user-agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
  11.     }
  12. for page in range(1, 50):
  13.     lasturl = url.format(pn=page)
  14.     #print(lasturl)
  15.     r = requests.get(url=lasturl, headers=headers).text
  16.     d = pq(r)
  17.     for i in d('#threadlisttableid tbody'):
  18.         sub_d = pq(i)
  19.         print(sub_d('.xst').text(),end=' ')
  20.         print(sub_d('.by').text().split(' ')[0])
  21.         sheet.append([sub_d('.xst').text(),sub_d('.by a').text().split(' ')[0]])
  22. wb.save('mine4.xlsx')
复制代码



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|五花八门论坛 ( 豫ICP备15031300号-3 )

GMT+8, 2024-12-22 01:13 , Processed in 0.065383 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表