找回密码
 立即注册
搜索
热搜: Excel discuz
查看: 1864|回复: 2

爬取一页内容的多列数据

[复制链接]

492

主题

7万

元宝

77万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
770449
发表于 2021-5-22 12:19:49 | 显示全部楼层 |阅读模式
  1. import requests
  2. from pyquery import PyQuery as pq
  3. from openpyxl import Workbook
  4. wb = Workbook()
  5. sheet = wb.active
  6. sheet['a1'] = '标题'
  7. sheet['b1'] = '作者'
  8. url ='http://suixian666.com/forum.php?mod=forumdisplay&fid=54'
  9. spon = requests.get(url=url).text

  10. d = pq(spon)

  11. for item in d('#threadlisttableid tbody'):
  12.     sub_b = pq(item)
  13.     print(sub_b('.xst').text(),end=' ')
  14.     print(sub_b('.by a').text().split(' ')[0])
  15.     sheet.append([sub_b('.xst').text(),sub_b('.by a').text().split(' ')[0]])

  16. wb.save('mine.xlsx')
复制代码


回复

使用道具 举报

492

主题

7万

元宝

77万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
770449
 楼主| 发表于 2021-5-22 16:11:57 | 显示全部楼层
2021-05-22_160825.png
回复

使用道具 举报

492

主题

7万

元宝

77万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
770449
 楼主| 发表于 2021-5-22 16:47:27 | 显示全部楼层
发现个怪事,我抄代码的时候,把pq换成其他内容,也可以正常访问抓取
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|五花八门论坛 ( 豫ICP备15031300号-3 )

GMT+8, 2024-12-21 23:47 , Processed in 0.069134 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表