找回密码
 立即注册
搜索
热搜: Excel discuz
查看: 1896|回复: 1

[项目代码] 京东衣服评论爬取

[复制链接]

492

主题

7万

元宝

77万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
770449
发表于 2021-7-27 19:19:01 | 显示全部楼层 |阅读模式
  1. import requests
  2. import pandas as pd
  3. import json
  4. import time
  5. id = input('请输入ID:')
  6. url = f'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId={id}&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1'
  7. UA = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
  8. respon = requests.get( url = url,headers=UA).text
  9. respon = respon.replace('fetchJSON_comment98(','')
  10. respon = respon.replace(');','')
  11. zidian = json.loads(respon)
  12. yeshu = zidian['maxPage']
  13. print(yeshu)
  14. for ye in range(1,yeshu+1):
  15.     url = f'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId={id}&score=0&sortType=5&page={ye-1}&pageSize=10&isShadowSku=0&fold=1'
  16.     respon = requests.get(url=url, headers=UA).text
  17.     respon = respon.replace('fetchJSON_comment98(', '')
  18.     respon = respon.replace(');', '')
  19.     zidian = json.loads(respon)
  20.     pinglun = zidian['comments']
  21.     neirong = [pinglun['content'] for pinglun in pinglun]
  22.     yanse = [pinglun['productColor'] for pinglun in pinglun]
  23.     size = [pinglun['productSize'] for pinglun in pinglun]
  24.     shuju = pd.DataFrame({'评价':neirong,'颜色':yanse,'大小':size})
  25.     shuju.to_csv('d:/j3d.csv',mode='a',header=0,encoding='ANSI')
  26.     time.sleep(3)
复制代码



回复

使用道具 举报

492

主题

7万

元宝

77万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
770449
 楼主| 发表于 2021-7-27 19:21:27 | 显示全部楼层
第14行,控制翻多少页
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|五花八门论坛 ( 豫ICP备15031300号-3 )

GMT+8, 2024-12-22 00:24 , Processed in 0.066507 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表