找回密码
 立即注册
搜索
热搜: Excel discuz
查看: 1790|回复: 0

[项目代码] 爬京客隆PDF代码

[复制链接]

492

主题

7万

元宝

77万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
770449
发表于 2021-7-22 21:48:37 | 显示全部楼层 |阅读模式

  1. import requests
  2. import os
  3. from lxml import etree
  4. if not os.path.exists('c:/c'):
  5.     os.mkdir('c:/c')
  6. url = 'https://www.jkl.com.cn/cn/invest.aspx'
  7. listpdf = []
  8. listname = []
  9. for page in range(1,4):

  10.     fanye = {'__EVENTTARGET': 'AspNetPager1',
  11.             '__EVENTARGUMENT': page}

  12.     UA = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
  13.     respon = requests.get( url = url,params=fanye,headers=UA).text
  14.     jiexi = etree.HTML(respon)
  15.     pdflist = jiexi.xpath('//div[@class="newsLis"]//li//@href')
  16.     name = jiexi.xpath('//div[@class="newsLis"]//li/a/text()')
  17.     for i in pdflist:

  18.         i = 'https://www.jkl.com.cn' + i
  19.         listpdf.append(i)
  20.         #print(i)
  21.     for j in name:
  22.         j= j.strip()
  23.         listname.append(j)

  24. zidian = dict(zip(listname,listpdf))

  25. for a,b in zidian.items():
  26.     houzhui = b.split('.')[-1]
  27.     pdfshuju = requests.get(url=b,headers=UA).content
  28.     add = 'c:/c/' + a +'.'+houzhui
  29.     with open(add,'wb') as u:
  30.         u.write(pdfshuju)
  31.         print(a,'下载成功')
复制代码



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|五花八门论坛 ( 豫ICP备15031300号-3 )

GMT+8, 2024-12-21 23:46 , Processed in 0.068476 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表