请选择 进入手机版 | 继续访问电脑版

 找回密码
 立即注册
搜索
热搜: Excel discuz
查看: 178|回复: 0

[项目代码] 爬取彼岸网站壁纸

[复制链接]

333

主题

5万

元宝

51万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
519487
发表于 2021-8-21 12:11:06 | 显示全部楼层 |阅读模式
  1. import requests
  2. from lxml import etree
  3. import time
  4. start_time = time.time()
  5. UA = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
  6. for ye in range(1,10):      #定义网址和爬取页数
  7.     if ye == 1 :
  8.         url = 'http://www.netbian.com/meinv'
  9.     else:
  10.         url = f'http://www.netbian.com/meinv/index_{ye}.htm'
  11.     #print(url)
  12.     respon = requests.get(url=url,headers=UA).text
  13.     jiexi = etree.HTML(respon)
  14.     picurl = jiexi.xpath('//*[@id="main"]/div[3]/ul/li/a/@href')
  15.     picurl = ['http://www.netbian.com'+picurl for picurl in picurl]
  16.     #print(picurl)
  17.     for i in picurl:
  18.         #print(i)
  19.         respon = requests.get(url=i, headers=UA).text
  20.         jiexi = etree.HTML(respon)
  21.         lasturl = jiexi.xpath('//*[@id="main"]/div[3]/div/p/a/img/@src')
  22.         for j in lasturl:
  23.             respon =requests.get(url=j).content
  24.             picname = j.split('/')[-1]
  25.             pinadd = 'c:/cl/a/'+picname
  26.             with open(pinadd,'wb') as a:
  27.                 a.write(respon)
  28.                 print(picname,'下载完成。')
  29. end_time = time.time()
  30. shijian = end_time - start_time
  31. print(f'一共用时{shijian}秒')
复制代码



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|五花八门论坛 ( 豫ICP备15031300号 )

GMT+8, 2021-9-17 12:47 , Processed in 0.138446 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表