python爬虫智能翻页批量下载文件的实例详解

更新时间：2021年2月4日 10:00 点击：2196

python爬虫遇到爬取文件内容时，需要一页页的翻页爬取，这样很是麻烦，其实可以获取每个列表信息下的文件名和文件链接，让文件名和文件链接处理为列表，保存后下载，实现智能翻页批量下载文件，本文以以京客隆为例，批量下载文件，如财务资料，他的每一份报告都是一份pdf格式的文档。以此页面为目标，下载他每个分类的文件python爬虫实战之智能翻页批量下载文件。

1、引入库

import requests
import pandas as pd
from lxml import etree
import re
import os

2、解析初始页面

baseUrl ='http://www.jkl.com.cn/cn/invest.aspx' # 爬取页面的数据
heade ={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/81.0.4044.92 Safari/537.36'
}
res =requests.get(url=baseUrl,headers=heade).text  
# print(res.text)
html = etree.HTML(res)
res =requests.get(url=baseUrl,headers=heade).text  #  设置变量接受 基础页的响应数据
# print(res.text)
html = etree.HTML(res)

3、获得投资关系的分类名称和url地址

data_name = html.xpath('//div[@class="infoLis"]//a/text()') # 投资者列表的名字
data_link = html.xpath('//div[@class="infoLis"]//@href')  # 全部列表的链接
name = [data_name.strip() for data_name in data_name]  # 通过for循环去掉空字符
link = ['http://www.jkl.com.cn/cn/'+ data_link for data_link in data_link] # 拼接字符串
# 合并为字典，方便保存文件
file = dict(zip(name,link))

4、每个列表信息，保存一个文件夹

for name,link in file.items():
  name=name.replace('/','.')
  name=name.replace('...','报表')
  # 上面的把文件名带特许字符的 强制转换为我们想要的文本类型
  path = 'E:/'+ name
  if not os.path.exists(path):
    os.mkdir(path)
    #建立储存位置

5、对列表的每个项目链接进行解析，拿到尾页

  res_list = requests.get(url = link, headers = heade).text
  list_html = etree.HTML(res_list)
  # print(html_erJi) 解析每个分类的链接
  weiYe = list_html.xpath('//a[text()="尾页"]/@href')
  # print(html_weiye)
  # 拿到尾页信息
  if weiYe !=[]:
    # 正则提取尾页信息
    get_weiYe =re.search("(\d+)'\)",html_weiye[0])
    get_yeMa = get_html_weiYe.group(1)
  else:
    get_yeMa=1
  # print(get_html_yeMa) 看看是不是提取成功

6、获取每个列表信息下的文件名和文件链接

  for get_yeMa in range(1,int(get_yeMa)+1): # 翻页
    yaMa= {
    '__EVENTTARGET': 'AspNetPager1',
    '__EVENTARGUMENT': get_yeMa
    }
    get_lei_html = requests.get(url = link, headers = heade, params = yaMa).text
    res3 =etree.HTML(get_lei_html)
    # print(res3)
    pdf_name = res3.xpath('//div[@class="newsLis"]//li/a/text()')
    # print(pdf_name)
    pdf_url = res3.xpath('//div[@class="newsLis"]//li//@href')

7、让文件名和文件链接处理为列表，保存后下载

 pdf_names = [pdf_name.strip() for pdf_name in pdf_name]
 # print(pdf_names)
 if all(pdf_url):
      pdf_urls = ['http://www.jkl.com.cn'+pdf_url for pdf_url in pdf_url]
      # print(pdf_url)
      pdf_data=dict(zip(pdf_names,pdf_urls))  # pdf地址和名字整合为字典
      for pdfName,pdfUrl in pdf_data.items():
        pdfName =pdfName.replace('/','.')
        res_pdf= requests.get(url =pdfUrl,headers=heade).content
        houZui = pdfUrl.split('.')[-1]
        pdf_pash = path + '/' + pdfName + '.'+ houZui  # 
        # print(pdf_pash)
        with open(pdf_pash,'wb') as f:
          f.write(res_pdf)
          print(pdfName,'下载成功')

到此这篇关于python爬虫智能翻页批量下载文件的实例详解的文章就介绍到这了,更多相关python爬虫实战之智能翻页批量下载文件内容请搜索猪先飞以前的文章或继续浏览下面的相关文章希望大家以后多多支持猪先飞！

[!--infotagslink--]

上一篇: python中子类与父类的关系基础知识点

下一篇: python time.strptime格式化实例详解

python爬虫用request库处理cookie的实例讲解
在本篇内容里小编给大家整理的是一篇关于python爬虫用request库处理cookie的实例讲解内容，有需要的朋友们可以学习参考下。...2021-02-21
C#开发windows服务实现自动从FTP服务器下载文件
这篇文章主要为大家详细介绍了C#开发windows服务实现自动从FTP服务器下载文件，具有一定的参考价值，感兴趣的小伙伴们可以参考一下...2020-06-25
Python 给下载文件显示进度条和下载时间的实现
这篇文章主要介绍了Python 给下载文件显示进度条和下载时间的代码，本文通过实例代码截图相结合给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2020-05-10
使用 C# 下载文件的多种方法小结
本文从最简单的下载方式开始步步递进，讲述了文件下载过程中的常见问题并给出了解决方案。并展示了如何使用多线程提升 HTTP 的下载速度以及调用 aria2 实现非 HTTP 协议的文件下载，对C# 下载文件相关知识感兴趣的朋友一起看看吧...2021-08-22
python爬虫智能翻页批量下载文件的实例详解
在本篇文章里小编给大家整理的是一篇关于python爬虫智能翻页批量下载文件的实例详解内容，有兴趣的朋友们可以学习下。...2021-02-04
ASP.NET实现从服务器下载文件问题处理
本文主要介绍了ASP.NET实现从服务器下载文件问题处理，具有很好的参考价值，下面跟着小编一起来看下吧...2021-09-22
RestTemplate发送get和post请求,下载文件的实例
这篇文章主要介绍了RestTemplate发送get和post请求,下载文件的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2020-09-29
WEB在模态窗体里导出或下载文件功能代码
实现在模态窗体里导出或下载文件，具体功能代码如下，感兴趣的朋友可以参考下哈...2021-09-22
python实现从ftp上下载文件的实例方法
在本篇文章里小编给大家整理了关于python实现从ftp上下载文件的实例方法，需要的朋友们可以参考下。...2020-07-19
Python爬虫UA伪装爬取的实例讲解
在本篇文章里小编给大家整理的是一篇关于Python爬虫UA伪装爬取的实例讲解内容，有需要的朋友们可以学习参考下。...2021-02-20
python爬取2021猫眼票房字体加密实例
在本篇文章里小编给大家整理的是一篇关于python爬取2021猫眼票房字体加密实例内容，有兴趣的朋友们可以学习下。...2021-02-20
.net中下载文件的实例代码
.net中下载文件的实例代码，需要的朋友可以参考一下...2021-09-22
C#下载文件(TransmitFile/WriteFile/流方式)实例介绍
C#下载文件想必很多业内人士都不会陌生吧,C#下载文件方法很多，本文整理了一些，可供大家参考，感兴趣的你可以研究下，或许本文所提供的知识点对你有所帮助...2021-09-22
asp.net BackgroundWorker之在后台下载文件
下载文件是常见任务，通常情况下，最好以单独的线程来运行这项可能很耗时的操作。使用 BackgroundWorker 组件可以用非常少的代码完成此任务...2021-09-22
python爬虫实现爬取同一个网站的多页数据的实例讲解
在本篇文章里小编给大家整理了一篇关于python爬虫实现爬取同一个网站的多页数据的实例内容，有兴趣的朋友们可以学习参考下。...2021-01-18
Nginx配置实现下载文件的示例代码
这篇文章主要介绍了Nginx配置实现下载文件的示例代码，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧...2021-09-22
Python HTTP下载文件并显示下载进度条功能的实现
这篇文章主要介绍了Python HTTP下载文件并显示下载进度条功能，本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2020-05-10
C#异步下载文件
这篇文章主要介绍了C#异步下载文件的相关资料,需要的朋友可以参考下...2020-06-25
在ASP.NET中下载文件的实现代码
通过ASP.NET来下载文件，这个问题可大可小，我们先从小的开始。当我们要让用户下载一个文件...2021-09-22
python爬取微博评论的实例讲解
在本篇文章里小编给大家整理的是一篇关于python爬取微博评论的实例讲解，有兴趣的朋友们可以学习下。...2021-01-16

python爬虫智能翻页批量下载文件的实例详解

相关文章

阁下可能感兴趣的内容

推荐阅读