Python3 实现爬取网站下所有URL方式

更新时间：2020年4月27日 21:20 点击：1903

获取首页元素信息：

目标 test_URL：http://www.xxx.com.cn/

首先检查元素，a 标签下是我们需要爬取得链接，通过获取链接路径，定位出我们需要的信息

soup = Bs4(reaponse.text, "lxml")
urls_li = soup.select("#mainmenu_top > div > div > ul > li")

首页的URL链接获取：

完成首页的URL链接获取，具体代码如下：

'''
遇到不懂的问题？Python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以自行下载！
'''
def get_first_url():
  list_href = []
  reaponse = requests.get("http://www.xxx.com.cn", headers=headers)
  soup = Bs4(reaponse.text, "lxml")
  urls_li = soup.select("#mainmenu_top > div > div > ul > li")
  for url_li in urls_li:
    urls = url_li.select("a")
    for url in urls:
      url_href = url.get("href")
      list_href.append(head_url+url_href)
      out_url = list(set(list_href))
  for reg in out_url:
    print(reg)

遍历第一次返回的结果：

从第二步获取URL的基础上，遍历请求每个页面，获取页面中的URL链接，过滤掉不需要的信息

具体代码如下：

def get_next_url(urllist):
  url_list = []
  for url in urllist:
    response = requests.get(url,headers=headers)
    soup = Bs4(response.text,"lxml")
    urls = soup.find_all("a")
    if urls:
      for url2 in urls:
        url2_1 = url2.get("href")
        if url2_1:
          if url2_1[0] == "/":
            url2_1 = head_url + url2_1
            url_list.append(url2_1)
            if url2_1[0:24] == "http://www.xxx.com.cn":
              url2_1 = url2_1
              url_list.append(url2_1)
            else:
              pass
          else:
            pass
        else:
          pass
    else:
      pass
  url_list2 = set(url_list)
  for url_ in url_list2:
    res = requests.get(url_)
    if res.status_code ==200:
      print(url_)
  print(len(url_list2))

递归循环遍历：

递归实现爬取所有url，在get_next_url()函数中调用自身，代码如下：

get_next_url(url_list2)

全部代码如下：

import requests
from bs4 import BeautifulSoup as Bs4

head_url = "http://www.xxx.com.cn"
headers = {
  "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"
}
def get_first_url():
  list_href = []
  reaponse = requests.get(head_url, headers=headers)
  soup = Bs4(reaponse.text, "lxml")
  urls_li = soup.select("#mainmenu_top > div > div > ul > li")
  for url_li in urls_li:
    urls = url_li.select("a")
    for url in urls:
      url_href = url.get("href")
      list_href.append(head_url+url_href)
      out_url = list(set(list_href))
  return out_url


def get_next_url(urllist):
  url_list = []
  for url in urllist:
    response = requests.get(url,headers=headers)
    soup = Bs4(response.text,"lxml")
    urls = soup.find_all("a")
    if urls:
      for url2 in urls:
        url2_1 = url2.get("href")
        if url2_1:
          if url2_1[0] == "/":
            url2_1 = head_url + url2_1
            url_list.append(url2_1)
            if url2_1[0:24] == "http://www.xxx.com.cn":
              url2_1 = url2_1
              url_list.append(url2_1)
            else:
              pass
          else:
            pass
        else:
          pass
    else:
      pass
  url_list2 = set(url_list)
  for url_ in url_list2:
    res = requests.get(url_)
    if res.status_code ==200:
      print(url_)
  print(len(url_list2))
  get_next_url(url_list2)


if __name__ == "__main__":
  urllist = get_first_url()
  get_next_url(urllist)

以上这篇Python3 实现爬取网站下所有URL方式就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持猪先飞。

[!--infotagslink--]

上一篇: 用python解压分析jar包实例

下一篇: python3爬取torrent种子链接实例

如何获取网站icon有哪些可行的方法
获取网站icon，常用最简单的方法就是通过website/favicon.ico来获取，不过由于很多网站都是在页面里面设置favicon，所以此方法很多情况都不可用。更好的办法是通过google提供的服务来实现：http://www.google.com/s2/favi...2014-06-07
Python3 实现将bytes图片转jpg格式
这篇文章主要介绍了Python3 实现将bytes图片转jpg格式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-08
Python3中小括号()、中括号[]、花括号{}的区别详解
这篇文章主要介绍了Python3中小括号()、中括号[]、花括号{}的区别详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧...2020-11-15
mac下Apache + MySql + PHP搭建网站开发环境
首先为什不自己分别搭建Apache，PHP和MySql的环境呢？这样自己可以了解更多知识，说起来也更酷。可也许因为我懒吧，我是那种“既然有现成的，用就是了”的人。君子生非异也，善假于物也。两千年前的荀子就教导我们，要善于利用工具...2014-06-07
Python3 常用数据标准化方法详解
这篇文章主要介绍了Python3 常用数据标准化方法详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-24
Python爬取微信小程序通用方法代码实例详解
这篇文章主要介绍了Python爬取微信小程序通用方法代码实例详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下...2020-09-29
php实现网站留言板功能
我要实现的就是下图的这种样式，可参考下面这两个网站的留言板，他们的实现原理都是一样的畅言留言板样式：网易跟帖样式：原理需要在评论表添加两个主要字段 id 和 pid ，其他字段随意添加，比如文章id、回复时间、回复内容、...2015-11-08
网站广告怎么投放最好?首屏广告投放类型优化和广告位布局优化的案例
网站广告怎么投放最好?一个网站中广告位置最好的是哪几个地方呢，许多的朋友都不知道如何让自己的网站广告收效最好了，今天我们就一起来看看吧。在说到联盟优化前,...2016-10-10
C# 如何解析获取Url参数值
这篇文章主要介绍了C# 如何解析获取Url参数值,帮助大家更好的理解和使用c#，感兴趣的朋友可以了解下...2020-09-01
使用JavaScript获取URL中的参数(两种方法)
这篇文章主要介绍了使用JavaScript获取URL中的参数(两种方法)的相关资料,非常不错，具有参考借鉴价值，需要的朋友可以参考下...2016-11-22
node.js爬虫爬取拉勾网职位信息
本篇文章主要介绍了node.js爬虫爬取拉勾网职位信息的方法。具有很好的参考价值。下面跟着小编一起来看下吧用node.js写了一个简单的小爬虫，用来爬取拉勾网上的招...2017-07-06
浅谈Python3中print函数的换行
这篇文章主要介绍了浅谈Python3中print函数的换行，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧...2020-08-05
python3 sqlite3限制条件查询的操作
这篇文章主要介绍了python3 sqlite3限制条件查询的操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2021-04-07
解决python3安装pandas出错的问题
这篇文章主要介绍了解决python3安装pandas出错的问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教...2021-05-20
c#动态改变webservice的url访问地址
这篇文章主要介绍了c#动态改变webservice的url访问地址,需要的朋友可以参考下...2020-06-25
PHP如何使用cURL实现Get和Post请求
这篇文章主要介绍了PHP如何使用cURL实现Get和Post请求,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下...2020-07-11
个人站长做网站应该考虑的一些问题
个人网站建设应该考虑哪些问题呢？这个问题我们先在这里不说，下文会一一列出来，希望这些建义能帮助到各位同学哦。我相信VIP成员里面有很多站长，每个人几乎都拥有一个...2016-10-10
node.js如何根据URL返回指定的图片详解
这篇文章主要介绍了NODE.JS如何根据URL返回指定的图片详解，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧...2020-10-21
Python爬虫实战之爬取携程评论
今天带大家爬取携程评论练练手,文中有非常详细的代码示例,对正在学习python的小伙伴们很有帮助,需要的朋友可以参考下...2021-06-02
分享利用论坛签名提升网站权重
分享一篇利用论坛签名提升网站权重的方法，在推广中论坛签名也是一种不错的外链推荐的方法，但现在权重越来越低了，有需要的朋友可以看看。话说有一天在站长网上面看...2016-10-10

Python3 实现爬取网站下所有URL方式

相关文章

阁下可能感兴趣的内容

推荐阅读