pandas中DataFrame数据合并连接（merge、join、concat)

更新时间：2021年5月30日 22:19 点击：2237

pandas作者Wes McKinney 在【PYTHON FOR DATA ANALYSIS】中对pandas的方方面面都有了一个权威简明的入门级的介绍，但在实际使用过程中，我发现书中的内容还只是冰山一角。谈到pandas数据的行更新、表合并等操作，一般用到的方法有concat、join、merge。但这三种方法对于很多新手来说，都不太好分清使用的场合与用途。今天就pandas官网中关于数据合并和重述的章节做个使用方法的总结。

文中代码块主要有pandas官网教程提供。

1 concat

concat函数是在pandas底下的方法，可以将数据根据不同的轴作简单的融合

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
       keys=None, levels=None, names=None, verify_integrity=False)

参数说明

objs: series，dataframe或者是panel构成的序列lsit

axis：需要合并链接的轴，0是行，1是列

join：连接的方式 inner，或者outer

其他一些参数不常用，用的时候再补上说明。

1.1 相同字段的表首尾相接

这里写图片描述

# 现将表构成list，然后在作为concat的输入
In [4]: frames = [df1, df2, df3]
 
In [5]: result = pd.concat(frames)

要在相接的时候在加上一个层次的key来识别数据源自于哪张表，可以增加key参数

In [6]: result = pd.concat(frames, keys=['x', 'y', 'z'])

效果如下

这里写图片描述

1.2 横向表拼接（行对齐）

1.2.1 axis

当axis = 1的时候，concat就是行对齐，然后将不同列名称的两张表合并

In [9]: result = pd.concat([df1, df4], axis=1)

这里写图片描述

1.2.2 join

加上join参数的属性，如果为'inner'得到的是两表的交集，如果是outer，得到的是两表的并集。

In [10]: result = pd.concat([df1, df4], axis=1, join='inner')

这里写图片描述

1.2.3 join_axes

如果有join_axes的参数传入，可以指定根据那个轴来对齐数据

例如根据df1表对齐数据，就会保留指定的df1表的轴，然后将df4的表与之拼接

In [11]: result = pd.concat([df1, df4], axis=1, join_axes=[df1.index])

这里写图片描述 1.3

1.3 append

append是series和dataframe的方法，使用它就是默认沿着列进行凭借（axis = 0，列对齐）

In [12]: result = df1.append(df2)

这里写图片描述

1.4 无视index的concat

如果两个表的index都没有实际含义，使用ignore_index参数，置true，合并的两个表就睡根据列字段对齐，然后合并。最后再重新整理一个新的index。

这里写图片描述

1.5 合并的同时增加区分数据组的键

前面提到的keys参数可以用来给合并后的表增加key来区分不同的表数据来源

1.5.1 可以直接用key参数实现

In [27]: result = pd.concat(frames, keys=['x', 'y', 'z'])

这里写图片描述

1.5.2 传入字典来增加分组键

In [28]: pieces = {'x': df1, 'y': df2, 'z': df3}
 
In [29]: result = pd.concat(pieces)

这里写图片描述

1.6 在dataframe中加入新的行

append方法可以将 series 和字典就够的数据作为dataframe的新一行插入。

这里写图片描述

In [34]: s2 = pd.Series(['X0', 'X1', 'X2', 'X3'], index=['A', 'B', 'C', 'D'])
 
In [35]: result = df1.append(s2, ignore_index=True)

表格列字段不同的表合并

如果遇到两张表的列字段本来就不一样，但又想将两个表合并，其中无效的值用nan来表示。那么可以使用ignore_index来实现。

这里写图片描述

In [36]: dicts = [{'A': 1, 'B': 2, 'C': 3, 'X': 4},
   ....:          {'A': 5, 'B': 6, 'C': 7, 'Y': 8}]
   ....: 
 
In [37]: result = df1.append(dicts, ignore_index=True)

在这里，将接着介绍pandas中也常常用到的join 和merge方法

merge

pandas的merge方法提供了一种类似于SQL的内存链接操作，官网文档提到它的性能会比其他开源语言的数据操作（例如R）要高效。

和SQL语句的对比可以看这里

merge的参数

on：列名，join用来对齐的那一列的名字，用到这个参数的时候一定要保证左表和右表用来对齐的那一列都有相同的列名。

left_on：左表对齐的列，可以是列名，也可以是和dataframe同样长度的arrays。

right_on：右表对齐的列，可以是列名，也可以是和dataframe同样长度的arrays。

left_index/ right_index: 如果是True的haunted以index作为对齐的key

how：数据融合的方法。

sort：根据dataframe合并的keys按字典顺序排序，默认是，如果置false可以提高表现。

merge的默认合并方法：

merge用于表内部基于 index-on-index 和 index-on-column(s) 的合并，但默认是基于index来合并。

1.1 复合key的合并方法

使用merge的时候可以选择多个key作为复合可以来对齐合并。

1.1.1 通过on指定数据合并对齐的列

In [41]: left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
   ....:                      'key2': ['K0', 'K1', 'K0', 'K1'],
   ....:                      'A': ['A0', 'A1', 'A2', 'A3'],
   ....:                      'B': ['B0', 'B1', 'B2', 'B3']})
   ....: 
 
In [42]: right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
   ....:                       'key2': ['K0', 'K0', 'K0', 'K0'],
   ....:                       'C': ['C0', 'C1', 'C2', 'C3'],
   ....:                       'D': ['D0', 'D1', 'D2', 'D3']})
   ....: 
 
In [43]: result = pd.merge(left, right, on=['key1', 'key2'])

这里写图片描述

没有指定how的话默认使用inner方法。

how的方法有：

left

只保留左表的所有数据

In [44]: result = pd.merge(left, right, how='left', on=['key1', 'key2'])

这里写图片描述

right

只保留右表的所有数据

In [45]: result = pd.merge(left, right, how='right', on=['key1', 'key2'])

这里写图片描述

outer

保留两个表的所有信息

In [46]: result = pd.merge(left, right, how='outer', on=['key1', 'key2'])

这里写图片描述

inner

只保留两个表中公共部分的信息

In [47]: result = pd.merge(left, right, how='inner', on=['key1', 'key2'])

这里写图片描述

1.2 indicator

v0.17.0 版本的pandas开始还支持一个indicator的参数，如果置True的时候，输出结果会增加一列 ' _merge'。_merge列可以取三个值

left_only 只在左表中
right_only 只在右表中
both 两个表中都有

1.3 join方法

dataframe内置的join方法是一种快速合并的方法。它默认以index作为对齐的列。

1.3.1 how 参数

join中的how参数和merge中的how参数一样，用来指定表合并保留数据的规则。

具体可见前面的 how 说明。

1.3.2 on 参数

在实际应用中如果右表的索引值正是左表的某一列的值，这时可以通过将右表的索引和左表的列对齐合并这样灵活的方式进行合并。

ex 1

In [59]: left = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
   ....:                      'B': ['B0', 'B1', 'B2', 'B3'],
   ....:                      'key': ['K0', 'K1', 'K0', 'K1']})
   ....: 
 
In [60]: right = pd.DataFrame({'C': ['C0', 'C1'],
   ....:                       'D': ['D0', 'D1']},
   ....:                       index=['K0', 'K1'])
   ....: 
 
In [61]: result = left.join(right, on='key')

这里写图片描述

1.3.3 suffix后缀参数

如果和表合并的过程中遇到有一列两个表都同名，但是值不同，合并的时候又都想保留下来，就可以用suffixes给每个表的重复列名增加后缀。

In [79]: result = pd.merge(left, right, on='k', suffixes=['_l', '_r'])

这里写图片描述

*　另外还有lsuffix 和 rsuffix分别指定左表的后缀和右表的后缀。

1.4 组合多个dataframe

一次组合多个dataframe的时候可以传入元素为dataframe的列表或者tuple。一次join多个，一次解决多次烦恼~

In [83]: right2 = pd.DataFrame({'v': [7, 8, 9]}, index=['K1', 'K1', 'K2'])
 
In [84]: result = left.join([right, right2])

这里写图片描述

1.5 更新表的nan值

1.5.1 combine_first

如果一个表的nan值，在另一个表相同位置（相同索引和相同列）可以找到，则可以通过combine_first来更新数据

1.5.2 update

如果要用一张表中的数据来更新另一张表的数据则可以用update来实现

1.5.3 combine_first 和 update 的区别

使用combine_first会只更新左表的nan值。而update则会更新左表的所有能在右表中找到的值（两表位置相对应）。

总结

到此这篇关于pandas中DataFrame 数据合并连接（merge、join、concat)的文章就介绍到这了,更多相关pandas中DataFrame 数据合并内容请搜索猪先飞以前的文章或继续浏览下面的相关文章希望大家以后多多支持猪先飞！

[!--infotagslink--]

上一篇: python关于集合的知识案例详解

下一篇: pandas提升计算效率的一些方法汇总

pandas pd.read_csv()函数中parse_dates()参数的用法说明
这篇文章主要介绍了pandas pd.read_csv()函数中parse_dates()参数的用法说明，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-05
Pandas实现DataFrame按行求百分数(比例数)
今天小编就为大家分享一篇Pandas实现DataFrame按行求百分数(比例数)，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2020-05-09
python使用pandas按照行数分割表格
本文主要介绍了python使用pandas按照行数分割表格，文中通过示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下...2021-08-13
Vue初始化中的选项合并之initInternalComponent详解
这篇文章主要介绍了Vue初始化中的选项合并之initInternalComponent的相关知识，本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2020-06-11
JavaScript数组合并案例讲解
这篇文章主要介绍了JavaScript数组合并案例讲解,本篇文章通过简要的案例,讲解了该项技术的了解与使用,以下就是详细内容,需要的朋友可以参考下...2021-08-16
C#实现合并及拆分PDF文件的方法
这篇文章主要为大家详细介绍了C#合并及拆分PDF文件的方法，具有一定的参考价值，感兴趣的小伙伴们可以参考一下...2020-06-25
解决python3安装pandas出错的问题
这篇文章主要介绍了解决python3安装pandas出错的问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教...2021-05-20
ES2020系列之空值合并运算符 '??'
这篇文章主要介绍了ES2020系列之空值合并运算符 '??'，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧...2020-07-22
C#合并多种格式文件为PDF的方法
这篇文章主要为大家详细介绍了C#合并多种格式文件为PDF的方法，具有一定的参考价值，感兴趣的小伙伴们可以参考一下...2020-06-25
C#实现简单合并word文档的方法
这篇文章主要介绍了C#实现简单合并word文档的方法,涉及C#针对word文档的读取、插入、保存等技巧,非常具有实用价值,需要的朋友可以参考下...2020-06-25
Python数据分析之pandas比较操作
比较操作是很简单的基础知识,不过Pandas中的比较操作有一些特殊的点,本文介绍的非常详细,对正在学习python的小伙伴们很有帮助.需要的朋友可以参考下...2021-05-20
用pandas划分数据集实现训练集和测试集
这篇文章主要介绍了用pandas划分数据集实现训练集和测试集，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧...2020-07-20
pandas 实现将两列中的较大值组成新的一列
这篇文章主要介绍了pandas 实现将两列中的较大值组成新的一列，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-26
pandas 读取excel文件的操作代码
pandas 读取excel文件使用的是 read_excel方法。本文将详细解析read_excel方法的常用参数，以及实际的使用示例，感兴趣的朋友跟随小编一起看看吧...2021-11-01
Python-numpy实现灰度图像的分块和合并方式
今天小编就为大家分享一篇Python-numpy实现灰度图像的分块和合并方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2020-04-27
解决python pandas读取excel中多个不同sheet表格存在的问题
这篇文章主要介绍了解决python pandas读取excel中多个不同sheet表格存在的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2020-07-14
TensorFlow2.0:张量的合并与分割实例
今天小编就为大家分享一篇TensorFlow2.0:张量的合并与分割实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2020-04-22
Pandas使用stack和pivot实现数据透视的方法
笔者最近正在学习Pandas数据分析，将自己的学习笔记做成一套系列文章。本节主要记录Pandas中使用stack和pivot实现数据透视。感兴趣的小伙伴们可以参考一下...2021-09-05
十分钟轻松掌握dataframe数据选择
这篇文章主要介绍了十分钟轻松掌握dataframe数据选择,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧...2021-04-04
Pandas.DataFrame转置的实现 <font color=red>原创</font>
这篇文章主要介绍了Pandas.DataFrame转置的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧...2021-03-09

pandas中DataFrame数据合并连接（merge、join、concat)

1 concat

1.1 相同字段的表首尾相接

1.2 横向表拼接（行对齐）

1.2.1 axis

1.2.2 join

1.2.3 join_axes

1.3 append

1.4 无视index的concat

1.5 合并的同时增加区分数据组的键

1.5.1 可以直接用key参数实现

1.5.2 传入字典来增加分组键

1.6 在dataframe中加入新的行

表格列字段不同的表合并

merge

1.1 复合key的合并方法

1.1.1 通过on指定数据合并对齐的列

1.2 indicator

1.3 join方法

1.3.1 how 参数

1.3.2 on 参数

1.3.3 suffix后缀参数

1.4 组合多个dataframe

1.5 更新表的nan值

1.5.1 combine_first

1.5.2 update

1.5.3 combine_first 和 update 的区别

总结

相关文章

阁下可能感兴趣的内容

推荐阅读