博客
关于我
Python数据分析入门(十一):数据合并
阅读量:633 次
发布时间:2019-03-14

本文共 2229 字,大约阅读时间需要 7 分钟。

数据合并(pd.merge)和数据拼接(pd.concat)是数据分析中常用的操作。它们各有特色,适用于不同的场景。以下是对这两个函数的详细说明以及使用示例。

一、数据合并(pd.merge)

1. 工作原理

pd.merge函数用于将两个或多个DataFrame按键值连接起来。这个函数类似于数据库中的JOIN操作。主要参数包括:

  • left、right:指定要合并的两个DataFrame。
  • how:指定合并的方式,默认为'inner',即保留交集。
  • on、left_on、right_on:指定连接的键。如果不指定,函数会自动查找交集的列名。
  • suffixes:指定重复列名时的后缀,避免冲突。默认是'_left'和'_right'。

2. 示例

import pandas as pd
# 创建两个DataFrame
left = pd.DataFrame({
'key1': ['K0', 'K0', 'K1', 'K2'],
'key2': ['K0', 'K1', 'K0', 'K1'],
'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3']
})
right = pd.DataFrame({
'key1': ['K0', 'K1', 'K1', 'K2'],
'key2': ['K0', 'K0', 'K0', 'K0'],
'C': ['C0', 'C1', 'C2', 'C3'],
'D': ['D0', 'D1', 'D2', 'D3']
})
# 默认内连接
result = pd.merge(left, right, on=['key1', 'key2'])
print(result)

3. 合并方式

  • 内连接(默认):保留所有在左右数据框都存在的键的交集。
  • 外连接:保留所有在左右数据框中至少存在一个键的记录。
  • 左外连接:保留左数据框的全部键,右边补充未匹配的记录。
  • 右外连接:保留右数据框的全部键,左边补充未匹配的记录。
# 外连接示例
result = pd.merge(left, right, how='outer', on=['key1', 'key2'])
print(result)

4. 处理重复列名

为了避免列名冲突,可以使用suffixes参数指定后缀。

# 重复列名处理
df_obj1 = pd.DataFrame({
'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
'data': np.random.randint(0, 10, 7)
})
df_obj2 = pd.DataFrame({
'key': ['a', 'b', 'd'],
'data': np.random.randint(0, 10, 3)
})
# 重新命名
result = pd.merge(df_obj1, df_obj2, on='key', suffixes=('_left', '_right'))
print(result)

二、数据拼接(pd.concat)

1. 工作原理

pd.concat函数用于沿轴方向将多个数据集合并到一个新的数据集。如果沿着行(轴=0)合并,会将两个数据集的行拼接;如果沿着列(轴=1)合并,会将两个数据集的列拼接。

2. 示例

import pandas as pd
import numpy as np
# 创建两个DataFrame
df1 = pd.DataFrame(np.arange(6).reshape(3, 2), index=['a', 'b', 'c'], columns=['one', 'two'])
df2 = pd.DataFrame(np.arange(4).reshape(2, 2) + 5, index=['a', 'c'], columns=['three', 'four'])
# 按默认行为(外连接,轴=0)
result = pd.concat([df1, df2])
print(result)

3. 合并方式

  • 轴=0:默认行为,沿行合并。
  • 轴=1:沿列合并。
  • join:指定连接方式,默认为'outer'。
  • 其它参数:如level用于处理索引层次结构,fileparse用于处理文件对象。

4. 示例

# 按列合并,并保留所有键
result = pd.concat([df1, df2], axis=1, join='inner')
print(result)

三、其他使用技巧

  • 按索引连接:可以使用left_index=Trueright_index=True结合on参数来按索引作为键。

    # 按索引连接
    result = pd.concat([df1, df2], left_index=True, right_index=True)
    print(result)
  • 自动名称处理:如果有多个数据集需要合并,自动处理列名冲突,确保数据不丢失。

四、总结

  • pd.merge适用于合并不同的数据集,根据键值连接。
  • pd.concat适用于拼接数据集,沿轴方向合并数据。

两者都是强大的工具,选择时需根据需求和数据结构来决定。

转载地址:http://zysoz.baihongyu.com/

你可能感兴趣的文章
Objective-C实现prefix conversions string前缀转换字符串算法(附完整源码)
查看>>
Objective-C实现prefix conversions前缀转换算法(附完整源码)
查看>>
Objective-C实现pressure conversions压力转换算法(附完整源码)
查看>>
Objective-C实现Prim 算法生成图的最小生成树MST算法(附完整源码)
查看>>
Objective-C实现prime sieve eratosthenes埃拉托斯特尼素数筛选法算法(附完整源码)
查看>>
Objective-C实现PrimeCheck函数算法 (附完整源码)
查看>>
Objective-C实现PrimeFactors质因子分解算法 (附完整源码)
查看>>
Objective-C实现prim普里姆算法(附完整源码)
查看>>
Objective-C实现PriorityQueue优先队列算法(附完整源码)
查看>>
Objective-C实现proth number普罗斯数算法(附完整源码)
查看>>
Objective-C实现pythagoras哥拉斯算法(附完整源码)
查看>>
Objective-C实现QLearning算法(附完整源码)
查看>>
Objective-C实现QR正交三角分解法算法(附完整源码)
查看>>
Objective-C实现qubit measure量子位测量算法(附完整源码)
查看>>
Objective-C实现Queue队列算法(附完整源码)
查看>>
Objective-C实现Queue队列算法(附完整源码)
查看>>
Objective-C实现quick select快速选择算法(附完整源码)
查看>>
Objective-C实现rabin-karp算法(附完整源码)
查看>>
Objective-C实现radians弧度制算法(附完整源码)
查看>>
Objective-C实现radianToDegree弧度到度算法(附完整源码)
查看>>