1.merge用来连接两个DataFrame对象,参数on选择基于哪个列进行连接,how选择内连接,左连接还是全连接的方式。merge操作类似于SQL中的join操作。
- import
- 'key':['b','b','a','c','a','b'],'data1':range(6
- 'key':['a','b','a','b','d'],'data2':range(5
- 'key''left'
2.对于大数据,很可能要对于其中的部分列进行聚合,这里使用groupby
- import
- import
- 'key1':['a','a','b','b','a'
- 'key2':['one','two','one','two','one'
- 'data1':np.random.randn(5
- 'data2':np.random.randn(5
- 'data1','data2']].groupby(df['key1'
- print'key1')[['data1','data2'#简便写法
- import
- import
- 'key1':['a','a','b','b','a'
- 'key2':['one','two','one','two','one'
- 'data1':np.random.randn(5
- 'data2':np.random.randn(5
- 0:'one',1:'one',2:'two',3:'two',4:'two'
- print0
文章来源: Pandas的merge和groupby用法