DolphinDB与Pandas对于大文本文件处理的性能对比 智臾科技
DolphinDB Database 是一款高性能的分布式时序数据库。它集成了功能强大的编程语言和高容量高速度的流数据分析系统,为海量数据(特别是时间序列数据)的快速存储、检索、分析及计算提供一站式解决方案。 Pandas是Python的一个包,最初被作为金融数据分析工具而开发,为时间序列分析提供了很好的支持。 DolphinDB是一个分布式系统,但也可以作为工作站使用。DolphinDB和Pandas都能够处理大文本文件,哪个的表现更出色呢?在处理大文本文件时,我们最关心的两个因素是性能和内存占用情况。因此,我们将从这两方面对DolphinDB和Pandas进行对比。 本次测试使用的硬件和操作系统如下: Dell PowerEdge R830 服务器 内存:1024GB CPU:E5-4640 v4 48 核 2.1GHZ 操作系统:Fedora27 RAID 0:8X1.2TB 10000 RMP HDD DolphinDB提供了修改内存使用限制的配置项,所以我们把内存限制设置为128G,24核,这更符合大部分实际用户的服务器配置。而在Pandas中,我们无法对内存使用进行限制。 数据生成 我们在 DolphinDB database 中生成一个40G文本文件,包含了16列,一共有390,000,000行数据。生成数据的脚本如下: n=390000000 workDir = "