(数据科学学习手札86)全平台支持的pandas运算加速神器
本文示例代码已上传至我的 Github 仓库 https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 随着其功能的不断优化与扩充, pandas 已然成为数据分析领域最受欢迎的工具之一,但其仍然有着一个不容忽视的短板——难以快速处理大型数据集,这是由于 pandas 中的工作流往往是建立在单进程的基础上,使得其只能利用单个处理器核心来实现各种计算操作,这就使得 pandas 在处理百万级、千万级甚至更大数据量时,出现了明显的性能瓶颈。 本文要介绍的工具 modin 就是一个致力于在改变代码量最少的前提下,调用起多核计算资源,对 pandas 的计算过程进行并行化改造的 Python 库,并且随着其近期的一系列内容更新, modin 基于 Dask 开始对 Windows 系统同样进行了支持,使得我们只需要改变一行代码,就可以在所有平台上获得部分 pandas 功能可观的计算效率提升。 图1 2 基于modin的pandas运算加速 modin 支持 Windows 、 Linux 以及 Mac 系统,其中 Linux 与 Mac 平台版本的 modin 工作时可基于并行运算框架 Ray 和 Dask ,而 Windows 平台版本目前只支持 Dask 作为计算后端(因为 Ray 没有 Win 版本)