DSW 2.0:面向AI研发的集成开发平台
DSW(Data Science Workshop)是阿里巴巴PAI团队根据多年的AI算法和产品研发经验积累,围绕提高AI算法研发效率,降低研发成本而推出的一款适用于各类AI开发者的云端机器学习集成开发环境。DSW2.0是借助阿里云ECS,Docker和Kubernetes等云原生技术,能够在几分钟内帮用户完成环境搭建,相对DSW1.0开放更高的开发权限,满足各个层面客户的使用需求。
- 云原生架构
DSW借助阿里云ECS,Docker和Kubernetes等云原生技术,能够在几分钟内帮用户完成环境搭建。用户可以根据算法需要和成本考虑,选择阿里云ECS提供的包括CPU和异构计算GPU在内的所有资源规格。
- 满足不同层次开发习惯
结合交互式编程和命令行输入,DSW提供了三种编程入口: WebIde适用于工程化要求比较高的项目;JupyterLab适用于快速POC试验;Terminal入口可用于快速执行Shell命令,运行程序和简单的编辑等。
- 预装丰富插件
DSW还开发和预装了各种JupyterLab和WebIDE插件,比如广受深度学习开发者喜爱的可视化工具Tensorboard,用户在DSW内通过Launcher,Commands打开,甚至还可以使用%tensorboard魔法命令直接在Notebook中开启等多种方式使用Tensorboard。不仅支持本地文件,还可以打开存放在OSS,ODPS里的训练日志。针对算法同学使用Python比较多的特点, DSW的WebIDE内安装了Python插件,可以直接在浏览器内在线调试,单步跟踪程序运行。用户还可以根据需要,自主安装需要的任意插件。
- 支持多种数据源读写
NAS, OSS,云盘和MaxCompute,尤其是内置了dswmagic魔法命令可以让用户在ipynb文件中使用SQL语句读写MaxCompute表中数据,预置的SQL编辑器支持语法高亮、智能提示、自动补全等功能,还支持运行带变量替换功能的Sql脚本。查询结果自动以最友好的图形化展示。
Alink:流批一体机器学习算法平台
Alink拥有丰富的批式算法和流式算法,能够帮助数据分析和应用开发人员能够从数据处理、特征工程、模型训练、预测,端到端地完成整个流程。Alink提供的功能算法模块中,每一个模块都包含流式和批式算法。比如线性回归,包含批式线性回归训练,流式线性回归预测和批式线性回归预测。另外,Alink算法覆盖分类、回归、聚类、评估、统计分析、特征工程、异常检测、文本、在线学习、关联分析等经典领域,是一个通用的机器学习算法平台。
- 算法性能
我们从下图中可以看出在回归算法中,Alink算法性能最高优于Spark 1.38倍;分类算法中Alink大多数算法性能优于Spark,最高优于2.52倍;聚类算法Alink算法性能最高优于Spark 1.85倍;协同过滤Alink算法性能最高优于Spark 2.26倍。
Flink VS Spark算法性能
- 更友好的交互式体验
我们提供两种用户使用界面:web和PyAlink。Web界面提供拖拽的方式创建试验,通过对每一个组件进行配置完成整个试验的参数配置。在各个算法节点旁,我们用闪烁的小灯泡💡表示“运行中”的状态,用对勾✅表示“运行完成”的状态。一般情况下,只有批式(batch)组件才有可能运行结束。基于各个组件的运行状态,可以十分方便地判断当前实验运行到了什么程度。
同时为了满足脚本用户的需求,我们提供了PyAlink on notebook,用户可以通过PyAlink的python包使用Alink。PyAlink支持单机运行,也支持集群提交。并且打通Operator(Alink算子)和DataFrame的接口,从而使得Alink整个算法流程无缝融入python。PyAlink也提供使用Python函数来调用UDF或者UDTF。
阿里云机器学习PAI是覆盖人工智能全链路的产品家族,自上线以来,受到广大AI开发者的喜爱,经过千锤百炼,证明不仅适合个人和团队研发,也支持大规模算法竞赛和教育培训。本次重磅发布的PAIDSW2.0和商业版Alink致力成为最懂用户的轻量化AI服务,包含数据处理、建模、训练、模型优化、在线预测等多种产品版块,为用户提供一站式体验服务。
来源:oschina
链接:https://my.oschina.net/u/1464083/blog/4294942