基于Spark.NET和ML.NET Automated ML (自动学习)进行餐厅等级的检查预测
简介 Apache Spark是一个开源、分布式、通用的分析引擎。多年来,它一直是大数据生态系统中对大型数据集进行批量和实时处理的主要工具。尽管对该平台的本地支持仅限于JVM语言集,但其他通常用于数据处理和分析的语言(如Python和R)已经加入了Spark的互操作层,以利用其功能。在2019年的Build大会上,微软发布了Spark.NET。Spark.NET提供了为Spark互操作层编写的绑定,允许您在.NET应用程序中使用诸如Spark SQL和Spark Streaming之类的组件。因为Spark.NET与.NET Standard 2.0兼容,可以运行Windows、Mac和Linux等操作系统。Spark.NET是Mobius项目的衍生版,该项目为Spark提供了.NET绑定。 这个示例从NYC Open Data门户获取餐馆违规数据集,并使用Spark.NET处理它。然后,处理后的数据被用来训练一个机器学习模型,该模型试图预测一个机构在检查后将获得的等级。该模型将使用一个开源、跨平台的机器学习框架ML.NET进行训练。最后,使用经过训练的模型来指定一个期望的等级,从而丰富当前不存在等级的数据。 这个示例的源代码可以在GitHub lqdev/RestaurantInspectionsSparkMLNET 中找到。 必备条件 这个项目是用Ubuntu 18.04构建的