weka

How to load data in weka Instances from a spark dataframe

那年仲夏 提交于 2021-02-11 08:27:20
问题 I have a spark DataFrame. Now I want to do some processing using Weka. Therefore, I want to load data into Weka Instances from the DataFrame and finally return the data as a DataFrame. As the structure both the data type is different, I wondering can anybody help me with the conversion. The code snippet may look like below. val df: DataFrame = data val data: Instances = process(df) 来源: https://stackoverflow.com/questions/58160584/how-to-load-data-in-weka-instances-from-a-spark-dataframe

how fix error train and test set are not compatible?

萝らか妹 提交于 2021-01-29 16:00:32
问题 0 I have a dataset of about 7000 records. After clearing, I performed normalization and discretization operations on it.Then I applied a j48 model to it and saved it to my computer.Now I want to test this model on a dataset of 500 records. All columns in this dataset are the same as the original dataset. However, the "class" column in the test dataset has no value. But I got an error. For this reason, I also applied normalization and discretization operations to the test dataset. But I still

R Model Tree M5P in R

别等时光非礼了梦想. 提交于 2021-01-28 05:02:00
问题 I was wondering if the functionality given by Weka of building Model trees like M5P which has regression models in the leaves is possible in R. I know there is a way to handle it using the RWeka package. What was somehow strange to me is that the functionality does not exist in other R packages like rpart. The only way to get a "Model Tree" is using the Rweka package? Thanks for clarification. 回答1: Please check cubist and CORElearn packages. 来源: https://stackoverflow.com/questions/16153259/r

9款好用的bi数据可视化工具

左心房为你撑大大i 提交于 2020-08-12 06:52:20
大数据、数据分析的兴起和火爆,也带动了数据可视化的广泛应用。说起数据分析和可视化的关系,就好比你为一堆散乱的拼图写了一份说明,告诉他这个数据是什么样子,代表什么。可以说,数据可视化虽然不是必不可少的,但却是可以加快效率,为报告锦上添花的。 555.jpg 下面分享几款好用的数据可视化工具给大家,以作参考选择: D3 D3(Data Driven Documents)是支持SVG渲染的另一种Java库。但是D3能够提供大量线性图和条形图之外的复杂图表样式,例如Voronoi图、树形图、圆形集群和单词云等。D3.js是数据驱动文件(Data-Driven Documents)的缩写,他通过使用HTMLCSS和SVG来渲染精彩的图表和分析图。D3对网页标准的强调足以满足在所有主流浏览器上使用的可能性,使你免于被其他类型架构所捆绑的苦恼,它可以将视觉效果很棒的组件和数据驱动方法结合在一起。 DataV 阿里出品的数据可视化解决方案,之所以推荐DataV这个后起之秀,完全是因为淘宝双“11”活动中实时互动大屏幕太抢眼了。DataV支持多种数据源,尤其是和阿里系各种数据库完美衔接,如果你的数据本身就存在阿里云上,那选用DataV肯定是个省时省力的好办法。图表方面,DataV内置了丰富的图表模板,支持实时数据采集和解析。 Echarts 一个纯java的数据可视化库,百度的产品

How to get the nearest neighbor in weka using java

两盒软妹~` 提交于 2020-05-25 01:14:12
问题 I've been trying to use the Ibk nearest neighbor algorithm that goes together with the weka machine learning library. I know how to classify instances, but I want to implement the collaborative filtering feature so I need to actually get the list of actual objects that are nearest to the object of interest. How would I actually do so in weka using its java API? 回答1: How about this one weka.core.neighboursearch.LinearNNSearch knn = new LinearNNSearch( trainingInstances); //do other stuff

weka数据挖掘拾遗(一)---- 生成Arff格式文件

徘徊边缘 提交于 2020-03-24 04:55:58
一、什么是arff格式文件   1、arff是Attribute-Relation File Format缩写,从英文字面也能大概看出什么意思。它是weka数据挖掘开源程序使用的一种文件模式。由于weka是个很出色的数据挖掘开源项目,所以使用的比较广,这也无形中推广了它的数据存储格式。   2、下面是weka自带的一个arff文件例子(weather.arff) 1 @relation weather 2 3 @attribute outlook {sunny, overcast, rainy} 4 @attribute temperature real 5 @attribute humidity real 6 @attribute windy {TRUE, FALSE} 7 @attribute play {yes, no} 8 9 @data 10 sunny,85,85,FALSE,no 11 sunny,80,90,TRUE,no 12 overcast,83,86,FALSE,yes 13 rainy,70,96,FALSE,yes 14 rainy,68,80,FALSE,yes 15 rainy,65,70,TRUE,no 16 overcast,64,65,TRUE,yes 17 sunny,72,95,FALSE,no 18 sunny,69,70,FALSE

centos7安装HFE算法

北城余情 提交于 2020-03-09 15:00:37
参考文章: https://fracpete.github.io/python-weka-wrapper/install.html 需要将JDK写到环境变量里面去 安装步骤如网站所示。 貌似还需要更新一下pip和setuptools 除此以外: 在javabridge安装时报错,需要在之前再安装一个Cython。 再安装python-weka-wrapper即可。 来源: CSDN 作者: red_west 链接: https://blog.csdn.net/red_west/article/details/104750170

Weka manual 3.6翻译: 16.6 分类

老子叫甜甜 提交于 2020-03-01 10:30:56
若觉排版不好,可点 这里。 16.6 分类 在WEKA内,分类和回归算法都被称为“分类”,并都位于 weka.classifiers 包中。本节包括以下主题: • 建立一个分类 -批量和增量学习。 • 评价一个分类 -各种评估技术,以及如何获得生成的统计信息。 • 分类实例 -获得未知数据的分类。 WEKA Examples 集合[3]包含分类的示例类,在 wekaexamples.classifiers 包中。 16.6.1 建立分类器 通过设计,WEK中的所有分类器 都可批量分类 ,即,他们对整个数据集在一次训练。这是正常的,如果训练数据装入到内存中。但也有算法,可以运行中更新自己的内部 模型 这些分类器被称为 增量的 。以下两部分覆盖批量和增量的分类器。 批量分类器 建立了一批分类是非常简单的: • 设置选项 -无论是使用 setOptions(String[]) 方法或实际的 set 方法。 • 训练 -提供训练集,调用 buildClassifier(Instances) 。根据定义 buildClassifier(Instances) 方法完全重置内部模型,以确保后续用同一数据调用此方法会得到同一个模型(“重复实验”)。 下面的代码片段用数据集生成未修剪J48: import weka.core.Instances; import weka.classifiers

Weka manual 3.6翻译: 16.2 数据载入

蹲街弑〆低调 提交于 2020-03-01 10:30:36
最近谷歌译员访问很是不顺,翻译只能先放着了 这篇的格式也不调了,每次粘贴过来都要手动调整格式,太累了,也不知是我格式的问题还是OSC博客的问题 看不顺的话可以 点这 ,会好些。 16.2 数据载入 在任何过滤器,分类的聚类器可以应用之前,数据必须存在。Weka能从文件(各种格式的文件)和从数据库中加载数据。在后者的情况下,假定在该数据库连接设置和工作。如何正确配置Weka与JDBC(Java数据库连接)URL的详细信息,请参阅第13章详细说明。 若要使用本节中介绍的功能, wekaexamples.core.converters 包的 WEKA实例 集合有例子。 下面的一些类用于在内存中存储数据: • weka.core.Instances - 拥有一个完整的数据集。这个数据结构是基于行的;单一的行可以通过从0开始索引的instance(int) 方法获得。有关列的信息可以通过attribute(int)方法获得。 此方法返回 weka.core.Attribute对象(见下文)。 • weka.core.Instance。-封装了一个单行。 它基本上是一个双原语数组的包装。因为这个类不包含关于列的类型的任何信息,它总是需要访问 weka.core.Instances 对象(见方法 dataset 和 setDataset 。 weka.core.SparseInstance

Weka manual 3.6翻译: 16.1 选项处理

杀马特。学长 韩版系。学妹 提交于 2020-03-01 10:30:04
16.1 选项处理 配置一个对象,例如一个分类器, 可以通过调用我们想要改变的属性的 get/set 方法来实现,就像搜索者( Explorer )做的。或者,如果类实现了 weka.core.OptionHandler 接口,我们就可以通过 setOptions(String[]) 方法使用该对象的能力来解析命令行选项,(对应的方法是 getOptions() , 其返回一个 String[] 数组)。 这两种方法之间的区别是,不能使用 setOptions(String[]) 方法来递增地设置选项。选项数组中没有明确指定的选项将使用默认值。 最基本的方法是手动汇集( assemble) String 数组。下面的示例创建一个只包含一个选项 ( “-R” ) 的数组, 它接受一个参数 ( “1” ) 并且使用此选项初始化 Remove 过滤器: import weka.filters.unsupervised.attribute.Remove; ... String[] options = new String[2]; options[0] = "-R"; options[1] = "1"; Remove rm = new Remove(); rm.setOptions(options); 由于 setOptions(String[]) 方法需要一个全面解析,并正确分隔的数组