对数据的特征进行分析,分群。
数据选用的是Iris data
下载地址:http://archive.ics.uci.edu/ml/machine-learning-databases/iris/
1.下载后的数据文件是.data格式,直接选择用Tableau导入,选择Text file,文件类型选所有类型将Iris.data添加进去
2.修改列名
3.分析的时候将工具栏->Analysis->Aggregate Measures关闭。
4.根据花萼宽和花萼长标记出每个点,再加上种类进行分类。如下图所示
5.根据花萼宽和花萼长进行分群,左侧Analytics->Cluster进行分群。Marks中选择Clusters,右击->Edit Clusters->Number of Clusters 选3个 因为3个种类。
将Clusters移到Dimensions作为一个维度,对该唯独Edit Group将三个群名字改为3个种类的名字。
创建一个判断分群的维度,计算公式如下。分群与类别相同时,则为真,否则为假。
6.通过判断分群的维度,给出直方图,测度选择Number of Records。
7.最后通过DashBoard给出详细的视觉化对比图。
通过添加Actoins 给出高亮效果,看出哪几个是分群错误的。分类和分群前面需要加上分群判断的Mark才可以联动。
最后可以看出,是因为特征介于两种种类之间的会导致分群失败。分群可以根据特征确定所属的分类进行分析。