数据分析数据挖掘(一)
相信小伙伴已经会基本的数据处理了和可视化的问题了。我们现在要进行数据挖掘的学习了。 一、数据的类型: 模型:变量与变量之间的关系。 数据分析:根据变量类型和以顶的假设,来确定变量与变量之间的关系。 所有的模型都是错的,但有些是有用的。 二、数据分析和数据挖掘的关系: 1.数据的用途:记录、解释(理解)、预测、控制 2.数据分析:统计、相关、回归;已知模型下的参数估计 3.数据挖掘:发现知识;分类、聚类、回归 4.数据-信息-知识 三、概率 相信盼盼都会一些基础了,不会的话我可以再补充些更基础了。 1.条件概率:P(A|B)=P(AB)/P(B),从而可以知道若P(A)和P(B)都大于0则P(AB)=P(B)P(A|B)=P(A)P(B|A)。 2.全概率公式:设A1,A2…An是一个独立同分布的事件组,并且全部概率大于0,则对于B有,P(B)=P(A1)P(B|A1)+P(A2)P(B|A2)…+P(An)P(B|An),这个为全概率公式。 3.贝叶斯公式:设A1,A2…An是一个独立同分布的事件组,并且全部概率大于0,则对于B有,P(Am|B)=P(AmB)/P(B)=(P(Am)P(B|Am))/(P(A1)P(B|A1)+P(A2)P(B|A2)…+P(Ai)P(B|Ai)) 注意i是导致事件B发生的因素。 例子:一个学校的男女(C1,C2)比例是1:1