数据挖掘学习笔记(一)

岁酱吖の 提交于 2020-02-15 02:10:33

概述

数据分析与数据挖掘
1.数据分析
采用适当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当的描述,提取有用的信息的过程。

  • 数据分析一般具有比较明确的目标,可以根据数据分析的结果得出适当的判断,用来为以后的决策提供依据。
  • 早在20世纪初期,数据分析的基础就已经确立。
  • 数据分析的结果有表格,图(排列图、因果图、散布图、直方图、控制图)等表示方法。

2.数据挖掘(Data Mining,DM)
从海量的数据中通过相关的算法来发现隐藏在数据中的规律和知识的过程。

  • 在大量的、未经过加工的数据中发现少量的、具有重要价值的知识和信息。
  • 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。
  • 也叫资料勘探或数据采矿

为什么要进行数据挖掘呢?

  • 数据的爆炸式增长:从TB到PB
    丰富数据的主要来源:
    • 商业:Web、电子商务、交易、股票…
    • 科学:遥感、生物信息学、科学仿真…
    • 社会与个人:新闻、数码相机、YouTube…
      数据采集与数据可用性:
    • 自动数据收集工具、数据库系统、Web…
    • 计算机化的社会

通常将数据挖掘视为数据中“知识发现”的同义词,也可以认为数据挖掘是知识发现中的一个步骤。

3.知识发现(KDD)的过程
首先要对收集到的数据进行预处理(数据清洗与数据集成),然后将数据仓库中的数据进行选择与变换,以便从数据仓库中选择与任务相关的数据,然后将这些数据转化为可以进行数据挖掘的形式,进行模式评估、知识表示。

4.数据分析与数据挖掘的区别
数据分析处理的数据量不一定很大,目标比较明确,侧重于展现数据之间的关系。
数据挖掘处理的是海量的数据量,目标不明确,侧重于对未知的情况进行预测和估计。

5.数据分析与数据挖掘的联系
数据分析的结果需要进一步的挖掘,才能得到更加清晰的结果。
数据挖掘获得知识的过程也需要对数据挖掘的结果进一步分析。
数据分析可以将数据转变成信息,数据挖掘可以将信息变成知识。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!