一.基本概念
-
有监督学习
对具有概念标记(分类)的训练样本进行学习,以便尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。
样本已知
-
无监督学习
对没有概念标记(分类)的训练样本进行学习,以便发现训练样本集中的结构性知识。这里,所有的标记(分类)是未知的。因此,训练样本的歧义性高。聚类就是典型的无监督学习。
样本未知
-
准确率与召回率:
召回率也叫查全率,准确率也叫查准率。
二.数据集
-
KDD 99数据
KDD是知识发现与数据挖掘(Knowledge Discovery and Data Mining)
-
HTTP DATASET CSIC 2010
包含大量标注过的针对Web服务的36000个正常请求以及25000个攻击请求,攻击类型包括sql注入、缓冲区溢出、信息泄露、文件包含、xss等,被广泛用于WAF类产品的功能评测
-
SEA数据集
-
ADFA-LD数据集
主机级入侵检测系统的数据集合
-
Alexa域名数据
Alexa是当前拥有URL数量最庞大、排名信息发布最详尽的网站。
-
Scikit-Learn数据集
最常见的是iris数据集。
-
MNIST数据集
入门级的计算机视觉数据集
-
Movie Review Data
包含1000条正面的评论和1000条负面的评论,用于文本分类,恶意评论识别方面
-
SpamBase数据集
入门级的垃圾邮件分类训练集、
三.特征提取
常见数字型和文本型
1.数字型特征提取
数字型特征可以直接作为特征,多于一个多维的特征,某一个特征的取值范围特别大,很可能导致其他特征对结果的影响被忽略。
预处理的方式
-
标准化
-
正则化
-
归一化
2.文本特征提取
文本数据提取特征相对于数字型要复杂的多,本质上是做单词的切分,不同单词当作一个新的特征
两个非常重要的模型
词集模型:单词构成的集合,集合中每个元素都只有一个,即词集中的单词只有一个
词袋模型:如果一个单词在文档中不止出现一次,统计其出现的次数
来源:https://www.cnblogs.com/linwx/p/8296967.html