机器学习公开课笔记(9):异常检测和推荐系统
异常检测(Anomaly Detection) 基本假设:多数情况下数据点落入正常的取值范围,但是当异常行为发生时,数据点的取值落入正常取值范围之外(如图1所示)。所以可以利用高斯分布,计算行为发生的概率,如果是概率小于给定阈值,则认为发生了异常行为。基本过程是利用训练数据点建立模型$p(x)$,对于新的数据点$x_{new}$, 如果$p(x_{new})<\epsilon$则发生异常;否则正常。异常检测的应用包括: 欺诈检测(Fraud detection) 制造业(Manufacturing) 数据中心监视电脑(Monitering computers in data center) 图1 异常行为(Outlier Point)发生示例 高斯分布 对于一元高斯分布$x \sim N(\mu, \sigma^2)$,表达式如下,其中$\mu$表示均值,对应于分布的对称轴;$\sigma$表示数据点的离散程度,$\sigma$越大函数图像的下端张口越大峰值越低;反之$\sigma$越小,图像下端张口越小,峰值越高,如图2所示。 $$p(x;\mu, \sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})$$ 图2 不同参数($\mu, \sigma$)取值下的一元高斯分布 参数估计