文本聚类

机器学习算法

谁说我不能喝 提交于 2020-03-28 07:40:58
转载自: http://www.cnblogs.com/tornadomeet   朴素贝叶斯:   有以下几个地方需要注意:   1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分类为例),比如说是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。   2. 计算公式如下:      其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是 的计算方法,而由朴素贝叶斯的前提假设可知, = ,因此一般有两种,一种是在类别为ci的那些样本集中,找到wj出现次数的总和,然后除以该样本的总和;第二种方法是类别为ci的那些样本集中,找到wj出现次数的总和,然后除以该样本中所有特征出现次数的总和。   3. 如果 中的某一项为0,则其联合概率的乘积也可能为0,即2中公式的分子为0,为了避免这种现象出现,一般情况下会将这一项初始化为1,当然为了保证概率相等,分母应对应初始化为2(这里因为是2类,所以加2,如果是k类就需要加k,术语上叫做laplace光滑, 分母加k的原因是使之满足全概率公式)。    朴素贝叶斯的优点:   对小规模的数据表现很好,适合多分类任务,适合增量式训练。    缺点 :   对输入数据的表达形式很敏感。   决策树:   决策树中很重要的一点就是选择一个属性进行分枝,因此要注意一下信息增益的计算公式,并深入理解它

dd

坚强是说给别人听的谎言 提交于 2019-12-04 10:37:23
Python数据分析简介 Python入门 运行:cmd下"python hello.py" 基本命令: # for 循环 s = 0 for k in range(101): #1-100 s = s + k print s # 函数 def add2(x): return x+2 print add2(1) def add2(x=0, y=0): return [x+2, y+2] #返回列表 def add3(x, y): return x+3, y+3 #双重返回 a,b = add3(1, 2) # 匿名函数 f = lambda x : x+2 #定义函数f(x)= x+2 g = lambda x, y : x+y #定义函数g(x,y)= x+y, g(1,2)结果为3 # 数据结构 # a, b是列表 # 列表函数cmp(a, b) len(a) max(a) min(a) sum(a) sorted(a) # 列表对象方法 a.append(1) a.count(1) a.extend([1,2]) a.index(1) a.insert(2,1) a.pop(1) b = a # b是a的别名 b = a[:] #数据复制 # 列表解析 a = [1, 2, 3] b = [] for i in a: b.append(i+2) # 等价于 a =[1, 2,