cs224u Supervised sentiment: hand-built feature functions 监督情感:手工构建特征函数
概述
•本文的重点是构建用于线性分类器的特征表示 。
•我们将在这里构建的功能的核心特性:
◾在非常大、非常稀疏的特征空间中表示。
◾利用领域的专家人类知识,可以高度细化各个特征函数。
◾这些表示并不全面地表示输入示例,只是分类器模型可以很好地利用输入数据。
•这些分类器往往具有很强的竞争力。我们以后将看到更强大的深度学习模型,会发现很难让它们达到基于稀疏特征表示构建的分类器。
导入库
from collections import Counter
import os
from sklearn.linear_model import LogisticRegression
import scipy.stats
from np_sgd_classifier import BasicSGDClassifier
import torch.nn as nn
from torch_shallow_neural_classifier import TorchShallowNeuralClassifier
import sst
import utils
from tensorflow import set_random_seed
utils.fix_random_seeds()
SST_HOME = os.path.join('data', 'trees')
特征函数
•特征表示可以说是机器学习任务中最重要的一步。当使用SST进行实验时,将逐渐认识到这一事实,特征函数的选择对模型的有效性的影响将远远大于所做的任何其他选择。
•我们将特征能函数定义为dict,将特征名称(可以是dict键的任何对象)映射到它们的值(必须是bool、int或float)。
•为了准备优化,我们将使用sklearn的DictVectoriz
来源:oschina
链接:https://my.oschina.net/u/4373790/blog/4271490