自然语言处理基础系列:自然语言处理概念与名词解释(1)
(一)语言分析的必要性: 假如你的公司发布了一款全新的手机产品。 新产品的发布带来了来自不同媒体的相关报道、用户反馈。 面对这些数据,你可能希望了解 大家关注的是这款手机的哪些特性 大家对这款手机的评价如何 有哪些用户表达了购买的意愿 在面对海量数据的情况下,使用人力分析这些数据显然是不切实际的。 这种场景下,语言分析就派上了用场。 让机器代替人来完成这些分析工作正是语言分析要做的工作。 (二)语言分析常用操作: (1)分词 中文分词 (Word Segmentation, WS) 指的是将汉字序列切分成词序列。 因为在汉语中,词是承载语义的最基本的单元。分词是信息检索、文本分类、情感分析等多项中文自然语言处理任务的基础。 例如,句子 国务院总理李克强调研上海外高桥时提出,支持上海积极探索新机制。 正确分词的结果是 国务院/ 总理/ 李克强/ 调研/ 上海/ 外高桥/ 时/ 提出/ ,/ 支持/ 上海/ 积极/ 探索/ 新/ 机制/ 。 如果分词系统给出的切分结果是 国务院/ 总理/ 李克/ 强调/ 研/ 上海 … 因为强调也是一个常见的词,所以很可能出现这种分词结果。 那么,如果想要搜索和李克强相关的信息时,搜索引擎就很难检索到该文档了。 切分歧义是分词任务中的主要难题。 (2)词性标注 词性标注(Part-of-speech Tagging, POS