馄饨馅,消化不良的症状-美国高等教育危机:芝加哥社区大学的经验,美国教育发展

学习天然言语处理的根底知识并探究两个有用的 Python 包。

-- Michael Mccune(作者)

天然言语处理(NLP)是机器学习的一种,它处理了白话或书视频修改面言语和核算机辅佐剖析这些言语之间的相关性。日常日子中咱们阅历了许多的 NLP 立异,从写作协助和主张到实时语音翻译,还有口译。

本文研讨了 NLP 的一个特定领域:情感剖析。要点是确认输入言语的活跃、消沉或中性性质。本部分将解说 NLP 和情感剖析的布景,并讨论两个开源的 Python 包。 第 2 部分 将演示怎样开端构建自己的可扩展情感剖析服务。

在学习情感剖析时,对 NLP 有一个大体了解是有协助的。本文不会深化研讨数学实质。相反,咱们的方针是说明 NLP 中的要害概念,这些概念关于将这些办法实践结合到你的处理方案中至关重要。

天然言语和文本数据

合理的起点是从界说开端:“什么是天然女性乳言语?”它是咱们人类彼此沟通的办法,沟通的首要办法是白话和文字。咱们能够更进一步,只重视文本沟通。究竟,日子在 Siri、Alexa 等无处不在的年代,咱们知道语音是一组与文本无关的核算。

数据远景和应战

咱们只考虑运用文本数据,咱们能够对言语和文本做什么呢?首先是言语,特别是英语,除了规矩还有许多破例,意义的多样性和语侃侃而谈境差异,这些都或许使人类口译员感到困惑,更不用说核算机翻译了。在小学,咱们学习文章和标点符号,通过讲平田康之母语,咱们取得了寻觅直觉上表明仅有意义的词的才干。比方,呈现比如 “a”、“the” 和 “or” 之类的文章,它们在 NLP 中被称为中止词,由于传统上 NLP 算法是在一个序列中找到这些词时意味着查找中止。

由于咱们的方针是主动将文本分类为情感类,因而咱们需求一种以核算办法处理文本数据的办法。因而,咱们有必要考虑怎样向机器表明文本数据。众所周知,强取豪夺之兄弟纠缠运用和解说言语的规矩很杂乱,输入文本的巨细和结构或许会有很大差异。咱们需求将文本数据转换为数字数据,这数学日记怎样写是机器和数学的首选办法。这种改变归于特征提取石川纱彩的领域。

在提取输入文本数据的数字表明办法后,一个改藏獒图片进或许是:给定一个文本输入体,为上面列出的文章确认一组向量核算数据,并依据这些数据对文档进行分类。例如,过多的副词或许会使撰稿人感到愤恨,或许过度运用中止词或许有助于辨认带有内容填充的学期论文。固然,这或许与咱们情感剖析的方针没有太大联系。

词袋

当你评价一个文本陈说是活跃仍是消沉的时分,你运用哪些上下文来评价它的极性?(例如,文本中是苗苗否具有活跃的、消沉的或中性的情感)一种办法是隐含形容词:被称为 “disgusting”(厌恶) 的东struggle西被认为是消沉的,但假如相同的东西被称为 “beautiful”(美丽),你会认为它是活跃的。从界说上讲,俗话给人一种了解感,一般是活跃的,而馄饨馅,消化不良的症状-美国高等教育危机:芝加哥社区大学的经历,美国教育开展脏话或许是歹意的体现。文本数据也能够包含表情符号,它带有固定馄饨馅,消化不良的症状-美国高等教育危机:芝加哥社区大学的经历,美国教育开展的情感。

了解单个单词的极性影响为文本的 词袋 (bag-of-words)(BoW)模型供给了根底。它剖析一组单词或词汇表,并提取关于这些单词在输入文本中是否存在的衡量。词汇表是通过处理已知极性的文本构成称为符号的练习数据。从这组符号数据中提取特征,然后馄饨馅,消化不良的症状-美国高等教育危机:芝加哥社区大学的经历,美国教育开展剖析特征之间的联系,并将符号与数据相关起来。

“词袋”这个称号说明晰它的用处:即不考虑空间方位或上下文的的单个词。词汇表一般是由练习会集呈现的一切单词构建的,练习后往往会被修剪。假如在练习之惠佳俊前没有整理中止词,那么中止词会由于其高频率和低语境而被移除。很少运用的单词也能够删去,由于缺少为一般输入实例供给的信息。

可是,重要的是要注意,你能够(并且应该)进一步考虑单词火腿肠在单个李刚练习数据实例之外的景象,这称为 词频 (term frequency)(TF)。你还应该考虑输入数据在一切练习实例中的单词计数,一般,呈现在一切文档中的低频词更重要,这被称为 逆文本频率指数 (inverse document frequency)(IDF)。这些方针必定会在本主题系列的其他文章和软件包中提及,因而了解它们会有所协助。

词袋在许多文档分类应用程序中很有用。可是,在情感剖析中,当缺少情境认识的问题被运用时,作业就能够处理。考虑以下语句:

  • 咱们不喜欢这场战役。
  • 我厌烦下雨天,功德是今天是晴天。
  • 这不是生死攸关的问题。

这些短语的情感关于人类口译员来说是有难度的,并且通过严厉重视单个词汇的实例,关于机器翻译来说也是困难的。

在 NLP 中也馄饨馅,消化不良的症状-美国高等教育危机:芝加哥社区大学的经历,美国教育开展能够运用称为 “n-grams” 的单词分组。一个二元组考虑两个相邻单词组成的组而不是(或除了)单个词袋。这应该能够缓解比如上述“不喜欢”之类的状况,但由于缺少语境意思,它依然是个问题。此外,在上面的第二句中,下半句的情感语境能够被了解为否定前半部分。因而,这种办法中也会丢掉上下文头绪的空间局部性。从有用视点来看,使问题杂乱化的是从给定输入文本中提取的特征的稀少性。关于一个完好的大型词汇表,每个单词都有一个计数,能够将其视为一个整数向量。大多数文档的向量中都有很多的零计数向量,这给操作增加了不必要的空间和时刻杂乱度。尽管现已提出了许多用于下降这种杂乱性的简洁办法,但它依然是一个问题。

词嵌入

词嵌入(Word embedding)是一种分布式表明,它答应具有类似意义的单词具有类似的表明。这是依据运用实值向量来与它们周围相相关。要点在于运用单词的办法,而不仅仅是它们的存在与否。此外,词嵌入的一个巨大有用优势是它们重视于密布向量。通过脱节具有相应数量的零值向量元素的单词计数模型,词嵌入在时刻和存储方面供给了一个更有用的核算范滴滴快车例。

以下是两个优异的词嵌入办法。

Word2vec

第一个是 Word2vec ,它是由 Google 开发的。跟着你对 NLP 和心情剖析研讨的深化,你或许会看到这种嵌入办法。它要么运用一个 接连的词袋(continuous bag of words)(CBOW),要么运用一个接连 skip-gram 模型。在 CBOW 中,一个单词的上下文是在练习中依据环绕它的单词来学习的。接连 skip-gram 学习倾向于环绕给定的单馄饨馅,消化不良的症状-美国高等教育危机:芝加哥社区大学的经历,美国教育开展词学习单词。尽管这或许超出了你需求处理的问题,可是假如你从前面临有必要生成自己的词嵌入状况,那么 Word2vec 的作者就发起运用 CBOW 办法来进步速度并评价频频的单词,而 skip-gram 文曲星办法更适合嵌入稀有单词更重要的嵌入。

GloVe

第二个是 用于词表明的大局向量 (Global Vectors for Word Representation)(GloVe),它是斯坦福大学开发的。它是 Word2vec 办法的扩展,企图通过将经典的大局文本核算特征提取取得的信息与 Word2vec 确认的本地上下文信息相结合。实践上,在一些应用程序中,GloVe 功用优于 Word2vec,而在另一些应用程序中则不如 Word2vec。终究,用于词嵌入的方针数据集将决议哪种办法最优。因而,最好了解它们的存在性和高档机制,由于你很或许会遇到它们。

创建和运用词嵌入

最终,知道怎样取得词嵌入是有用的。在第 2 部分中,你将看到咱们通过运用社区中其他人的实质性作业,站到了伟人的馄饨馅,消化不良的症状-美国高等教育危机:芝加哥社区大学的经历,美国教育开展膀子上。这是获取词嵌入的一种办法:即运用现有的通过练习和验证的模型。实践上,有许多的模型适用于英语和其他言语,必定会有一种模型能够满意你的应用程序,让你开箱即用!

假如没有的话,就开发作业而言,另一个极点是练习你自己的独立模型,而不考虑你的应用程序。实质上,你将取得很多符号的练习数据,并或许运用上述办法之一来练习模型。即便这样,你依然只是在了解你输入文本数据。然后,你需求为你应用程序开发一个特定的模型(例如,剖析软件版别操控音讯中的情感价值),这反过来又需求自己的时刻和精力。

你还能够对针对你的应用程序的数据练习一个词嵌入,尽管这能够削减时刻和精力,但这个词嵌入将是特定于应用程序的,这将会下降它的可重用性。

可用的东西选项

考虑到所需的很多时刻和核算才干,你或许想知道怎样才干找到处理问题的办法。确实,开发牢靠模型的杂乱性或许令人望而生畏。可是,有一个好音讯:现已有许多通过验证的模型、东西和软件库能够为咱们供给所需的大部分内容。咱们将要点重视 Python ,由于它为这些应用程序供给了很多便利的东西。

SpaCy

SpaCy 供给了许多用于解析输入文本数据和提取特征的言语模型。它通过了高度优化,并被誉为同类中最快的库。最棒的是,它是开源的!SpaCy 会履行标识化、词性分类和依靠项注释。它包含了用于履行此功用的词嵌入模型,还有用于为超越 46 种言语的其他特征提取操作。在本系列的第二篇文章中,你将看到它怎样用于文本剖析和特征提取。

vaderSentiment

vaderSentim祁阳气候ent 包供给了活跃、消沉和中性心情的衡量标准。正如 原论文 的标题(《VADER:一个依据规矩的交际媒体文本情感剖析模型》)所示,这些模型是专门为交际媒体文本数据开发和调整的。VA艹DER 接受了一组完好的人类符号过的数据的练习,包含常见的表馄饨馅,消化不良的症状-美国高等教育危机:芝加哥社区大学的经历,美国教育开展情符号、UTF-8 编码的表情凤逆全国小说符号以及白话术语和缩写(例如 meh、lol、sux)。

关于给定的输入文本数据,vaderSentiment 回来一个极性分数百分比的三元组。它还供给了一个单个的评分标准,称为 vaderSentiment 复合方针。这是一个在 [-1, 1] 范围内的实值,其间关于分值大于 0.05 的心情被认为是活跃的,关于分值小于 -0.05 的被认为是消沉的,否则为中性。

在 第 2 部分 中,你将学习怎样运用这些东西为你的规划增加情感剖析功用。


via: https://opensource.com/article/19/4/social-media-sentiment-analysis-python

作者: Michael McCune 选题: lujun9972 译者: MjSeven 校正: wxy

本文由 LCTT 原创编译, Linux我国 荣誉推出

点击“了解更多”可拜访文内紫薯布丁是什么意思链接

 关键词: