定义

自然语言处理

什么是自然语言处理?

自然语言处理(NLP)是指计算机程序理解人类语言的口语和书面的能力,被称为自然语言。它是人工智能(AI.)。

NLP已经存在超过50年,并在语言学领域具有根源。它在多个领域拥有各种现实世界应用,包括医学研究,搜索引擎和商业智能。

自然语言处理如何工作?

自然语言处理使计算机能够像人类一样理解自然语言。无论语言是口语还是书面语,自然语言处理都使用人工智能来获取真实世界的输入,处理它,并以计算机可以理解的方式理解它。就像人类有不同的传感器——比如耳朵来听,眼睛来看——电脑有程序来读,有麦克风来收集音频。就像人类有一个大脑来处理输入一样,计算机也有一个程序来处理它们各自的输入。在处理过程中,输入被转换成计算机可以理解的代码。

自然语言处理有两个主要阶段:数据预处理和算法开发。

数据预处理涉及准备和“清洁”用于能够分析它的机器的文本数据。预处理将数据以可行的形式放入并突出显示算法可以使用的文本中的功能。有几种方式可以完成,包括:

  • 象征化这是指将文本分解成更小的单元。
  • 停止词移动。这是从文本中删除常用单词时,如此唯一的单词,这些单词提供了有关文本的最多的信息。
  • 词元化和鼻塞。这是单词被简化为词根形式来处理的时候。
  • 分词标记。这是指根据单词的词性来标记它们,比如名词、动词和形容词。

一旦数据被预处理,就会开发出一种算法来处理它。有许多不同的自然语言处理算法,但常用的主要有两种:

  • 基于规则的系统。这个系统使用精心设计的语言规则。这种方法在自然语言处理的早期开发中使用过,现在仍然在使用。
  • 基于机器学习系统。机器学习算法使用统计方法。他们学会根据培训数据执行任务,并随着处理更多数据,调整它们的方法。使用机器学习的组合,深度学习和神经网络,自然语言处理算法通过反复处理和学习,磨练自己的规则。

为什么自然语言处理重要?

企业使用大量非结构化、文本量大的数据,需要一种有效处理这些数据的方法。许多在线创建和存储在数据库中的信息都是自然的人类语言,直到最近,企业还不能有效地分析这些数据。这就是自然语言处理有用的地方。

当考虑以下两个语句时,自然语言处理的优势就可以体现出来:“云计算保险应该是每个服务级别协议的一部分”和“A good .SLA确保一个更容易的睡眠 - 即使在云中也是如此。“如果用户依赖于搜索的自然语言处理,则该程序将识别出来云计算是一个实体,那是云计算的缩写形式吗SLA是服务水平协议的行业首字母缩写。

NLP使用图
这些是业务可以使用自然语言处理(NLP)的一些关键领域。

这些类型的模糊元素经常出现在人类语言中,而机器学习算法在口译方面一直很糟糕。现在,随着深度学习和机器学习方法的改进,算法可以有效地解释它们。这些改进扩大了可分析数据的广度和深度。

自然语言处理的技术和方法

语法和语义分析是自然语言处理的两种主要技术。

句法是一个句子中单词的排列使其具有语法意义。NLP使用语法来根据语法规则评估语言的意义。语法技巧包括:

  • 解析。这是对句子的语法分析。例子:一种自然语言处理算法送入句子,“狗吠。”解析涉及将这句话分为演讲的部分 - 即,狗=名词,咆哮=动词。这对于更复杂的下游处理任务非常有用。
  • 分词。这是获取一串文本并从中派生出单词形式的行为。例子:一个人把手写的文件扫描进电脑。该算法将能够分析页面,并识别被空格分隔的单词。
  • 句子打破。这个地方的句子边界在大文本中。例子:自然语言处理算法是喂养文本,“狗吠。我醒了。”该算法可以识别使用句子断裂来拆除句子的时段。
  • 形态学分割。这将单词划分为较小的零件,称为语素。例子:单词untestable会被分解为[[un[[test]able]]ly],算法将“un”、“test”、“able”和“ly”识别为语素。这在机器翻译和语音识别中特别有用。
  • 干。这将词根形式的屈折词区分开来。例子:在句子中,“狗吠叫”算法将能够识别“吠叫”的根源是“树皮”。如果用户正在分析单词吠叫的所有实例以及所有的共轭,这将是有用的。该算法可以看到它们基本上是相同的单词,即使字母是不同的。

语义包括词语背后的使用和含义。自然语言处理应用算法来理解句子的意思和结构。语义技术包括:

  • 词感歧义。这基于上下文源于单词的含义。例子:想想这个句子,“the pig is in the pen.”(猪在猪圈里。)钢笔这个词有不同的含义。使用这种方法的算法可以理解单词的用法这里指的是围栏区域,而不是写入工具。
  • 命名实体认可这决定了可以分成组的单词。例子:使用这种方法的算法可以分析一篇新闻文章,并识别所有提到某家公司或产品的内容。使用文本的语义,它将能够区分视觉上相同的实体。例如,在句子“丹尼尔·麦当劳的儿子去麦当劳点了一份开心乐园餐”中,算法可以将“麦当劳”的两个实例识别为两个独立的实体——一个是餐厅,一个是人。
  • 自然语言生成这使用数据库来确定单词后面的语义并生成新文本。例子:算法可以自动从商业智能平台上写出发现的结果摘要,将某些单词和短语映射到BI平台中数据的特征。另一个例子将根据用于培训的某个文本,自动生成新闻文章或推文。

目前的自然语言处理方法是基于深度学习的,这是一种人工智能,它检查并使用数据中的模式来提高程序的理解能力。深度学习模型需要大量的标记数据,以便自然语言处理算法训练和识别相关的相关性,并组装这类数据大数据Set是自然语言处理的主要障碍之一。

早期的自然语言处理方法涉及更多的基于规则的方法,其中更简单的机器学习算法研究人员告诉他们在文本中要查找哪些单词和短语,并给出这些短语出现后的具体反应。但深度学习是一种更灵活、更直观的方法,算法通过许多例子来识别说话人的意图——就像孩子学习人类语言一样。

通常用于自然语言处理的三个工具包括自然语言工具包(natural language Toolkit, NLTK)、Gensim和Intel自然语言处理架构师。NLTK是一个开源软件Python模块与数据集和教程。Gensim是主题建模和文档索引的Python库。英特尔NLP架构师是深度学习拓扑和技术的另一个Python库。

自然语言处理用于什么?

自然语言处理算法执行的一些主要功能是:

  • 文本分类。这涉及将标签分配给文本以将它们放入类别。这对情绪分析有用,这有助于自然语言处理算法确定文本后面的情感或情感。例如,当在X个文本中提到品牌A时,该算法可以确定这些提到的许多提到是阳性的,并且有多少是阴性的。它对意图检测也很有用,这有助于预测扬声器或写作者可以根据他们产生的文本做的。
  • 文本提取。这涉及自动总结文本并找到重要数据。其中一个示例是关键字提取,它从文本中取出了最重要的单词,这对于搜索引擎优化有用。用自然语言处理这样做需要一些编程 - 它不是完全自动化的。但是,有很多简单的关键字提取工具,可自动执行大多数过程 - 用户只需在程序中设置参数。例如,工具可能会释放文本中最常用的单词。另一个例子是命名的实体识别,其中从文本中提取人员,地点和其他实体的名称。
  • 机器翻译。这是计算机将文本从一种语言(如英语)翻译成另一种语言(如法语)的过程,无需人工干预。
  • 自然语言生成。这涉及使用自然语言处理算法来分析非结构化数据,并根据该数据自动生成内容。其中一个示例是语言模型,如GPT3,它能够分析非结构化的文本,然后根据文本生成可信的文章。

上面列出的函数用于各种实际应用,包括:

  • 客户反馈分析——人工智能分析社交媒体评论;
  • 客户服务自动化——在客户服务电话的另一端的语音助手能够使用语音识别来理解客户在说什么,以便它可以正确地引导电话;
  • 自动翻译——使用谷歌Translate、Bing Translator、Translate Me等工具;
  • 学术研究与分析——人工智能能够分析大量学术材料和研究论文,不仅基于文本的元数据,还基于文本本身;
  • 医疗记录分析和分类 - AI使用见解预测,理想预防,疾病;
  • 用于抄袭和校对的文字处理器 - 使用语法和Microsoft Word等工具;
  • 股票预测和金融交易洞察——使用人工智能分析市场历史和10-K文件,其中包含关于公司财务业绩的全面总结;
  • 人力资源的人才招聘;和
  • 自动化的日常诉讼任务,一个例子是人工智能律师

在自然语言处理上进行的研究围绕搜查,特别是企业搜索。这涉及使用用户可能对另一个人构成的问题的形式查询数据集。该机器解释人类语言句子的重要元素,其对应于数据集中的特定功能,并返回答案。

NLP可用于解释免费,非结构化文本并使其进行分析。存在巨额信息,存储在免费文本文件中,例如患者的病历。前深度学习这些信息无法用计算机辅助分析,也无法用任何系统的方式进行分析。使用NLP分析人员可以筛选大量的免费文本,以找到相关信息。

情绪分析是NLP的另一个主要用例。通过情绪分析,数据科学家可以评估社交媒体上的评论,以了解他们的企业品牌表现如何,或者查看客户服务团队的笔记,以确定人们希望企业在哪些领域表现更好。

自然语言处理的好处

NLP的主要好处是它改善了人和计算机之间的通信方式。操作计算机最直接的方式是通过代码——计算机的语言。通过让计算机理解人类语言,人类与计算机的交互变得更加直观。

其他好处包括:

  • 提高了文件的准确性和效率;
  • 能够自动制作更大,更复杂的原始文本的可读摘要;
  • 对于像Alexa这样的个人助理来说很有用,因为它能听懂别人说的话;
  • 使组织能够使用聊天机器人客户支持;
  • 更容易进行情感分析;和
  • 提供从数据量无法访问的分析的高级见解。

自然语言处理的挑战

自然语言处理有许多挑战,大多数人归结为自然语言永远不断发展的事实,总是有些暧昧。他们包括:

  • 精确。传统上,计算机需要人类用一种精确、明确、高度结构化的编程语言与它们“交谈”,或者通过有限数量的清晰发音的语音命令。然而,人类的语言并不总是精确的;它通常是模棱两可的,语言结构可能依赖于许多复杂的变量,包括俚语,地区方言和社会背景。
  • 语气和拐角。自然语言处理尚未完善。例如,语义分析仍然可能是一个挑战。其他困难包括:抽象使用语言通常令人棘手,以便进行理解。例如,自然语言处理不易拾取讽刺。这些主题通常需要了解正在使用的单词以及它们在对话中的上下文。作为另一个例子,句子可以改变扬声器对压力的单词或音节的意义。NLP算法可能会错过微妙,但重要的是在执行语音识别时一个人的声音的音调变化。语音和换气的言论也可能在不同的复印件之间变化,这可能是对解析算法的具有挑战性。
  • 不断发展的语言自然语言处理也受到了语言——以及人们使用语言的方式——不断变化这一事实的挑战。虽然语言是有规则的,但没有一成不变的,它们会随着时间的推移而变化。随着现实世界语言的特征随着时间的推移而改变,现在有效的硬计算规则可能会过时。

自然语言处理的演变

自然语言处理借鉴了多种学科,包括可追溯到20世纪中期的计算机科学和计算语言学的发展。它的演变包括以下主要里程碑:

  • 20世纪50年代。当Alan Turing开发时,本十年来,自然语言处理有其根源图灵测试确定计算机是否真正智能。该测试涉及自动解释和自然语言的产生作为智能的标准。
  • 20世纪90年代 - 1990年代。NLP主要是基于规则的,使用语言学家开发的手工制定规则来确定计算机如何处理语言。
  • 1990年代。自顶向下、语言优先的自然语言处理方法被一种更统计的方法所取代,因为计算的进步使这种方法成为开发自然语言处理技术的一种更有效的方法。计算机的速度越来越快,可以用来制定基于语言统计的规则,而不需要语言学家创造所有的规则。在这十年中,数据驱动的自然语言处理成为主流。自然语言处理从基于语言学的方法转变为基于工程师的方法,利用更广泛的科学学科,而不是深入研究语言学。
  • 2000-2020S。自然语言处理视为普及的巨大增长为一个术语。随着计算能力的进步,自然语言处理也获得了许多现实世界的应用。今天,NLP的方法涉及经典语言学和统计方法的组合。

自然语言处理在技术和人类与其互动的方式中起着重要的部分。它在业务和消费领域的许多现实世界应用中使用,包括聊天,网络安全,搜索引擎和大数据分析。虽然没有挑战,但NLP预计将继续成为行业和日常生活的重要组成部分。

虽然有疑问,但是自然语言处理在医学成像领域正在进行重要程度。学习怎样放射科医师使用AI和NLP在他们的练习中,审查他们的工作并比较案件。

这是最后更新的3月2021年3月

继续阅读自然语言处理(NLP)

深入了解自然语言处理技术

搜索商业分析
搜索CIO.
搜索数据管理
搜索ERP
关闭