您的位置::开孔机械网 >> 复卷机

自然语言处理NLP取得了长足进步但是AI对其阅读的内容了解多少德惠

时间:2022年07月29日

自然语言处理(NLP)取得了长足进步-但是AI对其阅读的内容了解多少?

最近,自然语言处理(NLP)取得了长足进步-但是AI对其阅读的内容了解多少?据南加州大学计算机科学系的研究人员说,这比我们想象的要少。在最近的一篇论文中,助理教授项仁和博士生林雨辰发现,尽管有了进步,人工智能仍然不具备产生合理句子所需的常识。

林说:“当前的机器文本生成模型可以写一篇可能使许多人信服的文章,但是它们基本上是在训练阶段看到的中国机械网okmao.com。” “本文的目标是研究当前最先进的文本生成模型是否可以编写句子来描述我们日常生活中的自然场景。”

了解日常生活中的场景

具体地说,Ren和Lin对模型的推理能力进行了测试,结果表明当前的文本生成模型与人类表现之间存在很大的差距。给定一组常见的名词和动词,使用最先进的NLP计算机模型来创建描述日常场景的可信句子。尽管这些模型生成的语法正确的句子,但它们在逻辑上常常是不连贯的。

例如,这是一个由最新模型使用“狗,飞盘,投掷,抓住”一词生成的示例句子:

“两只狗互相扔飞盘。”

该测试基于以下假设:如果没有更深的常识概念,就不可能产生连贯的想法(在这种情况下:“一个人扔飞盘,一只狗抓住飞盘”)。换句话说,常识不仅仅是对语言的正确理解-这意味着您不必在对话中解释所有内容。这是开发通用AI的目标的一项根本挑战-但除了学术界,它对消费者也很重要。

在不了解语言的情况下,基于这些最新自然语言模型构建的聊天机器人和语音助手很容易出现故障。如果机器人要在人类环境中出现更多,这也至关重要。毕竟,如果您向机器人询问热牛奶,您会希望它知道您要喝一英里,而不是整个纸箱。

Lin说:“我们还证明,如果生成模型在我们的测试中表现更好,它也可以使需要常识推理的其他应用程序受益,例如机器人学习。” “机器人在采取合理的行动与人互动之前,需要了解我们日常生活中的自然场景。”

南加州大学的王春书,沉明,周培和林和任一起出现在纸上。来自艾伦人工智能研究所的Chandra Bhagavatula;和艾伦人工智能研究所的Yeye Choi以及华盛顿大学保罗·艾伦计算机科学与工程学院。

常识测试

常识性推理或使用关于世界的基本知识进行推理的能力(例如狗不能互相飞盘的事实)抵制了AI研究人员数十年的努力。先进的深度学习模型现在可以达到90%左右的准确性,因此NLP似乎已经接近其目标。

但是,自然语言处理专家Ren和他的学生Lin都需要对该数据的准确性更具说服力。他们在11月16日发表在《自然语言处理中的经验方法的发现》(EMNLP)会议上的论文中,他们挑战了基准测试的有效性,因此挑战了该领域实际取得的进步。

林说:“人类通过学习理解和使用他们在周围环境中认识到的共同概念而获得了组成句子的能力。”

“获得这种能力被认为是人类发展的一个重要里程碑。但是我们想测试机器是否真的能够获得这种生成常识性推理能力。”

为了评估不同的机器模型,这对夫妇开发了一个称为CommonGen的约束文本生成任务,该任务可用作测试机器生成常识的基准。研究人员展示了一个数据集,该数据集包含35,141个概念以及77,449个句子。他们发现性能最好的模型仅达到了31.6%的准确率,而人类的准确率为63.5%。

林说:“令我们惊讶的是,这些模型无法回忆起简单的常识性知识,即'人扔飞盘'比狗做飞盘更合理。” “我们发现,即使是最强大的模型T5,在使用大型数据集进行训练之后,仍然可能犯傻的错误。”

研究人员说,以前的测试似乎并没有充分挑战模型的常识能力,而是模仿了他们在训练阶段所见。

任志刚说:“以前的研究主要集中在区分常识上。” “他们用选择题来测试机器,机器的搜索空间很小,通常是四到五个候选者。”

例如,区分常识测试的典型设置是多项选择题回答任务,例如:“成年人在哪里使用胶棒?” A:教室B:办公室C:书桌抽屉。

答案当然是“ B:办公室”。即使是计算机,也可以轻松解决此问题。相反,生成设置是开放性的,例如CommonGen任务,其中要求模型从给定的概念生成自然语句。

任先生解释说:“通过广泛的模型训练,在那些任务上表现出色是很容易的。与那些具有区别性的常识推理任务不同,我们提出的测试侧重于机器常识的生成方面。”

任和林希望该数据集将成为一个新的基准,以有益于将来在将自然语言引入常识方面的研究。实际上,他们甚至拥有一个排行榜,描述了各种流行模型所获得的分数,以帮助其他研究人员确定他们在未来项目中的可行性。

林说:“机器人在采取合理的行动与人互动之前,需要了解我们日常生活中的自然场景。”

“通过向机器引入常识和其他特定领域的知识,我相信有一天我们可以在电影《赫尔》中看到诸如萨曼莎(Samantha)这样的AI代理,这些代理会产生自然的反应并与我们的生活互动。”

江苏30吨微机屏显式液压万能试验机

试验机

液压万能试验机价格

江苏WEWE300B液压万能试验机价格

WDS-100M材料试验机

友情链接