研究人员发现语言模型在遵循基本指令方面做得不好

来源： 2021-04-13 15:10:32

Facebook和特拉维夫大学的研究人员发表的一篇新论文研究了机器学习语言模型是否可以理解基本的指令集。研究人员提出了一种称为“ Turking测试”的测试，以检验模型遵循自然语言指令的能力。尽管研究人员将其描述为宽松的评估方法，但他们观察到，经过预训练的语言模型在所有任务上的表现都很差。

人工智能的基本问题之一是建立一个可以推广到以前看不见的任务的模型。最近的工作提出了一种简化的推理方法，其中一种语言模型以新任务的一些示例为条件，然后输入要处理的模型。这种方法在一系列任务上效果很好，但是本文的合著者试图通过以指令为条件来确定语言模型是否可以执行新任务。

Turking测试包含各种语法复杂度的指令跟踪基准，从“ turking”任务开始，其中模型必须创建流行的自然语言处理数据集的有效示例。(这是为了模拟通常由外行人员在诸如Amazon Mechanical Turk之类的众包平台上执行的任务。)测试的另一部分是对模型的任务，其中列出了给定句子中满足简单条件的所有名词。要通过Turking测试，模型还必须在给定的句子中写第N个单词或字符。

研究人员将Turking Task应用于OpenAI的GPT-2，该模型具有15亿个参数(该模型内部的变量会影响其预测)。总体而言，结果令人失望。GPT-2在编写第N个单词的任务上仅达到2%的准确度，作者注意到这是小学生可以轻松完成的事情。该模型还忽略了指令中出现的显式限制和条件，与具有特定答案的任务相比，开放式任务的准确性仅稍高。

研究人员写道：“分析模型的错误模式表明，该模型倾向于忽略明确的指令，并经常产生无法解释为解决任务的输出。”“如此大量的输出包含无意义的重复，这一事实表明该模型无法理解这些琐碎的指令。”即使这些任务相似并且具有几乎相同的指令，我们也发现它们的重复模式显着不同，这表明该模型对指令中的微小变化非常敏感。”

语言模型是否有一天像有思想的人一样进行交流，需要学习很多东西。除了明显无法遵循指令外，他们还容易产生偏见并难以掌握常识。研究表明，诸如XTREME之类的基准不能很好地衡量模型的知识，并且诸如T-ULRv2之类的模型可能表现出针对特定人口群体的毒性和偏见。

缩小差距可能需要新的技术和方法。Sam Altman是OpenAI的首席执行官，该公司是GPT-2和GPT-3(其继任者)背后的公司。在回应公众对GPT-3的反应时，奥特曼最近表示：“炒作实在太多了。令人印象深刻，但仍然存在严重的缺陷，有时还会犯非常愚蠢的错误。人工智能将改变世界，但是[最先进的语言模型]只是早期的一瞥。我们还有很多事情要解决。”

研究人员发现语言模型在遵循基本指令方面做得不好

Facebook和特拉维夫大学的研究人员发表的一篇新论文研究了机器学习语言模型是否可以理解基本的指令集。研究人员提出了一种称为 Turking测