要理解语言模型,我们必须将“语言”与“思想”分开
本文是揭秘AI的一部分,该系列文章(试图)消除围绕AI的行话和神话的歧义。
随着ChatGPT等高级模型的发布,围绕大型语言模型(LLM)的讨论变得更加两极分化。争论的范围从法学硕士是“思维机器”到将记忆的文本拼接在一起的愚蠢程序。
德克萨斯大学奥斯汀分校和麻省理工学院(MIT)的研究人员认为,为了消除混淆,我们需要一个不同的框架来考虑法学硕士。在一篇题为“在大型语言模型中分离语言和思想:认知视角”的论文中,研究人员认为,要了解LLM的力量和局限性,我们必须将“正式”语言能力与“功能”语言能力区分开来。
研究人员表示,法学硕士在前者方面取得了令人瞩目的进步,但在后者方面仍有很多工作要做。这种区别有助于澄清围绕LLM的讨论,并找到构建“以类似人类的方式理解和使用语言”的模型的途径。
关于语言模型的两个常见谬误
“与任何事情一样,我认为人们看待LLM的方式受到他们自己的背景、培训和经验的影响,”该论文的合著者和UT奥斯汀的计算语言学家Kyle Mahowald告诉TechTalks。“令人兴奋的是,LLM吸引了学术界众多领域的兴趣:不仅是NLP领域,还有语言学、神经科学、哲学、人类学、社会学、政治学等。这自然导致了对LLM及其观点的多样化能力。当然,对我们来说也是如此。这就是为什么我们将‘认知视角’放在论文标题中的部分原因。”
在论文中,研究人员探讨了与语言和思维相关的两种常见谬误。第一种说法是擅长语言的实体也善于思考,科学家将其描述为“善于语言->善于思考”的谬论。这种谬误导致了这样一种论点,即大型语言模型是迈向“思维机器”和通用人工智能(AGI)的一步。
第二个谬误,称为“不擅长思考->不擅长语言”,表明如果一个语言模型不能完全捕捉人类思想的丰富性和复杂性,那么它就不是一个好的人类语言模型。
这种思路的特点是不断批评语言模型的常识推理能力差,缺乏一致的、可概括的世界知识。
“这两个谬误实际上源于同一个误解:将语言和思想等同起来,”该论文的合著者、麻省理工学院博士后研究员Anna Ivanova告诉TechTalks。“这是一个自然而然会犯的错误的一个原因是,在现实生活中,我们无法了解另一个人的想法。如果我们想知道某人的思考能力如何,通常我们能做的最好的事情就是问他们一个问题,然后听听他们的回答。”
该论文建议,如果我们区分形式语言能力和功能语言能力,就可以避免这些谬误。
法学硕士和正式语言能力
形式语言学包括产生和理解给定语言所需的能力。它包括语言规则以及无法通过规则捕获的统计规律。
transformer架构是当今LLM的基础,已被证明是对正式语言能力进行建模的非常好的工具。Transformer使用多层神经元、注意机制和并行处理来执行非常准确的“下一个词”预测。
给定足够的训练数据,大型转换器模型可以生成具有一致语言特征的长文本序列。例如,LLM可以执行远距离数字一致(尽管在有嵌套句子时它们仍然达不到人类的表现)。他们还擅长处理主谓一致、wh-问题以及过去的方法通常失败的语言学的其他方面。
研究人员写道:“尽管改变目标并专注于这些模型仍然无法做到的事情很诱人……我们认为不应忽视法学硕士捕捉各种语言现象能力的显着进步。”
“在我们看来,法学硕士在我们所谓的‘正式语言能力’方面有多么令人印象深刻,这似乎还没有得到充分的认可,”Mahowald说。“他们可以说出非常流利的语言,正确处理许多非常复杂的语言结构。这不是什么!
同时,它们突出了形式语言学在大型语言模型中的局限性。例如,LLM可以在不学习相关语言信息(例如层次结构和抽象语法类别)的情况下在基准测试中取得良好的性能。换句话说,“这些模型可能‘因为错误的原因而正确’,并利用输入中的某些未被测试的特征,”研究人员写道。
大型语言模型还需要不切实际的数据量才能实现接近人类的性能。研究人员指出,人类语言学习者“可能依赖于预先存在的偏见,以便从稀疏和嘈杂的输入中快速学习——当今最先进的模型所缺乏的偏见。”一个有趣的研究方向是可以帮助LLM更快地学习并使用更少数据的归纳偏差,以及可以捕获这些偏差的架构。
法学硕士和功能语言能力
功能语言学是关于使用语言在世界上做事。我们使用语言来发送和接收关于我们的感知和认知系统的信息,例如我们的感官和记忆。这些能力不同于正式的语言能力。我们使用语言来执行社交技能和解决现实世界的问题。正如科学家们在他们的论文中所写的那样,“一个孤立的正式语言系统对语言使用者来说是无用的,除非它可以与其余的感知、认知和行动相结合。”
用于训练LLM的大型文本语料库包含大量非语言信息。这就是为什么语言模型在某些评估逻辑和推理能力的基准测试中表现出令人印象深刻的表现。基本上,如果一个场景足够普遍,LLM就可以成功。但是,如果在需要仔细推理和规划的任务上稍加推动,语言模型就会开始崩溃。
为什么这很重要?“没有非语言认知技能,现实生活中的语言使用是不可能的。理解句子、推理其含义并决定说什么——这些技能都依赖于远远超出词汇语义或句法的认知能力,”研究人员警告说。
本文讨论了功能语言学的四个关键领域,包括形式推理、世界知识、情境建模和社会推理。在所有情况下,LLM都显示出一定程度的表面能力,可以通过学习统计规律来获得。但他们缺乏使他们能够始终如一地执行任务的基础知识。
研究人员写道:“掌握了人类语言的许多句法和分布特性的模型仍然无法以类似人类的方式使用语言。”“换句话说,他们的功能语言能力仍处于起步阶段。”
“我们感觉到有些人认为这种语言上的成功意味着法学硕士正在敲开通用人工智能的大门,”Mahowald说。“利用认知科学和认知神经科学,我们认为人类认知不仅仅是流利的语言——即使承认流利的语言是一揽子计划的一部分。”
“关注LLM在掌握语言规则和模式方面取得成功的人会立即得出结论,这些模型正在学习思考,”Ivanova说。“关注LLM在语言使用方面失败的人完全忽视了他们,忽视了他们在学习规则和模式方面的成功。”
分离语言和思想
研究人员认为,来自认知科学和神经科学的证据表明,人类的语言和思想是强烈分离的。
例如,失去语言能力的人仍然保持着认知能力,例如下棋、作曲和解决算术问题。核磁共振扫描显示,大脑的语言网络在人们听、读或造句时非常活跃,但在进行算术、逻辑推理、编写程序等时则不然。
“专门处理语言的机器与负责记忆、推理和社交技能的机器是分开的,”研究人员写道。
因此,作者建议,如果我们基于形式语言学和功能语言学的分离来进行LLM研究,我们就可以解决该领域当今面临的一些挑战。他们提供了一些建议来指导LLM研究的未来。
一种解决方案是引入模块化,将核心语言与认知技能分开。模块化可以通过组合为不同功能设计的组件的架构来实现。它也可以是紧急的,其中底层转换器模型的设计方式允许单独的、专门的模块在训练期间自行开发。研究人员写道:“无论是内置的还是诱导出现的,模块化都可以引导模型反映人脑的功能组织,从而使它们的行为更加人性化。”
第二种解决方案是超越在网络上精选的大型通用文本语料库上训练LLM。作者建议为不同的任务开发专门的数据集,使用反映人类认知能力的模块化架构,并在不同的目标函数上训练模型。一个有前途的方向是从人类反馈中强化学习(RLHF),这是一种用于训练ChatGPT的技术。
最后,作者讨论了评估正式和功能语言能力的不同基准的必要性。
“明确识别语言使用所需的不同能力是第一步;建立基准和有针对性的测试来评估这些能力是第2步;在测试发现有问题的区域改进模型是第3步,”Ivanova说。
Mahowald还对该领域的透明度下降表示担忧。随着初创公司和大型科技公司争夺更大的LLM市场份额,他们越来越不愿意将自己的研究成果提供给其他人。
“我真正关心的是理解人类语言和认知,我认为LLM是一个非常令人兴奋的工具,因为它们让我们能够分析一个具有真正有趣功能的系统,”他说。“因此,我希望仍然有使用LLM进行科学探究的地方。如果他们变得越来越封闭和私有化(正如我们所看到的),那么这种公开调查可能就不可能了。因此,我对为学术研究构建LLM的开源努力感到兴奋和充满希望。”