AI语言模型像人群一样发展出社会规范-转角遇见书店

AI语言模型像人群一样发展出社会规范 AI语言模型像人群一样发展出社会规范(图2)

大型语言模型群体在玩简单的互动游戏时，可以根据研究1的结果发展出社会规范，例如采用自己的一套语言使用规则。这项研究本周发表在《科学进展》（Science Advances）杂志上。 AI语言模型像人群一样发展出社会规范(图1)

伦敦城市圣乔治大学的合著者安德里亚·巴伦切利（Andrea Baronchelli）表示，诸如握手或鞠躬等社交惯例代表了“任何协调社会的基本构成要素”。他研究人们在群体中的行为，这次想看看当大型语言模型（LLMs）在群体中互动时会发生什么情况。 AI语言模型像人群一样发展出社会规范(图1)

在他的团队进行的第一个也是两个实验中的一个中，他们使用了一个名为Claude的LLM，该模型由位于加利福尼亚州旧金山的初创公司Anthropic创建，进行了一项命名游戏，这种游戏类似于人类群体动态研究中使用的类型。该游戏包括随机配对一组成员并要求他们为一个物体命名，如果给出与搭档相同的名称则会获得经济奖励，如果不一致则会受到惩罚。经过几轮重复进行，并继续随机化搭档后，小组成员开始给这个物体赋予相同的名称。这种命名趋同代表着社会规范的形成。 AI语言模型像人群一样发展出社会规范(图1)

在研究中，该团队设置了24个Claude副本，然后随机将其中两个副本配对，指示每对中的每个模型从10个选项中选择一个字母。如果模型选择了与其搭档相同的字母，则给予奖励；如果没有，则予以惩罚。在多轮游戏之后，每次都有新的搭档，成对的模型开始选择相同的字母。 AI语言模型像人群一样发展出社会规范(图1)

集体偏见

当该游戏在200个Claude副本和最多26个字母池中重复进行时，也观察到了这种行为。当实验在Meta于加利福尼亚州门洛帕克开发的LLM Llama的三个版本上重复进行时，也出现了类似的结果。 AI语言模型像人群一样发展出社会规范(图1)

尽管这些模型在单独运行时是随机选择字母的，但当它们被分组时，它们更倾向于选择某些字母而非其他字母，这表明它们形成了集体偏见。在人类中，集体偏见是指人们彼此互动时出现的信念或假设。 AI语言模型像人群一样发展出社会规范(图1)

巴伦切利对这一发现感到惊讶。“据我们所知，这种现象以前从未在人工智能系统中被记录过，”他补充道。 AI语言模型像人群一样发展出社会规范(图1)

巴伦切利说，集体偏见的形成可能导致有害的偏见，即使单个代理看起来没有偏见。他和他的同事建议需要在群体中测试LLM以改善其行为，这可以补充其他研究人员减少个体模型偏见的工作。 AI语言模型像人群一样发展出社会规范(图1)

持不同意见的少数派

在进一步的实验中，巴伦切利和他的同事向这24个模型组成的群体中引入了一些被编程始终提出新名称的副本。一旦这些新加入的副本数量达到某个阈值，它们就能“推翻既定的惯例，并在整个群体中强加新的惯例，这是在人类社会中众所周知的一种模式”，巴伦切利说道。 AI语言模型像人群一样发展出社会规范(图1)

悉尼大学的人工智能和人机交互研究员乔纳森·库姆菲尔德（Jonathan Kummerfeld）表示，这项研究是一个有趣的实验。但他认为，模型迅速就达成一种惯例并不令人意外，整个群体改变以适应那些被编程为提出新答案的模型也是如此。他说，提供给LLM的提示语起到了“强有力的集中指导作用”。 AI语言模型像人群一样发展出社会规范(图1)

库姆菲尔德表示，预测LLM群体的行为很难，并且随着模型开始以更加复杂的方式被使用，这种情况将会变得更加困难。“制定一些防护措施或以某种方式限制模型，需要在防止不良行为和保持使这些模型如此有用灵活性之间取得艰难的平衡，”他补充道。