最近发表在 Nature 上的一项研究显示,随着人工智能模型的参数规模增大,它们的行为趋向于更难承认自己的“无知”并更可能产生错误回答。研究团队探索了GPT、LLaMA 和 BLOOM 等一系列大语言模型的表现,并揭示了一些引人深思的现象。
首先,研究中的一个关键发现就是难度不一致性。在处理复杂任务,例如多位数加法时,扩展后的模型能够准确给出答案,但当面对简单的两位数加法任务时,错误率却意外地增高。这种现象表明,在参数规模扩大的过程中,模型似乎在复杂任务的学习上得到了优化,但对简单任务的处理能力却有所退化。另一方面,错误率的增加在复杂任务上似乎并不明显,但在简单任务上却更常见。
页码:下一页