近年来,人工智能领域的发展速度令人瞩目,特别是在长序列模型(LLM)的研究进展中,CoT(Chain of Thought)概念的提出和应用,被认为是推动AI向更高智能迈进的一个重要步骤。然而关于CoT是否真的能够成为通向AGI(强人工智能)的桥梁,学界尚存在分歧。
具体来看,CoT的核心思路是通过生成一系列的中间推理步骤,帮助模型表达和解释其决策过程,类似于人类在面对问题时的思考过程。这种方式在一定程度上帮助模型提升了处理复杂推理任务的能力,甚至在某些任务上展现出了超越人类的表现。
例如,谷歌DeepMind的首席科学家Denny Zhou近期公开了一项研究,展示了CoT在提升Transformer模型处理问题能力上的潜力。研究指出,通过足够多的CoT步骤,Transformer几乎可以解决任何问题,这对于推动模型的应用范围具有重要意义。
但同时,这一理论也引发了一些批评。诸如田渊栋和Yann LeCun等业界知名人士对于CoT的热情持谨慎态度。他们认为,虽然CoT理论上显示了无限的可能,但实际应用中其效率和实用性仍有待观察,特别是在模型需要处理极其复杂或未曾见过的问题时,CoT的实际效果可能并不理想。
田渊栋在一次讨论中指出,尽管通过构建特定权重可以使Transformer模拟任何逻辑过程,但这种方法在实际应用中可能会面临链条过长、计算资源消耗巨大的问题。这意味着,在没有充足计算资源的情况下,模型的效能可能大打折扣。
LeCun也表达了类似观点,他通过比喻解释了只因理论上可行,并不意味着实际中也高效。他举例说,在理论上,简单的2层神经网络可以逼近任何函数,但这并不意味着我们总应使用它来处理各种复杂问题。