近年来,人工智能领域的发展突飞猛进,特别是在大语言模型(LLM)方向,各类突破性技术层出不穷。近日,麻省理工学院(MIT)提出了一种名为“测试时训练”(Training during Testing)的创新方法,成功地让一个参数量仅为80亿(8B)的小型语言模型在抽象推理挑战(ARC,Abstraction and Reasoning Corpus)任务中表现超越人类平均水平。这一成果不仅引发了学术界的广泛关注,也再次刷新了我们对小模型潜力的认知。
ARC任务由François Chollet于2019年提出,旨在评估模型在面对全新问题时的抽象推理与泛化能力。与传统的图像识别或语言理解任务不同,ARC任务要求系统在极少量示例下理解问题的潜在规则,并将这些规则应用到新的情境中。这正是人类智能的核心特征之一:在有限信息下进行归纳和推理。
ARC任务通常包括若干组训练样例和测试样例,每组样例由输入输出的网格图案组成。模型需要理解输入与输出之间的转换规则,并将其应用于新的输入。例如,一个任务可能要求“将每个图形中最右边的点移动到最左边”,而模型必须在没有显式编程的情况下发现这一规则。
MIT研究团队提出的方法被称为“测试时训练”(Training during Testing),这一思路与传统的“预训练+微调”范式有本质不同。通常情况下,模型在训练阶段学习通用知识,而在测试阶段仅进行推理。MIT团队则在测试阶段对模型进行即时训练,即针对每个具体的测试任务,利用其提供的训练样例对模型进行微调,从而使其更适应当前任务。
具体而言,该方法在处理每个ARC任务时,首先将任务描述和训练样例作为输入传递给模型,然后使用这些信息对模型参数进行梯度更新,即使得模型在当前任务上表现更好。这种做法类似于元学习(meta-learning)的思想,但区别在于它是在测试阶段进行实时参数调整,而非在训练阶段学习“如何学习”。
尽管该模型的参数量仅为80亿,远小于当前主流的大模型(如GPT-3的1750亿参数),但在ARC任务中的表现却令人惊讶。MIT团队在标准测试集上的评估显示,该模型的准确率达到了80%以上,超过人类平均表现(约为75%)。这一结果不仅说明了“测试时训练”方法的有效性,也表明模型规模并不是决定性能的唯一因素。
值得注意的是,这一方法在处理每个任务时所需的训练样例非常有限,通常只有3到5组输入输出对。这与传统深度学习动辄数百万数据样本的需求形成鲜明对比,体现了该方法在小样本学习(few-shot learning)方面的巨大潜力。
MIT的这一研究成果具有多方面的深远意义:
重新定义模型训练与推理的边界:传统模型训练与推理是两个分离的阶段,而“测试时训练”模糊了这一界限,使模型能够在推理过程中持续优化自身。这种模式更接近于人类在面对新问题时的学习方式。
提升小模型竞争力:随着大模型的参数规模不断膨胀,其训练和部署成本也急剧上升。MIT的成果表明,通过算法创新,小型模型同样可以实现优异性能,这对于资源受限的场景具有重要意义。
推动抽象推理研究:ARC任务长期以来被认为是衡量智能系统抽象能力的重要基准。MIT模型的成功表明,我们正在逐步接近能够理解并应用抽象规则的AI系统。
启发新型学习范式:该方法为未来AI系统的设计提供了新的思路,例如如何在运行时动态调整模型、如何在有限数据下快速适应新任务等。
尽管“测试时训练”方法取得了显著成果,但仍面临一些挑战:
未来,MIT团队计划将这一方法扩展到多模态任务,并探索其在实际应用场景中的潜力,例如教育、自动化编程、个性化推荐等领域。
MIT的“测试时训练”方法为人工智能的发展注入了新的活力。它不仅证明了小模型在合适策略下的强大能力,也为我们理解智能的本质提供了新视角。随着这类方法的不断演进,我们或许正在见证一个新时代的到来——在这个时代中,AI不再只是被动执行任务的工具,而是能够主动学习、推理和适应的智能体。
公司:赋能智赢信息资讯传媒(深圳)有限公司
地址:深圳市龙岗区龙岗街道平南社区龙岗路19号东森商业大厦(东嘉国际)5055A15
Q Q:3874092623
Copyright © 2022-2025