大规模实验剖析情境学习的泛化能力与局限
大语言模型的“情境学习”(ICL)能力究竟是真正的学习还是高级的模式匹配?为了回答这一核心问题,来自微软和约克大学(University of York)的 Adrian de Wynter 进行了一项大规模实证研究。该研究系统地检验了ICL的泛化能力,发现虽然ICL在数学上构成学习,但它对新任务的泛化能力有限,且高度依赖提示中的统计规律而非对任务本身的深刻理解。
研究团队对四种主流大语言模型进行了超过189万次预测实验,涵盖九种不同复杂度的任务。实验系统地改变了提示中的示例数量、数据分布以及提示策略,如思维链。与普遍认为的“少样本”学习不同,研究发现ICL的性能随示例数量增加而提升,在50到100个示例时达到峰值。然而,ICL的鲁棒性存在明显短板。它对测试数据与提示中示例数据的分布差异极其敏感,尤其在使用思维链等复杂提示策略时,性能会急剧下降,这表明模型更倾向于从提示的表面统计规律中推断答案,而非学习任务的内在逻辑。此外,即使是形式上高度相似的任务,模型的表现也可能相差悬殊(准确率差距高达31%),并且在半数任务上,其平均性能不如决策树等传统机器学习基线模型。研究总结认为,ICL的即时编码机制(ad-hoc encoding)并非一种稳健的通用学习范式,这对其跨任务泛化能力构成了根本限制。
阅读更多:
Wynter, Adrian de. “Is In-Context Learning Learning?” arXiv:2509.10414, arXiv, 15 Sept. 2025. arXiv.org, https://doi.org/10.48550/arXiv.2509.10414
精选评论