婴儿床思考链的下一步是什么? DeepMind提出了一个框架链COF。逐帧视频的生成类似于语言模型中的链条思维。除了链条思维(COT)外,还可以推断出具有符号的语言模型,“图片”(COF)允许视频模型随时间和空间推断。先前的观点来自我看到的最后一篇文章,类似于语言模型中的COT。他们首次提出了COF的概念。此外,通过众多测试,团队发现,由VIV 3代表的视频模型开发了一般的视觉理解能力。预计这将解决以零样本为零的“见”的完整链的视觉任务,快速进步并成为未来人造视觉的“一般基本模型”。一个更简单,更快的摘要是“我看到3是视觉推理露营者的GPT-3时刻。LUE和重要性,让我们看一下原始的第一篇文章。 DeepMind首先提出了COF的概念。根据文章,在特定任务实践中,Cof Provo的提议并最终成为“愿景的基本模型”?将给他们指示,也不会接受特殊的培训。通过Google API,为模型指定“第一张图像(在第一张图片中) +文本指令”,并允许模型生成8秒和720p视频。这与“用指示代替LLM的独家培训”完全相同。目的是使用本地和独特的模型。它纯粹是完成任务验证一般功能,并取决于模型本身。通过一系列测试,团队发现视频模型确实具有通用的潜力。具体来说,我们将I认为3是一个实验主题,并发现有四个主要技能(水平进步)。首先,没有特殊培训,我看到3可以具有处理和感知许多经典视觉任务的能力。要么是一项基本任务(例如澄清图像模糊),要么是复杂的任务(例如在许多方面找到“蓝色球”),很容易处理。其次,这不足以理解。我看到3还允许您“为视觉世界构建规则”并具有建模功能。这反映在我们对物理学的理解(例如知道石头沉没)和抽象关系(例如可以放入背包中的东西)。第三,基于“清晰可见性”和“理解规则”,我看到3仍然是一个动态改变视觉世界并具有控制功能的支柱。例如,更改图像(向鸟添加围巾,将其放在雪场中),然后进行3D和模拟(让骑士跪在前面的膝盖上)。第四,以前特征的集成允许我看到3执行传输时间和空间的视觉推断,即SO称为COF干部链。给我解决迷宫问题的解决方案。从沿着白路的起点到绿点的起点,将红点漫步。我看到3可以生成红点视频,以逐步计划您的路径而无需触摸黑墙。我打了迷宫5×5 10次,我看到3次成功率为78%,而我看到2的成功率只有14%。更多的推理测试还表明,推理能力不是完美的(复杂的旋转类比会造成错误),我们可以看到“视觉智能的序言”。通常,团队通过测试得出了三个中心结论:1。分析了有62个定性任务和7项定量任务生成的18,384个视频之后,团队发现我看到3个可以解决3个未经培训或调整的任务。 2。我看到3可以让您感知,建模并查看视觉世界。它利用操纵和演示类似于“图片链(COF)”的视觉推理的早期形式的能力。 3。PA的自定义模型Rticular Task通过样本视频模型为零提高了性能,但是团队已经观察到I See 2至I See 3的性能持续不断提高,这表明视频模型的特征的快速发展。 “通才将取代专家。”此外,根据当前的性能和VI 3的成本预测,DeepMind已经开始动摇勇气。在视频模型领域,“通才”将来将取代“专家”。具体来说,作为典型的视频模型,我看到3留下了SOTA专用模型,例如用于特定任务的特定任务,例如边缘检测的准确性。不如特别优化的算法好。但是,从发展趋势的角度来看,随着模型能力的快速提高,这一差距正在缩小。第一个大型语言模型(例如GPT-3)不如通过架构,数据和CA方法的发展来调整任务调整模型,但最终成为P一般基本模型。例如,与上一代见2相比,我看到的3现在在短期内已完全更新。这表明,一般视觉和模型的产生能力在快速增长的时期类似于LLM左右。其次,通过多TRI策略(通过@10),也就是说,相同的任务是多次生成的,并以最佳方式选择。此外,结合了RLHF说明的推理量表和最佳调整等技术,我们希望绩效能够看到更多3个。此外,尽管现在的视频产生成本高于专用任务的模型,但LLM推断的成本每年减少了9-900次,尽管NLP的最初常规模型(例如GPT-3)也询问了成本,但最终,排除模型最终被“一般价值价值 +降低”代替。因此,人造视觉可能会走相同的道路和视频MO的成本DEL将来将逐渐解决。通常,DeepMind是一个充满信心的流行视频模型。 COF提出的新概念是互联网用户所说的,并且预计视频模型的新途径将与过去的贡献一样。文档:https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。