2026 年 05 月 22 日

教小孩和训练大模型一样吗？

#周报

儿子快两岁了，正是认知能力飞速发展的时候。我常常把孩子的发育与大模型的训练作对比，两者既有很多的相似之处，也有巨大的差异。每天，我都要给儿子讲故事书，哪怕一本书他已经看了无数遍。

其中有一套画册，里面有密密麻麻物体，展示各种环境下的人、物以及他们的状态。我会对其中的物体进行细致的描述，有时候我也会发问，让儿子去找其中的某个物体。很显然，这就对应了大模型训练中的两种语料，caption 以及 VQA。Caption 就是对图像整体或者局部进行非常细致的描述，可以让图像、语言两种模态互相关联。VQA 就是基于视觉的问答对，可以增强模型对图像信息的理解，定位能力。

如果我给孩子讲的故事符合 VLM 模型的训练语料要求，那么我自然好奇，第一，我的每日故事能否转换为大模型的训练语料，第二，如果可以，他的难度大致是什么水平的? 本周的某几天早上，我在给儿子讲这套画册的时候，特意把整个过程录下来了，期望通过后期的处理，解答上面的疑惑。

录下来之后，经过文本转录，让大模型尝试提取归纳后，我发现还是有比较大的差异点的。

这一页，我们讲了两分半钟，提取的相关文本如下（去除了一些重复性，以及不相关内容）：

【长颈鹿】
我：长颈鹿在哪里？长颈鹿哪里长？
孩子：（指位置）
我：对，长颈鹿脖子长长的，它的脖子在这里（指位置）。
【花豹】
我：花豹在哪里？
孩子：花豹在这儿（指位置）。
我：对了，花豹在这儿（指位置）。花豹躲在树上，看下面的动物有没有猎物过来。要是有猎物，它就嗖的一下窜出去，然后把它们给吃掉。
【狮子一家】
我：狮子在哪里？最小的狮子是谁？
孩子：这个是小狮子（指位置）。
我：这是最小的。它哥哥在哪里？
孩子：在这儿（指位置）。
我：对了，这是他哥哥。他姐姐呢？
孩子：他姐姐在这儿（指位置）。
我：这个不是他姐姐，这是花豹。他姐姐在这儿（指位置）。狮子一家都在这儿,这个是狮子爸爸。哪个是狮子妈妈？
孩子：（找…）
我：狮子妈妈在这里（指位置）。你看,这两个宝宝都趴在妈妈身上。

【雨林】
我：这是哪里？这是在雨林里, Rainforest。因为这个地方经常下雨，里面的植物长得非常茂密，里面的树比森林还要多，好多好多动物。
孩子：有瀑布。
我：对，有瀑布。
【鳄鱼】
孩子：鳄鱼在哪儿？
我：鳄鱼在这里。鳄鱼潜在水里面，露着个头在外面，鳄鱼也在找自己的猎物。
【树懒和猴子】
我：猴子在哪里？
孩子：（指位置）
我：这个是树懒。
孩子：树懒。
我：这个不是猴子，这个叫树懒。树懒非常懒，它就在这儿一动不动。
我：有几只猴子呢？
孩子：（数）有两个猴子。
我：对了，有两只猴子，你太聪明了。
孩子：猴子有尾巴。
我：猴子有尾巴。你有没有尾巴？
孩子：没有。
我：爸爸呢？
孩子：爸爸没有尾巴。
我：爸爸也没有尾巴。
【貘】
我：貘在哪儿呢？在这儿（指位置）。貘还带着一只小宝宝，它的小宝宝跟在它后面。

从上面的对话模式，我们大致能够发现教孩子与教大模型的差异：

我和孩子的对话是交织在一起的，并且根据孩子的回答动态调整下一个问题。把难度控制在孩子认知水平的边界上。
孩子并非被动的接受者，他也会主动描述，甚至提问，让我来回答。比如他会说“有瀑布“，问“鳄鱼在哪？“
在教孩子的过程中，我也会延伸书本的内容到生活中，做一些类比，比如问“猴子有尾巴，你有没有尾巴“，“爸爸有没有尾巴“。

教小孩更像是 on-policy-distillation 与课程学习的结合。一个教师模型根据孩子的“输出“实时给出反馈，并且生成下一轮的训练样本。而训练大模型，更多是准备大量的静态数据集，强行拟合灌输知识。

这些问题能难住当前 SOTA 大模型吗？我将 GPT-5.5 的 VQA 以及 2D Grounding 结果放在下面：

GPT5.5-雨林结果

GPT5.5-草原结果

对 GPT-5.5 来说，除了狮子与花豹有点分不清，VQA 中的文本描述基本正确。但是 2D Grounding 的能力比较差，基本上只能飘飘忽忽指出个大概。我提供的图片来自比较经典的儿童绘本，大概率已经进入 GPT 的训练集了，表现良好在我的意料之中。但是 2D Grounding 的能力为什么这差，是我没有预料到的。

我怀疑 2D Grounding 能力弱是 GPT-5.5 并非原生多模态的，所以尝试了 Gemini-3-Pro 这个模型，发现确实准确多了：

Gemini-雨林结果

Gemini-草原结果

总结一下，

我与孩子之间的互动，尽管和大语言模型的训练过程非常接近，但是不能直接转换为训练语料。因为故事是为孩子认知能力定制的，一直在孩子认知的边界上，并且信息量要稀疏很多。
基于这个绘本，对比 2 岁孩子的认知能力与大模型的认知能力，gemini-3-pro 是不弱于孩子能力的，而 gpt-5.5 2D Grounding 能力比较弱。
我依然相信教育是“人能成为人“的关键。广义的教育不仅仅是书本或者文字上的知识，这些能力可能是未来 agent 融入人类社会的关键。要么是获得一个人成长过程中的各种 context，要么是将一个 “agent baby“ 放到社会中去经历一个完整的成长过程。
我仍然对这个主题很有兴趣，当前的结论还是太浅了，期望后面我能随着孩子的成长有更多的想法。