2026 年 05 月 22 日
教小孩和训练大模型一样吗?
#周报
儿子快两岁了,正是认知能力飞速发展的时候。我常常把孩子的发育与大模型的训练作对比,两者既有很多的相似之处,也有巨大的差异。每天,我都要给儿子讲故事书,哪怕一本书他已经看了无数遍。
其中有一套画册,里面有密密麻麻物体,展示各种环境下的人、物以及他们的状态。我会对其中的物体进行细致的描述,有时候我也会发问,让儿子去找其中的某个物体。很显然,这就对应了大模型训练中的两种语料,caption 以及 VQA。Caption 就是对图像整体或者局部进行非常细致的描述,可以让图像、语言两种模态互相关联。VQA 就是基于视觉的问答对,可以增强模型对图像信息的理解,定位能力。
如果我给孩子讲的故事符合 VLM 模型的训练语料要求,那么我自然好奇,第一,我的每日故事能否转换为大模型的训练语料,第二,如果可以,他的难度大致是什么水平的? 本周的某几天早上,我在给儿子讲这套画册的时候,特意把整个过程录下来了,期望通过后期的处理,解答上面的疑惑。
录下来之后,经过文本转录,让大模型尝试提取归纳后,我发现还是有比较大的差异点的。
这一页,我们讲了两分半钟,提取的相关文本如下(去除了一些重复性,以及不相关内容):
【长颈鹿】
我:长颈鹿在哪里?长颈鹿哪里长?
孩子:(指位置)
我:对,长颈鹿脖子长长的,它的脖子在这里(指位置)。
【花豹】
我:花豹在哪里?
孩子:花豹在这儿(指位置)。
我:对了,花豹在这儿(指位置)。花豹躲在树上,看下面的动物有没有猎物过来。要是有猎物,它就嗖的一下窜出去,然后把它们给吃掉。
【狮子一家】
我:狮子在哪里?最小的狮子是谁?
孩子:这个是小狮子(指位置)。
我:这是最小的。它哥哥在哪里?
孩子:在这儿(指位置)。
我:对了,这是他哥哥。他姐姐呢?
孩子:他姐姐在这儿(指位置)。
我:这个不是他姐姐,这是花豹。他姐姐在这儿(指位置)。狮子一家都在这儿,这个是狮子爸爸。哪个是狮子妈妈?
孩子:(找…)
我:狮子妈妈在这里(指位置)。你看,这两个宝宝都趴在妈妈身上。

【雨林】
我:这是哪里?这是在雨林里, Rainforest。因为这个地方经常下雨,里面的植物长得非常茂密,里面的树比森林还要多,好多好多动物。
孩子:有瀑布。
我:对,有瀑布。
【鳄鱼】
孩子:鳄鱼在哪儿?
我:鳄鱼在这里。鳄鱼潜在水里面,露着个头在外面,鳄鱼也在找自己的猎物。
【树懒和猴子】
我:猴子在哪里?
孩子:(指位置)
我:这个是树懒。
孩子:树懒。
我:这个不是猴子,这个叫树懒。树懒非常懒,它就在这儿一动不动。
我:有几只猴子呢?
孩子:(数)有两个猴子。
我:对了,有两只猴子,你太聪明了。
孩子:猴子有尾巴。
我:猴子有尾巴。你有没有尾巴?
孩子:没有。
我:爸爸呢?
孩子:爸爸没有尾巴。
我:爸爸也没有尾巴。
【貘】
我:貘在哪儿呢?在这儿(指位置)。貘还带着一只小宝宝,它的小宝宝跟在它后面。
从上面的对话模式,我们大致能够发现教孩子与教大模型的差异:
- 我和孩子的对话是交织在一起的,并且根据孩子的回答动态调整下一个问题。把难度控制在孩子认知水平的边界上。
- 孩子并非被动的接受者,他也会主动描述,甚至提问,让我来回答。比如他会说“有瀑布“,问“鳄鱼在哪?“
- 在教孩子的过程中,我也会延伸书本的内容到生活中,做一些类比,比如问“猴子有尾巴,你有没有尾巴“,“爸爸有没有尾巴“。
教小孩更像是 on-policy-distillation 与课程学习的结合。一个教师模型根据孩子的“输出“实时给出反馈,并且生成下一轮的训练样本。而训练大模型,更多是准备大量的静态数据集,强行拟合灌输知识。
这些问题能难住当前 SOTA 大模型吗?我将 GPT-5.5 的 VQA 以及 2D Grounding 结果放在下面:


对 GPT-5.5 来说,除了狮子与花豹有点分不清,VQA 中的文本描述基本正确。但是 2D Grounding 的能力比较差,基本上只能飘飘忽忽指出个大概。我提供的图片来自比较经典的儿童绘本,大概率已经进入 GPT 的训练集了,表现良好在我的意料之中。但是 2D Grounding 的能力为什么这差,是我没有预料到的。
我怀疑 2D Grounding 能力弱是 GPT-5.5 并非原生多模态的,所以尝试了 Gemini-3-Pro 这个模型,发现确实准确多了:


总结一下,
- 我与孩子之间的互动,尽管和大语言模型的训练过程非常接近,但是不能直接转换为训练语料。因为故事是为孩子认知能力定制的,一直在孩子认知的边界上,并且信息量要稀疏很多。
- 基于这个绘本,对比 2 岁孩子的认知能力与大模型的认知能力,gemini-3-pro 是不弱于孩子能力的,而 gpt-5.5 2D Grounding 能力比较弱。
- 我依然相信教育是“人能成为人“的关键。广义的教育不仅仅是书本或者文字上的知识,这些能力可能是未来 agent 融入人类社会的关键。要么是获得一个人成长过程中的各种 context,要么是将一个 “agent baby“ 放到社会中去经历一个完整的成长过程。
- 我仍然对这个主题很有兴趣,当前的结论还是太浅了,期望后面我能随着孩子的成长有更多的想法。