2026 年 06 月 27 日
AI-Coding 项目 002:宝宝绘本
#周报
过去一个月的业余时间基本上都在处理我的第二个 AI Coding 项目 —— 宝宝绘本。
相比第一个项目,圆桌论坛,只是自己一时兴起搭建的 chat 工具。在这个项目,受到 郭宇 的影响,我想走的更远一些:希望能够面向公众完成一个简单的商业闭环。本篇 blog 的目的就是记录下这个项目的前因后果。
因为本项目面向有小朋友的家长,为了节约些 token,网站链接我就不贴了。
动机
我家孩子 2 岁了,非常喜欢阅读绘本。想来也正常,这个年纪的孩子既没法玩手机,也不能看电视,绘本能够给他打开一个个新的世界。不管是 波西和皮普,还是 赳赳学 xx 系列,孩子看绘本总能代入进去。绘本同时承担了开拓视野以及习惯教育的责任。我跟老婆在与孩子相处的时候,常常把当下的行为跟绘本里面的故事对应起来,这样孩子能够更容易理解自己的情绪,行为的好坏。
当下大模型绘图如此发达,我们不禁会想,如果我们可以用自己孩子的形象,定制属于自己故事,是不是更能契合孩子的发展阶段,有更多有趣的故事?
同时,我也在小红书上看到了很多 AI 定制绘本的商品。比较典型的有两类,一个是 我的名字 系列,通过一个卡通故事告诉宝宝自己的名字是如何来的;一个是 认识自己 系列,用户只要上传一张自己宝宝的照片,就能得到一个以自己宝宝为模特的眼耳口鼻的教材。这两类定制绘本从技术上来说不算复杂,但是结合了母婴赛道,加上私人定制的特点,满足了一大群消费者的需求。
我的第二个项目就是在这个背景下,想做一个服务自己的工具,让我使用孩子的形象,编一个自己的绘本故事。
举个例子,孩子特别喜欢爬椅子玩杂技,一天摔下来之后哇哇大哭,以这个为原型就能创作一个故事 高高的椅子,期望他能够吃一堑长一智(实际并没有):

项目细节
核心技术非常简单,只需要接入两类模型,LLM 模型(比如 GPT5.5 或者国内的豆包模型),以及图片编辑模型(如 nano-banana-2 或者 seedance-2.0)即可。一共就三步,通过用户上传的图片提取角色形象,通过 LLM 模型生成故事大纲以及绘本每一页的分镜,最后通过图片编辑模型根据角色形象去生成对应的绘本。
核心技术虽然简单,但是细节却一直要打磨。比如角色形象的保持,绘本一般有十几、二十页,我们期望其中重要的人物以及物品是一致的。这个不太容易通过一个提示词就能完成,需要在生成的过程中给到正确的参考(context engineering)。其次,针对绘本的分镜设计也需要不断打磨,不同类型的绘本对于内容的需求不同:故事类型需要情节转折,博物类型则专注知识传递。最后,大模型的调用也不稳定,不管是生图还是文本模型,普遍需要 10 秒以上的生成时间,时不时还伴随调用失败,考验系统的稳定性。
除了核心系统,为了让大众能够使用网页创造自己的绘本,我还需要做一系列工作,包括用户登录,支付系统,用户引导,等等。
上线过程
为了将这个网页上线公网,能够完成用户登录,使用,以及付款的整个流程,我花费的时间应该是超过了核心系统的打磨。这里简单罗列一下:
-
域名和服务器是在腾讯云上购买的,域名购买后需要 ICP 备案以及公安联网备案,虽然繁琐,这两步在腾讯云上都有比较详细的引导。
-
用户登录需要验证码服务。这个只有阿里的短信认证服务能够支持个人开发者,其他的包括腾讯云以及一些第三方短信服务提供商都需要工商户资质。即使是阿里云的服务,对于个人开发者也只能支持号码验证。
-
微信支付。这个稍微简单些,跟豆包讨论下就能有若干可行的服务商可供选择。同样的,因为是个人开发者,也有一些麻烦,需要给中介平台一些手续费。
-
大模型服务。使用阿里云,火山云都有大模型服务的 API,以上两个云分别代表了国内最高水平的大模型,Qwen 以及 豆包 系列。每个用户都有免费额度来测试模型的可用性。我建议每个开发者都关注下云服务厂商的 API 产品,比如火山引擎,提供了多模态,文本,视觉(2D,3D),语音(理解,生成,音乐),向量,等各种用途的大模型。除了在线推理,还提供了批量推理的服务(更便宜的大规模推理,不需要实时响应的场景)。这些大模型 API 无疑会催生无数更加有趣的应用。
一些决策的考虑
-
定价。这个是整个项目中最难以把握的点。首先,每一张生成的图像都有固定成本,一个绘本十几页 API 成本也需要几块钱。如何定价以及什么时候向用户收费,是我考虑时间最长的点。我可以在用户注册时就让用户充值,这样不需要我垫付任何资金,但是这样也会把大多数用户挡在外面。目前的策略是新用户有一定的赠送额度,足够制作一本绘本,后续的制作都需要支付来购买额度。
-
是否需要交付实体。我的项目支持用户导出 pdf 格式的绘本,如果对接一个淘宝印刷店,其实可以直接通过实体绘本的形式交付。这种交付方式一定是更符合用户需要的,一次性的利润也比电子绘本要高很多。但我暂时选择不交付实体,如果用户有需要只能去淘宝自行打印了。我选择的动机是不希望这个项目给我带来不必要的麻烦,实体的打印、运输都会出岔子。
-
运营。这个项目还没有完全上线,后续如何运营是一个比较头疼的问题。想要回本,项目必须触及更多的用户。小红书投流是一个选择,但是这样也会带来成本。邀请机制是另一个选择,每个用户都可以使用邀请码来帮助我传播,邀请码激活后可以同时给双方赠送额度。只有付费用户会带来收益,如果我的网站一下子有太多“白嫖“用户,那用户越多我亏的也越多。
总结
这个项目的初衷是想完整体验下独立开发者的日常。有了 coding agent 的帮助,任何问题我都有信心去解决。相比于绘本生成的算法,项目周围的开发(包括各种审核)以及决策消耗了我大多数的精力。
我期望这次的经验能够给我一些积累(或者教训),在未来能够使用大模型给更多人创造价值。