百度突然开源文生图模型！ERNIE-Image免费商用，Midjourney和小红书创作者坐不住了

文生图AI的圈子炸了。

4月15日上午，百度文心大模型团队一纸公告，宣布文生图模型ERNIE-Image正式开源，模型权重、推理代码全部丢上Hugging Face，直接沿用Apache 2.0协议。

不是限时试用，不是API按量收费，是完完整整把模型送给你，免费商用那种。

消息一出，国内AI绘画圈的Discord群和B站评论区直接沸腾。大量创作者连夜开始本地部署测试，相关教程在B站一天之内涌现出十几条。

为什么这事值得激动？
说实话，文生图模型这两年没少“发布”。OpenAI有DALL·E，谷歌有Imagen和Nano Banana，Midjourney更是成了设计师的标配工具。

但这些模型有一个共同点：你没法真正拥有它。

要么按月付费买订阅，要么按调用次数付API费，要么只能在云端玩。想做商业化内容？先谈授权。

而ERNIE-Image这次打出的牌是：Apache 2.0协议，这意味着——你可以把它部署到自己的服务器上，可以为客户生成商业海报，甚至可以基于它做二次开发和商业应用，一分钱授权费都不用交。

更重要的是，它不是那种“虽然免费但你跑不动”的庞然大物。ERNIE-Image的DiT主体参数只有80亿（8B），经过极致的参数效率优化，只需要24GB显存的消费级显卡就能流畅运行。

换句话说，你手里的RTX 4090或者RTX 5090，就能跑出一个“媲美顶级商业模型的超真实、复杂图像”生成器。

这相当于什么？相当于你花一万多块钱买张显卡，就能在本地拥有一台“印钞机”——不用联网、不用付费、不限次数，想生成多少生成多少。

中文场景，这才是它的主场
海外模型强归强，但有一个绕不过的短板：中文文字渲染。

用Midjourney生成一张带中文文案的海报试试？大概率是满屏乱码，要么是笔画残缺，要么是形似“鬼画符”的伪汉字。这是因为绝大多数海外文生图模型的训练数据里，中文图像的占比微乎其微。

ERNIE-Image恰恰在这个痛点上做到了极致。

根据官方公开的评测数据，它在多个国际基准上全面评估——GenEval用于通用图像生成，OneIG覆盖中英文双语理解，LongText-Bench专门测试复杂指令与长文本渲染——在所有开源模型中，ERNIE-Image的综合表现处于领先位置。尤其是在文字渲染能力上，它取得了开源模型的SOTA效果，与谷歌Nano Banana等商业闭源模型同处第一梯队。

SuperCLUE在4月16日发布的2026年4月中文文生图模型测评榜单也印证了这一点：ERNIE-Image以76.37分位列国内第一，紧跟在OpenAI的GPT-Image-1.5之后。测评指出，它在汉字生成、主体匹配及语境还原等中文场景表现稳定，“尤其适合中文场景”，这是它拿到国内最高分的关键原因。

说得直白点：你用英文提示词跟Midjourney对话，可能画得比它好。但如果你需要一张带中文标语的海报、一份带中文注释的学术图表、一组中文漫画分镜——ERNIE-Image可能是目前开源世界里最强的选择。

更厉害的是，它不只是中文好，而是中英日韩多语言通吃，字形清晰、笔画精准，海报排版、学术图表、漫画分镜，全都能保持完美的布局组织。

更狠的是，它连“写提示词”的活儿都帮你干了
很多文生图新手有一个共同的痛苦：不会写Prompt。

明明脑子里有画面，但敲出来的描述词不够丰富、不够结构化，最后生成的图像跟想象差距十万八千里。

ERNIE-Image内置了一个轻量级Prompt Enhancer，作用就是把你的简短输入自动扩展成更丰富、更结构化的描述。

比如你输入“一杯咖啡”，它会在后台帮你自动补全成“一杯热气腾腾的深烘焙拿铁，表面有精美的拉花，放在木制桌面上，背景是柔和的咖啡馆氛围”这样的级别。

这意味着什么？文生图的使用门槛，被大幅降低了。

不需要你成为Prompt工程师，不需要背诵几百个魔法词，普通人也能用自然语言生成高质量的图像。这一点，对于小红书博主、电商运营、新媒体编辑这些“非技术流”创作者来说，意义重大。

ComfyUI Day 0原生支持，生态已经就位
开源模型最怕什么？怕你下了模型不知道咋用。

百度显然提前做了功课。ERNIE-Image发布的同时，ComfyUI——全球最主流的开源AI绘画工作流平台——就宣布了Day 0原生支持，并提供了专门的官方工作流预设。

GitCode上的项目主页也已上线，模型权重在Hugging Face可直接下载。

更贴心的是，官方还推出了两个版本：质量优先的SFT版（约50步推理），和速度优化的Turbo版（蒸馏后仅需8步，速度快约6倍），用户可以根据自己的场景灵活选择。

一套组合拳下来，从下载、部署到使用，整个链路都已经打通。

30多家企业提前内测，是骡子是马已经拉出来遛过了
有些模型开源得很快，但质量一言难尽。ERNIE-Image这次的做法挺有意思——先不急着发布，而是拉了一大批人先试用。

据官方透露，在正式开源之前，电影网、凤凰网、蜻蜓FM、瑛麒动漫、蜂鸟AI等30多个知名企业、社区和创作平台，以及20位艺术创作设计师，已经对ERNIE-Image进行了为期两周的内测与反馈。

两周内测结束后，才正式开源。这说明百度不是拍脑袋放模型，而是经过了真实的业务场景验证。

写在最后
2026年的文生图赛道，竞争已经进入白热化。谷歌Nano Banana 2以83.73分占据榜首，OpenAI的GPT-Image-1.5紧随其后，海外闭源模型在画质上依然有整体优势。

但ERNIE-Image这次开源，至少改变了三件事：

第一，商业级文生图不再是少数人的特权。 8B参数、24G显存、Apache 2.0协议，让任何一个有显卡的创作者都能在本地跑起一个“免费印钞机”。

第二，中文文生图有了一个真正能打的“自己人”。在汉字生成这个最接地气的战场上，ERNIE-Image已经做到了开源世界的第一名。

第三，文生图的使用门槛被大幅降低。内置的Prompt Enhancer意味着普通人也能轻松上手，不需要成为“提示词魔法师”。

当然，它也不是完美的。和谷歌Nano Banana 2、OpenAI GPT-Image-1.5这些顶级闭源模型相比，在整体画质上还有追赶空间。测评数据也指出，行业整体在图文一致性上仍是明显短板，多数模型在理解复杂文字、准确还原描述细节上还有差距。

但无论如何，一个能本地部署、免费商用、中文渲染开源的SOTA级文生图模型，对于国内的AI创作者来说，绝对是2026年迄今为止最好的消息。

现在问题来了：你打算用它来生成什么？