文生图AI的圈子炸了。
4月15日上午,百度文心大模型团队一纸公告,宣布文生图模型ERNIE-Image正式开源,模型权重、推理代码全部丢上Hugging Face,直接沿用Apache 2.0协议。
不是限时试用,不是API按量收费,是完完整整把模型送给你,免费商用那种。
消息一出,国内AI绘画圈的Discord群和B站评论区直接沸腾。大量创作者连夜开始本地部署测试,相关教程在B站一天之内涌现出十几条。
为什么这事值得激动?
说实话,文生图模型这两年没少“发布”。OpenAI有DALL·E,谷歌有Imagen和Nano Banana,Midjourney更是成了设计师的标配工具。
但这些模型有一个共同点:你没法真正拥有它。
要么按月付费买订阅,要么按调用次数付API费,要么只能在云端玩。想做商业化内容?先谈授权。
而ERNIE-Image这次打出的牌是:Apache 2.0协议,这意味着——你可以把它部署到自己的服务器上,可以为客户生成商业海报,甚至可以基于它做二次开发和商业应用,一分钱授权费都不用交。
更重要的是,它不是那种“虽然免费但你跑不动”的庞然大物。ERNIE-Image的DiT主体参数只有80亿(8B),经过极致的参数效率优化,只需要24GB显存的消费级显卡就能流畅运行。
换句话说,你手里的RTX 4090或者RTX 5090,就能跑出一个“媲美顶级商业模型的超真实、复杂图像”生成器。
这相当于什么?相当于你花一万多块钱买张显卡,就能在本地拥有一台“印钞机”——不用联网、不用付费、不限次数,想生成多少生成多少。
中文场景,这才是它的主场
海外模型强归强,但有一个绕不过的短板:中文文字渲染。
用Midjourney生成一张带中文文案的海报试试?大概率是满屏乱码,要么是笔画残缺,要么是形似“鬼画符”的伪汉字。这是因为绝大多数海外文生图模型的训练数据里,中文图像的占比微乎其微。
ERNIE-Image恰恰在这个痛点上做到了极致。
根据官方公开的评测数据,它在多个国际基准上全面评估——GenEval用于通用图像生成,OneIG覆盖中英文双语理解,LongText-Bench专门测试复杂指令与长文本渲染——在所有开源模型中,ERNIE-Image的综合表现处于领先位置。尤其是在文字渲染能力上,它取得了开源模型的SOTA效果,与谷歌Nano Banana等商业闭源模型同处第一梯队。
SuperCLUE在4月16日发布的2026年4月中文文生图模型测评榜单也印证了这一点:ERNIE-Image以76.37分位列国内第一,紧跟在OpenAI的GPT-Image-1.5之后。测评指出,它在汉字生成、主体匹配及语境还原等中文场景表现稳定,“尤其适合中文场景”,这是它拿到国内最高分的关键原因。
说得直白点:你用英文提示词跟Midjourney对话,可能画得比它好。但如果你需要一张带中文标语的海报、一份带中文注释的学术图表、一组中文漫画分镜——ERNIE-Image可能是目前开源世界里最强的选择。
更厉害的是,它不只是中文好,而是中英日韩多语言通吃,字形清晰、笔画精准,海报排版、学术图表、漫画分镜,全都能保持完美的布局组织。
更狠的是,它连“写提示词”的活儿都帮你干了
很多文生图新手有一个共同的痛苦:不会写Prompt。
明明脑子里有画面,但敲出来的描述词不够丰富、不够结构化,最后生成的图像跟想象差距十万八千里。
ERNIE-Image内置了一个轻量级Prompt Enhancer,作用就是把你的简短输入自动扩展成更丰富、更结构化的描述。
比如你输入“一杯咖啡”,它会在后台帮你自动补全成“一杯热气腾腾的深烘焙拿铁,表面有精美的拉花,放在木制桌面上,背景是柔和的咖啡馆氛围”这样的级别。
这意味着什么?文生图的使用门槛,被大幅降低了。
不需要你成为Prompt工程师,不需要背诵几百个魔法词,普通人也能用自然语言生成高质量的图像。这一点,对于小红书博主、电商运营、新媒体编辑这些“非技术流”创作者来说,意义重大。
ComfyUI Day 0原生支持,生态已经就位
开源模型最怕什么?怕你下了模型不知道咋用。
百度显然提前做了功课。ERNIE-Image发布的同时,ComfyUI——全球最主流的开源AI绘画工作流平台——就宣布了Day 0原生支持,并提供了专门的官方工作流预设。
GitCode上的项目主页也已上线,模型权重在Hugging Face可直接下载。
更贴心的是,官方还推出了两个版本:质量优先的SFT版(约50步推理),和速度优化的Turbo版(蒸馏后仅需8步,速度快约6倍),用户可以根据自己的场景灵活选择。
一套组合拳下来,从下载、部署到使用,整个链路都已经打通。
30多家企业提前内测,是骡子是马已经拉出来遛过了
有些模型开源得很快,但质量一言难尽。ERNIE-Image这次的做法挺有意思——先不急着发布,而是拉了一大批人先试用。
据官方透露,在正式开源之前,电影网、凤凰网、蜻蜓FM、瑛麒动漫、蜂鸟AI等30多个知名企业、社区和创作平台,以及20位艺术创作设计师,已经对ERNIE-Image进行了为期两周的内测与反馈。
两周内测结束后,才正式开源。这说明百度不是拍脑袋放模型,而是经过了真实的业务场景验证。
写在最后
2026年的文生图赛道,竞争已经进入白热化。谷歌Nano Banana 2以83.73分占据榜首,OpenAI的GPT-Image-1.5紧随其后,海外闭源模型在画质上依然有整体优势。
但ERNIE-Image这次开源,至少改变了三件事:
第一,商业级文生图不再是少数人的特权。 8B参数、24G显存、Apache 2.0协议,让任何一个有显卡的创作者都能在本地跑起一个“免费印钞机”。
第二,中文文生图有了一个真正能打的“自己人”。 在汉字生成这个最接地气的战场上,ERNIE-Image已经做到了开源世界的第一名。
第三,文生图的使用门槛被大幅降低。 内置的Prompt Enhancer意味着普通人也能轻松上手,不需要成为“提示词魔法师”。
当然,它也不是完美的。和谷歌Nano Banana 2、OpenAI GPT-Image-1.5这些顶级闭源模型相比,在整体画质上还有追赶空间。测评数据也指出,行业整体在图文一致性上仍是明显短板,多数模型在理解复杂文字、准确还原描述细节上还有差距。
但无论如何,一个能本地部署、免费商用、中文渲染开源的SOTA级文生图模型,对于国内的AI创作者来说,绝对是2026年迄今为止最好的消息。
现在问题来了:你打算用它来生成什么?