全球最强开源生图 AI 模型:Ideogram 4.0 登场

哈哈库 百科资讯 3

6 月 4 日消息,Ideogram 昨日(6 月 3 日)发布博文,宣布推出 Ideogram 4.0 开放权重文文生图模型,基于跑分数据是全球最佳开源生图 AI 模型。

该模型核心规模为 9.3B 参数,延续近期开源模型的单流架构路线,让文本 tokens 与图像 tokens 共享同 1 个自注意力序列,并把设计控制放在训练和推理格式的中心。

架构方面,该模型包括 Qwen3-VL-8B-Instruct 文本编码器、可训练的 34 层单流 DiT(扩散 Transformer)、Euler 流匹配采样器,以及冻结的 KL 自动编码器。

官方展示的样例显示,该模型可以生成覆盖人物、场景和设计类图像,适合需要图片创作、视觉排版和文字海报的用户尝试。附上相关图片如下:

该模型最突出的能力是文字绘制。模型可在图像中更准确地呈现较长文本,这对海报、商品图、封面和社媒素材很关键。

Ideogram 还通过训练图片中的对象和文本边界框,让模型理解元素位置关系。配合结构化 JSON(数据交换格式)字幕数据训练后,用户可更清楚地用提示词指定版式、对象位置和文本布局。

DesignArena 的排名显示,Ideogram 4.0 超过 Nano Banana Pro,位列全球第 4。该榜单采用隐藏模型名称后由人类评价生成结果质量的方法,因此这项成绩来自人工观感评估,具有较高可信度。