还记得让马斯克一键「穿越」的利器吗？现在面向所有人开放！免费！

AI人工智能2年前发布 ash

2,044 0

机器之能报道

编辑：吴昕

还记得一周前我们介绍过的那个文生图工具吗？对，让马斯克「穿越」，变身古风大侠的那个。

还记得让马斯克一键「穿越」的利器吗？现在面向所有人开放！免费！

也是让 Blackpink Jennie 「变胖」的那个：

还记得让马斯克一键「穿越」的利器吗？现在面向所有人开放！免费！

当时， Ideogram 官宣成立并公开了测试版 v0.1 。机器之能赶紧排队注册，试用了一下。据说，短短一周内，积累了超过 90,000 名用户，生成了超过 300 万张图像！

今天， Ideogram 进一步宣布向地球上的每个人开放 Ideogram ！免费的，没有任何限制！（传送门 https://ideogram.ai ）

官方博客也第一次介绍了 Ideogram v0.1 —— 「它是一种新的基础 AI 模型，可将文本转换为图像。由 Ideogram 团队从头开始构建，解决了现有生成式 AI 工具的主要缺陷之一，可以在图像中呈现连贯的文本。」

什么意思呢？其实，目前的生成模型技术还是有一个比较大的缺陷，就是无法在图像中呈现出可靠的视觉文本。

比如，在图片中生成连贯文本上，DALL-E 2 就非常不稳定（如下）。最新发布的 Stable Diffusion 直接将「无法呈现可读的文本」列为已知局限性。

还记得让马斯克一键「穿越」的利器吗？现在面向所有人开放！免费！

上图连贯文本拼写错误，正确的分别是 (1) California: All Dreams Welcome, (2) Canada: For Glowing Hearts, (3) Colorado: It’s Our Nature, (4) St. Louis: All Within Reach.

针对模型的「文盲」问题， Ideogram 的核心成员（还在谷歌时）找到了改善问题的办法，他们魔改一个「文本编码器」，让模型学会了拼写。

除此之外，他们还提出了一个评估文生图模型的新基准，可以更全面地衡量文本到图像模型的文本渲染质量。

正如我们之前体验过的，Ideogram v0.1 的表现比较稳定。还记得这个例子吗？

「An adorable minion holding a sign that says 『It’s over, MidJourney』， spelled exactly, 3d render, typography」（一个可爱的小黄人举着一个牌子，上面写着「结束了，Midjourney」）。

全部拼写正确。当时推友就表示，虽然系统并不总是能够正确拼写，但成功率还是不错的。

还记得让马斯克一键「穿越」的利器吗？现在面向所有人开放！免费！

这个是不是也很厉害？用「poetry」这个词画出乌鸦的轮廓。

还记得让马斯克一键「穿越」的利器吗？现在面向所有人开放！免费！

博客还说了，Ideogram v0.1 还支持许多字体和文本样式，并生成漂亮的排版，这些都是非常耗费时间和精力的工作。

「我们的文本渲染功能为许多创造性的应用程序铺平了道路，因为我们的用户已经制作了成千上万的徽标，海报，图形设计和图像，传达了有趣的信息。」

还记得那张有关「巴本海默（barbenheimer）」的电影画报设计吗？

还记得让马斯克一键「穿越」的利器吗？现在面向所有人开放！免费！