ai图像识别系统（想象力的引擎AI图像生成器的兴起）

人工智能生成的艺术品正在悄然开始重塑文化。在过去几年中，机器学习系统从文本提示生成图像的能力在质量、准确性和表达方面都得到了显著提高。现在，这些工具正在从研究实验室转移到日常用户手中，在那里他们正在创造新的视觉表达语言，并且最有可能的是新型的麻烦。

目前只被认为存在几十个顶级图像生成AI。它们的创建既棘手又昂贵，需要访问用于训练系统的数百万张图像（它在图片中寻找模式并复制它们）和大量的计算咕噜声（成本各不相同，但一百万美元的价格标签并非不可能）。

目前，这些系统的输出大多被视为新奇事物，当它被溅到杂志封面上或用于生成模因时。但就在我们说话的时候，艺术家和设计师正在将这个软件集成到他们的工作流程中，在很短的时间内，人工智能生成和人工智能增强的艺术将无处不在。有关版权的问题（谁拥有该图像？谁做的？以及潜在的危险（如有偏见的输出或AI生成的错误信息）将不得不迅速处理。

然而，随着这项技术成为主流，一家公司将能够为其优势获得一些荣誉：一个名为Midjourney的10人研究实验室，该实验室通过Discord聊天服务器访问同名AI图像生成器。虽然这个名字可能很陌生，但您可能已经看到Midjourney系统的输出已经漂浮在您的社交媒体提要上。要生成自己的图像，您只需加入Midjourney的Discord，键入提示，系统就会为您制作图像。

MIDJOURNEY存在于DISCORD上，因为“人们想一起做事情”

“很多人问我们，你为什么不做一个iOS应用程序，让你成为一张照片？”Midjourney的创始人David Holz在接受采访时告诉The Verge。“但人们希望一起制作东西，如果你在iOS上这样做，你必须建立自己的社交网络。这很难。所以如果你想要自己的社交体验，Discord真的很棒。

注册一个免费帐户，您将获得25个积分，所有图像都在公共聊天室中生成。之后，您将必须支付 - 每月$ 10或$ 30，具体取决于您要制作的图像数量以及它们是否是您的私有图像。

不过，本周，Midjourney正在扩大对其模型的访问，允许任何人使用自己的AI图像生成器创建自己的Discord服务器。“我们正在从一个Midjourney宇宙变成一个Midjourney多元宇宙，”正如Holz所说。他认为结果将是不可思议的：人工智能增强创造力的涌现仍然只是冰山一角。

为了更多地了解霍尔茨在Midjourney的雄心壮志——关于他为什么要建立一个“想象力的引擎”，以及为什么他认为人工智能更像水而不是老虎——我们打电话给他接受采访。当然，我们让Midjourney来说明我们的谈话。

为清楚起见，下面的采访经过了精简和轻微的编辑。

如果能从你自己和Midjourney开始，那就太好了。你的背景是什么？你是怎么进入这个场景的？什么是Midjourney——一家公司，一个社区？你会如何描述它？

所以，我的名字是David Holz，我想我是一个连续创业者。我的简史是：我在高中时有一家设计公司。我上了大学，学的是数学物理。我在NASA和Max Planck工作时正在攻读流体力学博士学位。我一度不知所措，把所有这些事情都放在一边。因此，我搬到了旧金山，并在2011年左右创办了一家名为Leap Motion的科技公司。我们卖了这些硬件设备，它们可以在你的手上进行动作捕捉，发明了很多手势界面空间。

我创立了Leap Motion并经营了12年，但最终，我正在寻找一个不同的环境，而不是一个大的风险投资支持的公司，我离开了，开始了Midjourney。现在，它很小 - 我们就像10个人，我们没有投资者，我们也没有真正的经济动机。我们没有承受出售某些东西或成为上市公司的压力。这只是为了在接下来的10年里有一个家，从事重要的很酷的项目 - 希望不仅对我，而且对世界 - 并享受乐趣。

“我们将这项技术视为想象力的引擎”

我们正在从事许多不同的项目。这将是一个广泛而多样化的研究实验室。但是有一些主题：像反思，想象和协调这样的东西。我们开始变得众所周知的是这种形象创作的东西。我们并不认为这真的是关于艺术或制作深度伪造，但是 - 我们如何扩展人类物种的想象力？这是什么意思呢？当计算机比99%的人类更擅长视觉想象力时，这意味着什么？这并不意味着我们将停止想象。汽车比人类快，但这并不意味着我们停止了行走。当我们在很远的距离上移动大量的东西时，我们需要发动机，无论是飞机、船只还是汽车。我们将这项技术视为想象力的引擎。所以这是一个非常积极和人性化的事情。

ai图像识别系统（想象力的引擎AI图像生成器的兴起）(1)

提示：“详细的技术图纸，展示了革命性的'想象力引擎'。图片来源：The Verge / Midjourney

许多实验室和公司正在研究将文本转换为图像的类似技术。Google有Imagen，OpenAI有DALL-E，还有一些较小的项目，比如Craiyon。这项技术从何而来，你认为它的未来会走向何方，Midjourney的愿景与这个领域的其他技术有何不同？

“在10年内，你将能够购买一台带有巨型AI处理器的XBOX，所有游戏都是梦想。

因此，[在AI方面，出现了两个突破，导致了图像生成工具]。一个是理解语言，另一个是创建图像的能力。当你把这些东西结合起来的时候，你可以通过对语言的理解来创造图像。我们看到了这些技术的出现，我们看到了趋势 - 这些技术将比人更擅长制作图像 - 而且它将非常快。在未来一两年内，您将能够实时制作内容：每秒30帧，高分辨率。这将是昂贵的，但这是可能的。然后，在10年内，您将能够购买带有巨型AI处理器的Xbox，所有游戏都是梦想。

从原始技术的角度来看，这些只是一些事实，没有办法绕过它。但从人类的角度来看，这到底意味着什么呢？“所有的游戏都是梦想，一切都是可塑的，我们将拥有AR耳机” - 这到底是什么意思？因此，其中的人文因素是深不可测的。而实际上使它成为我们可以使用的东西所需的软件，它完全不在地图上，我认为这是我们的重点。

ai图像识别系统（想象力的引擎AI图像生成器的兴起）(2)

我们从去年9月开始测试原始技术，我们立即发现了真正不同的东西。我们很快发现，大多数人都不知道他们想要什么。你说：“这是一台机器，你可以用它想象任何东西——你想要什么？”他们说：“狗。你去“真的吗？”然后他们去“粉红色的狗”。所以你给他们一张狗的照片，他们“好吧”，然后去做别的事情。

然而，如果你把它们放在一个群体中，他们会去“狗”，其他人会去“太空狗”，其他人会去“阿兹特克太空狗”，然后突然之间，人们理解了可能性，你正在创造这种增强的想象力 - 一个人们可以学习和玩这种新能力的环境。因此，我们发现人们真的很喜欢一起想象，所以我们让[Midjourney]社交化。我们有一个巨大的Discord社区，就像它是最大的Discords之一，大约有一百万人在这些共享空间中共同想象事物。

你认为这个人类集体与机器集体是平行的吗？作为对这些AI系统的某种平衡？

好吧，实际上并没有一个机器集体。每次你要求人工智能制作一张照片时，它都不会真正记住或知道它曾经制作过的任何其他东西。它没有意志，没有目标，没有意图，没有讲故事的能力。所有的自我、意志和故事——这就是我们。它就像一个引擎。发动机无处可去，但人们有地方可去。这有点像一个蜂巢般的思维，拥有超强的技术。

“它们是新的，有趣的，人类的美学，我认为会蔓延到世界上”

在社区内部，你有一百万人在制作图像，他们都互相嘲笑，默认情况下，每个人都可以看到其他人的图像。你必须支付额外的费用才能退出社区 - 通常，如果你这样做，这意味着你是某种类型的商业用户。所以每个人都在互相扯掉，有所有这些新的美学。这几乎就像审美加速主义。它们都在冒泡，旋转，它们不是AI美学。它们是新的，有趣的，人类的美学，我认为会蔓延到世界上。

ai图像识别系统（想象力的引擎AI图像生成器的兴起）(3)

这种开放性是否也有助于确保事情的安全？因为有很多关于人工智能图像生成器被用来生成潜在有害的东西的讨论，无论是直接令人讨厌的图像 - 血腥和暴力 - 还是错误信息。你如何阻止这种情况的发生？

是的，所以，这真是太神奇了。当你把某人的名字放在他们制作的所有图片上时，他们对如何使用它更加严格。这很有帮助。

也就是说，我们有时仍然会遇到一些问题，不幸的是，比如社交媒体在其他地方的运作方式，你可以通过引起愤怒来谋生，并且有动机让一些人进入社区，为隐私付费，然后花一个月的时间试图创造最令人发指和可怕的震惊图像，然后尝试在Twitter上发布它。然后，我们必须踏上我们的脚，说，“这不是我们想要的;这不是我们想要的社区类型。

每当我们看到这一点时，我们就会把它踩出来。如果有必要，我们会禁止使用某些词语。我们已经收集了诸如照片级逼真的超高等字词之类的单词，并且我们已经禁止了一英里内的每个单词。

那么现实的面孔呢——因为这是制造错误信息的另一个载体。模型是否生成逼真的面？

它会产生名人面孔和类似的东西。但我们通常不会 - 我们有一个默认的风格和外观，它是艺术和美丽的，很难把[模型]推开，这意味着你不能真的强迫它现在做一个深度伪造。也许如果你花100个小时尝试，你可以找到一些正确的单词组合，使它看起来非常逼真，但你必须真正努力使它看起来像一张照片。就个人而言，我不认为世界需要更多的深度伪造，但它确实需要更多美丽的东西，所以我们专注于让一切都变得美丽和艺术。

您从哪里获得模型的训练数据？

我们的训练数据几乎来自与其他人相同的地方 - 这几乎是互联网。几乎每个大型AI模型都只是提取了所有可以获取的数据，所有文本，所有图像。从科学上讲，我们处于这个领域的早期阶段，每个人都能抓住他们所能抓住的一切，他们把它扔进一个巨大的文件中，然后他们点燃它来训练一些巨大的东西，没有人真正知道这堆数据到底是什么。

“整个空间可能只训练了二十多个这样的模型。所以这就是实验科学。

因此，例如，我们最近的更新使一切看起来都好多了，你可能会认为我们通过投入大量绘画（进入训练数据）来做到这一点。但我们没有;我们只是根据人们喜欢制作的东西（使用模型）使用用户数据。没有人类艺术投入其中。但从科学上讲，我们非常非常早。整个空间可能只训练了二十多个这样的模型。所以这是实验科学。

训练你的需要多少钱？

我会说，在这个领域训练模型，我不能谈论我们的具体成本，但我可以说一般的事情。现在每次训练图像模型时，大概要花费 50，000 美元左右。而且你永远不会在一次尝试中把它弄对，所以你必须使用三次尝试或10次尝试或20次尝试 - 你确实需要很多 - 所以它加起来。它很昂贵。这比大多数大学可以花的钱还多，但它并不那么昂贵，以至于你需要十亿美元或一台超级计算机。

我敢肯定，训练和跑步的成本都会下降。但运行它的成本实际上相当高。每张图片都要花钱。每个图像都是在20，000美元的服务器上生成的，我们必须按分钟租用这些服务器。我认为从来没有一种服务是为消费者提供的，他们在15分钟内使用数千万亿次操作而不考虑它。大概是10倍，我会说它比普通消费者接触过的任何东西都多。这实际上有点疯狂。

说到训练数据，这里一个有争议的方面是所有权问题。目前的美国法律规定，你不能对人工智能生成的艺术品进行版权保护，但我们不太清楚人们是否可以对训练数据中使用的图像主张版权。艺术家和设计师努力开发一种特定的风格，但是如果他们的作品现在可以被AI机器人复制，会发生什么呢？你对此有过很多讨论吗？

我们在社区中确实有很多艺术家，我想说他们对这个工具普遍持积极态度，他们认为这将使他们更有效率，并大大改善他们的生活。我们不断地和他们交谈，问：“你还好吗？你对此感觉良好吗？我们也做这些办公时间，我会和大约1000个人一起坐四个小时的语音，然后回答问题。

很多使用这个平台的著名艺术家，他们都在说同样的话，这真的很有趣。他们说：“我觉得Midjourney是一个艺术学生，它有自己的风格，当你用我的名字来创造一个图像时，就像要求一个艺术学生从我的艺术中创造一些东西。总的来说，作为一名艺术家，我希望人们从我制作的东西中得到启发。

但肯定存在巨大的自我选择偏见，因为活跃在Midjourney Discord中的艺术家必然会对此感到兴奋。那些说“这是胡说八道;我不希望我的艺术被这些巨大的机器吞噬。你会允许这些人从你的系统中删除自己吗？

我们还没有这方面的流程，但我们对此持开放态度。到目前为止，我会说它没有那么多艺术家。它不是那么深的数据集。那些成功的人一直在给我们这样的答案：“我们真的不会因此而感到害怕”。现在，它是如此之新;我认为用耳朵播放它并具有动态性是有意义的。所以我们一直在与人交谈。实际上，我们现在从艺术家那里得到的首要要求是，他们希望它能更好地窃取他们的风格，这样他们就可以更好地将其用作艺术流程的一部分。这让我感到惊讶。

对于其他[AI图像]生成器来说，情况可能有所不同，因为它们试图使某些东西看起来像确切的东西。但是我们有更多的默认风格，所以它看起来确实像一个艺术学生受到其他东西的启发。我们这样做的原因是因为你总是有默认值，所以如果你说“狗”，我们可以给你一张狗的照片，但这很无聊。从人类的角度来看，你为什么会想要这样？只需转到谷歌图片搜索。所以我们试图让事情看起来很有艺术性。

这是你在我们的谈话中多次提到的东西 - Midjourney的默认艺术风格 - 我真的很着迷于这个想法，即每个AI图像生成器都是它自己的文化缩影，有自己的偏好和表达方式。你如何描述Midjourney的特殊风格，你是如何有意识地发展它的？

（笑）这有点特别！我们尝试很多东西，每次我们尝试一个新东西，我们渲染出一千张图像。而且它并没有真正的意图。它看起来应该很漂亮。它应该对具体的事情和模糊的事情做出反应。我们绝对希望它不像照片。我们可能会在某个时候制作一个逼真的版本，但我们不希望它是默认的。完美的照片现在让我有点不舒服，尽管我可以看到你可能想要更逼真的东西的正当理由。

我认为这种风格会有点异想天开，抽象和怪异，它倾向于以你可能不会问的方式融合事物，以令人惊讶和美丽的方式。它倾向于使用大量的蓝色和橙色。它有一些最喜欢的颜色和一些最喜欢的面孔。如果你给它一个非常模糊的指示，它必须去它的最爱。所以，我们不知道为什么会发生这种情况，但它喜欢画一张特定女性的脸——我们不知道它来自哪里，来自我们的12个训练数据集之一——但人们只是称它为“Miss Journey”。有一张家伙的脸，有点正方形和气势磅礴，他也出现了一段时间，但他还没有名字。但这就像一个艺术家，他们有自己的面孔和颜色。

ai图像识别系统（想象力的引擎AI图像生成器的兴起）(4)

提示：“旅途小姐的油画肖像。图片来源：The Verge / Midjourney

说到这些违约，图像生成领域的一大挑战是处理偏见。有研究表明，如果你要求一个人工智能形象模型来画一个CEO，CEO总是一个白人男性，当你要求它输出一个护士时，护士总是一个女人，而且往往是一个有色人种。您如何应对这一挑战？这对Midjourney来说是一个大问题，还是对于想要将这些系统货币化的企业公司来说更令人担忧？

好吧，Miss Journey绝对是一个问题，而不是一个功能，我们现在正在研究一些东西，这将试图打破面孔并给你更多的多样性。但也有缺点。比如，我们有一个版本，它完全摧毁了《旅程小姐》，但如果你真的想要，比如说，阿诺德·施瓦辛格（Arnold Schwarzenegger）饰演丹尼·德维托（Danny DeVito），那么它也会完全摧毁这个请求。棘手的是让它发挥作用，同时又不抹去整个表达类型。因为有一个可以增加多样性的开关真的很容易，但是很难让它只在应该打开的时候打开。

我能说的是，制作一个具有任何多样性的图像从未如此简单 - 你只需使用这个词。你总是离创作只有一个词，你知道——比如，我正在玩“非洲赛博朋克巫师”，它看起来很漂亮，而且他妈的很酷，我所需要的只是一个词来告诉模特你想要什么。

所以，退后一点，你已经谈了很多，你怎么看待你在Midjourney所做的工作，我们应该说，是实际的。我的意思是，这显然是非常实际的，但你的动机更抽象 - 关于人类和人工智能之间的关系;关于我们如何以这种人文主义的方式使用人工智能，正如你所说。人工智能领域的一些人倾向于以最宏伟的术语来思考这项技术;他们把它比作神，比作有情的生命。你对此有何感想？

有一段时间，我一直试图弄清楚“什么是[Midjourney的AI图像生成器]？因为你可以说它就像一个想象力的引擎，但也有别的东西。第一个诱惑是通过艺术的视角来看待它。要问：这像是摄影的发明吗？因为当照片被发明出来时，绘画变得更加奇怪，因为任何人都可以拍一张脸的照片，那么我现在为什么要画那张照片呢？

“人们完全误解了人工智能是什么”

是这样吗？不，它不是那样的。这绝对更奇怪。现在，这感觉就像是引擎的发明：就像，你每分钟都在制作一堆图像，你沿着一条想象的道路搅动，感觉很好。但是，如果你再向未来迈出一步，而不是一次制作四张图像，而是制作1，000或10，000张图像，那就不同了。有一天，我做到了：我在几分钟内拍了40，000张照片，突然之间，我面前有如此广阔的自然景观 - 所有这些不同的生物和环境 - 我花了四个小时才完成这一切，在这个过程中，我觉得我就像溺水一样。我感觉自己像个小孩子，看着游泳池的深处，知道我不会游泳，并且有这种水深的感觉。突然之间，[Midjourney]感觉不像一个引擎，而像一股水流。我花了几个星期来处理，我想了想，想了想，我意识到了——你知道吗？——这其实是水。

现在，人们完全误解了人工智能是什么。他们把它看作一只老虎。老虎是危险的。它可能会吃掉我。这是一个对手。水中也有危险——你可以淹死在水中——但流淌的水河的危险与老虎的危险非常不同。水是危险的，是的，但你也可以在其中游泳，你可以造船，你可以筑坝，发电。水是危险的，但它也是文明的驱动力，作为知道如何与水一起生活和工作的人类，我们的生活会更好。这是一个机会。它没有意志，它没有恶意，是的，你可以淹没在其中，但这并不意味着我们应该禁止水。当你发现一种新的水源时，这是一件非常好的事情。

Midjourney是一种新的水源？

（笑）是的，当你这样说的时候，这有点可怕。

我认为，作为一个物种，我们共同发现了一种新的水源，Midjourney试图弄清楚的是，好吧，我们如何将其用于人类？我们如何教人们游泳？我们如何造船？我们如何堵住它？我们如何从害怕溺水的人变成未来冲浪的孩子？我们正在制作冲浪板，而不是制造水。我认为这其中有深刻的含义。

ai图像识别系统（想象力的引擎AI图像生成器的兴起）(5)