图片来源:123RF(有修改)
本文是我们探索人工智能业务系列的一部分
2022年对于生成式人工智能来说是重要的一年。大型语言模型在生成文本和软件代码方面不断取得进展。与此同时,随着DALL-E 2、Imagen 和 Stable Diffusion 等模型的引入,我们看到了文本到图像生成器的巨大进步。
这一年还标志着生成式 AI 模型产品化的加速。生成模型的科学和技术正在成熟到能够解决实际问题的程度。现在,微软和谷歌等公司正在寻找方法,在可能改变未来创造力的新兴市场中占据领先地位。
在本周的AI@'22 会议上,谷歌展示了其在其产品中利用生成模型的路线图。它的战略可能是该领域走向何方以及未来竞争可能转向何处的前奏。
谷歌的生成模型
Google Parti 使用转换器从文本令牌创建图像(来源:YouTube)。
在 AI@ '22 上,Google Research 首席科学家 Douglas Eck 列出了 Google 目前在四个领域对生成模型的研究:文本、源代码、音频、图像和视频。
谷歌目前正在所有这些领域进行测试项目,着眼于未来创造产品。Wordcraft 作家研讨会旨在帮助作家在写作中从大型语言模型中获得帮助。Google 创建了 Wordcraft,这是一个使用语言模型 LaMDA根据用户提供的提示生成文字的工具。该工具旨在在人类作家和 LLM 交互以共同创建故事的迭代过程中使用该模型。
“使用 LaMDA 编写完整的故事是一条死胡同。当它用于为特定角色添加香料或增强故事的某个方面时,它是一种更有效的工具,”埃克说。“用户界面也必须正确。Wordcraft 工具的设计初衷就是让作者能够与生成模型进行交互。”
Learning for Code 是一个使用 LLM 为开发人员生成代码建议的项目。Google 目前正在内部测试该工具,它包括单行和多行代码完成建议。
AudioLM 使用语言模型来生成音频。该模型将音频样本作为输入并继续它。它可用于生成音乐和语音。
Eck 在 AI@'22 上展示的最先进的模型可能是文本到图像模型Imagen和Parti。Imagen 的工作方式类似于 OpenAI 的 DALL-E 2,并使用扩散模型将语言嵌入转换为图像。Parti 使用转换器架构从文本标记生成图像。DreamBooth是一个模型,它可以调整像 Imagen 这样的文本到图像生成器,以在不同的上下文中显示主题。DreamFusion将扩散模型的强大功能与神经辐射场 (NeRF)相结合,这是一种可以从 2D 图像创建 3D 模型的深度学习架构。
Google DreamBooth 微调生成模型以在不同的上下文中显示特定主题。
Eck 还展示了 Google 使用 Imagen Video 和 Phenaki 进行视频生成研究的预览。Imagen Video 使用扩散模型创建一系列高分辨率图像,这些图像可以拼接在一起以创建视频。Phenaki基于转换器架构,将一系列文本提示转换为一系列图像。Eck 还展示了如何使用 Imagen Video 和 Phenaki 的组合从提示序列创建高分辨率视频。
谷歌的生成模型政策
Eck 在整个演示文稿中明确指出的一件事是,生成模型并不意味着自动化或取代人类的创造力。
“它不再是关于创建逼真画面的生成模型。这是关于制作你自己创造的东西,”埃克说。“技术应该满足我们对我们所做的事情的代理和创造性控制的需求。”
当他讨论谷歌的“负责任的人工智能”战略时,他进一步强调了这一点,并在演讲结束时说:“创造力是使我们成为人类的重要组成部分。我认为在构建这些 AI 系统时牢记这一点很重要。”
除了这种言论的公关方面,旨在缓解对生成人工智能模型取代人类创造力的恐惧(这在很大程度上被夸大了),对控制的强调具有将领域转向以人为中心的人工智能的积极影响。人工智能系统的设计方式应该提供透明度和控制以增强人类。如果没有人类的控制和监督,生成模型等 AI 系统将表现不佳,因为它们对基本概念的掌握不如我们人类。
谷歌可以在生成人工智能领域竞争吗?
人工智能研究和产品化之间的鸿沟很难弥合。当然,谷歌的 LLM 和文本到图像模型的质量并不逊色于OpenAI 的 GPT-3和 DALL-E 2。但问题是,谷歌能否基于这些模型提供成功的产品?
在考虑将技术产品化时,需要考虑几个方面。技术会成为新产品的基础吗?如果没有,是否会集成到现有产品中?它正在解决什么问题,目前存在哪些替代解决方案?产品是否提供了足够的附加值来说服用户转换?它能否帮助巩固公司在现有市场中的地位?
自然,公司将努力实现唾手可得的成果,即将技术带到他们已经擅长的市场。在写作领域,微软领先于谷歌。Office 365 拥有比 G Suite 更大的市场份额,微软在将 LLM 集成到其产品方面已经领先一步。
微软在GitHub Copilot和 Codex的编码方面也处于领先地位,与谷歌的内部代码生成工具相比,它们已经进入了生产模式。谷歌最受欢迎的开发工具是 Colab 和 Android Studio,这将为它提供一个场所,以便在它准备好时测试和推出其代码 AI。但这些 IDE 的市场份额无法与微软的 Visual Studio Code 和 GitHub Codespaces(同样归微软所有)相提并论。
在图像、视频和音频领域,我认为 Adob??e 将成为生成 AI 的赢家。Adobe 已经拥有最大的市场份额和完善的工具,这些工具会定期更新 AI 功能。Adobe 已经在其工具套件中尝试使用生成式 AI工具。
然而,这并不意味着在位者一定会主导生成人工智能领域。目前,我们正在从我们今天使用的工具(例如文字处理器、IDE 和图像编辑应用程序)的角度来研究生成模型。基本上,我们正在研究生成模型如何自动化或改进我们已经在做的任务(完成我们的句子、编写代码块、编辑或生成照片等)。当我们创建新的工具和工作流系统时,人工智能的真正潜力将得到发挥,这些系统可以充分利用生成模型的不断增长的力量和人工智能的其他进步,以完全不同的方式做事(我在这里有一些想法,我以后会详细介绍)。
正如谷歌重塑了信息发现和亚马逊随着网络的普及而重塑了购物一样,发现并拥抱人工智能新机遇的公司必然会改造现有市场或创造新市场。