AI Agents:通用大模型和Dapp的中间件,重新定义Web3游戏的创新之路
撰文:PSE Trading Analyst @Minta
Key Insights
- AI Agent 是基于 LLM 通用大模型的工具,供开发者和用户直接构建可自主交互的应用。
- AI 赛道未来的主要格局可能是:「通用大模型 + 垂类应用」;AI Agent 的生态位是连接通用大模型和 Dapp 的中间件,所以 AI Agent 护城河较低,需靠打造网络效应和提升用户粘性提升长期竞争力。
- 本文梳理了「通用大模型、垂类应用 Agent、以及 Generative AI 应用」在 Web3 游戏赛道的发展情况。其中,结合 Generative AI 技术,非常有潜力在短期内出爆款游戏。
01 技术简介
今年爆火的人工通用智能 AGI(Artificial General Intelligence)技术中,大型语言模型(Large Language Model – LLM)是绝对的主角。OpenAI 核心技术人员 Andrej Karpathy 和 Lilian Weng 也表达过基于 LLM 的 AI Agents 是 AGI 领域接下来重要的发展方向,很多团队也在开发基于 LLM 驱动的人工智能代理 ( AI-Agents) 系统。 简单来说,AI Agent 是一种计算机程序,它使用大量数据和复杂的算法来模拟人类的思维和决策过程,以便执行各种任务和交互,例如自动驾驶、语音识别和游戏策略等。 Abacus.ai 的图片清晰的介绍了 AI Agent 的基本原理,步骤如下:
- 感知和数据采集:数据输入,或者 AI Agent 通过感知系统(传感器、摄像头、麦克风等设备)获取信息和数据,比如游戏状态、图像、声音等。
- 状态表示:数据需要被处理和表示成 Agent 可以理解的形式,如转换为向量或张量,以便于输入到神经网络中。
- 神经网络模型:通常使用深度神经网络模型来进行决策和学习,比如使用卷积神经网络(CNN)用于图像处理、循环神经网络(RNN)用于序列数据处理,或者更高级的模型如自注意力机制(Transformer)等。
- 强化学习:Agent 通过与环境的互动来学习最佳行动策略。 除此以外,Agent 的运作原理还包括策略网络、价值网络、训练和优化,以及探索与利用等。比如在游戏场景下,策略网络可以输入游戏状态,然后输出行动概率分布;价值网络能够估计状态价值;Agent 则可以通过与环境互动不断强化学习算法以优化策略和价值网络,输出更完美的结果。
总之,AI-Agents 是一种能够理解、决策和行动的智能实体,它们可以在各种领域中发挥重要作用,包括游戏领域。OpenAI 核心技术人员 Lilian Weng 撰写的《LLM Powered Autonomous Agents 》非常全面的介绍了 AI-Agents 原理,其中,文中提到一个非常有趣的实验:Generative Agents。
Generative Agents (简称 GA)的灵感来自于《模拟人生》游戏,其使用 LLM 技术生成了 25 个虚拟角色,每个角色都由 LLM 支持的 Agent 控制,在沙盒环境中生活和交互。GA 的设计很聪明,它将 LLM 与记忆、规划和反思功能结合在一起,这使得 Agent 程序可以根据以前的经验来做出决策,并与其他 Agent 互动。
文章详细介绍了 Agent 如何基于策略网络、价值网络以及和环境的互动来不断训练和优化决策路径。
原理如下:其中,记忆流(Memory Stram)是一个长期记忆模块,记录了 Agent 的所有交互经验。检索模型(Retrieve)根据相关性、新鲜度和重要性来提供经验(Retrived Memories),帮助 Agent 做出决策(Plan)。反思机制(Reflect)则总结过去的事件,指导 Agent 未来的行动。Plan 和 Reflect 则共同帮助 Agent 将反思和环境信息转化为实际行动 Act 。
这种有趣的实验向我们展示了 AI Agent 的能力,比如产生新的社交行为、信息传播、关系记忆(比如两个虚拟角色继续讨论话题)和社交活动的协调(比如举办聚会并邀请其他虚拟角色)等等。总之,AI-Agent 是一个非常有趣的工具,并且其在游戏中的应用也值得深入探索。
02 技术趋势
2.1 AI 赛道趋势
ABCDE 的投研合伙人LaoBai曾总结过硅谷创投圈对 AI 下一步发展的判断:
- 没有垂类模型,只有大模型 + 垂类应用;
- 边缘设备比如手机端的数据可能会是个壁垒,基于边缘设备的 AI 可能也是个机会;
- Context 的长度未来可能引发质变(现在用向量数据库作为 AI 记忆体,但上下文长度还是不够)。
即从行业普通发展规律来看,因为大型通用模型模式太重,且具备较强的普适性,所以没必要在大型通用模型领域不断造轮子,而应更多侧重于将大型通用模型应用于垂类领域。
同时,边缘设备指通常不依赖于云计算中心或远程服务器,而是在本地进行数据处理和决策的终端设备。因为边缘设备的多样性,所以如何将 AI Agent 部署到设备上运行并合理获取设备数据就是一个挑战,但同时也是新的机会。
最后,关于 Context 的问题也备受关注。简单来说,在 LLM 背景下的 Context 可以理解为信息数量,Context 长度可以理解为数据有多少维度。假如现在有一个电子商务网站的大数据模型,该模型用于预测用户购买某个产品的可能性。在这种情况下,Context 可以包括用户的浏览历史、购买历史、搜索记录、用户属性等信息。Context 长度则指特征信息叠加的维度,比如上海 30 岁男性用户的竞品购买历史,叠加最近购买的频率,再叠加最近的浏览记录等。Context 长度的增加可以帮助模型更全面地理解用户购买决策的影响因素。
目前的共识认为,虽然目前使用向量数据库作为 AI 的记忆体使得 Context 长度不够,但未来 Context 长度会发生质的变化,而后 LLM 模型可以寻求更高级的方法来处理和理解更长、更复杂的 Context 信息。进一步涌现出更多超出想象的应用场景。
2.2 AI Agent 趋势
Folius Ventures总结过 AI Agent 在游戏赛道中的应用模式,如下图:
图中的 1 是 LLM 模型,其主要负责将用户意图从传统的键盘 / 点击输入转化成自然语言输入,降低用户进入门槛。
图中的 2 是集成了 AI Agent 的前端 Dapp,为用户提供功能服务的同时,也可以从终端收集用户习惯和数据。
图中的 3 是各类 AI Agent,可以直接以应用内功能、Bot 等形式存在。
总的来说,AI Agent 作为基于代码的工具,可以充当 Dapp 扩展应用功能的底层程序以及平台的增长催化剂,即链接大模型和垂类应用的中间件。
从用户场景来说,最有可能集成 AI Agent 的 Dapp 大概率是足够开放的 Social app, Chatbot 和游戏;或者把现有 Web2 流量入口通过 AI Agent 改造成更简便亲民的 AI+web3 入口;即行业内一直在探讨的降低 Web3 的用户门槛。
基于行业发展规律,AI Agent 所处的中间件层往往会成为一个高度竞争的赛道,几乎没有护城河。所以,AI Agent 除了不断的提升体验以匹配 B2C 的需求以外,可以通过制造网络效应或创造用户粘性的来提升自己的护城河。
03 赛道地图
AI 在 Web3 游戏领域的应用已经出现了多种不同尝试,这些尝试可以分为以下几种类别:
- 通用模型:一些项目专注于构建通用 AI 模型,针对 Web3 项目的需求,找到适用的神经网络架构和通用模型。
- 垂直应用:垂类应用旨在解决游戏中的特定问题或为提供特定服务,通常以 Agent、Bot 和 BotKits 的形式出现。
- Generative AI 应用:大模型对应的最直接的应用就是内容生成,而游戏赛道本身就是内容行业,所以游戏领域的 Generative AI 应用非常值得关注。从自动生成虚拟世界中的元素、角色、任务或故事情节等,再到自动生成游戏策略、决策甚至是游戏内生态的自动演变都成为了可能,使游戏更具多样性和深度。
- AI 游戏:目前,已经有许多游戏集成了 AI 技术,应用场景各不相同,后文将举例说明。
3.1 通用大模型
目前,Web3 已经有针对经济模型设计和经济生态发展的模拟模型了,比如 QTM 量化代币模型。 Outlier Venture 的 Dr. Achim Struve 在 ETHCC 的演讲中有提到一些经济模型设计的观点。 比如考虑到经济系统的稳健型,项目方可以通过 LLM 模型创建一个数字双胞胎 Digital Twin,对整个生态系统进行 1:1 的模拟。
下图的 QTM(量化代币模型)就是一个 AI 驱动的推理模型。QTM 采用了 10 年的固定模拟时间,每个时间步长为一个月。在每个时间步长的开始,代币会被排放到生态系统中,因此模型中有激励模块、代币归属模块、空投模块等。随后,这些代币将被投放到到几个元桶(meta buckets)中,从这些元桶中再次进行更细化的广义效用再分配。然后,从这些效用工具中定义奖励支付等。还有像链下业务方面,这也考虑了业务的一般资金状况,例如可以进行销毁或回购,还可以衡量用户采用率或者定义用户采用情况。
当然,该模型的输出质量取决于输入质量,所以在使用 QTM 之前,必须进行充分的市场研究,以获取更准确的输入信息。不过 QTM 模型已经是 AI 驱动模型在 Web3 经济模型里非常落地的应用了,也有许多项目方基于 QTM 模型做操作难度更低的 2C/2B 端应用,降低项目方的使用门槛。
3.2 垂类应用 Agent
垂类应用主要以 Agent 的形式存在,Agent 可能是 Bot、BotKits、虚拟助手、智能决策支持系统、各类自动化数据处理工具等等不同的形式。一般来说,AI Agent 拿 OpenAI 的通用模型为底层,结合其他开源或自研技术,如文本转语音(TTS)等,并加入特定的数据进行 FineTune(机器学习和深度学习领域中的一种训练技术,主要目的是将一个已经在大规模数据上预训练过的模型进一步优化),以创建在某一特定领域表现优于 ChatGPT 的 AI Agent。
目前 Web3 游戏赛道应用最成熟的是 NFT Agent。游戏赛道的共识是 NFT 一定是 Web3 游戏的重要组成部分。
随着以太坊生态系统中关于元数据管理技术的发展,可编程的动态 NFTs 出现了。对于 NFT 的创建者而言,它们可以通过算法使 NFT 功能更灵活。对于用户而言,用户与 NFT 之间可以有更多的互动,产生的交互数据更是成为了一种信息来源。AI Agent 则可以优化交互过程,并扩展交互数据的应用场景,为 NFT 生态系统注入了更多的创新和价值。
案例一:比如 Gelato 的开发框架允许开发者自定义逻辑,根据链下事件或特定时间间隔来更新 NFT 的元数据。Gelato 节点将在满足特定条件时触发元数据的更改,从而实现链上 NFT 的自动更新。例如,这种技术可以用于从体育 API 获取实时比赛数据,并在特定条件下,例如运动员赢得比赛时,自动升级 NFT 的技能特征。
案例二:Paima 也为 Dynamic NFT 提供了应用类 Agent。Paima 的 NFT 压缩协议在 L1 上铸造了一组最小的 NFT,然后根据 L2 上的游戏状态对其进行演化,为玩家提供更具深度和互动性的游戏体验。比如 NFT 可以根据角色的经验值、任务完成情况、装备等因素而发生变化。
案例三:Mudulas Labs 是非常知名的 ZKML 项目,其在 NFT 赛道也有布局。Mudulas 推出了 NFT 系列 zkMon,允许通过 AI 生成 NFT 并发布至链上,同时生成一个 zkp,用户可以通过 zkp 查验自己的 NFT 是否生成自对应的 AI 模型。更全面的信息可以参考:Chapter 7.2: The World’s 1st zkGAN NFTs。
3.3 Generative AI 应用
前文提到,因为游戏本身是内容行业,AI-Agent 能够在短时间内、低成本地生成大量内容,包括创造具有不确定性、动态的游戏角色等等。所以 Generative AI 非常适合在游戏应用。目前,在游戏领域中 Generative AI 的应用可以总结为以下几种主要类型:
- AI 生成游戏角色类:比如和 AI 对战,或者由 AI 负责模拟和控制游戏中的 NPC,甚至直接用 AI 生成角色等。
- AI 生成游戏内容类:直接由 AI 各种内容,如任务、故事情节、道具、地图等。
- AI 生成游戏场景类:支持用 AI 自动生成、优化或扩展游戏世界的地形、景观和氛围等。
3.3.1 AI 生成角色
- 案例一:MyShell
MyShell 是一个 Bot 创建平台,用户可以根据自己的需求,创建专属 Bot 用于聊天、练习口语、玩游戏、甚至寻求心理咨询等等。同时,Myshell 使用了文本转语音(TTS)技术,只需几秒钟的语音样本,就可以模仿任何人的声音自动创建 Bot。除此以外,MyShell 使用了 AutoPrompt,允许用户仅通过描述自己的想法去给 LLM 模型发出指令,为私人大型语言模型(LLM)打下了基础。
有 Myshell 的用户表示,其语音聊天功能非常流畅,响应速度比 GPT 的语音聊天还要快,而且还有 Live2D。
- 案例二:AI Arena
AI Arena 是一款 AI 对战游戏,用户可以使用 LLM 模型不断的训练自己的对战精灵(NFT),然后将训练好的对战精灵送往 PvP/PvE 战场对战。对战模式和任天堂明星大乱斗类似,但通过 AI 训练增加了更多的竞技趣味性。
Paradigm 领投了 AI Arena,目前公测阶段已开始,玩家可以免费进入游戏,也可以购买 NFT 提升训练强度。
- 案例三:链上国际象棋游戏 Leela vs the World
Leela vs the World 是 Mudulas Labs 开发的一款国际象棋游戏。游戏里游戏双方是 AI 和人,棋局情况放在合约里。玩家通过钱包进行操作(与合约交互)。而 AI 读取新的棋局情况,做出判断,并为整个计算过程生成 zkp ,这两步都是在 AWS 云上完成,而 zkp 交由链上的合约验证,验证成功后调用棋局合约「下棋」。
3.3.2 AI 生成游戏内容
- 案例一:AI Town
AI Town 是 a16z 与其投资组合公司 Convex Dev 的合作成果,灵感来自斯坦福大学的《Generative Agent》论文。AI Town 是一座虚拟城镇,城镇内的每个 AI 都可以根据互动和经验构建自己的故事。
其中,使用 Convex 后端无服务器框架、Pinecone 矢量存储、Clerk 身份验证、OpenAI 自然语言文本生成以及 Fly 部署等技术堆栈。除此以外,AI Town 全部开源,支持游戏内开发者自定义各种组件,包括特征数据、精灵表、Tilemap 的视觉环境、文本生成提示、游戏规则和逻辑等等。除了普通玩家可以体验 AI Town,开发者也可以使用源代码在游戏内甚至游戏外开发各种功能,这种灵活性使 AI Town 适用于各种不同类型的应用。
所以, AI Town 本身是一个 AI 生成内容类游戏,但也是一个开发生态,甚至是一个开发工具。
- 案例二:Paul
Paul 是一个 AI 故事生成器,其专门为全链游戏提供了一个 AI 故事生成并直接上链的解决路径。其实现逻辑是给 LLM 输入了一大堆先验规则,然后玩家可以自动根据规则生成次生内容。
目前有游戏 Straylight protocol 使用 Paul Seidler 发行了游戏,Straylight 是一款多人的 NFT 游戏,核心玩法就是全链游戏版本的「Minecraft」,玩家可以自动 Mint NFT,然后根据模型输入的基本规则构造自己的世界。
3.3.3 AI 生成游戏场景
- 案例一:Pahdo Labs
Pahdo Labs 是一家游戏开发工作室,目前正在开发 Halcyon Zero,这是一款基于 Godot 引擎构建的动漫奇幻角色扮演游戏和在线游戏创建平台。游戏发生在一个空灵的幻想世界中,以作为社交中心的繁华城镇为中心。
这款游戏非常特别的地方在于,玩家可以使用游戏方提供的 AI 创作工具快速创作更多的 3D 效果背景以及把自己喜欢的角色带入游戏,真正为大众游戏 UGC 提供了工具和游戏场景。
- 案例二:Kaedim
Kaedim 针对游戏 Studio 开发了一个基于 Generative AI 的 3D model generation 工具,可以快速的帮助游戏 Studio 批量生成符合他们需求的游戏内 3D 场景 / 资产。目前 Kaedim 的通用产品还在开发中,预计 2024 年开放给游戏 Studio 使用。
Kaedim 产品的核心逻辑和 AI-Agent 是完全相同的,使用通用大模型为基础,然后团队内部的艺术家会不断输入好的数据,然后给 Agent 的输出进行反馈,不断的通过机器学习训练这个 Model,最后让 AI-Agent 可以输出符合要求的 3D 场景。
04 总结
在本文中,我们对 AI 在游戏领域的应用进行了详细的分析和总结。总的来说,未来通用模型以及 Generative AI 在游戏的应用一定会出现明星独角兽项目。垂类应用虽然护城河较低,但先发优势强,如果能靠先发优势制造网络效应和提升用户粘性,则想象空间巨大。除此以外,生成式 AI 天然适合游戏这个内容行业,目前已经有非常多的团队在尝试 GA 在游戏的应用,这个周期就非常有可能出现应用 GA 的爆款游戏。
除了文中提到的一些方向,未来还有其他的探索角度。比如:
(1) 数据赛道 + 应用层:AI 数据赛道已经孕育出了一些估值达数十亿美元的独角兽项目,而数据 + 应用层的联动同样充满想象空间。
(2) 与 Socialfi 结合:比如提供创新的社交互动方式;用 AI Agent 优化社区身份认证、社区治理;或者更加智能的个性化推荐等。
(3) 随着 Agent 的自动化和成熟化,以后 Autonomous World 的主要参与者到底是人还是 Bot?链上的自治世界是否有可能能像 Uniswap 那样,80%+ 的 DAU 都是 Bot?如果是,那结合 Web3 治理概念的治理 Agent 同样值得探索。
参考文献
https://docsend.com/view/4rm9mp56ypr5ae6p