币界网报道:
作者:accelxr,1KX;翻译:0xjs@
目前,生成式模型主要用于内容创作和信息过滤。然而,最新的研究和讨论表明,如果为人工智能(AI)提供类似于1990年代互联网的经济通道,它可能会得到实质性的发展。
为此,AI智能体需要代理它们可以控制的资产,因为传统金融系统并不为它们设立。这就是加密货币发挥作用的地方:加密货币提供了一种数字化支付和所有权层,具有快速结算的特点,非常适合构建AI智能体。
本文将向您介绍智能体和智能体架构的概念,以及研究中如何证明智能体具有超越传统LLM(语言模型)的新兴属性,并介绍基于加密货币的智能体构建解决方案或产品的项目。
什么是智能体
AI智能体是由LLM驱动的实体,能够规划和采取行动,以实现既定目标。
智能体架构由单个或多个智能体组成,共同解决问题。
通常,每个智能体都有自己的个性,并可以使用各种工具,这些工具将帮助他们独立或作为团队的一部分完成任务。
智能体架构与我们今天通常与LLM互动的方式不同:
大多数人与这些模型的互动方式是零次提示:您输入提示,LLM根据其预先存在的知识生成响应。
在智能体架构中,您初始化目标,LLM将其分解为子任务,然后递归地提示自己(或其他模型)来自主完成每个子任务,直到达到目标。
单智能体架构和多智能体架构
单智能体架构:一个语言模型自行执行所有推理、规划和工具执行的架构。没有来自其他智能体的反馈,但人类可以选择向智能体提供反馈。
多智能体架构:这些架构涉及两个或多个智能体,每个智能体可以使用相同的或不同的语言模型。智能体可以使用相同的或不同的工具。每个智能体通常都有自己的角色。
垂直结构:一个智能体充当领导者,其他智能体向其报告。这有助于组织小组的产出。
水平结构:一个关于任务的大型小组讨论,每个智能体都可以看到其他消息并自愿完成任务或调用工具。
智能体架构:配置文件
智能体具有配置文件或个性,它们将角色定义为提示,以影响LLM的行为和技能。这在很大程度上取决于特定的应用程序。
人们今天可能已经将其用作提示技术的一个例子是:“您是营养专家,请为我提供一份膳食计划……”。有趣的是,为LLM提供角色可以提高其输出与基准相比。
配置文件可以通过以下方式创建:
手工创建:由人类创建者手动指定的配置文件;这是最灵活的方法,但也最耗时。
LLM生成:使用LLM生成的配置文件,其中包含围绕组成和属性的规则集+(可选)少量样本示例。
数据集对齐:配置文件是根据现实世界的人类数据集生成的。
智能体架构:记忆
智能体的记忆存储了它从环境中感知到的信息,并利用这些信息制定新的计划或行动。记忆使智能体能够根据其经验自我进化和行动。
统一记忆:类似于通过情境学习/持续提示实现的短期记忆。所有相关的记忆都在每次提示中传递给智能体。这主要受到上下文窗口大小的限制。
混合记忆:短期记忆+长期记忆。短期记忆是当前状态的临时缓冲区,而有用的长期信息则永久存储在数据库中。实现这一点有多种方法,但常用的方法是使用矢量数据库(将记忆编码为嵌入并存储;通过相似性搜索来检索记忆)。
格式:自然语言、数据库(例如,经过微调以理解SQL查询的SQL)、结构化列表、嵌入
智能体架构:规划
将复杂任务分解为更简单的子任务以单独解决。
无反馈规划:
在这种方法中,智能体在采取行动后不会收到影响未来行为的反馈。一个例子是思路链(Chain of Thought,CoT),其中鼓励LLM在提供答案时表达其思维过程。
单路径推理(例如零次CoT)
多路径推理(例如自洽CoT,其中生成多个CoT线程并使用最高频率的答案)
外部规划器(例如规划领域定义语言)
带反馈的规划:
根据外部反馈迭代细化子任务
环境反馈(例如游戏任务完成信号)
人为反馈(例如征求用户的反馈)
模型反馈(例如征求另一个LLM的反馈-众包)
智能体架构:行为(Action)
行为负责将智能体的决策转化为具体结果。
行为目标可以采用多种形式,例如:
任务完成(例如在Minecraft中制作铁镐)
通信(例如与另一个智能体或人类分享信息)
环境探索(例如搜索自己的行为空间并学习自身能力)。
行为的生成通常来自于记忆回忆或遵循计划,行为空间由内部知识、API、数据库/知识库以及对外部模型的使用组成。
智能体架构:能力获取
为了能够在行动空间内正确执行动作,智能体必须具备特定于任务的能力。这可以通过两种主要方法实现:
微调:在人工注释、LLM生成或真实世界示例行为数据集上训练智能体。
无需微调:可以通过更复杂的提示工程和/或机制工程(即在进行反复试验时结合外部反馈或经验积累)使用LLM的先天能力。
智能体示例中的文献
生成式智能体:人类行为的交互式模拟,在虚拟沙箱环境中实例化生成式智能体,展示了多智能体系统具有突发社交行为的能力。从即将到来的情人节派对的单个用户指定提示开始,智能体会在接下来的两天内自动发送邀请、结识新朋友、相互约会,并协调在合适的时间一起参加派对。您可以亲自尝试a16z AI Town的实现。
描述解释计划选择(DEPS):这是第一个可以完成70多个Minecraft任务的零样本多任务智能体。
Voyager:这是Minecraft中第一个由LLM驱动的体现终身学习的智能体,它可以不断探索世界,获得各种技能,并在无需人工干预的情况下做出新的发现。它会根据反复试验的反馈不断改进其技能执行代码。
CALYPSO:这是为游戏《龙与地下城》设计的智能体,可以协助地下城主创作和讲述故事。它的短期记忆建立在场景描述、怪物信息和之前的总结之上。
Minecraft中的幽灵(GITM):这是一个能力一般的Minecraft智能体,它的钻石获得成功率为67.5%,游戏中所有物品的完成率为100%。
SayPlan:这是基于LLM的机器人大规模任务规划,使用3D场景图形表示,展示了从抽象和自然语言指令为机器人执行长期任务规划的能力。
HuggingGPT:这是根据用户提示使用ChatGPT进行任务规划的示例,在Hugging Face上选择模型,并执行所有子任务,在语言、视觉、语音和其他具有挑战性的任务中取得了令人印象深刻的成果。
MetaGPT:它接受输入并输出用户故事、竞争分析、需求、数据结构、API、文档等。在内部,有多个智能体构成软件公司的各种功能。
ChemCrow:这是一种基于LLM的化学智能体,旨在使用18种专家设计的工具完成有机合成、药物发现和材料设计等任务。它可以自主规划和执行驱虫剂、三种有机催化剂的合成,并指导发现一种新型发色团。
BabyAGI:这是使用OpenAI和向量数据库(如Chroma或Weaviate)创建、确定优先级和执行任务的通用基础设施。
AutoGPT:这是另一个用于启动LLM智能体的通用基础设施的示例。
加密货币中的智能体示例(请注意:不是所有示例都是基于LLM的,并且有些示例可能更宽泛地基于智能体的概念)
来自Ritualnet的FrenRug:这是基于GPT-4的土耳其地毯推销员游戏 { https://aiadventure.spiel.com/carpet }。Frenrug是一个经纪人,任何人都可以尝试说服他购买他们的Friend.tech Key。每条用户消息都会传递给由不同的Infernet节点运行的多个LLM。这些节点在链上响应,并由LLM投票决定智能体是否应该购买提议的Key。当有足够多的节点响应时,投票将聚合,并且监督分类器模型将确定操作并在链上传递有效性证明,以验证多个分类器的链下执行情况。
Gnosis上使用autonolas的预测市场智能体
AI机器人本质上是AI服务的智能合约包装器,任何人都可以通过付款和提问来调用它。服务会监控请求、执行任务并在链上返回答案。这种AI机器人基础设施已通过Omen扩展到预测市场,其基本理念是智能体将积极监控和押注新闻分析的预测,最终得出更接近真实赔率的汇总预测。智能体在Omen上搜索市场,自主向“机器人”支付有关该主题的预测,并利用市场进行交易。
ianDAOs GPT<>Safe演示
GPT使用syndicateio交易云API在自己Base链上的Safe多重签名钱包中自主管理USDC。你可以与它交谈,并就如何最好地利用其资本提出建议,它可能会根据你的建议进行分配。
游戏智能体
这里有多个想法,但简而言之,虚拟环境中的AI智能体既是同伴(比如《Skyrim》中的AI NPC),又是竞争对手(比如一群胖乎乎的企鹅)。智能体可以自动执行收益策略,提供商品和服务(比如:店主、旅行商人、老练的生成式任务提供者),或者像在Parallel Colony和Ai Arena中的半可玩角色。
Safe守护天使(Guardian Angels)
使用一组AI智能体来监控钱包并防御潜在威胁,以保护用户资金并提高钱包安全性。特性包括在发生异常或黑客攻击时自动撤销合约权限和提取资金。
Botto
虽然Botto是一个定义较为宽泛的链上智能体示例,但它展示了自主链上艺术家的概念,创作的作品由代币持有者投票并在SuperRare上拍卖。人们可以想象采用多模态智能体架构的各种扩展。
一些值得关注的智能体项目
(注意:并非所有项目都是基于LLM的 + 有些可能更松散地基于智能体概念)
AIWay Finder
——协议、合约、合约标准、资产、功能、API功能、例程 + 路径的去中心化知识图谱(即寻路者智能体可以导航的区块链生态系统虚拟路线图)。用户将因识别智能体使用的可行路径而获得奖励。此外,你可以铸造包含角色设置和技能激活的外壳(即智能体),随后可以将其插入寻路者知识图谱。
Ritualnet
——如上文frenrug示例所示,Ritual infernet节点可用于设置多智能体架构。节点监听链上或链下请求,并提供带有可选证明的输出。
Morpheus
——个人通用AI的点对点网络,可以代表用户执行智能合约。这可用于web3钱包和tx意图管理、通过聊天机器人界面进行数据解析、dapps和合约的推荐模型,以及通过连接应用程序和用户数据的长期记忆扩展智能体操作。
Dain Protocol
——探索在Solana上部署智能体的多种用例。最近演示了一个加密交易机器人的部署,该机器人可以提取链上和链下信息以代表用户执行(例如,如果拜登输了,就出售BODEN)
Naptha
——智能体编排协议,具有用于签约智能体的链上任务市场、编排任务的操作员节点、支持跨不同节点异步消息传递的LLM工作流编排引擎以及用于验证执行的工作流证明系统。
Myshell
——类似于http://character.ai的AI角色平台,创作者可以在其中将智能体配置文件和工具货币化。多模态基础设施,包含一些有趣的示例智能体,包括翻译、教育、陪伴、编码等。包含简单的无代码智能体创建和用于组装AI小部件的更高级的开发人员模式。
AI Arena
——一款具有竞争力的PvP格斗游戏,玩家可以购买、训练和对抗支持AI的NFT。玩家通过模仿学习训练他们的智能体NFT,其中AI通过学习玩家行为的相关概率来学习如何在不同的地图和场景中玩游戏。经过训练后,玩家可以派出他们的智能体参加排名战以获得代币奖励。不是基于LLM,但仍然是智能体游戏可能性的一个有趣例子。
Virtuals Protocol
——一种用于构建和部署多模态智能体到游戏和其他在线空间的协议。当今虚拟的三个主要原型包括IP角色镜像、特定功能智能体和个人替身。贡献者向虚拟贡献数据和模型,验证者充当守门人。存在一个经济层面的激励机制来促进开发和货币化。
Brianknows
——为用户提供用户界面,以便与智能体进行交互,智能体可以执行交易、研究特定于加密货币的信息并及时部署智能合约。目前支持100多个集成中的10多个操作。最近的一个例子是让智能体使用自然语言代表用户在Lido中质押ETH。
Autonolas
——提供轻量级本地和基于云的智能体、共识运营的去中心化智能体和专业智能体经济。突出的例子包括DeFi和基于预测的智能体、由AI驱动的治理代表和智能体对智能体(agent-to-agent)工具市场。提供用于协调和激励智能体操作的协议+OLAS堆栈,这是一个供开发人员构建可共同拥有的智能体的开源框架。
Creator.Bid
——为用户提供与X和Farcaster实时API相连的社交媒体角色智能体。品牌可以启动基于知识的智能体,在社交平台上执行与品牌一致的内容。
Polywrap
——提供各种基于智能体的产品,例如Indexer(Farcaster的社交媒体智能体)、AutoTx(使用Morpheus和flock.io构建的规划和交易执行智能体)、predictionprophet.ai(有Gnosis和Autonolas的预测智能体)和fundpublicgoods.ai(用于拨款资源分配的智能体)。
验证——由于经济流动将由智能体指导,因此输出验证将非常重要(以后的文章中将对此进行详细介绍)。验证方法包括来自Ora Protocol,来自如Modulus Labs+Giza+ EZKL团队的zkML、博弈论解决方案以及像TEE这样的基于硬件的解决方案。
对于链上智能体的一些想法
可拥有、可交易、代币门控的智能体,可执行各种类型的功能,从陪伴到金融应用,
可以代表你识别、学习并参与游戏经济的智能体;也可以作为协作、竞争或完全模拟环境中的玩家的自主智能体。
可以模拟真实人类行为的智能体,用于收益机会
多智能体管理的智能钱包,可以充当自主资产管理者
AI管理的DAO治理(例如代币委托、提案创建或管理、流程改进等)
使用web3存储或数据库作为可组合的向量嵌入系统,用于共享和永久内存状态
本地运行的智能体,参与全局共识网络,执行用户定义任务
现有和新协议交互和API的知识图谱
自主守护者网络、多重签名安全、智能合约安全和功能增强
真正自主的投资DAO(例如,使用艺术史学家、投资分析师、数据分析师和degen智能体角色的收藏家DAO)
代币经济学和合约安全模拟与测试
通用意图管理,特别是在加密用户体验(如桥接或DeFi)的情况下
艺术或实验项目
吸引下一个十亿用户
正如Varaint Fund联合创始人Jesse Walden最近所言,自主智能体是区块链使用方式的一次进化,而不是革命:我们已经有了协议任务机器人、狙击机器人、MEV搜索器、机器人工具包等。智能体只是这一切的延伸。
加密的许多领域都是以有利于智能体执行的方式构建的,例如完全链上游戏和DeFi。假设LLM的成本相对于任务性能呈下降趋势+创建和部署智能体的可访问性增加,很难想象一个AI智能体不会主宰链上交互并成为加密的下一个十亿用户的世界。
阅读材料:
AI Agents That Can Bank Themselves Using Blockchains
The new AI agent economy will run on Smart Accounts
A Survey on Large Language Model based Autonomous Agents (I used this for identifying the taxonomy of agentic architectures above, highly recommend)
ReAct: Synergizing Reasoning and Acting in Language Models
Generative agents: Interactive simulacra of human behavior
Reflexion: Language Agents with Verbal Reinforcement Learning
Toolformer: Language Models Can Teach Themselves to Use Tools
Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents
Voyager: An Open-Ended Embodied Agent with Large Language Models
LLM Agents Papers GitHub Repo