米哈游论文探索:100个AI智能体在虚拟世界开启十年“人生”新旅程

   发布时间:2026-06-24 16:10 作者:朱天宇

近日,学术网站Arxiv上出现了一篇引人瞩目的论文,题为《Agentopia:智能体社会中的长期人生模拟与学习》。该研究由米哈游创始人蔡浩宇在美国创立的Anuttacon公司AI研究团队主导,复旦大学多位研究者共同参与,为智能体社会模拟领域带来了突破性进展。

论文第一作者王鑫涛是复旦大学计算机学院博士生,专注于LLM拟人化与角色扮演领域研究,同时也是Anuttacon公司员工。此次研究发起了一个极具挑战性的项目:让100个AI智能体在三个虚拟世界中自主生活十年。这些智能体并非传统意义上按脚本运行的程序,而是具备性格、记忆、情感和目标的数字生命。它们会经历上学、工作、恋爱、交友等日常活动,也会面临职业转型、社交倦怠甚至中年危机等人生阶段。

研究的核心是一个名为Agentopia的框架,它构建了三个风格迥异的虚拟社会:纽约市合租公寓,居住着年轻专业人士和学生;魔法学院,师生需应对学术与人际的双重挑战;顶尖高中校园,聚焦青春期成长与压力。在这个框架中,智能体由语言模型驱动,每个都有独特背景、性格、技能和社交关系,能自主做出各种行为。

该研究的突破在于将模拟时间尺度从过去的数天大幅延长至10个模拟年。研究设定每周为一个基本周期,包含规划、社交联系、活动执行和每周回顾四个阶段。智能体需自主制定周计划、发起邀约、参与活动,并在周末反思总结。支撑这一复杂模拟的是三项关键技术设计。

首先是生活奖励机制。研究团队依据马斯洛需求层次理论,为每个智能体设计了社会地位、主观幸福感和经济状况三个维度的奖励。社会地位反映其他智能体对个体的看法,主观幸福感追踪一年内满足感变化,经济维度记录年度财务表现。这套奖励系统不仅用于评估智能体生活状态,还成为训练模型的核心反馈信号。

其次是环境引擎。与传统模拟写死大量规则不同,Agentopia启用单独的生成式大模型作为环境引擎。它负责判断智能体行为合理性、提供环境反馈、生成偶遇事件、安排活动顺序,甚至在年底更新智能体档案。

第三是文件系统式的长期记忆。每个智能体拥有可自主管理的记忆系统,包括对他人的印象笔记、个人计划、反思记录等。智能体可通过函数调用创建、读取和更新这些文件,实现跨周、跨年的知识积累,使行为更具持续性和成长性。

10年模拟结束后,研究团队观察到丰富的社会行为。友谊网络从稀疏变得密集,公寓世界中平均互惠友谊数从4.3增长到10.1。智能体展现出职业转型能力,有角色放弃高薪咨询工作,选择收入减半但热爱的登山向导事业;还有角色在9年间性格发生巨大转变,自信心从30分增长到80分,内向程度从95分降至65分。研究还发现一些反直觉规律,如社交活跃但广度未转化为深度的智能体社会地位评分下滑,而社会评分持续下降但个人幸福感上升的智能体,因主动选择了少而精的关系网络。

这一研究对游戏行业意义重大。传统游戏中NPC依赖预设脚本,玩家与NPC对话选项有限,行为模式可预测,且难以对玩家行动和环境变化做出持续性适应,造成世界感断裂。而Agentopia展示了全新可能性,若游戏中每个NPC都拥有长期记忆、自主目标和情感模型,就能像真实人类一样成长变化。例如,早期帮助玩家的小商人可能多年后成为地区商会领袖并回报玩家,战斗中背叛玩家的同伴可能因愧疚改变行为模式,这些都将由NPC自主思考选择,而非编剧预设。

论文中有一个有趣案例,医生格兰特主动组织公寓邻居成小圈子,但圈子稳定后,格兰特却被边缘化,成为最被忽视的人,这种自然涌现的社交动态在传统游戏设计中几乎无法实现。研究团队利用模拟中产生的高质量智能体轨迹,通过拒绝采样方式对大语言模型进行微调,提升了模型性能。游戏公司可利用内部模拟优化智能体模型,并部署到更广泛游戏场景,形成正反馈循环,且无需依赖昂贵且难以扩展的人类标注数据,为游戏开发提供了成本可控且可规模化复制的路径。

从战略角度看,Agentopia研究与米哈游的IP生态扩张方向高度契合。米哈游旗下《原神》《崩坏星穹铁道》《绝区零》三款主力作品虽保持高频更新,但内部框架相似易让玩家产生审美疲劳,开拓新品类和运营模式成为必然。米哈游已公布涵盖生活模拟、都市开放世界、射击等多品类的预研项目,Agentopia这类长期社会模拟技术的加入,意味着米哈游可能不仅在游戏IP上拓展,更在游戏体验本质层面革新,让NPC更像人,让游戏世界更真实。

近年来,世界模型成为AI行业热门概念,但大多聚焦物理世界模拟,旨在预测物理世界状态变化,服务于自动驾驶、机器人控制等场景。而米哈游的Agentopia实验走了一条不同道路,它核心不是模拟物理规律,而是模拟社会规律,关注人在漫长生命周期中的成长、人物关系演变和游戏社会组织,是以故事、情感和人生轨迹为主线的世界模型。

物理世界模型追求精确和通用,希望学习物理规律实现数字孪生,但人类社会运行逻辑复杂,决策受性格、经历、情感和外部环境交织影响。要模拟这些,需深度理解人类行为模式,只有长期深耕内容型创作的游戏公司才有动力和条件做此类研究。游戏是社会模拟的实验场,数百万玩家在线互动构成巨大社会关系网,游戏公司需理解其运转才能设计更好系统,且拥有其他AI研究机构无法复制的真实玩家行为轨迹和社交网络数据资产。米哈游公司战略中提出2030年打造十亿人生活其中的虚拟世界愿景,需沉浸式视觉与交互、智能NPC和稳定社会系统三类核心技术支撑,Agentopia正是为解决后两个问题而开展的研究。

 
 
更多>同类内容
全站最新
热门内容
 
智快科技微信账号
微信群

微信扫一扫
加微信拉群
电动汽车群
科技数码群