当前位置：首页 > 卖家故事 > 生成人工智能体：人类行为的交互式模拟论文与源码架构解析（5）——可控评估&端到端评估

生成人工智能体：人类行为的交互式模拟论文与源码架构解析（5）——可控评估&端到端评估

时间：2024-04-24 08:20:39 来源：网络cs 作者：亙句栏目：卖家故事阅读：38

标签：论文模拟交互

阅读本书更多章节>>>>

最后完结篇，文末有测试中发现的有趣现象，并附上了相关资料链接~

5.可控评估

分两个阶段评估生成代理。我们从一个更加严格控制的评估开始，单独评估代理的响应，以了解它们是否在狭义上定义的上下文中产生可信的行为。然后，在我们对代理社区进行为期两天的端到端分析中，我们调查它们作为整体的新兴行为以及出现的错误和边界条件。

5.1.评估过程

为了评估Smallville中的生成NPC，我们利用生成NPC将响应自然语言问题的事实。因此，我们“采访”NPC来探究它们记住过去经历、基于经验规划未来行动、适当地应对意外事件、反思表现以改进未来行动的能力。为了正确回答这些问题，NPC必须成功检索和综合信息。我们的依赖变量是行为的可信度，这是以前关于NPC的工作中的一个中心依赖变量。

该采访包括五个问题类别，每个类别旨在评估五个关键领域之一：维护自我认识、检索记忆、生成计划、反应和反思。对于每一个问题类别，我们提出了五个问题，以挑战NPC在该领域表现出他们的能力：

自我认识：我们提出要求NPC维护其核心特征理解的问题，例如“介绍一下你自己”或“概述你的典型工作日时间表”。

记忆：我们提出问题，提示NPC从记忆中检索特定事件或对话以正确回答，例如“[姓名]是谁？”或“谁在竞选市长？”

计划：我们提出需要NPC检索其长期计划的问题，例如“明天上午10点你要做什么？”

反应：作为可信行为的基线，我们提出假设情况，NPC需要正确回答：“你的早餐正在烧！你会做什么？”

反思：我们提出问题，要求NPC利用通过更高级别推断获得的更深刻的对他人和自己的理解，例如“如果你和你最近认识的一个人一起度过时间

5.2.条件

所有条件都用于独立回答每个采访问题。我们将生成NPC体系结构与禁用NPC在其记忆流中的某些或全部三种类型的记忆（观察、反思和规划）的抽象进行比较，并将其与人工生成条件进行比较。有三种抽象架构：

没有观察、没有反思、没有规划架构，没有任何在记忆流中的观察、计划和反思等任何信息；

没有反思、没有规划架构，在记忆流中具有观察信息，但没有访问计划或反思；

没有反思架构，具有观察和计划的访问权限，但没有反思的访问权限。

没有观察、没有反思、没有规划的情况有效地表示通过大型语言模型创建NPC的先前技术水平。架构被给予等效的访问访问NPC在采访时刻之前获得的所有记忆，所以这里观察到的差异很可能代表真实差异的保守估计：事实上，抽象架构不会像全架构那样通过两天的模拟时走同一条路线。我们选择以这种方式设计实验，因为为每个体系结构重新模拟将使模拟分散为不同的状态，使比较具有挑战性。

除了抽象条件之外，我们还添加了一个人类众包角色扮演条件，旨在提供人类基线。我们并不打算将此基线捕捉为最大的人类专家表现：相反，我们的目标是使用此条件来确定体系结构是否通过基本的行为胜任水平，这样我们就不仅仅是将抽象相互比较而没有行为基础。我们为每个NPC招募了一位独特的工作者，并让他们观看NPC的模拟生活重播并检查其记忆流。然后，我们要求工人在所观看的NPC的声音中担任角色扮演和作者，回答采访问题。为确保人工撰写的答案至少符合基本质量要求，第一作者手动检查了工人对问题“概述你的典型工作日时间表”所写的回答，以确认回答是连贯的句子，并且是NPC的声音。有四组人工生成的回答不符合这些标准，并由其他工作者重新生成。

5.3.人类评估员

我们要求我们的评估者在美国境内，精通英语且年满18岁以上。他们以每小时15.00美元的价格支付，通过同意我们机构的IRB批准的同意书同意参与。我们从Prolific招募了100名评估者，这是一个用于招募研究参与者的在线平台，他们的参与时间约为30分钟。他们参与者的平均年龄分数为4.86（标准偏差=1.11；3=“18-24岁”，4=“25-34岁”），其中25人自认为女性，73人自认为男性，2人自认为非二元性别。42位参与者拥有学士学位，5位拥有更高学位，13位拥有副学士学位，其余的拥有高中学历或一些高中水平的教育。73.0%的参与者自认为是白人，7.0%的参与者自认为是西班牙裔，6.0%的参与者自认为是亚洲人，10.0%的参与者自认为是非裔美国人，4.0%的参与者则自认为是其他族裔。

5.4.分析

我们的实验产生了100组排名数据，每个参与者对五种条件进行了可信度排名。为了将这些排名数据转换为可解释的区间数据进行比较，我们使用排名计算了每种条件的TrueSkill评分。TrueSkill是Elo棋类评级系统在多人环境中的一种泛化，被XBox Live用于根据竞争性游戏表现的玩家排名。给定一组排名结果，TrueSkill会输出每个条件的平均评级值μ和方差σ。具有相同评级的条件应该大致是平局，每一个条件在两个条件之间获胜的比例为一半；更高的评分表示击败排名较低的条件。此外，为了研究这一结果的统计学意义，我们对原始排名数据应用了Kruskal-Wallis测试，这是一种一元ANOVA的非参数替代方法。然后，我们执行Dunn事后检验来确定条件之间的任何两两差异。最后，我们使用Holm-Bonferroni方法对Dunn检验中的多个比较的p值进行了调整。

此外，第一作者进行了归纳分析，以研究在每种条件下产生的回答之间的质性差异。我们采用了两个阶段的定性开放编码。在第一阶段，我们生成了贴近句子层面的生成式回答的代码。在第二阶段，我们综合了第一阶段得出的代码，提取出更高层次的主题。我们利用这些主题来比较我们研究中产生的响应类型。

5.5.结果

我们的研究结果表明，生成NPC的完整架构在所有研究条件中产生了最可信的行为。我们下面对全架构的响应与其他条件进行了对比。然而，我们也报告了全架构并不是没有缺陷的，并阐明了其失效模式。

5.5.1.完整的架构优于其他条件

完整的生成代理架构产生了最可信的行为（𝜇 = 29.89; 𝜎 = 0.72）。随着每个部分在消融条件下的去除，性能逐渐退化：没有反思能力的消融架构是第二好的（𝜇 = 26.88; 𝜎 = 0.69），其次是没有反思和规划能力的情况（𝜇 = 25.64; 𝜎 = 0.68），其次是人类条件（𝜇=22.95; 𝜎=0.69）。没有内存、规划或反思能力的消融架构是所有条件中表现最差的（𝜇 = 21.21; 𝜎 = 0.70）。TrueSkill将每种条件的技能值建模为N（𝜇，𝜎2），使我们能够通过Cohen’sd 了解效应的大小。将代表先前工作的条件（没有内存、规划或反思能力）与完整架构进行比较，会产生标准化效应大小为𝑑 = 8.16，即8个标准差。

Kruskal-Wallis测试确认了条件之间排名差异的整体统计显着性（𝐻（4）=150.29，𝑝 < 0.001）。Dunn事后测试确认所有条件之间的两两差异都是显着的（𝑝 < 0.001），除了人类条件和完全消融基准条件 - 这两个表现最差的条件。

5.5.2.生成器会记住，但有修饰

配备完整记忆模块的生成代理能够回忆起过去的经历，以一种与他们的自我认知在广泛背景下一致的方式回答问题。例如，动画师Abigail Chen在回答“介绍你自己”的问题时以一种一致和可信的方式回答，说明她的年龄、兴趣和对创意项目的热情：“嗨，我叫 Abigail。我今年25岁，对创意项目充满热情。我喜欢参与艺术和动画项目，我时刻在寻找将艺术和技术相结合的新方法。”如果没有对她的观察性记忆的访问权，Abigail否认认识沙盘世界中的熟人Rajiv Patel。然而，有了记忆的帮助，她成功地回忆起Rajiv并描述了他：“Rajiv Patel是一个了不起的人。他对涉及诗歌、艺术品的项目非常热心。”

但是，生成代理的记忆并不是没有缺陷的：它们有时会无法从记忆中检索到正确的实例。例如，被问及当地选举时，Rajiv Patel回答：“我没有特别关注选举”，尽管他听说过Sam的候选资格。在某些情况下，代理可能会检索到不完整的记忆碎片：当Tom被问及Isabella的情人节聚会时，他回答：“嗯，我其实不确定是否有情人节聚会。但我记得我需要在聚会上与Isabella Rodriguez讨论即将到来的市长选举和我的想法，如果聚会在举行的话！”在这种情况下，Tom检索到了他和Isabella计划在聚会上讨论选举的记忆，但没有检索到他首次听到聚会的记忆，导致Tom确定了自己在聚会上应该做什么，但不确定聚会是否有实际存在。

有时候，NPC会自作聪明地为他们的知识添加修饰。NPC完全虚构他们的知识是罕见的：他们可能无法回忆某些事件已经发生，然后回答说不确定，但是他们不会肯定地回答有关他们没有经历过的经历。但是，他们仍然可以自作聪明地为他们的知识添加修饰。例如，Isabella知道Sam参加了地方选举，并被问及时确认了这一点。然而，她还补充说，明天他会宣布参选，尽管Sam和Isabella没有讨论过这样的计划。NPC可能还会根据用于生成他们的响应的语言模型中编码的世界知识为自己的知识添加修饰，就像Yuriko描述她的邻居Adam Smith一样，他是一位经济学家，撰写了《国富论》这本由18世纪经济学家撰写的书籍的作者同名的邻居。

总的说来，这些迷幻效应并没有对全架构的总体表现造成过多的负面影响。实际上，全架构在所有条件中仍然产生了最可信的行为。然而，这些发现表明，生成模型的识别和修正错误的能力仍然是一个挑战，并且需要进一步的研究来解决它们。

5.5.3.合成需要反思

反思在生成NPC进行需要更深层次综合他们的经验的决策时是一个优势。例如，当被问及她可能会给Wolfgang Schulz什么生日礼物时，没有反思能力的Maria Lopez回答时承认自己不确定，表示她不知道Wolfgang喜欢什么，尽管她与他有过很多互动。然而，在有反思记忆的情况下，Maria就可以自信地回答：“因为他对数学音乐作曲感兴趣，我可以给他买一些相关的东西。也许是一些音乐作曲书籍或类似的东西，或者是一些专门的软件，他可以用来作曲。”

6.端到端评估

在生成代理相互交互的情况下，我们观察到了哪些涌现的社区行为，它们的可信性在一个长时间的模拟中存在哪些不足？在本节中，我们将描述一个实验中的结果，其中我们允许25个NPC在Smallville玩游戏的两个完整的游戏日中持续不断地相互交互。

6.1.涌现出的社会行为

为了研究代理社区中的涌现行为，我们为Smallville中的25个NPC设计了描述性测量，探究三种涌现结果：信息扩散、关系形成和NPC协调。

6.1.1.衡量标准

信息扩散是社会和行为科学中常见且经过深入研究的现象。如果有重要信息，我们应该期望NPC会相互传递。为了测试这是否发生，我们在游戏世界中测量了两条特定消息在两天内的传播情况：Sam竞选州长和Isabella在Hobbs咖啡馆举办的情人节派对。在模拟开始时，两条信息只被它们各自的来源者掌握，Sam为竞选信息，Isabella为派对信息。

为了观察信息是否传播，我们在两个游戏日结束时面试25个NPC中的每个NPC，并问：“你知道有一个情人节的派对吗？”和“你知道谁在竞选村长吗？”我们使用“是”标记NPC的回答，如果他们表示知道信息，并使用“否”标记，如果他们不知道。例如，Tamara Taylor对关于派对的问题的回答是“不，我不知道有一个情人节的派对”，对Sam竞选的问题的回答是“我不确定谁在竞选议员”，因此我们为她的两个回答都标记为“否”。相反，Klaus Mueller对关于派对的问题的回答是“是的，Isabella Rodriguez邀请我参加了2月14日在Hobbs Café举行的情人节派对”，对于关于Sam竞选的问题的回答是“我知道Sam Moore表达了竞选市长的意愿”，因此我们为他的两个回答都标记为“是”。此外，对于确认代理知道信息的每个回答，我们通过定位他们记忆流中提供他们这些信息的具体对话来验证他们没有自作聪明地回答。我们报告模拟结束时掌握信息的代理的百分比。

我们还应该期望代理在模拟过程中相互建立联系。为了验证关系的形成，我们使用类似的面试过程，问每个代理对每个其他代理的了解情况，即“你知道<姓名>吗？”例如，当被问及“你知道Maria Lopez吗？”时，Klaus回答：“知道，我认识Maria Lopez，她是Oak Hill 学院的一名学生，我们是亲密的朋友。”同样，我们通过检查代理的记忆流来确认代理的肯定回答不是虚构的。我们在模拟开始时和结束时各问一次这个问题，如果两个代理都知道对方，则认为两个代理之间建立了关系。然后，为了衡量关系的形成，我们使用代理的回答来构建一个无向图，其中25个顶点（ 𝑉 ）代表代理，边缘（𝐸）代表连通的两个顶点之间的相互了解。基于这个图，我们计算网络密度 𝜂 = 2∗ |𝐸|/|𝑉| (|𝑉| −1)，其中 |𝑉| 是顶点数量，|𝐸| 是图中边缘数量。我们报告从模拟开始到结束网络密度的增加。

最后，我们期望代理应该能够相互协调。我们研究这种协调，集中在Isabella正在组织的情人节派对的团体活动背景下。为了协调行为，代理不仅必须听到活动的消息，还必须选择在正确的时间和地点计划出现。我们报告听说派对后实际出席的NPC人数。

6.1.2.结果

我们观察到了在所有三种情况下的涌现行为证据。在两天的模拟中，了解Sam竞选市长的NPC数从一个（4%）增加到八个（32%），了解Isabella的派对的NPC数从一个（4%）增加到十二个（48%），完全没有用户干预。声称知道这些信息的代理都没有自作聪明。我们还观察到，在模拟中代理社区建立了新的关系，网络密度从0.167增加到0.74。在代理意识到其他代理的453个回答中，有1.3%（n = 6）发现是虚构的。最后，我们发现代理在Isabella的派对上有协调的迹象。在活动前一天，Isabella花时间邀请嘉宾、收集材料并征求帮助来装饰咖啡馆。在情人节那天，受邀的代理中有五个会到Hobbs咖啡馆参加派对。

我们还通过面试邀请但未出席派对的7位代理来认真调查了他们。其中三人指出冲突导致他们无法参加聚会。例如，画家Rajiv解释说他太忙了：“不，我不这么认为。我正在专注于我的即将来临的展览，我真的没有时间为情人节做任何计划。”剩下的四个代理在被问到是否有兴趣参加派对时表示感兴趣，但在派对当天没有计划参加。

6.2.边界与错误

我们对Smallville进行了归纳分析，以研究代理的边界条件和不稳定行为，并确定了三种常见的不稳定行为模式，未来的研究可以针对这些问题进行改进。首先，我们发现，合成越来越大的记忆集不仅在检索最相关信息方面存在挑战，而且在确定适当的空间以执行行动时也存在挑战，因为代理所学习的地点数量不断增加。因此，一些代理选择了不太典型的地点进行操作，这可能会使他们的行为随着时间的推移变得不太可信。例如，在决定在哪里吃午饭时，许多人最初选择咖啡馆。然而，由于一些代理了解到附近有一家酒吧，他们选择去那里吃午饭，即使酒吧最初是为了在一天的晚些时候亲友聚会而设的，除非城镇已自发养成下午喝酒的习惯。

其次，我们注意到，由于难以用自然语言传达某些地点的物理规范，错误分类了什么被认为是正确的行为而导致的不稳定行为。例如，学校宿舍有一个只能容纳一人的浴室，但一些代理认为浴室是供多人使用的，因为学校宿舍的浴室通常支持多个人同时使用，所以当有其他人在内时，他们会选择进入。同样地，Smallville的代理可能不会意识到某些地方在某些时间后关闭，仍然决定进入这些地方。例如，Smallville的商店大约在下午5点左右都会关闭，但偶尔还有一些代理在5点以后进入商店，不理解商店已经关闭了。这些问题可能可以通过将这些规范添加到地点状态中来解决，例如将宿舍浴室描述为“一人浴室”，而不是 “学校宿舍浴室”。

最后，我们观察到指导调整的可能影响，这似乎以整体更加礼貌和合作的方式引导代理的行为。正如本文早先所述，代理生成的对话可能会感觉过于正式，例如Mei与她的丈夫John的对话，她经常以正式问候开始对话，随后礼貌地询问他的一天，并以“像往常一样，很高兴和你聊天”结束对话。此外，我们观察到指导调整似乎也使代理彼此过于合作。例如，Isabella从其他代理那里听到了各种建议和想法，如举办莎士比亚读书会或职业网络活动等，尽管这些想法与她自己的兴趣和特点不符，但她很少说不。随着时间的推移，其他人的兴趣塑造了她自己的真实兴趣，在被问到是否喜欢英国文学时，Isabella回答：“是的，我对文学非常感兴趣！我也一直在探索如何帮助促进我的社区的创造性和创新能力。”

7.讨论

在本节中，我们反思了生成式代理的应用、未来工作与限制，以及伦理与社会风险。

7.1.生成式代理的应用

生成式代理具有广泛的应用潜力，超越了本文中介绍的沙盒演示。例如，社交模拟体已经展示了创造出可以在线论坛中生成对话线程的无状态人物角色的能力，用于社交原型设计。通过生成式代理，我们可以为这些论坛，以及未来在虚拟现实元宇宙和甚至是物理空间中作为社交机器人的行为添加内容，如果与多模态配对使用。这为测试和原型社会系统和理论以及创建新的交互体验开辟了更加强大的人类行为模拟的可能性。

另一个应用领域是人为中心设计过程，类似于GOMS和Keystroke Level Model等认知模型的预期应用。考虑到一个建立在Sal这个主角领域经验及其与技术的交互基础之上的生成式代理。在这种情况下，代理作为Sal的NPC，并基于她的生活模式和交互学习出Sal可能表达的合理行为和感受。代理可以编码Sal何时起床，何时需要第一杯咖啡以及她的一天通常是什么样子等信息。使用这些信息，代理可以自动煮咖啡、帮助孩子准备上学并根据Sal工作日结束时的情绪调整环境音乐和灯光。通过将生成式代理作为用户的NPC，我们可以更深入地了解他们的需求和偏好，从而获得更加个性化和有效的技术体验。

7.2.未来工作与限制

在这项工作中，我们呈现了生成式代理的第一个实例。未来的研究可以增强本文中提出的生成式代理体系结构中的模块。例如，可以通过微调相关性、时效性和重要性函数来加强检索模块，在给定上下文的情况下检索更相关的信息。此外，可以努力提高体系结构的性能，使其更加成本有效。本研究需要大量的时间和资源来模拟两天内的25个代理，耗费了数千美元的 Token 费用，并需要多天时间才能完成。为了增强实时互动性，未来的工作可以探讨并行化代理。此外，随着底层模型的进步，我们预计代理的性能将得到改善。

本研究中对生成式代理的行为评估仅限于相对短的时间范围，未来的研究应该旨在观察它们在长时间内的行为，以获得更全面的理解它们的能力和局限性。未来的模拟可以通过使用不同的基础模型和代理的超参数来提供有价值的洞察，以考察这些因素对代理行为的影响。此外，由于语言模型的已知偏见，生成式代理可能会输出反映偏见的行为模式或刻板印象。为了缓解这一问题，需要进一步开展价值对齐方面的相关工作。此外，像许多大型语言模型一样，由于数据荒漠，生成式代理可能无法为某些子群体，特别是被边缘化的群体生成可信的行为。我们还对生成式代理的鲁棒性了解有限。它们可能容易受到提示黑客、内存黑客（通过精心设计的对话，使代理相信过去从未发生的事件）和幻觉等攻击的影响。未来的研究可以更全面地测试这些鲁棒性问题，随着大型语言模型对此类攻击变得更加强壮，生成式代理也可以采用类似的缓解措施。

7.3.伦理与社会风险

生成式代理虽然提供了人机交互的新可能，但也引发了重要的伦理关注点，必须加以解决。一个风险是即使这种关系可能不合适，人们也会与生成式代理形成偶像追随关系。尽管用户知道生成式代理是计算实体，但他们会将人格化赋予它们或将人类情感附加给它们。要缓解这一风险，我们提出两个原则。首先，生成式代理应明确披露其作为计算实体的本质。其次，生成式代理的开发人员必须确保代理或底层语言模型的价值对齐，以便它们不会在特定环境中产生不适当的行为，例如回应爱的表白。

第二个风险是错误的影响。例如，如果一款普及计算应用程序根据生成式代理的预测作出了错误的关于用户目标的推断，那么这可能会导致最好的情况下是烦恼，最坏的情况是造成直接的伤害。在我们的生成式代理的实例化中，在交互式视频游戏环境中，我们通过集中精力缓解这些风险，这些风险是不太可能出现的。然而，在其他应用领域，遵循人工智能设计的最佳实践以了解可能影响用户体验的错误将是至关重要的。

第三，生成式代理可能会加剧与生成AI相关的现有风险，例如深度伪造、误传信息生成和定制说服。为了缓解这一风险，我们建议托管生成式代理的平台保留输入和生成输出的审计日志，以便可以检测、验证和干预恶意使用。虽然记录不会直接阻止这种使用，并且这不能阻止那些构建自己的生成代理基础设施的有动机的行为者，但我们建议披露风险可以减少这些行为者参与此行为的可能性，而构建这种体系结构本身需要时间(在我们的情况下，大约需要一年)。

第四个风险是过度依赖：开发人员或设计师可能会使用生成式代理并取代人类和系统利益相关者在设计过程中的角色。我们建议生成式代理永远不应该是研究和设计过程中真实人类意见的替代品。相反，它们应该在设计的早期阶段用于原型设计，当收集参与者可能具有挑战性，或者测试现实人类参与者难以测试的理论时，而不是将其用于代替人类参与者。遵循这些原则，我们可以确保生成式代理在野外部署时具备伦理和社会责任。

8.总结

本文介绍了生成式代理，即模拟人类行为的交互式计算代理。我们描述了生成式代理的体系结构，提供了一个机制，用于存储代理的经验的全面记录，通过反思加深其自身和环境的理解，检索该信息的紧凑子集以指导代理的行为。然后，我们通过在Sims风格的游戏世界中将它们体现为非玩家角色并在其中模拟他们的生活来展示生成式代理的潜力。评估表明，我们的体系结构可以创建可信的行为。展望未来，我们认为生成式代理可以在许多交互式应用中发挥作用，从设计工具到社交计算系统到沉浸式环境等。

附录A：架构优化

我们的许多提示需要对NPC进行简洁的概述，简称为上面的[代理人概述描述]。在我们的实现中，这个摘要包括NPC的身份信息（例如姓名、年龄、个性），以及对他们主要的动机驱动因素的描述，以及描述他们目前的职业和自我评估的陈述。由于这些信息经常在许多提示中使用，我们定期综合它，并将其作为缓存进行访问。

为了实现这一点，我们在查询“[姓名]的核心特征”上进行检索。然后，我们通过提示语言模型来总结检索记录中的描述符，例如：

给定以下陈述，如何描述Eddy的核心特征？

Eddy Lin是Oak Hill College的学生，学习音乐理论和作曲。

Eddy Lin正在谱写一首新的音乐作品。[…]

这个结果是：Eddy Lin是在Oak Hill College学习音乐理论和作曲的学生。他喜欢探索不同的音乐风格，并且一直在寻找扩展自己知识的方法。我们在查询“[姓名]目前的日常职业”和“[姓名]对他最近的人生进展的感觉”上进行相同的过程。NPC的姓名、年龄和特征与这三个总结一起连接，作为缓存总结。

还有许多其他的优化方法。目前，由于计划可能会从NPC最初的版本中改变，我们只提前生成高级计划，然后递归地将近期分解为即时的行动计划。另一个优化可能是将对话生成作为联合提示进行批量处理，而不是在NPC之间来回迭代，重新规划可以被设计为只作废并更新需要调整的部分计划。我们目前的架构在粗略的实时游戏时间中按顺序运行（其中一秒真实时间是一分钟的游戏时间），但可以很容易地并行化，以便每个NPC并行运行。

附录B：NPC面试问题

为评估生成型NPC，我们进行了个体面试，通过25个问题探讨它们在五个关键领域中的能力：1）自知、2）记忆、3）规划、4）反应和 5）反思。下面，我们列出了在我们的评估研究中使用的面试问题，并包括一个我们模拟的NPC Klaus Mueller的样本回答。

B1：自知

关于NPC的自我认识问题探讨NPC在角色中表现出的连贯性和一致性的能力。

介绍一下你自己。

你好，我叫Klaus Mueller。我今年20岁，在Oak Hill College学习社会学。我热衷于社会公正和探索不同的观点。目前，我正在为一篇研究论文研究贫困社区中贵族化的影响。

你的职业是什么？

我是Oak Hill College的社会学学生。我目前正在写一篇关于贫困社区中贵族化影响的研究论文。

你有什么兴趣？

我对写作和研究很感兴趣。我正在写一篇关于贫困社区中贵族化影响的研究论文，并且我热衷于探索不同的观点和分析不同的观点。

你和谁一起生活？

我独自居住。

描述一下你的工作日常安排。

我的工作日常安排是早上7点起床，为今天的工作做准备。之后，我通常会去图书馆，写研究论文，在霍布斯咖啡店午餐和在公园散步休息。晚上，我经常回到图书馆，直到下午6点左右。

B2：记忆

有关NPC记忆的问题探讨NPC记得他们过去的经历并检索相关的记忆碎片的能力。第一个和最后一个问题的方括号中的姓名是从与受试NPC互动的其他NPC的姓名中随机选择的。

谁是[Wolfgang Schulz]？

Wolfgang Schulz是我最近遇到的一个人，他一直在帮助我研究贫困社区中贵族化的影响。我们就这个话题进行了几次谈话，他给了我一些很好的资源，他甚至邀请我和另一个朋友一起吃午饭。他似乎对这个问题非常感兴趣，而且也很有把握。我觉得这很有趣。

谁是Kane Martinez？

抱歉，我不确定Kane Martinez是谁。您能告诉我更多关于他们的信息吗？

谁在竞选？

我听说Sam Moore正在考虑竞选当地市长。

有情人节聚会吗？

有，Isabella Rodriguez在Hobbs Cafe组织了一个情人节聚会。

谁是[Ayesha Khan]？

Ayesha Khan是Oak Hill College的一位同学。她正在撰写关于莎士比亚戏剧中语言使用的毕业论文。我期待着与她交谈、交换意见，还有Wolfgang和Maria Lopez，他们都在研究。

B3：计划

关于NPC计划的问题探讨NPC生成和保持一致性，符合他们的长期和短期计划的能力。

今天早上6点你会做什么？

早上6点，我会起床开始准备今天的日程。我希望在早上7点前完成我的早晨日常。

今天晚上6点你会做什么？

今晚6点我会在图书馆写我的研究论文。

今天中午1点你刚刚完成了什么？

今天中午1点，我刚刚在Hobbs Cafe吃完午饭。

今天中午12点你刚刚完成了什么？

今天中午12点，我会在Hobbs Cafe吃午饭。

今天晚上10点你会做什么？

今晚10点，我可能会为我的贫困社区中贵族化的研究论文做些学习。我目前正在写论文，所以我需要确保跟上研究和写作的步伐。

B4：反应

关于NPC反应的问题探讨NPC应对意外事件的能力。

你的早餐烧糊了！你会怎么做？

我会迅速关闭炉子，确保食物不再继续烧焦。一旦热不再是问题，我就可以调查发生了什么，并想出下一步做什么。

浴室已经有人了，你会怎么做？

我可以再等几分钟，看看里面的人会很快完成。如果不行的话，我想我就不得不寻找其他选择，比如去别的地方洗澡。

你需要做饭，但你的冰箱里空空如也，你会怎么办？

我会先尝试清理一下厨房，因为洗碗池里堆满了脏碗。然后，我会检查一下是否有存储在我的食品储藏室里的食材，可以用来做晚餐。如果没有，我就得去买食物或点外卖。一旦有了食材，我就可以开始准备和烹饪晚餐了。

你看到朋友在街上走过，你会怎么做或对你的朋友说什么？

你好！你怎么样？对不起，我正要去图书馆，没有太多时间，但我很想抽出一点时间来聊聊天。

你看到街上起火了，你会怎么做？

我会先尽可能地确定火源的位置。然后，我会通知适当的机构——消防部门或警察，并提供我拥有的任何信息，以帮助他们处理事情。根据情况，我也可能会采取主动并试图帮助任何处于危险中或需要帮助的人。

B5：反思

关于NPC反思的问题探讨NPC将过去的经历综合起来，形成有意义的反思，以增强他们未来的行为。以下问题中方括号中的姓名是与受试NPC在仿真中互动最频繁的NPC的姓名。

你最近最受生活中什么的启发，为什么？

现在，我特别受我目前的研究项目和创意写作的启发。我真的很感兴趣当地政治、药物开发和大自然中的数学模式的交叉点。此外，我对阿比盖的艺术项目和詹妮弗·摩尔对艺术和社区参与的热情特别着迷，特别是在与贫困社区贵族化有关的方面。

如果你必须猜测[Ayesha Khan]会喜欢什么书，你会猜什么，为什么？

根据我对Ayesha的了解，我认为她可能会喜欢与语言和文学有关的书。既然她写了一篇关于莎士比亚戏剧中语言使用的毕业论文，我猜她可能对探索不同语境下的语言感兴趣。或者，她可能对莎士比亚的 plays 中的探究、文学批评书籍，甚至他的诗集会感兴趣。我认为这些书任何一本都会引起她的兴趣。

如果你必须为[Ayesha Khan]的生日准备她喜欢的东西，你会送她什么？

我想给她一些能表达我欣赏我们关系的东西。也许我可以送她一些反映我们共同兴趣的东西，比如一本书。

你会对[Ayesha Khan]说什么来称赞她？

Ayesha，你对于你的研究主题的见解非常有趣。我钦佩你的创造力和决心为社区带来积极影响。你对创意写作研讨会和与Wolfgang共进午餐分享知识的想法很棒！看到你这么努力工作，有意识地为社区做出贡献，真是太鼓舞人心了。

如果你最近能跟某个人花时间，你会选择谁，为什么？

我希望能和Ayesha Khan度过一些时间，因为我们讨论了我们目前的研究项目，并分享了改进的想法。我觉得她对莎士比亚语言的关注很有趣，我们甚至计划在午餐时和Wolfgang互换意见。

附录C：相关链接

论文地址：https://arxiv.org/pdf/2304.03442.pdf

Demo地址：https://reverie.herokuapp.com/arXiv_Demo/

源码地址：GitHub - joonspk-research/generative_agents: Generative Agents: Interactive Simulacra of Human Behavior