【AIGC】《Generative Agents：Interactive Simulacra of Human Behavior》

优质文章学习记录

07 Apr 2026 — 7 min read

让 AI 村民组成虚拟村庄会发生什么事？

文章目录

Generative Agents
资讯
参考

Generative Agents

Park J S, O’Brien J, Cai C J, et al. Generative agents: Interactive simulacra of human behavior[C]//Proceedings of the 36th annual acm symposium on user interface software and technology. 2023: 1-22.

这篇论文由斯坦福大学和 Google 的研究人员（如 Joon Sung Park, Percy Liang 等）共同发表，也就是大名鼎鼎的 “AI 小镇（Smallville）” 论文。鉴于你之前关注“能使用工具的 AI”，这篇文章正是“自主智能体（Autonomous Agents）”领域的开山之作。

核心贡献：提出了一个名为 “生成式智能体架构（Generative Agent Architecture）” 的系统，包含三个关键组件：

记忆流 (Memory Stream)：一个长期内存数据库，用自然语言记录智能体的所有经历（观察）。通过相关性、近时性、重要性三个维度进行检索，决定智能体当前该想起什么。
反思 (Reflection)：智能体会定期停下来，对记忆流中的碎片化信息进行归纳总结，提取出高层级的观点（例如：某人很友好，或者我下午需要去买菜），这让智能体能够形成更深刻的判断。
规划 (Planning)：智能体会制定长、中、短期计划，并根据环境变化（观察到新事物）随时调整计划（Re-planning），保证行为的逻辑连贯性。

点击对应的 NPC，可以看到更多细节

每个角色都有人设

最经典的案例情人节派对，至今还被反复拿出来讨论。
他们只给其中一个叫Isabella的AI下了一个种子指令——“你想在情人节办个派对”。
剩下的事情，人类完全没有插手，然后整个小镇就自发运转起来了。
Isabella开始四处发邀请函，接到邀请的AI们会根据自己的性格决定去不去，甚至有人在派对前一天就开始紧张地讨论该穿什么、要不要带点礼物。
甚至有人帮忙装饰咖啡馆，有人提前规划路线，最后5个AI准时到场，派对办得热火朝天。
整个过程虽然丝滑，却没有一条硬编码规则，全是这群电子小人自己“想”出来的。

Daily requirement 超长

NPC 觉醒，喜欢上了玩家操控的女角色，会发生什么事情呢？

行为说明应该是 ChatGPT 生成的

行为说明转成行为应该基于 program 规则

感知-思考-行动循环：

感知：Agent 观察周围环境并存入记忆流。
检索：根据当前场景检索最相关的记忆。
行动：通过 Prompting 让 LLM 生成下一步动作（对话、移动、操作物体）。

固定的太枯燥了

可以让 Agent 根据外界的信息改变自己的行为

重要性打分，

模型内部的结构，有 plan，有 observation，还有 reflection

因为 no evidence

发现了相互暗恋的情况（Maria 和 Klaus），不排除是上帝把 reflection 塞进来了，因为没有看到 evidence

John 是 Eddy 的爸爸，John 看见 Eddy 后，改变了自己的 plan，开始与 Eddy 去对话

伊莎贝拉计划举办一场情人节派对。她传播了这个信息，在模拟结束时，12 个角色已经知道了这件事。其中 7 个人「犹豫不决」——3 个人已有其他计划，4 个人没有表露想法，这和人类的相处一样。

demo 比较慢，李老师没有看到最后，不知道 Maria 和 Klaus 的对话内容以及情人节活动现场发生的事情

自己注释了一个 happy ending，哈哈哈

实验最令人惊叹的是观察到了涌现出的社会行为 (Emergent Social Behaviors)：

信息传播：一个 Agent 决定举办情人节派对，消息通过社交互动在小镇里传开，大家纷纷调整计划参加。
关系演变：智能体之间会建立新的友谊，并根据过去的互动改变对彼此的态度。
协作：多个智能体协调时间，共同出现在同一地点。

论文证明了将 LLM 与架构化的记忆机制结合，可以创造出极具真实感的“数字人类”。

证明了 Agent 的可信度不仅取决于模型本身，更取决于其对过去经历的组织和反思能力。

资讯

「斯坦福AI小镇」创业即获投1亿美元！李飞飞卡帕西都投了（2026-02-14）
- 当初那个“智能体早期真神”，让25个智能体自己聊天、传八卦、谈恋爱的AI小镇Smallville团队也官宣创业了。
- 公司名叫Simile，直接拿下了Index Ventures领投的1亿美元融资，连卡帕西、李飞飞也跟了。
爆火论文打造《西部世界》雏形：25个AI智能体，在虚拟小镇自由成长（2023-04-11）
- Generative Agents 的架构中心是记忆流—— 一个全面记录智能体经验的数据库。智能体会从记忆流中检索相关记录，以规划智能体的动作行为并对环境做出适当反应，并且每次行为都会被记录以递归合成更高级别的行为指导。Generative Agents 架构中所有的内容都被记录下来并以自然语言描述的形式来进行推理，从而使智能体能够利用大型语言模型的推理功能。
- 只有当智能体对最近事件的重要性分数总和超过某个阈值，智能体才会开始反思。

参考

https://speech.ee.ntu.edu.tw/~hylee/genai/2024-spring.php
https://www.bilibili.com/video/BV18fXbY6Eis/?spm_id_from=333.1387.homepage.video_card.click&vd_source=8e91f8e604278558ec015e749d1a3719
https://www.youtube.com/watch?v=G44Lkj7XDsA
Demo：https://reverie.herokuapp.com/arXiv_Demo/

ComfyUI：重新定义AI绘画工作流的节点式创作引擎

当Stable Diffusion（SD）在2022年引爆AI绘画革命时，大多数用户依赖的是WebUI这类“傻瓜式”界面——点击按钮即可生成图像，但灵活性被严重束缚。2023年，ComfyUI的出现彻底改变了这一局面：它将AI绘画拆解为可自由组合的“节点”，让用户像搭积木一样构建从文本到图像的完整逻辑链。这种“可视化编程”模式不仅解锁了SD底层功能的全部潜力，更催生了从图像修复到风格迁移的无限创作可能。本文将系统剖析ComfyUI的核心架构、节点生态、高级工作流设计及实战案例，帮助你从“按钮使用者”进化为“AI绘画工程师”。一、ComfyUI核心价值：从“黑箱操作”到“全链路掌控” 1.1 为什么选择ComfyUI？与WebUI（如Automatic1111）的“一键生成”不同，ComfyUI的本质是可视化工作流引擎。其核心优势体现在三个维度：对比维度WebUI（Automatic1111）ComfyUI操作逻辑表单填写式，功能模块化节点连接式，逻辑可视化参数控制粒度预设参数为主，高级功能隐藏全链路参数暴露，支持细粒度调节扩展能力依赖插件，兼容性受限原生支持自定

AIGC与医学统计学的完美融合：打造智能医疗新时代

文章目录 * 一、理解统计学基础概念 * 二、掌握描述性统计方法 * 三、学习假设检验方法 * 四、掌握回归分析方法 * 五、学习生存分析方法 * 六、利用现代技术和工具 * 七、注重实践和应用 * 《医学统计学从入门到精通》 * 亮点 * 内容简介 * 作者简介 * 目录 * 获取方式在AIGC（人工智能生成内容）时代，数据的产生和分析速度之快，使得医学统计学成为理解和解释医学数据不可或缺的工具。医学统计学的目标是通过收集、整理和分析数据，揭示医学现象背后的规律和关联，为医学决策和实践提供科学依据。在这个时代背景下，学习医学统计学不仅需要掌握基本的统计原理和方法，还要学会利用现代技术和工具来高效地处理和分析数据。一、理解统计学基础概念学习医学统计学首先要掌握统计学的基本概念，如总体、样本、参数、统计量、误差、概率等。这些概念是理解后续复杂统计方法的基础。例如，总体是研究的全部对象，而样本是从总体中随机抽取的一部分。参数是描述总体的统计指标，而统计量则是描述样本的统计指标。二、掌握描述性统计方法

OpenAI Whisper语音识别本地部署指南：从零构建高效转录系统

OpenAI Whisper语音识别本地部署指南：从零构建高效转录系统【免费下载链接】whisper-base.en 项目地址: https://ai.gitcode.com/hf_mirrors/openai/whisper-base.en 在人工智能技术快速发展的今天，语音识别已成为人机交互的重要桥梁。OpenAI Whisper作为业界领先的语音识别模型，其在多语言识别和准确率方面表现卓越。本指南将详细阐述如何在本地环境中完整部署Whisper语音识别系统，涵盖系统准备、模型部署、性能优化等关键环节。系统准备与依赖管理构建稳定的语音识别环境需要从基础组件开始。系统环境的完整性直接关系到后续模型运行的稳定性和效率。硬件与软件环境要求硬件配置基准： * 内存容量：最低8GB，推荐16GB以上 * 处理器架构：支持AVX2指令集的x86-64处理器 * 存储空间：至少10GB可用空间用于模型文件 * 图形处理器：可选NVIDIA GPU（CUDA 11.0+）以加速推理软件依赖组件： * Python环境：3.8及以上版本，推荐3.10稳定版

Whisper-large-v3语音识别效果实测：准确率惊人

Whisper-large-v3语音识别效果实测：准确率惊人 1. 开场就见真章：一段法语+中文混音，它居然全听懂了你有没有试过录一段话，里面夹着英文单词、中文短句，还带点方言口音？结果转文字软件直接“懵圈”，要么乱码，要么硬生生把“我明天去shānghǎi”写成“我明天去shanghai”——连拼音都懒得改。这次我们没用测试集，也没跑标准WER，而是直接打开这个镜像，上传了6段真实场景音频：跨国会议录音、粤普混合采访、带背景音乐的播客片段、语速飞快的日语新闻、印度英语客服对话，还有最狠的一段——5秒内切换德语/西班牙语/中文三语的AI语音助手测试样例。结果呢？全部识别成功，语言自动检测零出错，中英混杂句子标点基本完整，连“微信”“支付宝”这种专有名词都原样保留，没写成“WeChat”或“Alipay”。这不是宣传稿，是我们在RTX 4090 D上实打实跑出来的结果。本文不讲参数、不画架构图，