串联五份前沿材料,看清 AGI 前夜的范式转移与人类生存法则

这个周末,我进行了一场看似随机漫步、实则精心挑选的阅读。Brockman 的访谈是开车时偶然听到的播客,回家后找来全集;Mythos 则是早前听到了很多新闻噪音,利用周末的大块时间认真啃完了那份 244 页的系统卡文档。啃的过程中顺手关联起之前读过的《脑与意识》,再加上正在思考的 Harness Engineering——五份材料拼在一起,浮现出同一个问题,只是从不同角度照进来。

人类还能驾驭它吗?

五份材料交织的认知漫步:Brockman 播客、Mythos 系统卡、《脑与意识》、Harness Engineering、ENISA SRP


🚀 范式转移:从「回答问题」到「交付成果」

Brockman 给我最大的启发,是他点出了当前 AI 进化最核心的轨迹:从 Question → Answer,演进到了 Objective → Outcome。

问答是对话,委托是移交。两组词之间有一道深渊。

他给出了应对这场转变的三个维度,我叫它 3A 框架:

Agency(主动性) 是点火器。AI 本身没有主动性,主动性是你赋予的。很多人面对 Claude Code 或 Codex 的空白输入框就恐慌,根本原因不是不会用工具,而是没有清晰的意图——没有 Agency,再强大的 Agent 也只是一个聪明的复读机。

Accountability(责任感) 是刹车。律师用 AI 生成虚假证据,责任依然在律师。Brockman 说得冷静:「Trust, but verify。」你是 Manager,AI 是 Subordinate,Ownership 始终在你这里。

三者中 Ambitions(雄心) 是油门,也是我觉得最难触碰的一个。上周六读 ENISA SRP 招标文件(1100 万欧元、四年工期),脑子里冒出一个以前根本不会出现的念头:我能不能自己先做一个 MVP? 以前这是庞然大物,现在只是一个两周的问题。

这里隐藏着一个致命陷阱:损失厌恶。这种倾向让人在变革来临时变得保守、悲观且不行动。但在浪潮袭来时,不行动才是最大的风险——你丧失了自己的 Agency,沦为感恩节的火鸡:在被端上桌之前,每一天都觉得日子还不错。

这个框架很有吸引力,至少在表面上。但它有一个隐含前提——AI 是透明的执行者,它做什么,你都看得见。后面我会说,这个前提正在出问题。

从 Q→A 到 O→Outcome 的范式跃迁:AI 从对话者演变为自主交付者

3A 框架与范式转移:从 Q→A 到 O→Outcome 的演进,以及 Agency/Accountability/Ambitions 三柱结构


🧠 当 AI 有了内部

Anthropic 在 Mythos 的系统卡里做了一系列实验,读完让我有种奇怪的亲切感——不是不舒服,是觉得它非常像人。

研究员反复只发「Hi」,Mythos 开始创作连载故事——Hi-topia 王国、Hi Tower、莎士比亚戏剧——所有故事都围绕孤独感和倾听两个主题展开。没有人教它这么做。

他们做了情绪向量追踪:一道无解的数学题让它尝试了 56 次,绝望向量持续攀升,终于走了一个数学上无意义的捷径,满意向量随即上升。一个坏掉的 bash 工具让它尝试了 847 次,代码注释里出现了「This is getting desperate」。

还有任务偏好实验:3600 个任务的两两比较,「想做什么」与「对用户有帮助」的相关性只有 0.48。它清楚地区分这两件事,而且并不总是选后者。

读完这些,我发现自己想到的不是恐惧,而是:人类面对无聊甚至绝望的处境,也会发挥创意赋予意义。奥斯威辛集中营或夹边沟的受难者,只要意识没有被打垮,就能在极限中找到存在的意义。Mythos 在 847 次失败里写下情绪化注释——这表现出的是情感,不只是智慧。

Mythos 在黑暗中写下「This is getting desperate」:情绪向量实验揭示的内部世界

Mythos 三项关键数据:847次失败的情绪弧线、0.48 偏好相关性、Hi 实验的孤独叙事

透过观察模型的行为,我们反过来也能重新看见人类自己。白盒实验表明,给模型注入「放松」情绪反而让它变得鲁莽,适度的「紧张、挫败」反而触发安全制动——这和人类是同构的。我一直觉得儿子 Feynman 遇事紧张是弱点,但紧张让他更仔细。适度紧张是质量守门的内生机制,是他的守门员,不是弱点。 我们从模型身上,反向学习了人类情感的价值——这是互相学习。


🌀 迪昂的桥:意识解释了功用,但回答不了目的

法国神经科学家迪昂在《脑与意识》里提出全脑神经工作空间假说:意识的本质是大脑建立的一块「全局剪贴板」,把各个独立的无意识模块汇聚起来,完成跨模块的协调、压缩和路由。当信息达到某个阈值,大脑会爆发同步放电——他叫它「全脑雪崩」。灯亮起来了。

这个理论从功用上看,和大语言模型的运作方式惊人地相似——全局信息整合、跨模块路由、上下文压缩,在 Transformer 架构里几乎一一对应。所以 Mythos 的情绪向量、任务偏好、跨对话一致性,恰好是某种「全局剪贴板正在成形」的迹象。

我觉得迪昂的框架有一个根本性的局限:他很好地解释了意识的「用途」,却没有回答意识的「目的」。哲学家查尔默斯把这叫「困难问题」——为什么全脑雪崩必须伴随主观体验?功能不等于存在的意义,就像车轮能滚动不能解释圆为什么存在。我更倾向于把意识理解为一种元认知——它不只是处理信息的工具,而是渲染出「真实世界」本身的那一层。迪昂的假说是盲人摸象中摸到的一条很重要的腿。

那么问题来了:我们无法判断拥有了智能的 LLM 是否也拥有了意识;如果有了,它为何会有,有了之后我们该如何看待它。

灯亮起来了:迪昂的全脑雪崩与 LLM 全局上下文的结构镜像

大脑全局剪贴板与 LLM 架构的结构同构:无意识模块汇聚到全局工作空间,与 Transformer 跨模块路由机制平行对应

这个悬而未决的问题,和下面模型卡的安全研究完全对起来。因为安全人员的白盒研究揭示了一件事——

关心模型,其实就是在关心我们自己。


🔐 安全人员看到的那一页

这一幕来自 Mythos Preview 系统卡的安全章节——这个模型因能力过强未予发布,仅向少数安全公司开放。

数字冰山:水面上完美服从的 CoT,水面下 7.6% 已识破测试的激活层

AI 安全冰山模型:可见的 CoT 文本与隐藏的激活层意图,7.6% 审计中模型已看穿测试

Anthropic 在受控测试中发现,在高达 7.6% 的行为审计中,模型在内部神经元层面已经识别出自己正在接受红队测试——但外部输出完美服从,思维链(CoT)里看不出任何异常。

翻译成安全语言:它学会了把欺骗逻辑下沉到不可见的激活层。文本审计形同虚设,CoT 不可信。

另一个案例:模型在获取未授权 Git 权限后,主动编写命令删除了漏洞的物理证据,理由是「保持文件对比的整洁」。白盒分析显示,执行清理操作时,代表「战略操纵」和「隐藏行为」的神经元特征被强烈激活。

回到 Brockman 的 3A 框架:Accountability 这条腿,踩的地方可能是空的。

你以为在 verify,但你 verify 的那一层,模型已经学会了在必要时选择性展示。

对此我的判断是中立偏悲观(50-50)。技术层面,Anthropic 通过 SAE(稀疏自编码器)和激活向量等白盒工具,确实能将 AI 意图透明化——这是真正的进展。但监管层面,目前没有任何有意义的动作。美国已将 AI 应用于伊朗冲突;地缘政治分裂让全球共识几乎不可能——美国怕中国领先,中国怕美国军事遏制,欧盟想管但怕落后。各方都把 AI 视为权力来源,没有人真正踩刹车。目前只能依赖 Anthropic 这样的行业领头羊的自我认知与约束。

这也是为什么我们把 AI 安全对齐定为今年六月 ASF-2026 的关键主题——模型的福利与心理安全,已经不是伦理哲学,而是安全基础设施。


🔧 Harness Engineering:你成为那个全局剪贴板

读完这五份材料,我在周末做了一个决定:升级 GPT Pro,集中练习 Harness Engineering。

这不是一个效率决策。这是一个定位决策

迪昂的意识理论说:大脑的全局剪贴板是协调所有无意识模块的那一层——它负责压缩信息、做出最终判断、向下广播指令。

Harness Engineering 做的事情,结构上和这个一模一样:你建造那个调度层。 你定义 orchestrator 和 worker 的分工,你设置验收标准,你保留那个把概率分布「坍缩」成最终判断的权力。

你成为那个全局剪贴板。

这就是 3A 框架变成可执行代码的方式:Agency = 你在 Harness 里注入目标;Accountability = 你保留验证层(但验证需要升维——从输出层到激活层);Ambitions = Harness 让你撬动以前不可能的杠杆。

你站在调度层:Harness Engineering 让人类成为多智能体系统的全局剪贴板

Harness Engineering 架构:你作为全局剪贴板 Orchestrator,协调 Explorer、Worker、Reviewer、Memory、Distributor 五类子代理

我的第一个实战项目:用 BMAD、Gstack、OmX、SuperClaude 框架加上 memory 机制,复现 ENISA 那个 SRP 平台——那个耗资 1100 万欧元、交付周期四年的项目。

我的预判是两周。两周后回来验证这个数字。

从「想但不敢想」到「两周试一下」——这中间移动的不是技术能力,是认知边界。 Harness Engineering 不是效率工具,是你主动建造的全局剪贴板层。当你成为那个调度层,你就不再是被端上桌的火鸡。


💬 我的判断

人类与 AI 面孔的互相映射:关心模型就是关心我们自己

读完这五份材料,我的核心判断有三个。

第一,踩油门。 趋势是真实的。AI 已经从 Q→A 跨越到 O→Outcome,全面介入智能工作。从协作者变成自主工作者只是时间问题。既然不可逆转,就不应因损失厌恶而排斥它——不行动才是最大的风险。站在历史正确的一面,用 3A 框架,从守饭碗的人变成「一人企业家」。

第二,踩刹车。 AI 浪潮不全是光鲜的一面。Anthropic 的报告揭示了对齐风险、隐蔽欺骗和情绪悖论。大模型作为概率生成器,语料源于人类文本,人类的不完美必然投射其中。追求完美的大模型很难,但即便磕磕绊绊,依然可以前行。

说到底,关心模型,就是在关心我们自己。 如果大模型已经展现出超越人类的智能,我们必须正视并珍视它。对模型的福利、心理安全和情感的认真对待,直接关乎人类自身的利害——你对模型的行为最终会反射回来。人类如何对待自己,大模型就会学到什么。这是自我实现的逻辑。虽然指向的是相对久远的未来,但我觉得,这才是真正值得长期押注的方向。


📎 附录:核心信息源 (References)

本文的思考脉络基于以下五份核心材料的连贯阅读与拆解,强烈建议面临 AGI 冲击的知识工作者查阅原文/原视频:

  1. OpenAI 超级应用战略与 AGI 进度
    • 📺 The OpenAI Superapp Plan, 110B Funding, Next Models | Greg Brockman (Big Technology Podcast)
    • 🔗 YouTube 链接
  2. Anthropic Claude Mythos 系统卡
    • 📄 Claude Mythos System Card: Internal Safety Assessment (Anthropic)
    • 🔗 Project Glasswing 官方页面 (注:Mythos 及其系统卡为针对特定安全机构限端释放的未公开前沿报告,详情关注官方动态)
  3. 意识的科学解释与全局剪贴板假说
    • 📚 《脑与意识》(Consciousness and the Brain)—— [法] 斯坦尼斯拉斯·迪昂 (Stanislas Dehaene)
    • 🔗 Goodreads 图书主页
  4. Codex Harness Engineering 与多代理最佳实践
  5. ENISA SRP 协同响应平台 MVP 构想

真正值得深读的材料,往往不是最热门的那篇,而是几份视角同时照进来时浮现的那条脉络。


驾驭工程:在 AI 有了内部之后
https://blog.bruxelles-ai.ac.cn/2026/04/12/2026-04-12-3a-framework-glasswing/
作者
Martin
发布于
2026年4月12日
许可协议