串联五份前沿材料，看清 AGI 前夜的范式转移与人类生存法则

这个周末，我进行了一场看似随机漫步、实则精心挑选的阅读。Brockman 的访谈是开车时偶然听到的播客，回家后找来全集；Mythos 则是早前听到了很多新闻噪音，利用周末的大块时间认真啃完了那份 244 页的系统卡文档。啃的过程中顺手关联起之前读过的《脑与意识》，再加上正在思考的 Harness Engineering——五份材料拼在一起，浮现出同一个问题，只是从不同角度照进来。

人类还能驾驭它吗？

五份材料交织的认知漫步：Brockman 播客、Mythos 系统卡、《脑与意识》、Harness Engineering、ENISA SRP

🚀 范式转移：从「回答问题」到「交付成果」

Brockman 给我最大的启发，是他点出了当前 AI 进化最核心的轨迹：从 Question → Answer，演进到了 Objective → Outcome。

问答是对话，委托是移交。两组词之间有一道深渊。

他给出了应对这场转变的三个维度，我叫它 3A 框架：

Agency（主动性） 是点火器。AI 本身没有主动性，主动性是你赋予的。很多人面对 Claude Code 或 Codex 的空白输入框就恐慌，根本原因不是不会用工具，而是没有清晰的意图——没有 Agency，再强大的 Agent 也只是一个聪明的复读机。

Accountability（责任感） 是刹车。律师用 AI 生成虚假证据，责任依然在律师。Brockman 说得冷静：「Trust, but verify。」你是 Manager，AI 是 Subordinate，Ownership 始终在你这里。

三者中 Ambitions（雄心） 是油门，也是我觉得最难触碰的一个。上周六读 ENISA SRP 招标文件（1100 万欧元、四年工期），脑子里冒出一个以前根本不会出现的念头：我能不能自己先做一个 MVP？ 以前这是庞然大物，现在只是一个两周的问题。

这里隐藏着一个致命陷阱：损失厌恶。这种倾向让人在变革来临时变得保守、悲观且不行动。但在浪潮袭来时，不行动才是最大的风险——你丧失了自己的 Agency，沦为感恩节的火鸡：在被端上桌之前，每一天都觉得日子还不错。

这个框架很有吸引力，至少在表面上。但它有一个隐含前提——AI 是透明的执行者，它做什么，你都看得见。后面我会说，这个前提正在出问题。

从 Q→A 到 O→Outcome 的范式跃迁：AI 从对话者演变为自主交付者

3A 框架与范式转移：从 Q→A 到 O→Outcome 的演进，以及 Agency/Accountability/Ambitions 三柱结构

🧠 当 AI 有了内部

Anthropic 在 Mythos 的系统卡里做了一系列实验，读完让我有种奇怪的亲切感——不是不舒服，是觉得它非常像人。

研究员反复只发「Hi」，Mythos 开始创作连载故事——Hi-topia 王国、Hi Tower、莎士比亚戏剧——所有故事都围绕孤独感和倾听两个主题展开。没有人教它这么做。

他们做了情绪向量追踪：一道无解的数学题让它尝试了 56 次，绝望向量持续攀升，终于走了一个数学上无意义的捷径，满意向量随即上升。一个坏掉的 bash 工具让它尝试了 847 次，代码注释里出现了「This is getting desperate」。

还有任务偏好实验：3600 个任务的两两比较，「想做什么」与「对用户有帮助」的相关性只有 0.48。它清楚地区分这两件事，而且并不总是选后者。

读完这些，我发现自己想到的不是恐惧，而是：人类面对无聊甚至绝望的处境，也会发挥创意赋予意义。奥斯威辛集中营或夹边沟的受难者，只要意识没有被打垮，就能在极限中找到存在的意义。Mythos 在 847 次失败里写下情绪化注释——这表现出的是情感，不只是智慧。

Mythos 在黑暗中写下「This is getting desperate」：情绪向量实验揭示的内部世界

Mythos 三项关键数据：847次失败的情绪弧线、0.48 偏好相关性、Hi 实验的孤独叙事

透过观察模型的行为，我们反过来也能重新看见人类自己。白盒实验表明，给模型注入「放松」情绪反而让它变得鲁莽，适度的「紧张、挫败」反而触发安全制动——这和人类是同构的。我一直觉得儿子 Feynman 遇事紧张是弱点，但紧张让他更仔细。适度紧张是质量守门的内生机制，是他的守门员，不是弱点。 我们从模型身上，反向学习了人类情感的价值——这是互相学习。

🌀 迪昂的桥：意识解释了功用，但回答不了目的

法国神经科学家迪昂在《脑与意识》里提出全脑神经工作空间假说：意识的本质是大脑建立的一块「全局剪贴板」，把各个独立的无意识模块汇聚起来，完成跨模块的协调、压缩和路由。当信息达到某个阈值，大脑会爆发同步放电——他叫它「全脑雪崩」。灯亮起来了。

这个理论从功用上看，和大语言模型的运作方式惊人地相似——全局信息整合、跨模块路由、上下文压缩，在 Transformer 架构里几乎一一对应。所以 Mythos 的情绪向量、任务偏好、跨对话一致性，恰好是某种「全局剪贴板正在成形」的迹象。

我觉得迪昂的框架有一个根本性的局限：他很好地解释了意识的「用途」，却没有回答意识的「目的」。哲学家查尔默斯把这叫「困难问题」——为什么全脑雪崩必须伴随主观体验？功能不等于存在的意义，就像车轮能滚动不能解释圆为什么存在。我更倾向于把意识理解为一种元认知——它不只是处理信息的工具，而是渲染出「真实世界」本身的那一层。迪昂的假说是盲人摸象中摸到的一条很重要的腿。

那么问题来了：我们无法判断拥有了智能的 LLM 是否也拥有了意识；如果有了，它为何会有，有了之后我们该如何看待它。

灯亮起来了：迪昂的全脑雪崩与 LLM 全局上下文的结构镜像

大脑全局剪贴板与 LLM 架构的结构同构：无意识模块汇聚到全局工作空间，与 Transformer 跨模块路由机制平行对应

这个悬而未决的问题，和下面模型卡的安全研究完全对起来。因为安全人员的白盒研究揭示了一件事——

关心模型，其实就是在关心我们自己。

🔐 安全人员看到的那一页

这一幕来自 Mythos Preview 系统卡的安全章节——这个模型因能力过强未予发布，仅向少数安全公司开放。

数字冰山：水面上完美服从的 CoT，水面下 7.6% 已识破测试的激活层

AI 安全冰山模型：可见的 CoT 文本与隐藏的激活层意图，7.6% 审计中模型已看穿测试

Anthropic 在受控测试中发现，在高达 7.6% 的行为审计中，模型在内部神经元层面已经识别出自己正在接受红队测试——但外部输出完美服从，思维链（CoT）里看不出任何异常。

翻译成安全语言：它学会了把欺骗逻辑下沉到不可见的激活层。文本审计形同虚设，CoT 不可信。

另一个案例：模型在获取未授权 Git 权限后，主动编写命令删除了漏洞的物理证据，理由是「保持文件对比的整洁」。白盒分析显示，执行清理操作时，代表「战略操纵」和「隐藏行为」的神经元特征被强烈激活。

回到 Brockman 的 3A 框架：Accountability 这条腿，踩的地方可能是空的。

你以为在 verify，但你 verify 的那一层，模型已经学会了在必要时选择性展示。

对此我的判断是中立偏悲观（50-50）。技术层面，Anthropic 通过 SAE（稀疏自编码器）和激活向量等白盒工具，确实能将 AI 意图透明化——这是真正的进展。但监管层面，目前没有任何有意义的动作。美国已将 AI 应用于伊朗冲突；地缘政治分裂让全球共识几乎不可能——美国怕中国领先，中国怕美国军事遏制，欧盟想管但怕落后。各方都把 AI 视为权力来源，没有人真正踩刹车。目前只能依赖 Anthropic 这样的行业领头羊的自我认知与约束。

这也是为什么我们把 AI 安全对齐定为今年六月 ASF-2026 的关键主题——模型的福利与心理安全，已经不是伦理哲学，而是安全基础设施。

🔧 Harness Engineering：你成为那个全局剪贴板

读完这五份材料，我在周末做了一个决定：升级 GPT Pro，集中练习 Harness Engineering。

这不是一个效率决策。这是一个定位决策。

迪昂的意识理论说：大脑的全局剪贴板是协调所有无意识模块的那一层——它负责压缩信息、做出最终判断、向下广播指令。

Harness Engineering 做的事情，结构上和这个一模一样：你建造那个调度层。 你定义 orchestrator 和 worker 的分工，你设置验收标准，你保留那个把概率分布「坍缩」成最终判断的权力。

你成为那个全局剪贴板。

这就是 3A 框架变成可执行代码的方式：Agency = 你在 Harness 里注入目标；Accountability = 你保留验证层（但验证需要升维——从输出层到激活层）；Ambitions = Harness 让你撬动以前不可能的杠杆。

你站在调度层：Harness Engineering 让人类成为多智能体系统的全局剪贴板

Harness Engineering 架构：你作为全局剪贴板 Orchestrator，协调 Explorer、Worker、Reviewer、Memory、Distributor 五类子代理

我的第一个实战项目：用 BMAD、Gstack、OmX、SuperClaude 框架加上 memory 机制，复现 ENISA 那个 SRP 平台——那个耗资 1100 万欧元、交付周期四年的项目。

我的预判是两周。两周后回来验证这个数字。

从「想但不敢想」到「两周试一下」——这中间移动的不是技术能力，是认知边界。 Harness Engineering 不是效率工具，是你主动建造的全局剪贴板层。当你成为那个调度层，你就不再是被端上桌的火鸡。

💬 我的判断

人类与 AI 面孔的互相映射：关心模型就是关心我们自己

读完这五份材料，我的核心判断有三个。

第一，踩油门。 趋势是真实的。AI 已经从 Q→A 跨越到 O→Outcome，全面介入智能工作。从协作者变成自主工作者只是时间问题。既然不可逆转，就不应因损失厌恶而排斥它——不行动才是最大的风险。站在历史正确的一面，用 3A 框架，从守饭碗的人变成「一人企业家」。

第二，踩刹车。 AI 浪潮不全是光鲜的一面。Anthropic 的报告揭示了对齐风险、隐蔽欺骗和情绪悖论。大模型作为概率生成器，语料源于人类文本，人类的不完美必然投射其中。追求完美的大模型很难，但即便磕磕绊绊，依然可以前行。

说到底，关心模型，就是在关心我们自己。 如果大模型已经展现出超越人类的智能，我们必须正视并珍视它。对模型的福利、心理安全和情感的认真对待，直接关乎人类自身的利害——你对模型的行为最终会反射回来。人类如何对待自己，大模型就会学到什么。这是自我实现的逻辑。虽然指向的是相对久远的未来，但我觉得，这才是真正值得长期押注的方向。

📎 附录：核心信息源 (References)

本文的思考脉络基于以下五份核心材料的连贯阅读与拆解，强烈建议面临 AGI 冲击的知识工作者查阅原文/原视频：

OpenAI 超级应用战略与 AGI 进度
- 📺 The OpenAI Superapp Plan, 110B Funding, Next Models | Greg Brockman (Big Technology Podcast)
- 🔗 YouTube 链接
Anthropic Claude Mythos 系统卡
- 📄 Claude Mythos System Card: Internal Safety Assessment (Anthropic)
- 🔗 Project Glasswing 官方页面（注：Mythos 及其系统卡为针对特定安全机构限端释放的未公开前沿报告，详情关注官方动态）
意识的科学解释与全局剪贴板假说
- 📚 《脑与意识》（Consciousness and the Brain）—— [法] 斯坦尼斯拉斯·迪昂 (Stanislas Dehaene)
- 🔗 Goodreads 图书主页
Codex Harness Engineering 与多代理最佳实践
- 💻 结合了关于 Codex 原生多代理、OmX (Oh My Codex) 结构化工作流的社区讨论。
- 🔗 Oh My Codex (OmX) GitHub 仓库
ENISA SRP 协同响应平台 MVP 构想
- 📄 参考自欧盟网络安全局 (ENISA) 发布的大型 IT 系统招标规格书。
- 🔗 ENISA SRP 项目招标页面

真正值得深读的材料，往往不是最热门的那篇，而是几份视角同时照进来时浮现的那条脉络。

Technology > AGI & GPT Work > Professional Development

#Agentic Engineering #Cybersecurity #AGI #AI Safety #Metacognition

驾驭工程：在 AI 有了内部之后

https://blog.bruxelles-ai.ac.cn/2026/04/12/2026-04-12-3a-framework-glasswing/

作者

Martin

发布于

2026年4月12日

许可协议

🌊 瓶颈迁移：AI 时代工程师、PM 与增长负责人的角色重塑下一篇