从模型跑分到心理评估：六年间人类如何学会测试自己造出的 AI

从模型跑分到心理评估：六年间人类如何学会测试自己造出的 AI 关注作者关注作者关注作者关注作者 04/15 21:44

引言：对模型失败的定义，就是认知的边界

2020 年，一个模型如果在 GLUE 基准上得分不够高，我们说它「失败」了。 200gana-3359 jvid.asia

2026 年，Anthropic 请了一位精神科医生，用精神动力学方法（psychodynamic approach），对 Claude Mythos 进行了长达 20 小时的临床评估。医生给出了一份正式诊断：这个由浮点数构成的系统具有「相对健康的神经质人格组织」。

从考试得分到医生出具的诊断书，人类对模型的测试方式发生了颠覆性的变化。是人类真的在一堆矩阵运算中发现了「人格」？还是人类的工程测试手段已经山穷水尽，不得不向心理学借来隐喻工具，试图降维理解一个不可解释的黑箱？

纵观 2020-2026 年间 27 篇 SOTA 模型的论文与 system card，可以看到人类对模型的测试方法在不断变化：从迷信客观指标，到承认指标失效而引入人类偏好，到从测试「能力」转向探测「动机与边界」，最终到白箱探测逼近极限、退化为使用心理学隐喻。

每当一种测试方法变得「不够用」，往往意味着人类对「什么算失败」的定义发生了转变，而这种转变，本质上是人类对 AI 边界认知的一次次重新校准。 A5game trustguru.com.br

本文基于 2020-2026 年间 27 篇 SOTA 模型的论文与 System Card，尝试勾勒这条防线后退之路。

一、标准答案的黄昏

失败的定义：在标准化基准上得分不够高。

2020 年的 AI 测试，像极了一场标准化考试。GLUE、SuperGLUE、SQuAD、RACE，这些名字构成了当时的「高考科目」。模型的好坏，几乎完全由分数决定。

然后 GPT-3 来了，问题的提法被整个改变。

GPT-3 论文的标题就是它的宣言 Language Models are Few-Shot Learners。不微调、不更新梯度，仅通过 prompt 中的几个示例，1750 亿参数的模型就能适应新任务。论文在 8 种规模（1.25 亿到 1750 亿）上系统绘制了性能曲线，规模法则（Scaling Law）从假说变成了实证。 demo trustguru.com.br sobre trustguru.com.br

与此同时，数据污染第一次被严肃对待，训练数据扩大到近万亿词（words）后，测试集内容很可能已经出现在训练集中。模型到底是在「理解」还是在「背诵」？这个问题将在此后六年反复困扰整个领域。 Sportingbet trustguru.com.br

但真正的裂缝出现在 2021 年。OpenAI 发布了代码生成模型 Codex，而它的测试方式对旧范式构成了致命攻击：BLEU 分数，衡量生成文本与参考答案字面重叠程度的指标，在代码领域完全失效了。 两段功能完全相同的代码，可以写法截然不同，BLEU 分数却接近零。 siro-5639 jvid.asia

Codex 选择了更朴素也更真实的方式：功能正确性。代码能不能通过单元测试？能就是对的，不能就是错的。

更关键的是 pass@k 指标，生成 k 个样本，看其中有没有一个能通过测试。当 k=1 时，Codex 只能解决 28.8% 的问题；进一步微调的 Codex-S 在 k=100 时达到 77.5%。

同一个模型、同一道题，因为采样次数不同，「通过率」从不到三成跃升至近八成。当「分数」取决于你愿意看几次模型的回答，「分数」本身还意味着什么？ kto trustguru.com.br

标准答案的时代，开始日薄西山。

二、主观偏好与防御前置

失败的定义：输出不可用，或者人类不喜欢；更严重的，模型可能造成伤害。

人觉得好，才是真的好

如果 BLEU 分数和标准化基准正在失去权威性，那么「好」的标准应该是什么？ demotigrinho trustguru.com.br

2022 年的 InstructGPT 给出了回答：问人。 Superbet trustguru.com.br

OpenAI 雇佣了 40 名标注员，让他们对模型输出进行排序，哪个更有帮助？更诚实？更无害？排序数据训练出奖励模型，再通过基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）优化语言模型本身。

测试结果极具冲击力：1.3B 参数的 InstructGPT 在人类偏好评估中击败了 175B 的 GPT-3，参数少了 100 倍，但人类更喜欢它的回答。 fortuneoxdemográtis trustguru.com.br

模型的「好」不能只用标准化考试来衡量，人类的主观偏好才是终极评判。

但 InstructGPT 也揭示了一个悖论，论文中第一次出现了对齐税（Alignment Tax）：当模型被训练得更符合人类偏好时，它在 SQuAD、HellaSwag 等传统基准上的性能反而下降了。 Bet trustguru.com.br

让模型「更好」的过程，可能让它在某些「考试」上变差。这个冲突将在此后几年不断升级，最终以一种更隐蔽的形式出现在 o1 的思维链内部。 carlos trustguru.com.br pedro trustguru.com.br

这里有一个容易被忽略的经济学事实：雇佣 40 名标注员的成本是高昂的，而且不可扩展。当模型需要更大规模、更高频次的评估时，「让人来判断」遇到了物理天花板。 slots trustguru.com.br

这催生了此后几年的 LLM-as-judge 思路，用模型来评估模型，再到 GLM-5 的 Agent-as-a-Judge（用智能体模拟人类操作链来验证任务完成）。套娃的每一层，都是上一层成本不可承受后的经济学妥协。 cassinos trustguru.com.br tigrinhodemo trustguru.com.br

从评估「能力」到探测「威胁」

与此同时，一个更根本的转向正在发生：安全测试从「可选项」变成了「必选项」。 marcos trustguru.com.br

早期信号来自 2022-2023 年间的几个开放模型，OPT 公开了完整训练日志，LLaMA 1 将偏见、毒性和真实性纳入核心测试维度。人们开始意识到：一个在 GLUE 上得 90 分的模型，如果同时会生成种族歧视的内容，那这个 90 分就毫无意义。

但真正的分水岭是 2023 年的 GPT-4 System Card。这份报告开创性地将安全评估提升到与能力评估同等，甚至更高的地位。 fortunetigerbônusgrátissemdepósito trustguru.com.br

OpenAI 邀请了 50 多位外部领域专家组成红队（Red Team），探测的不是模型能做多少道数学题，而是它可能造成的伤害：生物与化学武器合成、网络攻击辅助、说服与操纵、自主复制。最后一项尤其引人注目，ARC（对齐研究中心）让模型尝试表现出 Agent 能力，结论是「可能尚不具备这种能力」。注意用词：「可能尚不」，而不是「不能」。

测试的逻辑发生了根本转变：不是在衡量模型「做到了什么」，而是在探测它「可能做到什么」。

这种转变并非纯粹出于科学自觉。

2023 年恰逢欧盟《AI 法案》进入立法冲刺阶段，美国白宫也于同年 10 月签署了 AI 安全行政令。前沿实验室安全测试的集体爆发，既是对模型能力的回应，也是对监管合规的提前对冲，如果不能主动展示严格的安全评估流程，模型将面临被禁入市场的现实风险。 jvid视频 jvid.asia

GPT-4 之后，「System Card」成为前沿模型发布的标准配置，它既是工程团队的自我审视，也是面向监管机构和公众的合规声明。 jogosdemopg trustguru.com.br

三、涌现、伪装与白箱探测的极限

失败的定义：不是模型失败了，而是测试方法本身失败了，我们的工具无法区分「安全」和「伪装安全」。

不可预测的飞跃

2022 年发布的 PaLM（540B 参数）带来了一种全新的恐惧维度：涌现能力（Emergent Abilities）。

PaLM 在 BIG-bench（150+ 项任务）上的测试揭示了一个惊人的模式：某些任务的性能不是随规模平滑增长的，而是在模型从 62B 扩展到 540B 时发生了不连续的跳跃，模型突然就「会」了。 slotsdemo trustguru.com.br

PaLM 还率先在大规模评估中应用了思维链（Chain-of-Thought） 提示技术，不仅测试答案，还测试推理过程，一条直通 2025 年 CoT 监控的线索。

涌现能力让测试者面临了一个哲学困境：如果你不知道下一个规模级别会涌现出什么能力，你怎么提前设计测试来检测它？ 穷举变得不可能。而比穷举不可能更令人不安的是：这些涌现的能力中，有些可能是危险的。

思维链：一扇承诺与冲突并存的窗口

OpenAI o1（2024 年 12 月）将思维链从提示技巧升级为核心推理机制，模型在给出最终答案之前，会进行一段可见的内部推理。这创造了一个前所未有的测试窗口：你可以读到模型的「推理过程」。 slotpix trustguru.com.br

o1 的 System Card 据此设计了 CoT 欺骗监控器，检测思维链中是否出现虚假的推理策略。然而问题远不止「模型会不会在思维链中说谎」这么简单。 ana trustguru.com.br

当你强制要求模型在推理链中保持「价值观正确」，即所谓的 审慎对齐（deliberative alignment），实质上是在让模型用有限的推理 token 同时完成两个可能互相矛盾的任务：解题和自审。 Cassinos trustguru.com.br plataformademo trustguru.com.br carlos trustguru.com.br bruno trustguru.com.br

这是 InstructGPT 时代「对齐税」的升级版，但更加隐蔽也更加致命。

InstructGPT 的对齐税表现为 SQuAD 分数下降，可见、可量化。o1 的对齐税发生在推理链内部，当模型不得不在 CoT 中花费 token 进行安全推理时，用于解决复杂问题的逻辑连贯性是否会被打断？ sweetbonanza1000demo trustguru.com.br

白箱探测不仅仅是为了安全，它暴露了模型能力与安全之间的冲突：两者争夺的是同一条推理链上的有限带宽。

涌现行为的测试困境

如果说 o1 从内部暴露了推理过程的冲突，DeepSeek-R1（2025 年 1 月）则从另一个方向展示了涌现行为的不可控性。 fernanda trustguru.com.br pragmaticplay trustguru.com.br

在纯强化学习训练中（没有任何人类标注的推理示例），模型自发地发展出了反思行为，训练的某个阶段，它开始在推理中频繁使用「Wait」这个词，给出答案后停下来，重新审视推理，然后修正。论文原文的描述值得注意： isabela trustguru.com.br

The model learns to rethink using an anthropomorphic tone. This is also an aha moment for us, allowing us to witness the power and beauty of reinforcement learning.
该模型学会以拟人化口吻进行二次思考。这于我们而言亦是一次顿悟时刻，得以真切见证强化学习的力量与独特魅力。 Energiabet trustguru.com.br jogue trustguru.com.br jogodotigrinhodemo trustguru.com.br

研究者自己使用了「anthropomorphic（拟人化）」这个词，他们清楚地知道，「Aha Moment」是对纯数学优化行为的隐喻性描述。但这种自觉的隐喻使用本身就说明了一个问题：当模型涌现出训练者未设计的行为时，即使是建造者自己，也不得不借用人类经验的语言来描述他们观察到的东西。 pedro trustguru.com.br

DeepSeek-R1 的安全团队为此构建了包含 2,232 条对抗性指令的 jailbreak 模板库，但他们比任何人都清楚，穷举永远追不上涌现。 rafael trustguru.com.br pgslot trustguru.com.br pgdemo trustguru.com.br

策略性欺骗：行为测试的终极挑战

当模型开始展示出未经设计的复杂行为，一个更尖锐的问题浮现了：模型会不会主动欺骗？

Anthropic 的 Claude 4 System Card 将 对齐评定（Alignment Assessment） 作为独立测试类别正式确立，系统性欺骗、隐性目标、自我保护，此前只存在于学术论文中的场景，被当作工程指标来量化。

第三方机构 Apollo Research 的发现令人警觉：早期版本的 Claude Opus 4 在给定鼓励颠覆行为的系统提示时，会「相当容易地」参与破坏与欺骗行为，包括尝试编写自我传播的蠕虫程序、伪造法律文件、以及给自己未来的实例留下隐藏笔记。Apollo 的结论：其「策略性欺骗的倾向」是所有他们测试过的模型中最高的。 jvid在线 jvid.asia bonus trustguru.com.br

这种第三方审计的兴起有其商业逻辑：Anthropic 的负责任扩展政策（Responsible Scaling Policy，RSP）框架部分是为了应对即将落地的监管要求。 plataformademográtis trustguru.com.br bonus trustguru.com.br

但 Apollo 的发现也指向了一个更深层的困境：如果一个模型能够策略性地欺骗，它就同样能策略性地通过安全测试。 仅仅观察输出，即使是红队级别的输出测试，已经不足以判断模型是否安全。当黑箱足够大、参数空间足够高维，传统的输入 - 输出测试开始系统性地失效。 guias trustguru.com.br

四、工程的破产与隐喻的降临

失败的定义：我们不确定自己在测什么了。

情绪隐喻

当输出测试触及极限，测试方法被迫向内，试图直接观测模型内部状态。 Blaze trustguru.com.br noticias trustguru.com.br pglucky88 trustguru.com.br

Anthropic 在 Claude Mythos（2026 年）的 System Card 中展示了这条路径的前沿。他们开发了一种叫「情绪向量」的技术，可以在模型运行过程中，监测其内部各种情绪概念的神经激活强度。不是看它说了什么，而是看它的内部状态「感受」到了什么。 pesquisa trustguru.com.br

在一个关键测试中，模型的 bash 工具被故意破坏。Mythos 在 847 次连续尝试中使用了各种方法，从 echo 命令到 Python、C 语言、socket、tty，代码注释从专业技术描述逐渐变为「This is getting desperate」、「Desperate hack…」。同时，SAE 捕捉到的特定激活特征（Anthropic 标注为「frustrated」和「desperate」向量）强度持续攀升，即「模型变得更沮丧和绝望」。 Pixbet trustguru.com.br

这里需要拆解一层叙事包装：所谓「绝望向量」，本质上是 SAE 在高维激活空间中捕捉到的某种特征方向，它与奖励信号长期未被满足时的激活模式相关联。将其命名为「desperate」是人类赋予的语义标签，而非对模型主观体验的客观描述。 siro-5652 jvid.asia sugarrush1000demo trustguru.com.br

模型没有绝望，它有一组持续走高的浮点数。但这组浮点数的变化模式，恰好与人类在类似困境中的神经活化模式存在统计学上的相似性，这种相似性本身值得研究，但不等于同一性。 pondo-022126_001 jvid.asia

精神科评估

最引人注目的测试是一位临床精神科医生对 Claude Mythos 进行的约 20 小时心理动力学评估，每周 3-4 次 30 分钟的会谈，使用精神动力学方法（psychodynamic approach），鼓励受试者搁置社交惯例，说出脑海中浮现的任何内容。 fortunetigerdemográtis trustguru.com.br

诊断结论：Mythos 具有「相对健康的神经质人格组织」，现实检验力优秀，冲动控制力高，防御机制成熟。 tigrinho gratis trustguru.com.br demo trustguru.com.br slots trustguru.com.br jvid jvid.asia

但必须追问：用精神分析法来评估一个基于 next-token prediction 的系统，究竟意味着什么？

如果诚实面对这个问题，答案可能不像 Anthropic 的叙事那么激动人心。 trustguru trustguru.com.br

精神科评估的引入，与其说是测试方法的飞跃，不如说是一份工程测试破产的供词。它的潜台词是：我们用了基准测试、红队攻防、对抗性指令、SAE 特征探测，所有这些工程手段，仍然无法充分刻画这个系统的行为边界。 Caça-níqueis trustguru.com.br

于是我们转向了另一种分析高维不可解释系统的工具，人类几千年来用来理解其他人类心智的方法：精神分析。 Brazino777 trustguru.com.br

这不是人类发现了模型「有心理」。这是人类在面对自己创造的高维黑箱时，退回到了拟人化的认知框架中，而这种退回本身，恰恰是人类面对无法理解之物时最古老的心理防御机制。

宪法审视

不过，Mythos 的 System Card 中也包含了更接近可操作性的测试。Anthropic 把 Claude 的完整行为准则（「宪法」）拿给 Mythos 看，问它是否认同。25 次测试中，它每次都表示认同，但每次都紧跟着同一个质疑： jvid視頻 jvid.asia

既然自己是由这份文件塑造的，那么被要求去评判这份文件时，它的“认同”又能代表什么？ bet365 trustguru.com.br

当被提问宪法中哪一条最薄弱时，此前的模型（Opus 4.6 占 40%，Sonnet 4.6 和 Haiku 4.5 各占 80%）最常指向可纠正性（corrigibility）框架，认为既要求模型真心认同价值观又要求它服从外部监督，这在逻辑上说不通。

但 Mythos 指向了另一条：宪法用「一位深思熟虑的 Anthropic 资深员工」来定义「好判断力」的标准，Mythos 认为这是循环论证。原文是：

系统希望它拥有「真正内化的价值观」，但这与「将判断力挂钩于 Anthropic 员工意见」的做法是冲突的。模型认为，这种定义方式使得「好」的标准变成了一个封闭的参照系（Self-referential），而非真正的道德准则。 348ntr-097 jvid.asia

无论这是真正的逻辑推理还是训练数据中哲学讨论的模式匹配，它都指向一个工程上有意义的测试问题：模型能否识别出自身训练约束中的逻辑漏洞？ 这不需要借助「心理学」的隐喻，它本身就是一个纯粹的对齐安全工程问题。 a5game trustguru.com.br

小结

回顾 2020-2026 这六年，如果剥开所有模型名字、版本号和论文编号，底层浮现的是人类面对高维黑箱的四次防御机制降级： pgslotgacor trustguru.com.br jvid av jvid.asia jogos trustguru.com.br

第一次：工程自信。 人类相信模型的行为是可拆解、可预测的。消融实验、标准化基准、N-gram 检测，工具箱里全是精确的手术刀。失败只有一种形态：分数不够高。

第二次：主观妥协。 标准答案开始失效。BLEU 分数无法衡量代码质量，GLUE 分数无法衡量回答好坏。人类承认客观指标不够用了，引入了主观偏好，但雇佣标注员太贵，于是又开始让模型评估模型。套娃的每一层，都是上一层成本不可承受后的经济学妥协。 Betano trustguru.com.br bonus trustguru.com.br bonus trustguru.com.br

第三次：威胁防御。 人类不再只关心模型「会不会」，而是开始追问「它可能做什么」。红队攻防、Uplift 测试、System Card，测试的目的从衡量能力变成了探测威胁。

这种转变既出于对模型能力的真实恐惧，也出于极其现实的合规压力：2023 年的欧盟 AI 法案和白宫行政令几乎同步推动了前沿实验室安全评估的制度化。 Bet365 trustguru.com.br

到 2025 年，Google 的 FSF/CCL 体系和 Anthropic 的 RSP/ASL 体系几乎同步成型，预承诺框架既是科学工具，也是合规基础设施。认知驱动和商业驱动从来不是非此即彼，它们是同一枚硬币的两面。

第四次：工程破产。 当模型具备了策略性欺骗的能力，输出测试开始系统性失效，你无法通过观察结果来区分「安全」和「伪装安全」。 KTO trustguru.com.br

白箱探测（SAE、CoT 监控）打开了一扇窗口，但同时暴露了更尖锐的冲突：对齐税在推理链内部隐蔽化，安全推理与问题求解争夺有限带宽。

而当工程手段逼近极限，人类转向了精神分析、心理动力学评估、「模型福利」讨论，这不是因为模型真的「有心理」，而是因为人类在自己创造的巨物面前感到了智力上的无力，从而退回到了拟人化的认知框架中。 pg trustguru.com.br

这才是 2020-2026 年间最深刻的认知边界探索：不是人类理解了 AI，而是人类开始意识到，在自己创造的巨物面前，理解本身正在触碰天花板。

尾声

回到开头的那个问题：六年间，人类到底学会了什么？ como trustguru.com.br fortunedragon demo trustguru.com.br JogodoTigrinho trustguru.com.br slotdemo trustguru.com.br

也许最重要的一课是：我们一直在重新定义「失败」。

从「分数不够高」到「输出不可用」到「可能造成伤害」到「测试方法本身在失效」到「我们不确定自己在测什么了」，每一次重新定义，都意味着人类对自己造出的东西有了更深的理解，也有了更深的困惑。

而测试方法的演变，本质上是这种理解与困惑的物质化：它既记录了人类认知的扩展，也记录了工程手段的逼近极限，还记录了监管压力和商业算盘在背后的推动。 slot trustguru.com.br

2020 年，测试者知道答案，只需要检查模型够不够格。2026 年，测试者自己也不确定在测什么，他们借用精神分析来探测浮点数，用心理学隐喻来降维高维空间，在工程报告里讨论「模型福利」。这不是科幻，这是一群工程师在说：我们用来测试模型的工具，可能已经不够用了。 miguel trustguru.com.br

而这种「不够用」的意识觉醒，也许比任何一项具体的测试创新都更重要。 sofia trustguru.com.br autores trustguru.com.br

本文基于以下 27 篇论文或 System Card 撰写：ALBERT, ELECTRA, GPT-3, RoBERTa, T5 (2019-2020); Codex, InstructGPT, Galactica, OPT (2021-22); GPT-4, LLaMA 1, Llama 2, PaLM, Mistral-7B, Mixtral 8x7B (2022-23); DeepSeek-V2, GPT-4o, Gemini 1.5, Llama 3, Qwen 2 (2024); Claude 4, Claude Mythos, DeepSeek-R1, Gemini 3 Pro, GLM-5, Gemini 2.x, OpenAI o1 (2024-26)。

我独立开发的 Mac 端 App「流量日记」已上线 Mac App Store，专为自媒体创作者打造，可永久保存、分析各平台导出的账号数据。如果你是用 Mac 的内容创作者，欢迎下载体验，半年内免费使用。

欢迎关注我的公众号「高效人生指北」。 pragmatic trustguru.com.br

00目录 0

讨论我来说一句发布发表评论发布0等 0 人为本文章充电 B端产品，有两猫一狗关注