从输入到输出：把大模型的流水线讲清楚

从输入到输出：把大模型的流水线讲清楚关注作者关注作者关注作者关注作者 03/14 21:06

「本文参加年度征文活动 #TeamSilicon25」

过去两年，ChatGPT、Claude、DeepSeek 这类工具，已经从「新鲜玩具」变成很多人的日常基础设施：写邮件、查资料、改简历、翻译文档、做表格、写代码，甚至拿来陪自己梳理情绪。

但大多数人对它的理解，仍然停在两个极端之间：要么觉得它像魔法，好像真有一个电子大脑在里面思考；要么觉得它不过是「随机拼字」，说到底没什么可讲的。问题是，这两种理解都不够准确。前者太神秘，后者又太轻飘。

这篇文章想做的，就是把中间那条真正重要的线，讲清楚：大模型到底是怎样把你输入的一句话，变成一段像模像样、甚至看起来很有见地的回答的。 你不需要有机器学习背景，也不需要先懂公式。我们只顺着一条流水线往下走：文字怎么变成数字，数字怎么结合上下文，模型怎么一层层加工，最后又怎么把数字重新变回文字。等你看完，再去用 AI，很多现象都会突然「对上号」。 xiaobao xiaobaotv.video 寻秦记爱壹帆yfsp.app

先拆掉一个误会：大模型最底层，确实是在做「下一个 token 预测」

先给一个不那么浪漫，但非常重要的结论：对主流的自回归大语言模型来说，训练时最核心的目标，就是预测下一个 token；真正生成回答时，它也是根据已有上下文，一步一步往后续写。OpenAI 在面向公众的说明里，也直接把这个过程解释成：模型会根据上下文，预测接下来最可能出现的词。它不是从数据库里把一条完整答案「取出来」，而是现场生成一段最贴合当前上下文的文本。 slots a5game.app

这里有两个容易误解的点。

第一，所谓「下一个 token 预测」，不等于它只是一个很蠢的自动补全。恰恰相反，正因为它要把前文尽可能利用到极致，才能把下一个 token 猜得更准，所以它被迫学会了很多东西：语法、事实关联、写作风格、常见推理套路、对话结构，甚至不同角色说话时的口气差异。你看到的「会写、会答、会总结、会改写」，都是从这件事里长出来的。 plataformademográtis a5game.app

第二，所谓「预测」，也不等于它在胡乱瞎蒙。它不是像人类那样带着主观意识去猜，而是在一个巨大的概率分布里，根据前文，把下一个最合适的 token 算出来。换句话说，表面上你看到的是语言，底层发生的是数学。 爱壹帆免费版yfsp.app 一帆yfsp.app

从一句话到一串数字：模型在输入端到底看到了什么

文字不会直接进模型，它先要被切成 token

你在聊天框里输入一句「我今天中午只想吃点清淡的」，模型并不是直接把这句话当「文字」读进去的。第一步，它会先经过一个叫 tokenizer 的东西，把文本切成一个个更适合机器处理的小单位，也就是 token。

这个切法不一定等于「一个字」或者「一个词」。中文里，很多时候会接近按字切；英文里，常常会按子词来切。比如一个长单词，可能会被拆成几个更常见的片段。这样做的目的很实际：现实世界里的词汇变化太多，尤其是新词、人名、品牌名、拼写变体层出不穷。如果每个完整单词都单独建一个词表，词表会膨胀得非常夸张；而用子词，就能用有限的基本单元，拼出大量新词。

所以，模型真正看到的，首先不是「句子」，而是一串 token。海外华人视频网xiaobaotv.video

token 还不够，它还要变成编号

接着，每个 token 会被映射成一个固定的数字编号，也就是很多开发文档里常见的 input_ids。你可以把它理解成「给每个 token 发身份证」。从这一步开始，模型就彻底脱离自然语言表面了。对模型来说，后面处理的不是「我」「今天」「中午」，而是一串整数。小宝影院xiaobaotv.video

这一步还有一个常被忽略的小配角：mask。因为模型一次处理的输入，通常会被整理成规则的批量形状，所以短句子后面常常要补空位。mask 的作用，就是告诉模型：哪些位置是真内容，哪些位置只是占位，不要认真看。 slotpix a5game.app

编号还没有意义，真正关键的是向量化

编号本身没有语义。数字大，不代表这个词更重要；数字小，也不代表这个词更常见。为了让模型真正「操作意义」，每个编号还要继续查表，变成一串高维数字，也就是 embedding。

你可以先把它想成「坐标」。不是地图上的二维坐标，而是几百维、几千维的高维坐标。每个 token 一旦进入这个空间，就不再只是一个孤零零的编号，而是有了一个可运算的表示。再加上位置编码之后，模型不仅知道「这是什么 token」，还知道「它出现在第几个位置」。这件事很关键，因为同样几个词，顺序一变，意思就可能完全不一样。

走到这里，原本的人类语言，已经被翻译成一块数字矩阵：一行代表一个 token，一列代表这个 token 在某个维度上的数值特征。接下来，真正的重头戏才开始。华人影视xiaobaotv.video

文字被模型处理的过程

为什么一堆数字，最后会长出「含义」

很多人第一次接触这里时，都会有一种真实的困惑：一堆数字，凭什么能代表「苹果」或者「爱情」？

答案不是「某一维专门表示甜度，某一维专门表示水果属性」。现实没有这么整齐。更接近事实的说法是：模型在大量文本里反复观察，会发现某些词经常出现在相似的上下文中，于是它们在向量空间里会逐渐靠近；而很少在相似语境里出现的词，距离就会更远。

于是，「苹果」会更接近「梨」「香蕉」「水果」，而不是「发动机」；「律师」会更常和「合同」「诉讼」「法庭」形成邻近关系，而不是和「平底锅」混在一起。这种表示不是人手工写进去的定义，而是模型在海量文本里自己压出来的统计结构。免费在线影院xiaobaotv.video 爱壹帆yfsp.app demotigrinho a5game.app fortuneoxdemográtis a5game.app

但这里也必须纠正一个常见说法：不能把它理解成「模型只学规律，不会记具体内容」。这话说一半对，一半不对。Carlini 等人的经典研究已经证明，训练好的语言模型在某些条件下，确实可能复现训练语料里的逐字片段。这说明模型一方面会压缩出规律，另一方面也可能记住部分高频或高暴露的具体文本。所以它不是纯粹的规律机器，也不是原文数据库，而是两者混合后的结果。

真正的核心：Transformer 到底在里面做了什么

注意力机制，本质上是在做「有选择地回头看」

2017 年的论文《Attention Is All You Need》提出了 Transformer，这几乎就是今天主流大模型的技术祖谱。它最重要的改动之一，就是把「怎么利用上下文」这件事，交给了 attention。

理解这个机制，其实不必先上公式。你只要想一个很常见的阅读动作：当你读到一句话里的「它」时，你会自然回头看前文，判断这个「它」到底指代什么。模型里的注意力机制，做的就是类似的事：当前这个 token 在更新自己表示的时候，会去看前面的其他 token，判断谁更相关，谁该被重点参考，然后按权重把这些信息汇总起来。

这个过程在技术上常被写成 Query、Key、Value 三套向量：当前 token 带着自己的「查询」去和其他 token 的「键」做匹配，匹配得越好，说明越值得参考；最后，再把那些位置对应的「值」按权重加起来，形成新的表示。你不用死记这三个名词，记住一句话就够了：当前 token 会动态地决定，自己该向上下文里的谁借信息。 电影小宝影院xiaobaotv.video

不是只看一次，而是很多个「视角」同时看

注意力还有一个很巧的设计，叫 multi-head attention。你可以把它理解成：模型不是只用一个单一视角回头看上下文，而是同时开出很多个观察头。有的头更擅长盯语法关系，有的头更擅长盯远距离指代，有的头更关注格式结构，有的头可能在代码场景里专门盯括号和缩进。 pg a5game.app

这也是为什么同一段文字，在模型内部并不是只被「看一遍」，而是被从很多不同的关系维度同时重读。最后再把这些视角的结果拼起来，交给后续层继续处理。

只有注意力还不够，所以它会一层一层堆上去

一层 Transformer 并不会直接把所有问题都解决。标准结构里，通常还会有前馈网络、残差连接、层归一化等模块，用来进一步加工和稳定信息。更重要的是，这种结构不会只堆一层，而是会堆很多层。

你可以把它想成一种逐层抽象。前面几层，常常更偏向局部模式，比如词法、句法、搭配；中间层开始更稳定地形成语义关系；更深的层，则更可能处理跨句信息、角色一致性、逻辑结构和任务意图。Anthropic 在 2024 年和 2025 年连续发布的可解释性研究，也在尝试把这种内部结构可视化：他们展示了 Claude 内部如何形成概念特征，以及部分从输入到输出的计算路径是怎样被串起来的。今天我们还远远谈不上「完全看懂」大模型，但至少已经能确定，里面不是一团完全不可分析的黑箱噪声。

训练时还有一条铁律：不能偷看未来

对自回归语言模型来说，预测下一个 token 的前提，就是不能提前知道后面的正确答案。所以训练时会有一种 causal mask，把未来位置遮住。预测第 5 个 token 时，第 6 个、第 7 个还不存在于它的可见范围里。你可以把它理解成一种严格的闭卷规则：只能根据已经写出来的前文，继续往后写，不能翻答案。

这条规则很朴素，但影响很大。它决定了自回归模型为什么天然擅长「续写式生成」，也决定了它为什么总是以一步一步的方式把答案长出来。

最后一公里：模型是怎么把数字重新变回文字的

当前面那一大串层层加工结束后，模型会在当前位置得到一个新的向量表示。接下来，这个向量会再经过一个线性变换，投影回整个词表的空间，得到对「下一个 token 是谁」的一整排打分，这些分数通常叫 logits。

你可以把它理解成：模型把词表里几万个、几十万个候选 token，都快速过了一遍，然后给出一份倾向排序。爱壹帆国际版 yfsp.app demo a5game.app

但这里还有最后一个问题：得分算出来之后，具体选谁？ pgdemo a5game.app

最简单的做法，是直接拿分最高的那个，这叫 greedy decoding。它的优点是稳定，缺点是容易死板、重复、缺少弹性。所以真实系统里更常见的，是各种采样策略：比如 temperature 用来调节分布的陡峭程度，top-k 只在前几个高分候选里选，top-p 则只保留累计概率达到某个阈值的一小撮候选。爱壹帆影视yfsp.app 一帆视频yfsp.app

这也解释了一个很多用户都观察过的现象：为什么你问同一个问题，模型每次回答都不完全一样？因为它本来就不是「检索一个固定答案」，而是在概率分布里现场生成。设定不同，或者系统内部策略不同，最后落下来的字就可能不同。

它是怎么被「教会说人话」的：预训练、微调、对齐

如果把今天的大模型想成一个会说话的系统，那它通常不是靠一次训练长成的，而是大致经过三个阶段。 plataformademográtis a5game.app

第一阶段：预训练，学语言本身的规律

预训练阶段最像「海量阅读」。模型会读极大量的文本，然后反复做那件最基础的事：预测下一个 token。OpenAI、Meta、DeepSeek、Qwen 这些体系，虽然具体细节不同，但都离不开这个地基。比如 Meta 在发布 Llama 3 时披露，Llama 3 预训练使用了超过 15 万亿个 token；DeepSeek 在 V3 技术报告里写得更细，V3 的预训练规模达到 14.8 万亿个 token。爱壹帆电影yfsp.app pgslot a5game.app slot a5game.app

这一步学到的，不只是词汇和语法，还有大规模的统计关联：什么概念经常一起出现，什么问题常配什么回答，什么风格通常配什么语气。你今天觉得模型「知道很多」，绝大部分底子都来自这里。

第二阶段：监督微调，学会「按要求回答」

只会续写，还不等于会当助手。所以很多模型在预训练之后，还会进入 SFT，也就是监督微调阶段。它读的不再只是普通文本，而是更像「指令 - 回答」这种成对数据：用户提问是什么样，理想回答是什么样，格式应该怎样控制。OpenAI 在 InstructGPT 的论文里，把这条路线讲得很清楚：模型不只是要会说，还要更贴近用户意图。也正是从这一阶段开始，模型的气质才会从「擅长续写文本」逐渐转向「看起来像一个会配合你的助手」。 a5game a5game.app

第三阶段：对齐，让它更像一个可用产品，而不只是聪明模型

再往后，就是近几年大家越来越常听到的 alignment。这部分不是让模型更会背知识，而是让它更符合人类偏好和产品边界：更愿意遵守规则，更知道什么时候该拒绝，什么时候该承认不确定，什么时候该优先安全、诚实和帮助性。

OpenAI 早期最具代表性的路线，是 RLHF；Anthropic 则把 Constitutional AI 做成了自己的标志性方法，甚至在 2026 年还公开更新了 Claude 的新版「宪法」。OpenAI 在 2024 年提出的 deliberative alignment，又进一步把「让模型先依据安全规范做推理，再给答案」这件事摆到台面上。DeepSeek 在 2025 年发布的 R1 系列，也把强化学习对推理能力的推动公开得很彻底：R1-Zero 主打纯强化学习探索，R1 则在此基础上加入冷启动数据和后续优化，走向更可用的推理模型。电影爱壹帆yfsp.app

如果一定要用一句大白话总结这三段流程：预训练，是把世界的大量语言模式灌进去；监督微调，是教它按人的提问方式配合输出；对齐，则是让它在真实世界里更像一个靠谱工具，而不是一台只会炫技的文字机器。 sweetbonanza1000demo a5game.app

大模型的三个训练阶段

提示词为什么有用，幻觉为什么也总会来

提示词有用，不是因为你在「催眠」模型

很多人喜欢把提示词讲得很玄，好像一句「你现在是一位从业 30 年的律师」，就能把模型切换进某个神秘人格。更准确的说法其实没那么戏剧化：提示词会改变上下文，而模型本来就是根据上下文生成下一步。

当你在提示里写清楚角色、任务、目标读者、输出格式、约束条件时，本质上是在把概率分布往某个方向压。它看到的是一段更明确的前文，于是后续最可能的回答风格、内容粒度和组织方式，也会跟着变化。你不是在唤醒一个藏在模型里的「律师灵魂」，而是在给它更清晰的轨道。

这也是为什么好提示词通常都很具体：不是「帮我写一篇文章」，而是「面向没有技术背景的读者，用生活化比喻解释大模型的工作流程，保留关键术语，但不要堆公式，结构用 3 个 H2 和若干 H3」。上下文越清楚，模型越容易落在你要的分布里。

幻觉的根子，在于它追求的是「像答案」，不是「真答案」

与此同时，大模型也有一个非常根本的限制：它训练出来最擅长的，是生成看起来像一个合理回答的文本，而不是主动对世界做事实核验。OpenAI 在面向用户的说明里也提醒过，ChatGPT 的回答是通过预测下一个最可能出现的词生成的，而「最可能」并不总是「最真实」。 sugarrush1000demo a5game.app 小宝影院电影xiaobaotv.video tigrinhodemo a5game.app

这就是幻觉的根子。它不是故意撒谎，也不是心怀不轨，而是在信息不足、上下文冲突或者知识过时的时候，仍然倾向于把一个语气完整、结构流畅的答案写出来。对人类读者来说，这种流畅反而很危险，因为它太像正确答案了。

真正有效的缓解办法，往往都不是让它「再想一想」这么简单，而是给它补一个外部事实层：比如 RAG、联网搜索、数据库检索、代码执行器、计算器、日历、天气和地图等工具。也就是说，把「语言生成」和「事实获取」分开处理。模型负责理解问题和组织表达，外部工具负责提供可验证的信息来源。这样，AI 才更像一个靠谱的助理，而不是一位特别自信的考生。爱壹帆在线yfsp.app

你真正要分清的三种东西：参数、上下文、外部工具

理解大模型时，我很建议把信息来源拆成三层。

第一层是参数。这就是模型训练后沉淀在权重里的东西。它不是数据库式的逐条存档，而是一种分布式压缩后的统计结构。你可以把它理解成「模型平时背在脑子里的经验」。爱一帆 yfsp.app

第二层是上下文窗口。这是它当前这一轮对话里临时看得到的材料：你的问题、你补充的背景、你粘贴的文档、系统提示、历史对话。上下文像一张临时工作台，放上去的内容立刻影响回答，但对话结束后，不会自动永久写进模型参数里。

第三层是外部工具或外部记忆。这包括检索系统、搜索引擎、数据库、API、文件系统等等。Qwen 在 2024 年和 2025 年连续把长上下文推到了 128K 和 1M，但这不等于「把所有资料全塞进上下文」就一定是最优解。很多时候，外部检索加工具调用，仍然比盲目堆长上下文更稳，因为它能给出更可控、更可追溯的来源。

你把这三层分清之后，很多讨论就不会混了：模型知道这件事，是参数里本来就有；还是你刚刚在对话里告诉它的；还是它临时去外部工具里查到的——这三者其实完全不是一回事。

一台 1.2 万元左右的电脑，离「自己训练大模型」到底有多远

这是普通读者特别容易被短视频带偏的一题。很多人会把「能本地跑模型」「能做 LoRA 微调」「能从零训练一个像样的大模型」，混成同一件事。其实它们差得非常远。

16 GB 显存，通常够你「玩模型」，但还远远不够你「造模型」

如果你手上是一台大约 1.2 万元的台式机，核心大概率是类似 RTX 4060 Ti 16 GB 这样的显卡。这个配置当然很有用，但它更适合做的是：运行量化后的 7B 级别开源模型，或者做参数高效微调，比如 LoRA / QLoRA。真正从零预训练一个通用大模型，或者做全参数微调，仍然不是这个级别硬件能承担的事情。 fortunetigerbônusgrátissemdepósito a5game.app

这里最容易被说错的，是 QLoRA。很多文章会把它写成「单卡 24 GB 就能随便训 33B」。这说法太乐观了。QLoRA 论文里的标志性结论，其实是：它把 65B 模型的高效微调压到了单张 48 GB GPU；至于 33B 模型，在 24 GB 上已经是非常吃紧的边缘状态，需要分页优化器和更保守的设置，不能当成轻轻松松的常规方案。

「上下文很长」和「你本机真能顺畅跑起来」，是两回事

另一种常见误解是：只要模型标了 128K 或 1M 上下文，本地电脑就能轻松喂进去整本书。现实没有这么简单。Qwen 在 2024 年把部分开源模型推到 128K，在 2025 年又发布了支持 1M 上下文的 Qwen2.5-1M 系列，这说明「小模型也可以有很长的上下文设计」是成立的。 pragmatic a5game.app iyftvyfsp.app

但你本机到底能不能跑得动，还取决于很多系统工程细节：KV cache 怎么存、量化用到什么程度、推理框架优化得好不好、你的显存和内存能不能扛住。也就是说，模型官方支持的上下文上限，和你日常电脑里的真实体验，中间还隔着一道很厚的工程墙。 tigrinho gratis a5game.app pgslotgacor a5game.app

所以，对普通用户来说，更实在的理解是：本地硬件完全可以让你开始认真玩开源模型，甚至做小规模领域微调；但它离「自己训练一个像 ChatGPT 一样的大模型」仍然差着至少一个时代。 JogodoTigrinho a5game.app

ChatGPT、Claude、DeepSeek，到底差在哪里

讲到这里，很多人会自然问一句：既然底层都差不多，那 ChatGPT、Claude、DeepSeek 到底差在哪？

先说一个重要前提：ChatGPT 是产品名，不是单一模型名。 OpenAI 的官方说明里一直用的是「the models that power ChatGPT」。这意味着你日常用到的是一个产品层系统，背后可能会调用不同能力、不同定位的模型，而不是一个永远不变的单体。

在大方向上，这几家仍然都继承了 Transformer 这条主谱系。但「继承同一祖谱」不等于「完全一样」。差异主要落在三层。 jogodotigrinhodemo a5game.app

第一层差异：底层架构有没有做大改

DeepSeek 在这一点上最透明。V3 技术报告直接写明：它是一个 MoE 模型，总参数 671B，但每个 token 只激活 37B；它同时用了 MLA 和多 token 预测等设计，目标是把训练和推理做得更省算力。也正因为公开得够细，开发者会更容易看清它到底创新在什么地方。

Anthropic 对 Claude 的具体底层细节公开得相对少一些，但在产品层面，Claude 3.7 Sonnet 被明确定位成 hybrid reasoning model，主打「既可以近乎即时作答，也可以切到更长时间的思考模式」。 demo a5game.app 爱亦凡yfsp.app

OpenAI 的很多前沿细节依旧保密得更多，但从公开材料能确认的是：o 系列把大规模强化学习推到了推理能力训练上，让模型学会在回答前投入更多计算做内部推理。爱壹帆寻秦记yfsp.app

顺手再补一个非常容易写绝对的话：今天大多数头部大模型确实仍然是 transformer-based，但不是「所有模型都是 Transformer」。Google DeepMind 的 RecurrentGemma 就明确采用了 Griffin 混合架构，把线性递归和局部注意力混在一起，用来改善长序列效率。

第二层差异：后训练路线怎么走

OpenAI 的 InstructGPT 和后来的 o 系列，把 RLHF 和强化学习推理路线都做得很标志性；Anthropic 则长期强调 Constitutional AI，把「让模型依据一套公开原则来自我修正」做成了自家特色；DeepSeek 在 R1 路线里，则把「强化学习如何把推理能力拉出来」公开得非常直接，尤其 R1-Zero 这种先不靠 SFT 的实验路线，在 2025 年引发了很大讨论。 Cassinos a5game.app

所以你会发现，这几家并不是「谁懂 AI，谁不懂 AI」的区别，而更像是：大家共享相似的基础物理，但在后训练哲学、工程取舍、公开程度和产品策略上，分成了不同流派。 pglucky88 a5game.app

第三层差异：它到底是研究成果，还是一个完整产品系统

这也是普通用户最容易忽略的一层。你日常感受到的「哪个好用」，并不只取决于模型论文分数。联网能力、工具调用、文件处理、记忆、系统提示、安全边界、延迟、定价、界面设计，这些都会极大改变你的主观体验。

所以，站在用户视角，更准确的说法是：你真正用到的，通常不是「一个裸模型」，而是一整套由模型、工具、检索、系统策略和产品交互共同拼出来的 AI 系统。模型本身当然重要，但它不是全部。

顺便提一句，2017 年那篇 Transformer 论文的作者，如今也早已分散到不同机构：有人去了 Google，有人在 OpenAI，有人创办了 Cohere、Sakana AI、Essential AI。今天你看到的模型大战，本质上也带着很强的同一技术谱系分叉感。

Notion生成的表格对比

最后那个绕不过去的问题：这到底算不算「理解」

写到最后，最容易引发争论的，反而不是技术细节，而是哲学判断：一个会预测下一个 token 的系统，算不算理解世界？ Caça-níqueis a5game.app

我觉得，一个对普通读者更稳妥的答案是：它至少拥有某种很强的「功能性理解」，但这和人类带有体验、感受、身体和处境的理解，并不是一回事。

为什么这么说？因为今天至少有几件事已经比较明确了。第一，它的底层确实是数值计算，不是什么电子灵魂。第二，它内部也确实不是纯噪声，研究者已经能在里面定位概念特征、追踪部分电路、观察推理相关行为。Anthropic 在 2024 年和 2025 年的可解释性研究，以及 OpenAI 对 reasoning models 的公开描述，都说明这些模型并不只是表面上像会推理，它们内部确实形成了可被利用的结构。第三，它依然没有人的主观体验。它不知道「苹果」吃起来是什么口感，也不知道「悲伤」在身体里是什么感觉。

所以，如果你问我更愿意怎么描述它，我会说：它不是在像人那样生活过之后理解世界，而是在巨量语言里压缩出一个关于世界的关系模型。 这个模型已经强到足以解决很多现实任务，强到会让人误以为里面一定住着一个「懂你的人」；但它的懂，和人的懂，终究不是同一种东西。

而理解这一点，恰恰是普通用户最该获得的能力。因为一旦你知道它到底擅长什么、不擅长什么，你就会更会用它：该给上下文的时候给上下文，该让它联网的时候让它联网，该做事实核验的时候做核验，该把它当工具的时候就老老实实当工具。去掉神秘感，不会让 AI 变得没意思，反而会让它真正变得有用。 demo a5game.app

本文由以下模型参与创作： iyf yfsp.app
全文主创：Chatgpt 5.4模型、DeepSeek-V3.2
辅助创作的模型：Nano Banana 2、Seedream 4.5
尝试辅助但最后未在文章中体现的模型：Opus4.6、Kimi 2.5 Agent、Manu、可灵图片 3.0

生成过程在下文完整披露：

文章诞生灵感

文章诞生是由于某个闲暇的下午，突然想到一个观点，Openclaw是一个框架，它的底层是改变了输入的上下文，而负责思考的大模型还是没有变，所以本质上，我们只能调试上下文，而不是真的改变了模型。但上下文始终有长度限制，并且上下文对于模型的影响有上限，所以我忽然冒出个想法，如果自己用开源的模型，去训练自己想要的语料，需要多少成本呢？

文章内容生成

于是我打开deepseek开始和它问答，选择它的原因是因为，目前它把技术原理翻译成大白话最让我舒服的一个模型。

和Deepseek 问答自己训练模型需要的成本

当问答到20几个FAQ的时候，我就打算把它生成一篇文章，于是：

然后我再把这篇完整的文章，发给Chatgpt，使用chatgpt 5.4模型，因为它非常适合调研搜索真实信息，所以我让它核实这些信息的真实性，以及有失偏颇的地方。

Chatgpt 给出的真实性的纠正意见

然后我再重新回到Deepseek，让它根据chatgpt的意见优化。小宝影院在线视频xiaobaotv.video

优化完以后，我再次使用Chatgpt，告诉它，假设我这篇文章的目的是面向读者科普AI模型的底层原理，还需要补充哪些内容，更易于读者理解。小寶影院电影xiaobaotv.video

slotsdemo a5game.app jogosdemopg a5game.app

它给出了需要补充的点，然后我再打开“深度调研”，让它查找这些补充信息的真实答案，它用了4分钟给出答案。

Chatgpt的调研结果

最后，我把这个补充的文章发给Deepseek，让它结合成一篇。然后我找到了官方创作指南。 ifvodyfsp.app plataformademo a5game.app

调整文章风格、格式和基调

我让Gemini读取了这个指南，然后让它根据指南，生成一个调整文章格式、语调的提示词。至于为什么不在Gemini调，因为我尝试过很多次，它会把文章简化，不知道是不是因为我的提示词有问题，所以我只让它写提示词，在我之前的对比下，它的提示词比chatgpt写的好。

然后我把提示词给了notion，并把文章附上，因为Notion可以使用Claude opus4.6模型，在我的理解里，这个模型对文字的调整更强，而且它可以多次直接在页面里调整，更方便。爱一番yfsp.app iyftvyfsp.app

让Notion按的风格调整文章

文章段落太短，有序列表和无序列表太多，重新再让它调整

Opus4.6的效果不太好，要么把Deepseek的大白话改为了更晦涩难懂的句子，要么就是格式太夸张。并且它修改的很慢，在和它斗智斗勇的五六轮对话里，我趁着它思考的时间，同时使用了Manus、Kimi、Chatgpt做一样的工作。 nba比分 a5game.app

Kimi用的Agent模式，但是输出的内容更像是PPT展示用的。Manus输出第一轮还可以，但在我想继续优化的时候，效果却越来越差。小寶影院xiaobaotv.video

Manus生成图片

最终，Chatgpt 5.4用了16m11s得出了一篇让我很满意的文章。

Chatgpt 5.4生成文章的最后阶段

但有些引用降低了观感，所以，我让它一次性去掉，并换成了参考来源，以便查证。

图片内容

我将官方文档图片指南，发给了Chatgpt 5.4，让它学习，然后再让它以生成的文章为参考，生成相应的图片提示词。

让Chatgpt学习图片指南

Chatgpt生成图片提示词

Chatgpt并不擅长中文图片，豆包、可灵这些国产大模型更加擅长，但后者生成的版式会比较塑料，所以我先把提示词发给Chatgpt和Gemini，让它们生成每张图片（用两个模型是为了效率更快，也更好对比）。然后让豆包根据chatgpt生成的图片，修正图片中的文字。 fortunedragon demo a5game.app

Chatgpt生成图片

在图片创作过程中，有几点意外。

Chatgpt 5.4 的图片提示词不够好，所以我只选了2个；
Gemini的 Nano Banana 2 创作出来的图片，竟然中文正确，有些意外的惊喜；
可灵的可灵图片 3.0模型用的比较少，所以没有会员，生成图片比较慢，而且2张图片中文生成都不好（仅代表这次结果，没有大量测试过）；
豆包的Seedream 4.5 图片中的中文识别很好；

可灵二创图片，修正中文

豆包二创图片，修正中文

因为标题总觉得不对劲，所以我用Deepseek重新根据文章生成了几个标题，选了一个最合适的。

Deepseek生成文章标题

最后，我给它在无版权的Unsplash网站挑了一张封面。至此，文章生成，希望对大家有所帮助；

参考来源

OpenAI — How ChatGPT and our language models are developed
https://help.openai.com/en/articles/7842364-how-chatgpt-and-our-language-models-are-developed aiyifan yfsp.app iyifanyfsp.app

Carlini et al. — Extracting Training Data from Large Language Models
https://arxiv.org/abs/2012.07805

Vaswani et al. — Attention Is All You Need
https://arxiv.org/abs/1706.03762 爱壹帆电影 yfsp.app

Anthropic — Mapping the Mind of a Language Model
https://www.anthropic.com/research/mapping-mind-language-model

Meta — Llama 3 technical announcement
https://ai.meta.com/blog/meta-llama-3/ slot a5game.app slotdemo a5game.app

OpenAI — InstructGPT / instruction following with human feedback
https://arxiv.org/abs/2203.02155

Anthropic — Constitutional AI
https://arxiv.org/abs/2212.08073

OpenAI — Deliberative alignment / reasoning safety work
https://openai.com/index/deliberative-alignment/

DeepSeek — DeepSeek-R1
https://arxiv.org/abs/2501.12948 足球比分 a5game.app

OpenAI — family guide note on predictive generation
https://cdn.openai.com/pdf/a-family-guide-to-help-teens-use-ai-responsibly.pdf

QLoRA paper
https://arxiv.org/abs/2305.14314

Qwen technical blog
https://qwenlm.github.io/blog/qwen2/ ifuntvyfsp.app

DeepSeek-V3 technical report
https://arxiv.org/abs/2412.19437 pragmaticplay a5game.app plataformademográtis a5game.app

Anthropic — Claude 3.7 Sonnet announcement
https://www.anthropic.com/news/claude-3-7-sonnet

OpenAI — Learning to reason with LLMs
https://openai.com/index/learning-to-reason-with-llms/ ifun yfsp.app fortunetigerdemográtis a5game.app

Google DeepMind / Gemma docs — RecurrentGemma
https://ai.google.dev/gemma/docs/recurrentgemma

Transformer 论文作者与原论文
https://arxiv.org/abs/1706.03762

00目录 0

讨论我来说一句发布发表评论发布0等 0 人为本文章充电品味这个时代里于你而言真正有魅力的东西关注