从输入到输出:把大模型的流水线讲清楚
「本文参加年度征文活动 #TeamSilicon25」
过去两年,ChatGPT、Claude、DeepSeek 这类工具,已经从「新鲜玩具」变成很多人的日常基础设施:写邮件、查资料、改简历、翻译文档、做表格、写代码,甚至拿来陪自己梳理情绪。
但大多数人对它的理解,仍然停在两个极端之间:要么觉得它像魔法,好像真有一个电子大脑在里面思考;要么觉得它不过是「随机拼字」,说到底没什么可讲的。问题是,这两种理解都不够准确。前者太神秘,后者又太轻飘。
这篇文章想做的,就是把中间那条真正重要的线,讲清楚:大模型到底是怎样把你输入的一句话,变成一段像模像样、甚至看起来很有见地的回答的。 你不需要有机器学习背景,也不需要先懂公式。我们只顺着一条流水线往下走:文字怎么变成数字,数字怎么结合上下文,模型怎么一层层加工,最后又怎么把数字重新变回文字。等你看完,再去用 AI,很多现象都会突然「对上号」。 xiaobao xiaobaotv.video 寻秦记爱壹帆yfsp.app
先拆掉一个误会:大模型最底层,确实是在做「下一个 token 预测」
先给一个不那么浪漫,但非常重要的结论:对主流的自回归大语言模型来说,训练时最核心的目标,就是预测下一个 token;真正生成回答时,它也是根据已有上下文,一步一步往后续写。OpenAI 在面向公众的说明里,也直接把这个过程解释成:模型会根据上下文,预测接下来最可能出现的词。它不是从数据库里把一条完整答案「取出来」,而是现场生成一段最贴合当前上下文的文本。 slots a5game.app
这里有两个容易误解的点。
第一,所谓「下一个 token 预测」,不等于它只是一个很蠢的自动补全。恰恰相反,正因为它要把前文尽可能利用到极致,才能把下一个 token 猜得更准,所以它被迫学会了很多东西:语法、事实关联、写作风格、常见推理套路、对话结构,甚至不同角色说话时的口气差异。你看到的「会写、会答、会总结、会改写」,都是从这件事里长出来的。 plataformademográtis a5game.app
第二,所谓「预测」,也不等于它在胡乱瞎蒙。它不是像人类那样带着主观意识去猜,而是在一个巨大的概率分布里,根据前文,把下一个最合适的 token 算出来。换句话说,表面上你看到的是语言,底层发生的是数学。 爱壹帆免费版yfsp.app 一帆yfsp.app
从一句话到一串数字:模型在输入端到底看到了什么
文字不会直接进模型,它先要被切成 token
你在聊天框里输入一句「我今天中午只想吃点清淡的」,模型并不是直接把这句话当「文字」读进去的。第一步,它会先经过一个叫 tokenizer 的东西,把文本切成一个个更适合机器处理的小单位,也就是 token。
这个切法不一定等于「一个字」或者「一个词」。中文里,很多时候会接近按字切;英文里,常常会按子词来切。比如一个长单词,可能会被拆成几个更常见的片段。这样做的目的很实际:现实世界里的词汇变化太多,尤其是新词、人名、品牌名、拼写变体层出不穷。如果每个完整单词都单独建一个词表,词表会膨胀得非常夸张;而用子词,就能用有限的基本单元,拼出大量新词。
所以,模型真正看到的,首先不是「句子」,而是一串 token。 海外华人视频网xiaobaotv.video
token 还不够,它还要变成编号
接着,每个 token 会被映射成一个固定的数字编号,也就是很多开发文档里常见的 input_ids。你可以把它理解成「给每个 token 发身份证」。从这一步开始,模型就彻底脱离自然语言表面了。对模型来说,后面处理的不是「我」「今天」「中午」,而是一串整数。 小宝影院xiaobaotv.video
这一步还有一个常被忽略的小配角:mask。因为模型一次处理的输入,通常会被整理成规则的批量形状,所以短句子后面常常要补空位。mask 的作用,就是告诉模型:哪些位置是真内容,哪些位置只是占位,不要认真看。 slotpix a5game.app
编号还没有意义,真正关键的是向量化
编号本身没有语义。数字大,不代表这个词更重要;数字小,也不代表这个词更常见。为了让模型真正「操作意义」,每个编号还要继续查表,变成一串高维数字,也就是 embedding。
你可以先把它想成「坐标」。不是地图上的二维坐标,而是几百维、几千维的高维坐标。每个 token 一旦进入这个空间,就不再只是一个孤零零的编号,而是有了一个可运算的表示。再加上位置编码之后,模型不仅知道「这是什么 token」,还知道「它出现在第几个位置」。这件事很关键,因为同样几个词,顺序一变,意思就可能完全不一样。
走到这里,原本的人类语言,已经被翻译成一块数字矩阵:一行代表一个 token,一列代表这个 token 在某个维度上的数值特征。接下来,真正的重头戏才开始。 华人影视xiaobaotv.video
文字被模型处理的过程为什么一堆数字,最后会长出「含义」
很多人第一次接触这里时,都会有一种真实的困惑:一堆数字,凭什么能代表「苹果」或者「爱情」?
答案不是「某一维专门表示甜度,某一维专门表示水果属性」。现实没有这么整齐。更接近事实的说法是:模型在大量文本里反复观察,会发现某些词经常出现在相似的上下文中,于是它们在向量空间里会逐渐靠近;而很少在相似语境里出现的词,距离就会更远。
于是,「苹果」会更接近「梨」「香蕉」「水果」,而不是「发动机」;「律师」会更常和「合同」「诉讼」「法庭」形成邻近关系,而不是和「平底锅」混在一起。这种表示不是人手工写进去的定义,而是模型在海量文本里自己压出来的统计结构。 免费在线影院xiaobaotv.video 爱壹帆yfsp.app demotigrinho a5game.app fortuneoxdemográtis a5game.app
但这里也必须纠正一个常见说法:不能把它理解成「模型只学规律,不会记具体内容」。这话说一半对,一半不对。Carlini 等人的经典研究已经证明,训练好的语言模型在某些条件下,确实可能复现训练语料里的逐字片段。这说明模型一方面会压缩出规律,另一方面也可能记住部分高频或高暴露的具体文本。所以它不是纯粹的规律机器,也不是原文数据库,而是两者混合后的结果。
真正的核心:Transformer 到底在里面做了什么
注意力机制,本质上是在做「有选择地回头看」
2017 年的论文 《Attention Is All You Need》 提出了 Transformer,这几乎就是今天主流大模型的技术祖谱。它最重要的改动之一,就是把「怎么利用上下文」这件事,交给了 attention。
理解这个机制,其实不必先上公式。你只要想一个很常见的阅读动作:当你读到一句话里的「它」时,你会自然回头看前文,判断这个「它」到底指代什么。模型里的注意力机制,做的就是类似的事:当前这个 token 在更新自己表示的时候,会去看前面的其他 token,判断谁更相关,谁该被重点参考,然后按权重把这些信息汇总起来。
这个过程在技术上常被写成 Query、Key、Value 三套向量:当前 token 带着自己的「查询」去和其他 token 的「键」做匹配,匹配得越好,说明越值得参考;最后,再把那些位置对应的「值」按权重加起来,形成新的表示。你不用死记这三个名词,记住一句话就够了:当前 token 会动态地决定,自己该向上下文里的谁借信息。 电影小宝影院xiaobaotv.video
不是只看一次,而是很多个「视角」同时看
注意力还有一个很巧的设计,叫 multi-head attention。你可以把它理解成:模型不是只用一个单一视角回头看上下文,而是同时开出很多个观察头。有的头更擅长盯语法关系,有的头更擅长盯远距离指代,有的头更关注格式结构,有的头可能在代码场景里专门盯括号和缩进。 pg a5game.app
这也是为什么同一段文字,在模型内部并不是只被「看一遍」,而是被从很多不同的关系维度同时重读。最后再把这些视角的结果拼起来,交给后续层继续处理。
只有注意力还不够,所以它会一层一层堆上去
一层 Transformer 并不会直接把所有问题都解决。标准结构里,通常还会有前馈网络、残差连接、层归一化等模块,用来进一步加工和稳定信息。更重要的是,这种结构不会只堆一层,而是会堆很多层。
你可以把它想成一种逐层抽象。前面几层,常常更偏向局部模式,比如词法、句法、搭配;中间层开始更稳定地形成语义关系;更深的层,则更可能处理跨句信息、角色一致性、逻辑结构和任务意图。Anthropic 在 2024 年和 2025 年连续发布的可解释性研究,也在尝试把这种内部结构可视化:他们展示了 Claude 内部如何形成概念特征,以及部分从输入到输出的计算路径是怎样被串起来的。今天我们还远远谈不上「完全看懂」大模型,但至少已经能确定,里面不是一团完全不可分析的黑箱噪声。
训练时还有一条铁律:不能偷看未来
对自回归语言模型来说,预测下一个 token 的前提,就是不能提前知道后面的正确答案。所以训练时会有一种 causal mask,把未来位置遮住。预测第 5 个 token 时,第 6 个、第 7 个还不存在于它的可见范围里。你可以把它理解成一种严格的闭卷规则:只能根据已经写出来的前文,继续往后写,不能翻答案。
这条规则很朴素,但影响很大。它决定了自回归模型为什么天然擅长「续写式生成」,也决定了它为什么总是以一步一步的方式把答案长出来。
最后一公里:模型是怎么把数字重新变回文字的
当前面那一大串层层加工结束后,模型会在当前位置得到一个新的向量表示。接下来,这个向量会再经过一个线性变换,投影回整个词表的空间,得到对「下一个 token 是谁」的一整排打分,这些分数通常叫 logits。
你可以把它理解成:模型把词表里几万个、几十万个候选 token,都快速过了一遍,然后给出一份倾向排序。 爱壹帆国际版 yfsp.app demo a5game.app
但这里还有最后一个问题:得分算出来之后,具体选谁? pgdemo a5game.app
最简单的做法,是直接拿分最高的那个,这叫 greedy decoding。它的优点是稳定,缺点是容易死板、重复、缺少弹性。所以真实系统里更常见的,是各种采样策略:比如 temperature 用来调节分布的陡峭程度,top-k 只在前几个高分候选里选,top-p 则只保留累计概率达到某个阈值的一小撮候选。 爱壹帆影视yfsp.app 一帆视频yfsp.app
这也解释了一个很多用户都观察过的现象:为什么你问同一个问题,模型每次回答都不完全一样?因为它本来就不是「检索一个固定答案」,而是在概率分布里现场生成。设定不同,或者系统内部策略不同,最后落下来的字就可能不同。
它是怎么被「教会说人话」的:预训练、微调、对齐
如果把今天的大模型想成一个会说话的系统,那它通常不是靠一次训练长成的,而是大致经过三个阶段。 plataformademográtis a5game.app
第一阶段:预训练,学语言本身的规律
预训练阶段最像「海量阅读」。模型会读极大量的文本,然后反复做那件最基础的事:预测下一个 token。OpenAI、Meta、DeepSeek、Qwen 这些体系,虽然具体细节不同,但都离不开这个地基。比如 Meta 在发布 Llama 3 时披露,Llama 3 预训练使用了超过 15 万亿 个 token;DeepSeek 在 V3 技术报告里写得更细,V3 的预训练规模达到 14.8 万亿 个 token。 爱壹帆电影yfsp.app pgslot a5game.app slot a5game.app
这一步学到的,不只是词汇和语法,还有大规模的统计关联:什么概念经常一起出现,什么问题常配什么回答,什么风格通常配什么语气。你今天觉得模型「知道很多」,绝大部分底子都来自这里。
第二阶段:监督微调,学会「按要求回答」
只会续写,还不等于会当助手。所以很多模型在预训练之后,还会进入 SFT,也就是监督微调阶段。它读的不再只是普通文本,而是更像「指令 - 回答」这种成对数据:用户提问是什么样,理想回答是什么样,格式应该怎样控制。OpenAI 在 InstructGPT 的论文里,把这条路线讲得很清楚:模型不只是要会说,还要更贴近用户意图。也正是从这一阶段开始,模型的气质才会从「擅长续写文本」逐渐转向「看起来像一个会配合你的助手」。 a5game a5game.app
第三阶段:对齐,让它更像一个可用产品,而不只是聪明模型
再往后,就是近几年大家越来越常听到的 alignment。这部分不是让模型更会背知识,而是让它更符合人类偏好和产品边界:更愿意遵守规则,更知道什么时候该拒绝,什么时候该承认不确定,什么时候该优先安全、诚实和帮助性。
OpenAI 早期最具代表性的路线,是 RLHF;Anthropic 则把 Constitutional AI 做成了自己的标志性方法,甚至在 2026 年还公开更新了 Claude 的新版「宪法」。OpenAI 在 2024 年提出的 deliberative alignment,又进一步把「让模型先依据安全规范做推理,再给答案」这件事摆到台面上。DeepSeek 在 2025 年发布的 R1 系列,也把强化学习对推理能力的推动公开得很彻底:R1-Zero 主打纯强化学习探索,R1 则在此基础上加入冷启动数据和后续优化,走向更可用的推理模型。 电影爱壹帆yfsp.app
如果一定要用一句大白话总结这三段流程:预训练,是把世界的大量语言模式灌进去;监督微调,是教它按人的提问方式配合输出;对齐,则是让它在真实世界里更像一个靠谱工具,而不是一台只会炫技的文字机器。 sweetbonanza1000demo a5game.app
大模型的三个训练阶段提示词为什么有用,幻觉为什么也总会来
提示词有用,不是因为你在「催眠」模型
很多人喜欢把提示词讲得很玄,好像一句「你现在是一位从业 30 年的律师」,就能把模型切换进某个神秘人格。更准确的说法其实没那么戏剧化:提示词会改变上下文,而模型本来就是根据上下文生成下一步。
当你在提示里写清楚角色、任务、目标读者、输出格式、约束条件时,本质上是在把概率分布往某个方向压。它看到的是一段更明确的前文,于是后续最可能的回答风格、内容粒度和组织方式,也会跟着变化。你不是在唤醒一个藏在模型里的「律师灵魂」,而是在给它更清晰的轨道。
这也是为什么好提示词通常都很具体:不是「帮我写一篇文章」,而是「面向没有技术背景的读者,用生活化比喻解释大模型的工作流程,保留关键术语,但不要堆公式,结构用 3 个 H2 和若干 H3」。上下文越清楚,模型越容易落在你要的分布里。
幻觉的根子,在于它追求的是「像答案」,不是「真答案」
与此同时,大模型也有一个非常根本的限制:它训练出来最擅长的,是生成看起来像一个合理回答的文本,而不是主动对世界做事实核验。OpenAI 在面向用户的说明里也提醒过,ChatGPT 的回答是通过预测下一个最可能出现的词生成的,而「最可能」并不总是「最真实」。 sugarrush1000demo a5game.app 小宝影院电影xiaobaotv.video tigrinhodemo a5game.app
这就是幻觉的根子。它不是故意撒谎,也不是心怀不轨,而是在信息不足、上下文冲突或者知识过时的时候,仍然倾向于把一个语气完整、结构流畅的答案写出来。对人类读者来说,这种流畅反而很危险,因为它太像正确答案了。
真正有效的缓解办法,往往都不是让它「再想一想」这么简单,而是给它补一个外部事实层:比如 RAG、联网搜索、数据库检索、代码执行器、计算器、日历、天气和地图等工具。也就是说,把「语言生成」和「事实获取」分开处理。模型负责理解问题和组织表达,外部工具负责提供可验证的信息来源。这样,AI 才更像一个靠谱的助理,而不是一位特别自信的考生。 爱壹帆在线yfsp.app
你真正要分清的三种东西:参数、上下文、外部工具
理解大模型时,我很建议把信息来源拆成三层。
第一层是参数。这就是模型训练后沉淀在权重里的东西。它不是数据库式的逐条存档,而是一种分布式压缩后的统计结构。你可以把它理解成「模型平时背在脑子里的经验」。 爱一帆 yfsp.app
第二层是上下文窗口。这是它当前这一轮对话里临时看得到的材料:你的问题、你补充的背景、你粘贴的文档、系统提示、历史对话。上下文像一张临时工作台,放上去的内容立刻影响回答,但对话结束后,不会自动永久写进模型参数里。
第三层是外部工具或外部记忆。这包括检索系统、搜索引擎、数据库、API、文件系统等等。Qwen 在 2024 年和 2025 年连续把长上下文推到了 128K 和 1M,但这不等于「把所有资料全塞进上下文」就一定是最优解。很多时候,外部检索加工具调用,仍然比盲目堆长上下文更稳,因为它能给出更可控、更可追溯的来源。
你把这三层分清之后,很多讨论就不会混了:模型知道这件事,是参数里本来就有;还是你刚刚在对话里告诉它的;还是它临时去外部工具里查到的——这三者其实完全不是一回事。
一台 1.2 万元左右的电脑,离「自己训练大模型」到底有多远
这是普通读者特别容易被短视频带偏的一题。很多人会把「能本地跑模型」「能做 LoRA 微调」「能从零训练一个像样的大模型」,混成同一件事。其实它们差得非常远。
16 GB 显存,通常够你「玩模型」,但还远远不够你「造模型」
如果你手上是一台大约 1.2 万元的台式机,核心大概率是类似 RTX 4060 Ti 16 GB 这样的显卡。这个配置当然很有用,但它更适合做的是:运行量化后的 7B 级别开源模型,或者做参数高效微调,比如 LoRA / QLoRA。真正从零预训练一个通用大模型,或者做全参数微调,仍然不是这个级别硬件能承担的事情。 fortunetigerbônusgrátissemdepósito a5game.app
这里最容易被说错的,是 QLoRA。很多文章会把它写成「单卡 24 GB 就能随便训 33B」。这说法太乐观了。QLoRA 论文里的标志性结论,其实是:它把 65B 模型的高效微调压到了单张 48 GB GPU;至于 33B 模型,在 24 GB 上已经是非常吃紧的边缘状态,需要分页优化器和更保守的设置,不能当成轻轻松松的常规方案。
「上下文很长」和「你本机真能顺畅跑起来」,是两回事
另一种常见误解是:只要模型标了 128K 或 1M 上下文,本地电脑就能轻松喂进去整本书。现实没有这么简单。Qwen 在 2024 年把部分开源模型推到 128K,在 2025 年又发布了支持 1M 上下文的 Qwen2.5-1M 系列,这说明「小模型也可以有很长的上下文设计」是成立的。 pragmatic a5game.app iyftvyfsp.app
但你本机到底能不能跑得动,还取决于很多系统工程细节:KV cache 怎么存、量化用到什么程度、推理框架优化得好不好、你的显存和内存能不能扛住。也就是说,模型官方支持的上下文上限,和你日常电脑里的真实体验,中间还隔着一道很厚的工程墙。 tigrinho gratis a5game.app pgslotgacor a5game.app
所以,对普通用户来说,更实在的理解是:本地硬件完全可以让你开始认真玩开源模型,甚至做小规模领域微调;但它离「自己训练一个像 ChatGPT 一样的大模型」仍然差着至少一个时代。 JogodoTigrinho a5game.app
ChatGPT、Claude、DeepSeek,到底差在哪里
讲到这里,很多人会自然问一句:既然底层都差不多,那 ChatGPT、Claude、DeepSeek 到底差在哪?
先说一个重要前提:ChatGPT 是产品名,不是单一模型名。 OpenAI 的官方说明里一直用的是「the models that power ChatGPT」。这意味着你日常用到的是一个产品层系统,背后可能会调用不同能力、不同定位的模型,而不是一个永远不变的单体。
在大方向上,这几家仍然都继承了 Transformer 这条主谱系。但「继承同一祖谱」不等于「完全一样」。差异主要落在三层。 jogodotigrinhodemo a5game.app
第一层差异:底层架构有没有做大改
DeepSeek 在这一点上最透明。V3 技术报告直接写明:它是一个 MoE 模型,总参数 671B,但每个 token 只激活 37B;它同时用了 MLA 和多 token 预测等设计,目标是把训练和推理做得更省算力。也正因为公开得够细,开发者会更容易看清它到底创新在什么地方。
Anthropic 对 Claude 的具体底层细节公开得相对少一些,但在产品层面,Claude 3.7 Sonnet 被明确定位成 hybrid reasoning model,主打「既可以近乎即时作答,也可以切到更长时间的思考模式」。 demo a5game.app 爱亦凡yfsp.app
OpenAI 的很多前沿细节依旧保密得更多,但从公开材料能确认的是:o 系列把大规模强化学习推到了推理能力训练上,让模型学会在回答前投入更多计算做内部推理。 爱壹帆寻秦记yfsp.app
顺手再补一个非常容易写绝对的话:今天大多数头部大模型确实仍然是 transformer-based,但不是「所有模型都是 Transformer」。Google DeepMind 的 RecurrentGemma 就明确采用了 Griffin 混合架构,把线性递归和局部注意力混在一起,用来改善长序列效率。
第二层差异:后训练路线怎么走
OpenAI 的 InstructGPT 和后来的 o 系列,把 RLHF 和强化学习推理路线都做得很标志性;Anthropic 则长期强调 Constitutional AI,把「让模型依据一套公开原则来自我修正」做成了自家特色;DeepSeek 在 R1 路线里,则把「强化学习如何把推理能力拉出来」公开得非常直接,尤其 R1-Zero 这种先不靠 SFT 的实验路线,在 2025 年引发了很大讨论。 Cassinos a5game.app
所以你会发现,这几家并不是「谁懂 AI,谁不懂 AI」的区别,而更像是:大家共享相似的基础物理,但在后训练哲学、工程取舍、公开程度和产品策略上,分成了不同流派。 pglucky88 a5game.app
第三层差异:它到底是研究成果,还是一个完整产品系统
这也是普通用户最容易忽略的一层。你日常感受到的「哪个好用」,并不只取决于模型论文分数。联网能力、工具调用、文件处理、记忆、系统提示、安全边界、延迟、定价、界面设计,这些都会极大改变你的主观体验。
所以,站在用户视角,更准确的说法是:你真正用到的,通常不是「一个裸模型」,而是一整套由模型、工具、检索、系统策略和产品交互共同拼出来的 AI 系统。模型本身当然重要,但它不是全部。
顺便提一句,2017 年那篇 Transformer 论文的作者,如今也早已分散到不同机构:有人去了 Google,有人在 OpenAI,有人创办了 Cohere、Sakana AI、Essential AI。今天你看到的模型大战,本质上也带着很强的同一技术谱系分叉感。
Notion生成的表格对比最后那个绕不过去的问题:这到底算不算「理解」
写到最后,最容易引发争论的,反而不是技术细节,而是哲学判断:一个会预测下一个 token 的系统,算不算理解世界? Caça-níqueis a5game.app
我觉得,一个对普通读者更稳妥的答案是:它至少拥有某种很强的「功能性理解」,但这和人类带有体验、感受、身体和处境的理解,并不是一回事。
为什么这么说?因为今天至少有几件事已经比较明确了。第一,它的底层确实是数值计算,不是什么电子灵魂。第二,它内部也确实不是纯噪声,研究者已经能在里面定位概念特征、追踪部分电路、观察推理相关行为。Anthropic 在 2024 年和 2025 年的可解释性研究,以及 OpenAI 对 reasoning models 的公开描述,都说明这些模型并不只是表面上像会推理,它们内部确实形成了可被利用的结构。第三,它依然没有人的主观体验。它不知道「苹果」吃起来是什么口感,也不知道「悲伤」在身体里是什么感觉。
所以,如果你问我更愿意怎么描述它,我会说:它不是在像人那样生活过之后理解世界,而是在巨量语言里压缩出一个关于世界的关系模型。 这个模型已经强到足以解决很多现实任务,强到会让人误以为里面一定住着一个「懂你的人」;但它的懂,和人的懂,终究不是同一种东西。
而理解这一点,恰恰是普通用户最该获得的能力。因为一旦你知道它到底擅长什么、不擅长什么,你就会更会用它:该给上下文的时候给上下文,该让它联网的时候让它联网,该做事实核验的时候做核验,该把它当工具的时候就老老实实当工具。去掉神秘感,不会让 AI 变得没意思,反而会让它真正变得有用。 demo a5game.app
本文由以下模型参与创作: iyf yfsp.app
- 全文主创:Chatgpt 5.4模型、DeepSeek-V3.2
- 辅助创作的模型:Nano Banana 2、Seedream 4.5
- 尝试辅助但最后未在文章中体现的模型:Opus4.6、Kimi 2.5 Agent、Manu、可灵图片 3.0
生成过程在下文完整披露:
文章诞生灵感
文章诞生是由于某个闲暇的下午,突然想到一个观点,Openclaw是一个框架,它的底层是改变了输入的上下文,而负责思考的大模型还是没有变,所以本质上,我们只能调试上下文,而不是真的改变了模型。但上下文始终有长度限制,并且上下文对于模型的影响有上限,所以我忽然冒出个想法,如果自己用开源的模型,去训练自己想要的语料,需要多少成本呢?
文章内容生成
于是我打开deepseek开始和它问答,选择它的原因是因为,目前它把技术原理翻译成大白话最让我舒服的一个模型。
和Deepseek 问答自己训练模型需要的成本
当问答到20几个FAQ的时候,我就打算把它生成一篇文章,于是:

然后我再把这篇完整的文章,发给Chatgpt,使用chatgpt 5.4模型,因为它非常适合调研搜索真实信息,所以我让它核实这些信息的真实性,以及有失偏颇的地方。
Chatgpt 给出的真实性的纠正意见然后我再重新回到Deepseek,让它根据chatgpt的意见优化。 小宝影院在线视频xiaobaotv.video
优化完以后,我再次使用Chatgpt,告诉它,假设我这篇文章的目的是面向读者科普AI模型的底层原理,还需要补充哪些内容,更易于读者理解。 小寶影院电影xiaobaotv.video

slotsdemo a5game.app jogosdemopg a5game.app
它给出了需要补充的点,然后我再打开“深度调研”,让它查找这些补充信息的真实答案,它用了4分钟给出答案。
Chatgpt的调研结果最后,我把这个补充的文章发给Deepseek,让它结合成一篇。然后我找到了官方创作指南。 ifvodyfsp.app plataformademo a5game.app
调整文章风格、格式和基调
我让Gemini读取了这个指南,然后让它根据指南,生成一个调整文章格式、语调的提示词。至于为什么不在Gemini调,因为我尝试过很多次,它会把文章简化,不知道是不是因为我的提示词有问题,所以我只让它写提示词,在我之前的对比下,它的提示词比chatgpt写的好。

然后我把提示词给了notion,并把文章附上,因为Notion可以使用Claude opus4.6模型,在我的理解里,这个模型对文字的调整更强,而且它可以多次直接在页面里调整,更方便。 爱一番yfsp.app iyftvyfsp.app
让Notion按的风格调整文章
文章段落太短,有序列表和无序列表太多,重新再让它调整Opus4.6的效果不太好,要么把Deepseek的大白话改为了更晦涩难懂的句子,要么就是格式太夸张。并且它修改的很慢,在和它斗智斗勇的五六轮对话里,我趁着它思考的时间,同时使用了Manus、Kimi、Chatgpt做一样的工作。 nba比分 a5game.app
Kimi用的Agent模式,但是输出的内容更像是PPT展示用的。Manus输出第一轮还可以,但在我想继续优化的时候,效果却越来越差。 小寶影院xiaobaotv.video
Manus生成图片最终,Chatgpt 5.4用了16m11s得出了一篇让我很满意的文章。
Chatgpt 5.4生成文章的最后阶段但有些引用降低了观感,所以,我让它一次性去掉,并换成了参考来源,以便查证。
图片内容
我将官方文档图片指南,发给了Chatgpt 5.4,让它学习,然后再让它以生成的文章为参考,生成相应的图片提示词。
让Chatgpt学习图片指南
Chatgpt生成图片提示词Chatgpt并不擅长中文图片,豆包、可灵这些国产大模型更加擅长,但后者生成的版式会比较塑料,所以我先把提示词发给Chatgpt和Gemini,让它们生成每张图片(用两个模型是为了效率更快,也更好对比)。然后让豆包根据chatgpt生成的图片,修正图片中的文字。 fortunedragon demo a5game.app
Chatgpt生成图片在图片创作过程中,有几点意外。
- Chatgpt 5.4 的图片提示词不够好,所以我只选了2个;
- Gemini的 Nano Banana 2 创作出来的图片,竟然中文正确,有些意外的惊喜;
- 可灵的可灵图片 3.0模型用的比较少,所以没有会员,生成图片比较慢,而且2张图片中文生成都不好(仅代表这次结果,没有大量测试过);
- 豆包的Seedream 4.5 图片中的中文识别很好;
可灵二创图片,修正中文
豆包二创图片,修正中文因为标题总觉得不对劲,所以我用Deepseek重新根据文章生成了几个标题,选了一个最合适的。
Deepseek生成文章标题最后,我给它在无版权的Unsplash网站挑了一张封面。至此,文章生成,希望对大家有所帮助;
参考来源
OpenAI — How ChatGPT and our language models are developed
https://help.openai.com/en/articles/7842364-how-chatgpt-and-our-language-models-are-developed aiyifan yfsp.app iyifanyfsp.app
Carlini et al. — Extracting Training Data from Large Language Models
https://arxiv.org/abs/2012.07805
Vaswani et al. — Attention Is All You Need
https://arxiv.org/abs/1706.03762 爱壹帆电影 yfsp.app
Anthropic — Mapping the Mind of a Language Model
https://www.anthropic.com/research/mapping-mind-language-model
Meta — Llama 3 technical announcement
https://ai.meta.com/blog/meta-llama-3/ slot a5game.app slotdemo a5game.app
OpenAI — InstructGPT / instruction following with human feedback
https://arxiv.org/abs/2203.02155
Anthropic — Constitutional AI
https://arxiv.org/abs/2212.08073
OpenAI — Deliberative alignment / reasoning safety work
https://openai.com/index/deliberative-alignment/
DeepSeek — DeepSeek-R1
https://arxiv.org/abs/2501.12948 足球比分 a5game.app
OpenAI — family guide note on predictive generation
https://cdn.openai.com/pdf/a-family-guide-to-help-teens-use-ai-responsibly.pdf
QLoRA paper
https://arxiv.org/abs/2305.14314
Qwen technical blog
https://qwenlm.github.io/blog/qwen2/ ifuntvyfsp.app
DeepSeek-V3 technical report
https://arxiv.org/abs/2412.19437 pragmaticplay a5game.app plataformademográtis a5game.app
Anthropic — Claude 3.7 Sonnet announcement
https://www.anthropic.com/news/claude-3-7-sonnet
OpenAI — Learning to reason with LLMs
https://openai.com/index/learning-to-reason-with-llms/ ifun yfsp.app fortunetigerdemográtis a5game.app
Google DeepMind / Gemma docs — RecurrentGemma
https://ai.google.dev/gemma/docs/recurrentgemma
Transformer 论文作者与原论文
https://arxiv.org/abs/1706.03762
00目录 0