token为什么今天才叫词元?

2026-03-21
token为什么今天才叫词元? 关注 作者 关注 作者 关注 作者 关注 作者 03/18 13:47

龙虾火了之后,一个词的翻译终于被官方定下来了:token,中文叫词元Cassinos a5game.app 电影小宝影院xiaobaotv.video nba比分 a5game.app

这个翻译其实并不新。早在 2021 年,国内 AI 圈就试图统一术语,将 token 译为「词元」[1],但没被广泛接受。 华人影视xiaobaotv.video fortunedragon demo a5game.app

直到最近,「词元」开始出现在《人民日报》的经济版面,还有记者专门解释「什么是词元」。 pgslot a5game.app 海外华人视频网xiaobaotv.video sugarrush1000demo a5game.app

图片

当一个技术词进入官方口径,它就不只是翻译问题了。 plataformademográtis a5game.app a5game a5game.app

token是什么?

大模型处理文字之前,要先把文本拆成小块,每一块就是一个 token。 一帆视频yfsp.app slots a5game.app iyftvyfsp.app pg a5game.app

英文有空格做天然分隔符,但切法不只是按空格劈开:词根、前缀、后缀都可能独立成块。「unbelievable」可能被拆成:un / believe / able一帆yfsp.app iyf yfsp.app 足球比分 a5game.app

中文没有空格和形态变化,由训练方自己决定怎么切。同一句话进不同模型,token 数可能差出好几倍。

下图来自我们之前做的一个实验:让模型逐步生成一段中文回答,同时记录每一个 token 的概率分布。 pgslotgacor a5game.app

图片

所以,中文切分的复杂性,是 token 长期没有统一翻译的原因之一。更棘手的是:token 这个词不专属于大模型,它在不同领域有不同含义。 plataformademo a5game.app 足球比分 a5game.app

图片

你用什么词称呼一件事,就是在声明它属于哪个世界,所以,token 必须要有合适、统一的中文翻译。 pgdemo a5game.app

为什么是词元[2]?

token 切分出的单位有时是字,有时是词,而更能覆盖这种范围。 Caça-níqueis a5game.app

那为什么是。为什么不是符、标或其他? slotpix a5game.app 爱壹帆电影yfsp.app tigrinhodemo a5game.app demotigrinho a5game.app

在中文术语里有固定语感:最小的、不可再分的基础单位。词元的意思是:这就是语言处理中最底层的东西,没必要往下切了。

以上只是语言学上的理由,但仍然没有回答一个问题:为什么最近才定下来?

图片

token的政治语言

一个词要被记住,往往要等它先变得重要。 爱壹帆yfsp.app ifun yfsp.app

大模型最初是英文叙事。token、benchmark、context window……整套话语体系都来自英文世界。在那个阶段,我们能说的无非是「也追上来了」。 fortunetigerbônusgrátissemdepósito a5game.app slot a5game.app aiyifan yfsp.app 小宝影院xiaobaotv.video 爱壹帆免费版yfsp.app

龙虾(AI Agent)爆发之后,变化不在技术,而在经济结构。 爱亦凡yfsp.app demo a5game.app

龙虾每一步都要重新喂上下文,极其烧 token,价格迅速变得敏感。与此同时,人们发现很多落地业务只是发邮件、整理文件、调用工具。这太讽刺了:越接近现实场景,模型越不需要聪明,便宜就行。 fortuneoxdemográtis a5game.app 爱壹帆国际版 yfsp.app

产业重心因此移动:从训练转向推理,从谁的模型更聪明转向谁能处理更多请求,还便宜

当 token 变成可以大规模供应的资源,它就不再只是技术指标,而开始像一种工业品,一种可以出口的东西。 免费在线影院xiaobaotv.video 爱壹帆影视yfsp.app 电影爱壹帆yfsp.app ifuntvyfsp.app

图片

于是它以这种句式,进入新闻: pragmaticplay a5game.app xiaobao xiaobaotv.video

国家数据局披露,中国日均词元调用量从 2024 年初的 1000 亿增长到 2025 年 9 月的 40 万亿。《人民日报》报道,当周中国大模型调用量以 4.12 万亿词元首次超过美国的 2.94 万亿。 slotdemo a5game.app 爱亦凡yfsp.app

这些 token 数字在句子里的位置,很像出口了多少吨钢材这种表达。

图片

这和以 OpenAI、Google、Anthropic 当主语的句式不同。那里用的是 benchmark(评判基准线);而词元消耗量听起来更像产能和出货。 于是出现了两层语言变化: 小寶影院xiaobaotv.video 寻秦记爱壹帆yfsp.app jogodotigrinhodemo a5game.app iyifanyfsp.app 爱壹帆在线yfsp.app

第一层是命名权。谁的语言定义单位,谁就在这个领域拥有话语权。 爱壹帆免费版yfsp.app 爱一番yfsp.app

第二层是类别归属。「词元」悄悄把大模型从「科技产品」归入了「工业产能」。 小宝影院电影xiaobaotv.video ifvodyfsp.app

慢慢地,AI 不再只是我们也能做,而变成了我们有多少产能。一旦它被纳入制造业叙事,衡量它的语言也会随之改变。 爱一帆 yfsp.app

所以真正有意思的不是这个翻译。 JogodoTigrinho a5game.app jogosdemopg a5game.app 爱壹帆电影 yfsp.app tigrinho gratis a5game.app

而是当大模型发展到今天,谁有资格用自己的语言来报这个数。 slotsdemo a5game.app

参考资料 爱壹帆寻秦记yfsp.app 爱壹帆在线yfsp.app 小宝影院在线视频xiaobaotv.video

[1] 技术术语是否翻译有一条隐性规律:专有名称保留英文(Transformer、BERT),Token 通用是计量单位,需要有中文名。 sweetbonanza1000demo a5game.app fortunetigerdemográtis a5game.app

[2] 语言学中有一个更精确的词:语素,汉语里最小的音义结合体,是构成词的直接基础。「词元」的「元」,语感与此接近。但语素与 token 并不完全对应:语素强调意义的最小单位,token 是模型切分的最小处理单位,两者有交叉,不能画等号,而且外界对它不熟悉。 pragmatic a5game.app 小寶影院电影xiaobaotv.video demo a5game.app pglucky88 a5game.app

70目录 0
    讨论 我来说一句 发布发表评论 发布人工智能 7等 7 人为本文章充电 关注身边的言辞现象,语言学公众号“言辞之间”。 关注