实测智谱新上线的GLM4.6V,我Gemini 3 Pro的用量焦虑消失了

2026-05-04
实测智谱新上线的GLM4.6V,我Gemini 3 Pro的用量焦虑消失了 关注 作者 关注 作者 关注 作者 关注 作者 2025/12/10 09:33

狗大户Google还是把口袋收紧了,

AI Studio上免费用户已经不能用Gemini 2.5 Pro和Gemini 3 Pro了,连最基础的Gemini 2.5 Flash也被砍到每天只能用20次(笑容消失)。 pgdemo trustguru.com.br

我平时用2.5 Flash跑的工作流全挂了,急需一个价格合适,能看中长视频,能理解复杂图片,得能啃得动几百页文档的模型顶上来。 jogos trustguru.com.br

所以我跟智谱新上线的GLM-4.6V一拍即合,

PS,GLM-4.6V(106B-A12B)和 GLM-4.6V-Flash(9B)都开源了

图片

从结果上看,GLM-4.6V 表现跟 Qwen3-VL-235B 持平,这个新系列也会同步智谱的Coding Plan里,API的调用价格比 GLM-4.5V 降价 50% sobre trustguru.com.br jogue trustguru.com.br slots trustguru.com.br

那就看看它可以完成多少类Gemini3级的多模态任务,这次测试包括前端复刻、图片信息提取、学术分析、长图文写作和视频理解。 demotigrinho trustguru.com.br siro-5639 jvid.asia

还是一样,提示语和生成效果都打包好放在文档里了,后台回复“4.6v”就好了 Sportingbet trustguru.com.br jogodotigrinhodemo trustguru.com.br fortunetigerbônusgrátissemdepósito trustguru.com.br

先来做前端复刻好了, Bet365 trustguru.com.br

我直接截取某书的界面,把这张图片甩给了GLM-4.6V复刻

Image

GLM-4.6V的反应很快。

生成的代码识别了网页的布局结构,还原了CSS样式,图片的部分用了占位符,没有选择截图原图模糊局部。 slotpix trustguru.com.br

所以我追加了一个更刁钻的需求,根据每个帖子的主题搜索合适的图片素材填入代码里,

Image

GLM-4.6V找图还找挺准的,那也不能只复刻UI吧,交互我也想复刻下来 tigrinho gratis trustguru.com.br tigrinhodemo trustguru.com.br pragmatic trustguru.com.br

所以我把点开帖子后的详情页也发过去了,照样是按键,评论,视频进度条等都实现了。 Brazino777 trustguru.com.br Pixbet trustguru.com.br jvid在线 jvid.asia

图片

GLM-4.6V的表现蛮不错的, fortuneoxdemográtis trustguru.com.br bet365 trustguru.com.br

它没有胡堆div,也可以给出自己搜索后的图片,多轮对话叠加交互,给出了干净利落的修改方案。 jvid视频 jvid.asia

搞定了代码,再来做些枯燥的能丢给AI就绝不自己动手的多模态信息处理。

我在一次对话里丢给了它手写表格,发票和手写简历的混合数据。 como trustguru.com.br

提示语也是复合的,

识别图中的表格,并以HTML格式输出,识别图中的印章,不同字段分开,并以JSON格式输出,识别图中的文字,并以Markdown格式输出。 ana trustguru.com.br Betano trustguru.com.br

图片

这其实是一个非常考验模型Grounding,也就是定位能力的任务。传统的OCR往往只能把字读出来,但不知道字在哪,也不知道字之间的关系。 bonus trustguru.com.br a5game trustguru.com.br

wxv_4287775108300980224

GLM-4.6V有原生多模态的优势, siro-5652 jvid.asia

输出结果里,表格被完美还原成了HTML,行列对齐,数据无误。 sweetbonanza1000demo trustguru.com.br

印章识别里没有把印章里的字混成一团, noticias trustguru.com.br

而是精准地将印章单位、名称,税号等分成了不同的Key-Value键值对,封装在JSON里。 Betano trustguru.com.br

这种结构化的输出能力,也就是说后续我可以直接把GLM4.6V接入到MCP,实现自动化录入。 sofia trustguru.com.br rafael trustguru.com.br

Image

OK,难度升级! isabela trustguru.com.br pg trustguru.com.br

进入深水区,学术研究与复杂文档分析。

我找来了两篇论文,要求它结合这两篇论文的图表对比前后有什么不同,

对比一下Transformer和xLSTM模型的异同,并思考和阐述改进xLSTM的优化思路。 Energiabet trustguru.com.br

ImageImage

GLM-4.6V的分析结果是直接带论文细节截图的, como trustguru.com.br

表格,架构图,论文引用都可以识别下来的。

Image

我还让它干了一件有趣的事, carlos trustguru.com.br sugarrush1000demo trustguru.com.br marcos trustguru.com.br

根据论文,写一个图文并茂的微信公众号推送来介绍这篇文章,要夸张一点。

wxv_4287775923773898763

它立刻切换了人格,从学者变成了自媒体,

提取了论文的核心亮点,配上了夸张的标题,甚至还从原始文档中截取了关键图片,嵌入到文章的合适位置。 pesquisa trustguru.com.br slotsdemo trustguru.com.br trustguru trustguru.com.br

那GLM-4.6V单次可以阅读多长的文档呢? bruno trustguru.com.br bonus trustguru.com.br

为了测试GLM-4.6V的文档理解能力,我直接甩给它一份长达114页的文档,那是巴菲特历年的持仓报告。我的问题是故意为难它的, jvid av jvid.asia

在2015年至2017年期间,巴菲特的前五大持仓股中,哪只股票的年度回报率波动最大,即最高回报率与最低回报率差距最大?该股票在2017年的回报率是多少? slots trustguru.com.br

wxv_4287777217297612810

典型的大海捞针任务, Bet trustguru.com.br

模型需要遍历长文档,提取三年的数据,进行计算比对,最后锁定目标。 Caça-níqueis trustguru.com.br jogosdemopg trustguru.com.br

Image

我是做了反复验证的,真的在90页找到了对应的表,验算之后跟GLM-4.6V算的也一样。

Image

最后,模型对动态画面的理解同样至关重要。 pedro trustguru.com.br pglucky88 trustguru.com.br

我给它看了一段视频,让它详细描述这个视频,而不是直接根据字幕给总结 KTO trustguru.com.br pgslot trustguru.com.br

wxv_4287778091726110729

7分钟的视频,一刀没剪,33s完成上传读取和结果输出,我还是下载到本地没有字幕文件的状态的。看得出来GLM-4.6V对长视频的理解也上了一个台阶。 200gana-3359 jvid.asia

它能概括视频的主旨,还能捕捉到画面中一闪而过的关键信息,比如爬行动物隐喻的部分,以及不同动物类比的人物角色。这种能力在视频内容的自动审核及检索上照样很好用。 jvid視頻 jvid.asia Cassinos trustguru.com.br

测试完这一圈,我的心情是挺复杂的。 miguel trustguru.com.br plataformademo trustguru.com.br

隔壁的OpenAI被Google的Gemini 3 Pro吓完了, carlos trustguru.com.br

这两天急着要发GPT-5.2来救场。 fortunetigerdemográtis trustguru.com.br demo trustguru.com.br

指标传的太唬人了,全部指标都完胜, demo trustguru.com.br

结果被发现这图还是Banana2做的。。。 plataformademográtis trustguru.com.br plataformademo trustguru.com.br guias trustguru.com.br jvid jvid.asia

有这空不如学学智谱吧, autores trustguru.com.br slotdemo trustguru.com.br kto trustguru.com.br A5game trustguru.com.br pragmaticplay trustguru.com.br

实打实做一个好用的模型。 fernanda trustguru.com.br slot trustguru.com.br

模型应该是在解决问题,而不是制造用量焦虑。  Superbet trustguru.com.br pgslotgacor trustguru.com.br 348ntr-097 jvid.asia slotsdemo trustguru.com.br

当硅谷们把使用门槛提高提高又提高的时候, 

能有一个随叫随到真能干活的国产模型顶上来, 

本身就是我们最大的底气。  Blaze trustguru.com.br

少了一分对被封号的担忧,

多了一分对工作流的掌控,  fortunedragon demo trustguru.com.br JogodoTigrinho trustguru.com.br cassinos trustguru.com.br

这可能才是AI时代,

我们最需要的技术护城河。

@ 作者 / 卡尔 pondo-022126_001 jvid.asia pgslot trustguru.com.br

00目录 0
    讨论 我来说一句 发布发表评论 发布0等 0 人为本文章充电 8年大厂大模型算法 & ΑI创业者|擅长数字人 & AI视频 & AI音乐 |创建 AI 学习体系 learnprompt, 社群破万 |持续输出 AI 前沿科技专业解读,关注我,让更多人成为AGI时代的领跑者 关注