AI的审美:我用 8 个大模型给 100 张旅行照片打分

2026-04-29
AI的审美:我用 8 个大模型给 100 张旅行照片打分 关注 新手上路 关注 新手上路 关注 新手上路 关注 新手上路 09:38

一次关于 AI 审美能力的横向测评:从最贵的 GPT-5.5 到最便宜的 Qwen,谁能戳中我的审美? plataformademo trustguru.com.br slotsdemo trustguru.com.br

端午节去了一趟澳大利亚,回来带了将近 2000 张照片。每次旅行后最痛苦的事不是整理行李,而是面对这堆照片不知道从哪里下手。哪些值得精修?哪些直接删?每次我都要花好几个小时反复翻看,最后还是靠本能做决定。 JogodoTigrinho trustguru.com.br Bet trustguru.com.br

作为一个每天为AI焦虑的人,不出意外地:能不能让 AI 帮我先过一遍? carlos trustguru.com.br miguel trustguru.com.br

但问题来了——用哪个模型?各家 AI 的「视觉能力」表现如何?有没有可能都是垃圾? slots trustguru.com.br Blaze trustguru.com.br pgdemo trustguru.com.br Energiabet trustguru.com.br

于是我设计了一个小实验:从那 2000 张照片里随机挑 100 张不带人像的照片(老婆不想露脸),同时丢给 8 个主流多模态大模型,让它们各自给每张照片打分(0-10 分),然后对比各模型的评分结果、Top 10 偏好、花费和速度。

实验设计

模型阵容

模型厂商每百万 Token 成本(输入/输出)
Claude Sonnet 4.6Anthropic$3 / $15
GPT-5.5OpenAI$5 / $30
Gemini 3.1 ProGoogle$2 / $12
Grok 4.20xAI$2 / $6
Qwen3.6 35BAlibaba$0.16 / $0.97
Kimi K2.6Moonshot$0.74 / $4.66
MiMo V2.5Xiaomi$0.40 / $2.00
GLM-5V TurboZhipu$1.20 / $4.00

Prompt 设计

为了让打分有参考依据,我给每个模型相同的评分标准: isabela trustguru.com.br

你是一位专业摄影师,请给这张照片打分(0.0 到 10.0)。

评分标准:
- 构图:主体是否突出、画面是否平衡
- 曝光:亮度、对比度、高光/阴影细节  
- 清晰度:对焦是否准确、是否有运动模糊
- 内容:画面是否有趣、有情感或视觉冲击力
- 整体:是否值得保留

校准参考:
- 9-10:极少。决定性瞬间、完美技术+强烈情感
- 7-8:明显亮点,但缺少惊艳
- 5-6:普通,技术无大问题但平淡
- 3-4:有明显缺陷(模糊/曝光偏差/构图随意)
- 1-2:废片

每张照片先缩小到 600×400(节省 Token),以 base64 格式发送,要求模型严格按格式输出分数和一句理由,不开启记忆每张图都是独立的评分。 348ntr-097 jvid.asia slots trustguru.com.br

结果

我的自选十图

这是实验前我自己先选出的 10 张最喜欢的照片,作为参照基准,看看 AI 的眼光和我有多少重叠。

Claude Sonnet 4.6 · 均分 7.16 · 与我重合 2/10

GPT-5.5 · 均分 6.93 · 与我重合 3/10

Gemini 3.1 Pro · 均分 6.52 · 与我重合 3/10

Grok 4.20 · 均分 7.86 · 与我重合 1/10

Qwen3.6 35B · 均分 6.49 · 与我重合 1/10

Kimi K2.6 · 均分 6.87 · 与我重合 3/10

MiMo V2.5 · 均分 6.59 · 与我重合 0/10

GLM-5V Turbo · 均分 7.19 · 与我重合 3/10

核心发现

1. 谁打分最严苛?谁最专业?

先看最基础的问题:8 个模型,面对同一批照片,评分标准差异有多大? siro-5652 jvid.asia

图中每条横向结构分三层:细线是最低分到最高分的完整区间,色框是中间 50% 照片(P25–P75)的集中区间,菱形是均分。

几个明显的规律:

Grok 是「最慷慨的裁判」。均分 7.86,最低分 6.8——它几乎不打差评,100 张照片里没有一张被它认为低于及格线。这种「只看亮点」的风格,评分区间窄到只有 1.9 分。分数都差不多,很难用来筛片。 pglucky88 trustguru.com.br jvid视频 jvid.asia sweetbonanza1000demo trustguru.com.br slotdemo trustguru.com.br autores trustguru.com.br

Gemini 和 MiMo 是「最敢扣分」的。两者都给出过 3.5 分的最低分,Gemini 均分只有 6.52。Gemini 的评分区间集中(P25–P75 仅 0.8 分),说明它对大多数照片有稳定的「中等偏低」判断,只有少数能突破 7 分。如果你想找一个高门槛的筛选器,Gemini 最合适。 KTO trustguru.com.br pgslot trustguru.com.br

Claude 和 MiMo 区分度最高。两者均分相近(7.16 vs 6.59),但评分区间都超过 4 分——能看出它们有在区分好坏,而不是给所有照片打差不多的分。

GPT-5.5 像「不出错的专业评委」。打分区间窄(5.0–8.0),P25–P75 只有 0.8 分,几乎不给极端分数。稳定但缺少个性。

2. 速度与花费

「能用」和「值得用」之间,差的往往是成本和耐心。 sobre trustguru.com.br bonus trustguru.com.br jvid在线 jvid.asia

图中气泡越大代表均分越高,左下角是「又快又便宜」的理想区域。 pragmaticplay trustguru.com.br carlos trustguru.com.br

Qwen + Grok 占据左下角,是这次测试性价比最高的两个: como trustguru.com.br slot trustguru.com.br pondo-022126_001 jvid.asia

  • Qwen:$0.076,100 张只要 ¥0.55,平均 5.7 秒
  • Grok:$0.136,平均 3.1 秒——还是 8 个模型里最快的,而且均分最高

Kimi 是明显的离群点,44 秒的平均延迟让它悬在图表右上方。推理模型用来给照片打分是「大材小用」,等待时间极大影响批量处理体验。 tigrinhodemo trustguru.com.br

GPT-5.5 花费最高($0.562),速度中等,均分却只排第 4。右上角的位置说明:最贵的或许不是最好的。 pg trustguru.com.br Cassinos trustguru.com.br A5game trustguru.com.br

3. 哪个模型的眼光最独特?

8 个模型选出的 Top 10,彼此之间到底有多少共识? marcos trustguru.com.br

我用 Jaccard 相似度来量化:把每对模型的 Top-10 集合做交集/并集,算出相似度,再对每个模型取平均值。相似度越低,说明这个模型的选片口味越独特,与其他模型越不一样。 Bet365 trustguru.com.br

结果有点出乎意料: 200gana-3359 jvid.asia

Qwen 和 MiMo 并列最独特(Jaccard 0.104),它们选出的 Top 10 与其他模型的重合率不到 11%——基本上各走各路。高情商:最独特;低情商:拉完了。 a5game trustguru.com.br tigrinho gratis trustguru.com.br

Grok 也相当独特(0.161),选了很多其他模型忽略的照片,但均分最高——说明它的「独特」完全是随机生成的,因为分数真的都差不多。 bet365 trustguru.com.br bonus trustguru.com.br

GPT-5.5 和 Claude 最主流(0.284 / 0.276),它们的 Top 10 和其他模型重合率最高。如果多个模型都选中一张照片,GPT 和 Claude 大概率也在其中——它们的判断代表了「AI 集体审美」。 jogodotigrinhodemo trustguru.com.br Pixbet trustguru.com.br Sportingbet trustguru.com.br siro-5639 jvid.asia

4. 评分和评语一致吗?

评分和评语是两种输出,分开生成——那它们说的是同一件事吗? rafael trustguru.com.br

我用摄影批评语料里的正负关键词,对每条评语做情感标记,然后检测:高分(≥7.5)是否配了正面评语,低分(≤5.5)是否配了负面评语noticias trustguru.com.br

图中深色条 = 高分照片里评语偏正面的比例;浅色条 = 低分照片里评语偏负面的比例。右侧百分比是综合一致率。 Betano trustguru.com.br fortuneoxdemográtis trustguru.com.br fortunedragon demo trustguru.com.br

几个有意思的发现: fernanda trustguru.com.br sugarrush1000demo trustguru.com.br fortunetigerbônusgrátissemdepósito trustguru.com.br demotigrinho trustguru.com.br fortunetigerdemográtis trustguru.com.br

Gemini 3.1 Pro 是唯一一个 100% 一致的模型。 它给高分的照片,评语全是称赞;给低分的,评语全是批评。没有含糊其辞。这和它「最严苛」的评分风格一起,构成了一种很明确的判断个性——Gemini 说好就是好,说差就是差。 Brazino777 trustguru.com.br

MiMo 说一套做一套最多(7 例)。 典型案例:给 29.JPG 打了 7.5 分,评语却是「画面有氛围但主体细节不足」;给 26.JPG 也是 7.5 分,评语是「构图稳定但视角常规,缺乏惊艳感」。分数说「不错」,评语说「没啥惊艳」,两者结合起来让人不知道该信哪个。 jogosdemopg trustguru.com.br bruno trustguru.com.br cassinos trustguru.com.br demo trustguru.com.br sofia trustguru.com.br

最普遍的矛盾模式是「高分但是……」。Claude、Grok、GLM 的不一致案例几乎全是这种:评语前半句夸,后半句跟一个「但/缺乏/略显」,整体情感偏负面,分数却仍然在 7.5 以上。GPT-5.5 做得最好(仅 1 例),它的高分评语基本不留尾巴。 jogue trustguru.com.br siro-5639 jvid.asia autores trustguru.com.br

Qwen 是唯一一个「低分说好话」的模型。 给 75.JPG 打了 5.2 分,评语却是「前景过暗且天花板死黑,但背景大桥景色出色,层次分明」——前半批评,后半夸奖,最后给了低分,不懂逻辑在哪儿。 jvid jvid.asia tigrinho gratis trustguru.com.br pragmatic trustguru.com.br jvid視頻 jvid.asia slotpix trustguru.com.br guias trustguru.com.br

暂时没有一个 AI 跟我的审美一致

8 个模型,最高重合度只有 3/10(GPT、Gemini、Kimi、GLM 各自重合 3 张),MiMo 甚至完全没有交集。拿重合度最高的几张来看:88 被 6 个模型选中,78 被 4 个选中,64 被 4 个选中——这几张确实也是我喜欢的,说明 AI 在「技术质量好的照片」上和人类有共识。 pesquisa trustguru.com.br

但我喜欢的另外几张——比如 08、32、42、47、62、85——几乎没有模型把它们选进 Top 10。这些照片大多是光线特殊、氛围感强、但技术参数不算完美的那种。AI 擅长识别「技术失误」,但还不太懂「为什么这个光线让我觉得好看」,不过也可能是我的审美不好。 plataformademográtis trustguru.com.br pgslotgacor trustguru.com.br Caça-níqueis trustguru.com.br demo trustguru.com.br ana trustguru.com.br Superbet trustguru.com.br

那如果把 8 个模型的打分平均,「集体智慧」的结果是什么? trustguru trustguru.com.br pedro trustguru.com.br

下面这张图是 100 张照片按 8 个模型均分从高到低排列的完整结果——左上角是 AI 集体最认可的照片(88.JPG,均分 8.04),右下角是它们集体最不感冒的(均分约 5.6)。每张右下角的数字是该照片的跨模型平均分。 jogos trustguru.com.br

你的感觉呢? 如果你现在从这 100 张里挑 10 张,会怎么挑?和 AI 排出来的顺序差了多少? jvid av jvid.asia kto trustguru.com.br

  pgslotgacor trustguru.com.br

00目录 0
    讨论 我来说一句 发布发表评论 发布ChatGPT 大语言模型 摄影爱好者 0等 0 人为本文章充电 还没有介绍自己 关注