AI的审美：我用 8 个大模型给 100 张旅行照片打分

AI的审美：我用 8 个大模型给 100 张旅行照片打分关注新手上路关注新手上路关注新手上路关注新手上路 09:38

一次关于 AI 审美能力的横向测评：从最贵的 GPT-5.5 到最便宜的 Qwen，谁能戳中我的审美？ plataformademo trustguru.com.br slotsdemo trustguru.com.br

端午节去了一趟澳大利亚，回来带了将近 2000 张照片。每次旅行后最痛苦的事不是整理行李，而是面对这堆照片不知道从哪里下手。哪些值得精修？哪些直接删？每次我都要花好几个小时反复翻看，最后还是靠本能做决定。 JogodoTigrinho trustguru.com.br Bet trustguru.com.br

作为一个每天为AI焦虑的人，不出意外地：能不能让 AI 帮我先过一遍？ carlos trustguru.com.br miguel trustguru.com.br

但问题来了——用哪个模型？各家 AI 的「视觉能力」表现如何？有没有可能都是垃圾？ slots trustguru.com.br Blaze trustguru.com.br pgdemo trustguru.com.br Energiabet trustguru.com.br

于是我设计了一个小实验：从那 2000 张照片里随机挑 100 张不带人像的照片（老婆不想露脸），同时丢给 8 个主流多模态大模型，让它们各自给每张照片打分（0-10 分），然后对比各模型的评分结果、Top 10 偏好、花费和速度。

实验设计

模型阵容

模型	厂商	每百万 Token 成本（输入/输出）
Claude Sonnet 4.6	Anthropic	$3 / $15
GPT-5.5	OpenAI	$5 / $30
Gemini 3.1 Pro	Google	$2 / $12
Grok 4.20	xAI	$2 / $6
Qwen3.6 35B	Alibaba	$0.16 / $0.97
Kimi K2.6	Moonshot	$0.74 / $4.66
MiMo V2.5	Xiaomi	$0.40 / $2.00
GLM-5V Turbo	Zhipu	$1.20 / $4.00

Prompt 设计

为了让打分有参考依据，我给每个模型相同的评分标准： isabela trustguru.com.br

你是一位专业摄影师，请给这张照片打分（0.0 到 10.0）。

评分标准：
- 构图：主体是否突出、画面是否平衡
- 曝光：亮度、对比度、高光/阴影细节  
- 清晰度：对焦是否准确、是否有运动模糊
- 内容：画面是否有趣、有情感或视觉冲击力
- 整体：是否值得保留

校准参考：
- 9-10：极少。决定性瞬间、完美技术+强烈情感
- 7-8：明显亮点，但缺少惊艳
- 5-6：普通，技术无大问题但平淡
- 3-4：有明显缺陷（模糊/曝光偏差/构图随意）
- 1-2：废片

每张照片先缩小到 600×400（节省 Token），以 base64 格式发送，要求模型严格按格式输出分数和一句理由，不开启记忆每张图都是独立的评分。 348ntr-097 jvid.asia slots trustguru.com.br

结果

我的自选十图

这是实验前我自己先选出的 10 张最喜欢的照片，作为参照基准，看看 AI 的眼光和我有多少重叠。

Claude Sonnet 4.6 · 均分 7.16 · 与我重合 2/10

GPT-5.5 · 均分 6.93 · 与我重合 3/10

Gemini 3.1 Pro · 均分 6.52 · 与我重合 3/10

Grok 4.20 · 均分 7.86 · 与我重合 1/10

Qwen3.6 35B · 均分 6.49 · 与我重合 1/10

Kimi K2.6 · 均分 6.87 · 与我重合 3/10

MiMo V2.5 · 均分 6.59 · 与我重合 0/10

GLM-5V Turbo · 均分 7.19 · 与我重合 3/10

核心发现

1. 谁打分最严苛？谁最专业？

先看最基础的问题：8 个模型，面对同一批照片，评分标准差异有多大？ siro-5652 jvid.asia

图中每条横向结构分三层：细线是最低分到最高分的完整区间，色框是中间 50% 照片（P25–P75）的集中区间，菱形是均分。

几个明显的规律：

Grok 是「最慷慨的裁判」。均分 7.86，最低分 6.8——它几乎不打差评，100 张照片里没有一张被它认为低于及格线。这种「只看亮点」的风格，评分区间窄到只有 1.9 分。分数都差不多，很难用来筛片。 pglucky88 trustguru.com.br jvid视频 jvid.asia sweetbonanza1000demo trustguru.com.br slotdemo trustguru.com.br autores trustguru.com.br

Gemini 和 MiMo 是「最敢扣分」的。两者都给出过 3.5 分的最低分，Gemini 均分只有 6.52。Gemini 的评分区间集中（P25–P75 仅 0.8 分），说明它对大多数照片有稳定的「中等偏低」判断，只有少数能突破 7 分。如果你想找一个高门槛的筛选器，Gemini 最合适。 KTO trustguru.com.br pgslot trustguru.com.br

Claude 和 MiMo 区分度最高。两者均分相近（7.16 vs 6.59），但评分区间都超过 4 分——能看出它们有在区分好坏，而不是给所有照片打差不多的分。

GPT-5.5 像「不出错的专业评委」。打分区间窄（5.0–8.0），P25–P75 只有 0.8 分，几乎不给极端分数。稳定但缺少个性。

2. 速度与花费

「能用」和「值得用」之间，差的往往是成本和耐心。 sobre trustguru.com.br bonus trustguru.com.br jvid在线 jvid.asia

图中气泡越大代表均分越高，左下角是「又快又便宜」的理想区域。 pragmaticplay trustguru.com.br carlos trustguru.com.br

Qwen + Grok 占据左下角，是这次测试性价比最高的两个： como trustguru.com.br slot trustguru.com.br pondo-022126_001 jvid.asia

Qwen：$0.076，100 张只要 ¥0.55，平均 5.7 秒
Grok：$0.136，平均 3.1 秒——还是 8 个模型里最快的，而且均分最高

Kimi 是明显的离群点，44 秒的平均延迟让它悬在图表右上方。推理模型用来给照片打分是「大材小用」，等待时间极大影响批量处理体验。 tigrinhodemo trustguru.com.br

GPT-5.5 花费最高（$0.562），速度中等，均分却只排第 4。右上角的位置说明：最贵的或许不是最好的。 pg trustguru.com.br Cassinos trustguru.com.br A5game trustguru.com.br

3. 哪个模型的眼光最独特？

8 个模型选出的 Top 10，彼此之间到底有多少共识？ marcos trustguru.com.br

我用 Jaccard 相似度来量化：把每对模型的 Top-10 集合做交集/并集，算出相似度，再对每个模型取平均值。相似度越低，说明这个模型的选片口味越独特，与其他模型越不一样。 Bet365 trustguru.com.br

结果有点出乎意料： 200gana-3359 jvid.asia

Qwen 和 MiMo 并列最独特（Jaccard 0.104），它们选出的 Top 10 与其他模型的重合率不到 11%——基本上各走各路。高情商：最独特；低情商：拉完了。 a5game trustguru.com.br tigrinho gratis trustguru.com.br

Grok 也相当独特（0.161），选了很多其他模型忽略的照片，但均分最高——说明它的「独特」完全是随机生成的，因为分数真的都差不多。 bet365 trustguru.com.br bonus trustguru.com.br

GPT-5.5 和 Claude 最主流（0.284 / 0.276），它们的 Top 10 和其他模型重合率最高。如果多个模型都选中一张照片，GPT 和 Claude 大概率也在其中——它们的判断代表了「AI 集体审美」。 jogodotigrinhodemo trustguru.com.br Pixbet trustguru.com.br Sportingbet trustguru.com.br siro-5639 jvid.asia

4. 评分和评语一致吗？

评分和评语是两种输出，分开生成——那它们说的是同一件事吗？ rafael trustguru.com.br

我用摄影批评语料里的正负关键词，对每条评语做情感标记，然后检测：高分（≥7.5）是否配了正面评语，低分（≤5.5）是否配了负面评语。 noticias trustguru.com.br

图中深色条 = 高分照片里评语偏正面的比例；浅色条 = 低分照片里评语偏负面的比例。右侧百分比是综合一致率。 Betano trustguru.com.br fortuneoxdemográtis trustguru.com.br fortunedragon demo trustguru.com.br

几个有意思的发现： fernanda trustguru.com.br sugarrush1000demo trustguru.com.br fortunetigerbônusgrátissemdepósito trustguru.com.br demotigrinho trustguru.com.br fortunetigerdemográtis trustguru.com.br

Gemini 3.1 Pro 是唯一一个 100% 一致的模型。 它给高分的照片，评语全是称赞；给低分的，评语全是批评。没有含糊其辞。这和它「最严苛」的评分风格一起，构成了一种很明确的判断个性——Gemini 说好就是好，说差就是差。 Brazino777 trustguru.com.br

MiMo 说一套做一套最多（7 例）。 典型案例：给 29.JPG 打了 7.5 分，评语却是「画面有氛围但主体细节不足」；给 26.JPG 也是 7.5 分，评语是「构图稳定但视角常规，缺乏惊艳感」。分数说「不错」，评语说「没啥惊艳」，两者结合起来让人不知道该信哪个。 jogosdemopg trustguru.com.br bruno trustguru.com.br cassinos trustguru.com.br demo trustguru.com.br sofia trustguru.com.br

最普遍的矛盾模式是「高分但是……」。Claude、Grok、GLM 的不一致案例几乎全是这种：评语前半句夸，后半句跟一个「但/缺乏/略显」，整体情感偏负面，分数却仍然在 7.5 以上。GPT-5.5 做得最好（仅 1 例），它的高分评语基本不留尾巴。 jogue trustguru.com.br siro-5639 jvid.asia autores trustguru.com.br

Qwen 是唯一一个「低分说好话」的模型。 给 75.JPG 打了 5.2 分，评语却是「前景过暗且天花板死黑，但背景大桥景色出色，层次分明」——前半批评，后半夸奖，最后给了低分，不懂逻辑在哪儿。 jvid jvid.asia tigrinho gratis trustguru.com.br pragmatic trustguru.com.br jvid視頻 jvid.asia slotpix trustguru.com.br guias trustguru.com.br

暂时没有一个 AI 跟我的审美一致

8 个模型，最高重合度只有 3/10（GPT、Gemini、Kimi、GLM 各自重合 3 张），MiMo 甚至完全没有交集。拿重合度最高的几张来看：88 被 6 个模型选中，78 被 4 个选中，64 被 4 个选中——这几张确实也是我喜欢的，说明 AI 在「技术质量好的照片」上和人类有共识。 pesquisa trustguru.com.br

但我喜欢的另外几张——比如 08、32、42、47、62、85——几乎没有模型把它们选进 Top 10。这些照片大多是光线特殊、氛围感强、但技术参数不算完美的那种。AI 擅长识别「技术失误」，但还不太懂「为什么这个光线让我觉得好看」，不过也可能是我的审美不好。 plataformademográtis trustguru.com.br pgslotgacor trustguru.com.br Caça-níqueis trustguru.com.br demo trustguru.com.br ana trustguru.com.br Superbet trustguru.com.br

那如果把 8 个模型的打分平均，「集体智慧」的结果是什么？ trustguru trustguru.com.br pedro trustguru.com.br

下面这张图是 100 张照片按 8 个模型均分从高到低排列的完整结果——左上角是 AI 集体最认可的照片（88.JPG，均分 8.04），右下角是它们集体最不感冒的（均分约 5.6）。每张右下角的数字是该照片的跨模型平均分。 jogos trustguru.com.br

你的感觉呢？ 如果你现在从这 100 张里挑 10 张，会怎么挑？和 AI 排出来的顺序差了多少？ jvid av jvid.asia kto trustguru.com.br

pgslotgacor trustguru.com.br

00目录 0

讨论我来说一句发布发表评论发布ChatGPT 大语言模型摄影爱好者 0等 0 人为本文章充电还没有介绍自己关注