审美评估与推理
定义
审美评估(Image Aesthetic Assessment, IAA)是对图像视觉美感的自动量化与推理。它跨越了两个层次:(1) 评分——为图像赋予美学分数;(2) 推理——解释为什么这张图美或不美(构图、色彩、光影、情感冲击等)。审美评估是图像生成和编辑的质量标尺,也是指导编辑方向的「北星」。
核心方法
1. 经典审美评分(预训练评分器)
LAION Aesthetic Predictor:
- 基于 CLIP ViT-L/14 微调的线性回归模型
- 在 LAION-Aesthetics 数据集上训练(人类评分 1-10)
- 已经成为开源图像生成社区的默认审美筛选工具
- 局限:只给分数,不解释为什么;训练数据来自早期 LAION,审美标准可能偏颇
CLIP Score / PickScore / ImageReward:
- CLIP Score:图像-文本对齐度(与审美不完全等价)
- PickScore:基于人类偏好比较训练的评分模型
- ImageReward:基于人类偏好排序的奖励模型
2. Aes-R1(2025)— 审美推理 + RL
Aes-R1(复旦+清华+字节跳动)首次将推理能力引入审美评估:
AesCoT(Aesthetic Chain-of-Thought):
- 训练 MLLM 在评分前生成结构化审美解释
- 推理维度:构图(composition)、色彩(color palette)、光影(lighting)、情感冲击(emotional impact)、技术质量(technical quality)
RAPO(Relative-Absolute Policy Optimization):
- 联合优化两个目标:
- Absolute:回归绝对审美分数(这张图是 7.2 分)
- Relative:排序跨图像偏好(图 A 比图 B 更好看)
- RL 驱动:GRPO 风格的分组相对比较 + 绝对分数回归
- 两个目标的互补性:绝对分数教会模型「什么是美」,相对排序教会模型「什么是更美」
3. 审美评估在编辑中的应用
- EmoEdit:四轮筛选中使用 Aesthetic score 过滤低质量编辑结果
- Seedream 4.0:RLHF 后训练中审美是奖励信号的关键维度
- 通用流程:编辑模型生成候选 → 审美评分筛选 → 返回最优结果(best-of-N sampling)
核心挑战
1. 审美的主观性
「美」高度依赖文化、个人偏好、时代背景。LAION aesthetic predictor 训练数据主要来自西方审美标准,可能系统性地偏向某些视觉风格。中文审美(留白、水墨、对称)在同一评分器上可能被低估。
2. 评分 vs 推理的鸿沟
经典评分器(LAION predictor)只给分数;Aes-R1 可以给推理但不一定更准。一个有趣的矛盾:人类也不总是能解释为什么某张图美,但这不妨碍他们感知美。要求模型「先解释再评分」是否在逼它做一件人类也做不好的事?
3. 审美与内容的纠缠
一张图「美」可能因为内容本身美(壮丽的日落),而不是图像的视觉质量高。好的审美评估需要解耦「内容美」和「视觉质量美」——这在自动评估中极其困难。
4. 审美作为编辑目标的可操作性
「让这张图更美」是一个模糊的编辑指令。如何将审美评分映射为具体的编辑操作(提亮?增加对比度?调整构图?)是一个尚未充分解决的问题。Aes-R1 的 CoT 推理提供了方向(告诉你哪些维度需要改进),但从「推理」到「编辑执行」仍有 gap。
审美评估的技术谱系
传统方法 深度学习方法 推理增强
│ │ │
手工特征 CNN回归/分类 MLLM + CoT + RL
(色彩直方图, (NIMA, LAION (Aes-R1, RAPO)
构图规则) predictor)
│ │ │
└──── 评分 ────┘ └──── 评分 ────┘ └── 评分 + 推理 ──┘
跨领域连接
- 情感计算:审美与情感的边界模糊。一张「悲伤」的图可以是「美」的(悲剧美学)。EmoEdit 同时使用 Emotion score 和 Aesthetic score 筛选,但两者如何加权?参见 情感图像编辑
- RLHF 对齐:审美偏好是人类偏好的子集,RLHF(奖励模型)天然适合学习审美偏好。参见 RLHF
- 图像编辑:审美评估是编辑质量的核心维度。最佳编辑不仅「改得对」,还要「改得美」。参见 扩散模型图像编辑与生成
与已有 Wiki 的关系
- 编辑方向指导:扩散模型图像编辑与生成 — 审美评估为编辑提供「改得更美」的方向
- 情感评估互补:情感图像编辑 — 情感和审美在编辑中交叉
- 生成质量评估:扩散模型与 Flow Matching 基础 — FID / CLIP score / aesthetic score 三位一体评估
- 推理方法:推理模型与强化学习 — RAPO 借鉴 GRPO 的 RL 推理训练思路
深度分析:美的可计算性问题
1. 评分器教给模型的不是「美」,而是「LAION 用户觉得美」
LAION aesthetic predictor 的训练数据来自 LAION 社区的人类评分,这些评分者可能偏向某些视觉风格(高饱和度、锐利细节、写实主义)。模型学到的不是「普适的审美」,而是「特定人群在特定时期的审美共识」。
这带来的问题是:评分器在不可见的美学风格上可能完全失效。中国水墨画的留白在 LAION predictor 上可能得分很低——不是因为它不美,而是因为评分者没见过或不理解这种美的范式。
2. Aes-R1 的 RAPO 解决了「准」和「懂」的分离
在此之前,审美模型要么「准」(给一个靠谱的分数)要么「懂」(给出像样的解释),但不是同时。RAPO 的联合优化——绝对分数(准)+ 相对排序(懂比较)——是这个问题的优雅解法。绝对分数教会模型映射关系,相对排序教会模型区分细微差异,两者互补。
但有一个陷阱:如果模型在相对排序中学到的是「高饱和度 > 低饱和度」而不是「更和谐的构图 > 不太和谐的构图」,那它学到的仍然是偏见而非审美。
3. 审美推理对编辑的价值被低估了
目前的编辑模型主要被评估在「指令遵循」上(改得对不对),很少被评估在「审美提升」上(改得好不好)。一个有审美推理能力的编辑模型应该能够:
- 理解「让这张图更好看」的含义
- 给出具体的改进建议(提亮前景、柔化背景、调整色温)
- 执行这些改进并自我评估
这是编辑能力从「功能正确」到「审美优越」的跃迁,可能需要等到审美推理模型(如 Aes-R1)和编辑模型(如 Seedream 4.0)的深度整合。