审美评估与推理

定义

审美评估(Image Aesthetic Assessment, IAA)是对图像视觉美感的自动量化与推理。它跨越了两个层次:(1) 评分——为图像赋予美学分数;(2) 推理——解释为什么这张图美或不美(构图、色彩、光影、情感冲击等)。审美评估是图像生成和编辑的质量标尺,也是指导编辑方向的「北星」。

核心方法

1. 经典审美评分(预训练评分器)

LAION Aesthetic Predictor

  • 基于 CLIP ViT-L/14 微调的线性回归模型
  • 在 LAION-Aesthetics 数据集上训练(人类评分 1-10)
  • 已经成为开源图像生成社区的默认审美筛选工具
  • 局限:只给分数,不解释为什么;训练数据来自早期 LAION,审美标准可能偏颇

CLIP Score / PickScore / ImageReward

  • CLIP Score:图像-文本对齐度(与审美不完全等价)
  • PickScore:基于人类偏好比较训练的评分模型
  • ImageReward:基于人类偏好排序的奖励模型

2. Aes-R1(2025)— 审美推理 + RL

Aes-R1(复旦+清华+字节跳动)首次将推理能力引入审美评估:

AesCoT(Aesthetic Chain-of-Thought)

  • 训练 MLLM 在评分前生成结构化审美解释
  • 推理维度:构图(composition)、色彩(color palette)、光影(lighting)、情感冲击(emotional impact)、技术质量(technical quality)

RAPO(Relative-Absolute Policy Optimization)

  • 联合优化两个目标:
    • Absolute:回归绝对审美分数(这张图是 7.2 分)
    • Relative:排序跨图像偏好(图 A 比图 B 更好看)
  • RL 驱动:GRPO 风格的分组相对比较 + 绝对分数回归
  • 两个目标的互补性:绝对分数教会模型「什么是美」,相对排序教会模型「什么是更美」

3. 审美评估在编辑中的应用

  • EmoEdit:四轮筛选中使用 Aesthetic score 过滤低质量编辑结果
  • Seedream 4.0:RLHF 后训练中审美是奖励信号的关键维度
  • 通用流程:编辑模型生成候选 → 审美评分筛选 → 返回最优结果(best-of-N sampling)

核心挑战

1. 审美的主观性

「美」高度依赖文化、个人偏好、时代背景。LAION aesthetic predictor 训练数据主要来自西方审美标准,可能系统性地偏向某些视觉风格。中文审美(留白、水墨、对称)在同一评分器上可能被低估。

2. 评分 vs 推理的鸿沟

经典评分器(LAION predictor)只给分数;Aes-R1 可以给推理但不一定更准。一个有趣的矛盾:人类也不总是能解释为什么某张图美,但这不妨碍他们感知美。要求模型「先解释再评分」是否在逼它做一件人类也做不好的事?

3. 审美与内容的纠缠

一张图「美」可能因为内容本身美(壮丽的日落),而不是图像的视觉质量高。好的审美评估需要解耦「内容美」和「视觉质量美」——这在自动评估中极其困难。

4. 审美作为编辑目标的可操作性

「让这张图更美」是一个模糊的编辑指令。如何将审美评分映射为具体的编辑操作(提亮?增加对比度?调整构图?)是一个尚未充分解决的问题。Aes-R1 的 CoT 推理提供了方向(告诉你哪些维度需要改进),但从「推理」到「编辑执行」仍有 gap。

审美评估的技术谱系

传统方法                 深度学习方法                     推理增强
   │                        │                              │
手工特征               CNN回归/分类                  MLLM + CoT + RL
(色彩直方图,          (NIMA, LAION                   (Aes-R1, RAPO)
 构图规则)              predictor)
   │                        │                              │
   └──── 评分 ────┘        └──── 评分 ────┘              └── 评分 + 推理 ──┘

跨领域连接

  • 情感计算:审美与情感的边界模糊。一张「悲伤」的图可以是「美」的(悲剧美学)。EmoEdit 同时使用 Emotion score 和 Aesthetic score 筛选,但两者如何加权?参见 情感图像编辑
  • RLHF 对齐:审美偏好是人类偏好的子集,RLHF(奖励模型)天然适合学习审美偏好。参见 RLHF
  • 图像编辑:审美评估是编辑质量的核心维度。最佳编辑不仅「改得对」,还要「改得美」。参见 扩散模型图像编辑与生成

与已有 Wiki 的关系


深度分析:美的可计算性问题

1. 评分器教给模型的不是「美」,而是「LAION 用户觉得美」

LAION aesthetic predictor 的训练数据来自 LAION 社区的人类评分,这些评分者可能偏向某些视觉风格(高饱和度、锐利细节、写实主义)。模型学到的不是「普适的审美」,而是「特定人群在特定时期的审美共识」。

这带来的问题是:评分器在不可见的美学风格上可能完全失效。中国水墨画的留白在 LAION predictor 上可能得分很低——不是因为它不美,而是因为评分者没见过或不理解这种美的范式。

2. Aes-R1 的 RAPO 解决了「准」和「懂」的分离

在此之前,审美模型要么「准」(给一个靠谱的分数)要么「懂」(给出像样的解释),但不是同时。RAPO 的联合优化——绝对分数(准)+ 相对排序(懂比较)——是这个问题的优雅解法。绝对分数教会模型映射关系,相对排序教会模型区分细微差异,两者互补。

但有一个陷阱:如果模型在相对排序中学到的是「高饱和度 > 低饱和度」而不是「更和谐的构图 > 不太和谐的构图」,那它学到的仍然是偏见而非审美。

3. 审美推理对编辑的价值被低估了

目前的编辑模型主要被评估在「指令遵循」上(改得对不对),很少被评估在「审美提升」上(改得好不好)。一个有审美推理能力的编辑模型应该能够:

  • 理解「让这张图更好看」的含义
  • 给出具体的改进建议(提亮前景、柔化背景、调整色温)
  • 执行这些改进并自我评估

这是编辑能力从「功能正确」到「审美优越」的跃迁,可能需要等到审美推理模型(如 Aes-R1)和编辑模型(如 Seedream 4.0)的深度整合。