情感表示方法比较

核心问题

在情感计算与图像生成/编辑中,如何表示”情感”直接影响模型的设计和能力边界。目前存在两条主要路线:离散情感类别和连续情感空间。

离散 vs 连续

维度离散情感连续 V-A
代表工作EmoEdit (8 类)EmotiCrafter (V-A 坐标)
理论基础Mikels 8 类、Ekman 6 类Russell 环状模型 (1980)
粒度固定类别数任意精度(如 0.2 步长)
过渡不可渐变平滑连续过渡
可解释性⭐⭐⭐ 高⭐⭐ 中(需熟悉 V-A 空间)
Arousal 控制N/A⭐ 挑战大(标注一致性低)
数据获取分类标注(较易)连续值标注(较难)
模型设计分类 head回归 head / 连续注入

各方法的情感表示

方法表示方式类别/范围特点
EmoEdit8 类离散amusement, awe, contentment, excitement, anger, disgust, fear, sadness每类下有多层语义因子树
EmotiCrafter连续 V-AV∈[-3,3], A∈[-3,3]V-A Encoder → EIT → SDXL
AIEdiT连续情感谱未明确说明Emotional Mapper 桥接抽象→具体
EmoArt二值 A-V + 12 类Calm, Excited, Contentment, Alarmed, Sad 等同时标注离散和连续

EmoEdit vs EmotiCrafter:两条路线的深度对比

这是情感编辑领域最有代表性的两种思路:

EmoEdit:离散 + 丰富语义

输入:"让这张图更悲伤"
  ↓
情感标签 "sadness"
  ↓
情感因子树查找:墓碑、枯树、灰暗天空、泪水...
  ↓
Emotion adapter 选择最合适的因子
  ↓
IP2P 执行编辑

优势:情感因子树提供了丰富的语义空间,8 个类别每个下面有多层因子(object/scene/action/facial expression),实际可表达的编辑类型远超 8 种。

劣势:类别边界硬。从 “sadness” 到 “fear” 之间无法平滑过渡。“有点悲伤”和”非常悲伤”在表示上没有区别。

EmotiCrafter:连续 + 精确定位

输入:V=-2, A=-1(悲伤偏平静)
  ↓
V-A Encoder → e_v, e_a
  ↓
EIT 逐层注入 12 层 transformer
  ↓
SDXL 生成

优势:可以在 V-A 空间中任意定位,0.2 步长的精细控制。支持从”平静的悲伤 (V=-1, A=-2)“到”激动的愤怒 (V=-2, A=3)“的连续过渡。

劣势:V-A 空间中的每个点到底对应什么视觉元素?缺乏 EmoEdit 的情感因子树那种明确的语义映射。

我的判断:两条路线应该融合

最优方案可能是:在连续 V-A 空间中嵌入离散的语义因子

具体来说:

  • 用 V-A 空间做全局情感方向控制(“往更悲伤的方向走 0.5 步”)
  • 在每个 V-A 区域预计算最相关的语义因子(类似 EmoEdit 的情感因子树)
  • 生成/编辑时:V-A → 定位区域 → 选择语义因子 → 执行

这就像 GPS 导航:V-A 是经纬度(连续定位),语义因子是地标(具体参考点)。两者结合才能做到既精确又可解释。

Arousal 为什么更难?

EmotiCrafter、EmoArt 和视觉情感分析文献(Mertens et al. 2024)都确认:Arousal 的预测和控制比 Valence 更难。

可能的原因:

  1. 标注不一致:不同人对同一张图的 Arousal 判断差异大。一张过山车照片,有人觉得”兴奋 (高 A)“,有人觉得”恐惧 (高 A)“——Valence 相反但 Arousal 都高。Arousal 受个人经历影响更大。

  2. 视觉表达多义:高 Arousal 可以通过多种视觉方式表达——高饱和度、强对比、动态构图、人物表情等。这些方式之间没有必然联系,模型难以学习统一的 “arousal 模式”。

  3. Valence 有更明确的视觉线索:暖色调 → 正向、冷色调 → 负向、明亮 → 正向、阴暗 → 负向。Arousal 缺乏这种一对一的视觉映射。

开放问题

  • 如果在 V-A 空间中学习情感因子树(而非在离散类别上),效果会更好吗?
  • 8 类情感的完备性:EmoEdit 的 8 类来自 Mikels et al. (2005),但心理学家从未就离散情感分类达成共识。12 类(EmoArt)、6 类(Ekman)哪个更好?
  • 文化差异:EmoArt 发现中国画 99%+ 是 low arousal + positive,但同样的 V-A 值在西方表现主义中可能意味着完全不同的东西。V-A 的”客观性”需要打问号。

相关比较