情感表示方法比较
核心问题
在情感计算与图像生成/编辑中,如何表示”情感”直接影响模型的设计和能力边界。目前存在两条主要路线:离散情感类别和连续情感空间。
离散 vs 连续
| 维度 | 离散情感 | 连续 V-A |
|---|---|---|
| 代表工作 | EmoEdit (8 类) | EmotiCrafter (V-A 坐标) |
| 理论基础 | Mikels 8 类、Ekman 6 类 | Russell 环状模型 (1980) |
| 粒度 | 固定类别数 | 任意精度(如 0.2 步长) |
| 过渡 | 不可渐变 | 平滑连续过渡 |
| 可解释性 | ⭐⭐⭐ 高 | ⭐⭐ 中(需熟悉 V-A 空间) |
| Arousal 控制 | N/A | ⭐ 挑战大(标注一致性低) |
| 数据获取 | 分类标注(较易) | 连续值标注(较难) |
| 模型设计 | 分类 head | 回归 head / 连续注入 |
各方法的情感表示
| 方法 | 表示方式 | 类别/范围 | 特点 |
|---|---|---|---|
| EmoEdit | 8 类离散 | amusement, awe, contentment, excitement, anger, disgust, fear, sadness | 每类下有多层语义因子树 |
| EmotiCrafter | 连续 V-A | V∈[-3,3], A∈[-3,3] | V-A Encoder → EIT → SDXL |
| AIEdiT | 连续情感谱 | 未明确说明 | Emotional Mapper 桥接抽象→具体 |
| EmoArt | 二值 A-V + 12 类 | Calm, Excited, Contentment, Alarmed, Sad 等 | 同时标注离散和连续 |
EmoEdit vs EmotiCrafter:两条路线的深度对比
这是情感编辑领域最有代表性的两种思路:
EmoEdit:离散 + 丰富语义
输入:"让这张图更悲伤"
↓
情感标签 "sadness"
↓
情感因子树查找:墓碑、枯树、灰暗天空、泪水...
↓
Emotion adapter 选择最合适的因子
↓
IP2P 执行编辑
优势:情感因子树提供了丰富的语义空间,8 个类别每个下面有多层因子(object/scene/action/facial expression),实际可表达的编辑类型远超 8 种。
劣势:类别边界硬。从 “sadness” 到 “fear” 之间无法平滑过渡。“有点悲伤”和”非常悲伤”在表示上没有区别。
EmotiCrafter:连续 + 精确定位
输入:V=-2, A=-1(悲伤偏平静)
↓
V-A Encoder → e_v, e_a
↓
EIT 逐层注入 12 层 transformer
↓
SDXL 生成
优势:可以在 V-A 空间中任意定位,0.2 步长的精细控制。支持从”平静的悲伤 (V=-1, A=-2)“到”激动的愤怒 (V=-2, A=3)“的连续过渡。
劣势:V-A 空间中的每个点到底对应什么视觉元素?缺乏 EmoEdit 的情感因子树那种明确的语义映射。
我的判断:两条路线应该融合
最优方案可能是:在连续 V-A 空间中嵌入离散的语义因子。
具体来说:
- 用 V-A 空间做全局情感方向控制(“往更悲伤的方向走 0.5 步”)
- 在每个 V-A 区域预计算最相关的语义因子(类似 EmoEdit 的情感因子树)
- 生成/编辑时:V-A → 定位区域 → 选择语义因子 → 执行
这就像 GPS 导航:V-A 是经纬度(连续定位),语义因子是地标(具体参考点)。两者结合才能做到既精确又可解释。
Arousal 为什么更难?
EmotiCrafter、EmoArt 和视觉情感分析文献(Mertens et al. 2024)都确认:Arousal 的预测和控制比 Valence 更难。
可能的原因:
-
标注不一致:不同人对同一张图的 Arousal 判断差异大。一张过山车照片,有人觉得”兴奋 (高 A)“,有人觉得”恐惧 (高 A)“——Valence 相反但 Arousal 都高。Arousal 受个人经历影响更大。
-
视觉表达多义:高 Arousal 可以通过多种视觉方式表达——高饱和度、强对比、动态构图、人物表情等。这些方式之间没有必然联系,模型难以学习统一的 “arousal 模式”。
-
Valence 有更明确的视觉线索:暖色调 → 正向、冷色调 → 负向、明亮 → 正向、阴暗 → 负向。Arousal 缺乏这种一对一的视觉映射。
开放问题
- 如果在 V-A 空间中学习情感因子树(而非在离散类别上),效果会更好吗?
- 8 类情感的完备性:EmoEdit 的 8 类来自 Mikels et al. (2005),但心理学家从未就离散情感分类达成共识。12 类(EmoArt)、6 类(Ekman)哪个更好?
- 文化差异:EmoArt 发现中国画 99%+ 是 low arousal + positive,但同样的 V-A 值在西方表现主义中可能意味着完全不同的东西。V-A 的”客观性”需要打问号。