情感图像编辑 (Affective Image Editing)
定义
情感图像编辑是指通过修改图像的视觉元素来唤起观看者特定情感反应的技术。与传统的语义编辑(“加一只猫”)不同,情感编辑以抽象的情感目标为导向(“让这张图更悲伤”)。
两个子任务
| 子任务 | 英文 | 输入 | 目标 |
|---|---|---|---|
| 情感图像编辑 (AIM) | Affective Image Manipulation | 原图 + 情感标签 | 修改图像唤起目标情感 |
| 图像情感迁移 (IET) | Image Emotion Transfer | 源图 + 目标情感图 | 将目标图的情感迁移到源图 |
技术演进
第一代:颜色和风格调整
- 颜色迁移(Yang et al. 2008):将颜色谱分为 24 种情绪
- 风格迁移(CLVA, AIF):通过艺术风格传达情感
- 局限:只能做粗略的正负二元情感,无法精确唤起特定情感
第二代:内容感知编辑
- EmoEdit (2024):构建情感因子树,引入内容修改(添加/修改物体、场景),Emotion adapter 即插即用
- AIEdiT (2025):连续情感谱 + 情感映射器 + MLLM 监督
核心挑战
- 结构保持 vs 情感表达:修改越多情感越强,但越偏离原图。EmoEdit 通过 instruction loss + diffusion loss 联合优化取得平衡
- 抽象到具体的映射:情感是抽象的,需要映射到具体的视觉元素(EmoEdit 的情感因子树、AIEdiT 的情感映射器)
- 情感评估:缺乏客观指标,依赖分类器(有偏)或人工评估(昂贵)
与统一多模态编辑的关系
情感编辑是图像编辑的子集,但抽象层次更高。DreamOmni2 的多模态指令编辑可以覆盖部分情感编辑场景(如”让画面更温馨”),但未专门优化情感目标。
相关概念
- Valence-Arousal 情感模型 — 连续情感表示
- AI 生成图像的情感偏差 — 底层模型的情感安全问题
- 多模态指令编辑与生成 — 更广义的指令驱动编辑