情感计算与图像生成
主题范围
覆盖情感计算与图像生成/编辑的交叉领域,包括:
- 情感图像编辑 (AIM/IET):修改图像以唤起特定情感
- 情感图像生成 (EICG/C-EICG):从文本 + 情感条件生成图像
- 情感数据集构建:大规模情感标注数据集
- 情感偏差与安全:生成模型的情感倾向审计
当前覆盖(5 篇来源)
| # | 来源 | 任务 | 情感表示 | 时间 |
|---|---|---|---|---|
| 1 | EmoEdit | 编辑 (AIM) | 8 类离散 | 2024 |
| 2 | EmoArt | 数据集 + Benchmark | 12 类 + A-V | 2025 |
| 3 | EmotiCrafter | 生成 (C-EICG) | 连续 V-A | 2025 |
| 4 | Affective Image Editing | 编辑 (AIEdiT) | 连续情感谱 | 2025 |
| 5 | Generating Fearful Images | 偏差审计 | 8 类离散 | 2024 |
核心概念
- 情感图像编辑 — AIM 和 IET 的任务定义与技术演进
- Valence-Arousal 情感模型 — 连续情感表示的理论基础
- AI 生成图像的情感偏差 — 生成模型的情感安全问题
关键实体
- EmoEdit — 首个内容感知 AIM 框架
- EmoArt — 132K 艺术情感数据集
- EmotiCrafter — 首个连续 V-A 图像生成模型
技术趋势
- 从离散到连续:EmoEdit (8 类离散) → EmotiCrafter (连续 V-A)、AIEdiT (连续情感谱)
- 从颜色到内容:早期 AIM 只调颜色/风格 → EmoEdit 修改物体和场景
- 从编辑到生成:AIM 编辑原图 → C-EICG 从零生成情感图像
- 从方法到审计:Generating Fearful Images 提出更根本的问题——底层模型本身是否有情感偏差?
与统一多模态模型的关系
扩散模型图像编辑与生成 中的统一多模态模型(DreamOmni2, BAGEL, OmniGen2 等)主要优化通用编辑能力。情感编辑是其中一个特化方向,对情感语义的细粒度理解要求更高。EmoEdit 的 Emotion adapter 设计(即插即用、不改原模型)与统一模型的”通用基座 + 专项适配”思路一致。
待摄入相关 Clippings
EmoEdit相关:Affective Image Editing (已处理)EmoArt相关:EmoArt (已处理)- 还有更多情感相关的未处理 Clippings 待后续处理
开放问题
- 连续 V-A 空间中的哪个区域最适合情感增强编辑?
- 情感编辑的主观性如何评估?自动化指标 vs 大规模用户调研?
- 情感偏差在多大程度上影响了情感编辑方法的效果?
- 跨文化情感表达的差异如何融入模型设计?
我的思考
情感编辑到底解决了什么问题?
表面上看,情感编辑是”让图像唤起特定情感”。但深层来看,它解决的是一个更根本的问题:视觉内容与人类主观体验之间的映射。
当前所有生成模型都擅长”客观编辑”(加一只猫、换一个背景),但在”主观编辑”(让它更温馨、更压抑、更兴奋)上集体失语。这不是技术问题,是范式问题——我们一直用”物体识别”的思路在做”情感理解”。
情感编辑的真正突破可能需要:
- 明确的情感-视觉映射理论(心理学告诉我们什么视觉元素引起什么情感)
- 大规模的情感感知的人类反馈(不是简单的 A/B test,而是系统性地收集情感反应)
- 情感作为一等条件(不是编辑后的附加约束,而是预训练阶段就融入的条件)
情感数据集的方向
EmoArt 是目前最好的情感数据集,但有一个结构性缺陷:它来自艺术图像,而艺术图像的情感分布极度偏斜(87.93% 正向,76.41% 低 arousal)。
这不是 EmoArt 的问题——艺术本来就偏向”美”和”平静”。但如果我们用这个数据集训练情感编辑模型,模型会学到”有情感 = 平静愉悦”的偏差。Generating Fearful Images 的发现(模型偏向 fear)可能来自完全不同的机制(安全过滤的副作用?),但也可能来自训练数据中负面情感的”稀缺性”导致的过度补偿。
我的建议:情感数据集需要有意识地平衡情感分布。不是简单地 50/50 正负,而是根据应用场景设计分布。做艺术治疗的 EmoArt 偏正向是合理的;做情感编辑的 EmoEdit 需要覆盖全谱。
情感编辑的评估困局
这是情感编辑领域最头疼的问题。EmoEdit 用 Emo-A(情感分类器准确率)+ Emo-S(情感分数增量)评估,但存在循环:分类器本身是在 EmoSet 上训练的,而 EmoEditSet 也基于 EmoSet。评估工具和训练数据共享知识来源,就像用同一把尺子量自己。
出路:
- 大规模用户调研(EmoEdit 做了,但 41 人 40 组仍太小)
- 跨分类器评估(用多个独立训练的情感分类器取共识)
- 生理信号(眼动、脑电、心率——更客观但昂贵)
- 行为指标(用户看图片后的选择/决策变化——间接但更生态化)
情感偏差:被低估的安全问题
AI Safety 社区主要关注 toxicity、bias、hallucination,但情感偏差几乎没有被讨论。Generating Fearful Images 是少数直面这个问题的论文。
想想看:如果一个图像生成模型在 5000 万用户中使用,即使只有 5% 的偏差向负面情感倾斜,每天也会产生数百万张无意中传播负面情绪的图片。这比生成一张 toxic 图片的影响面更广,但更难检测——情感是主观的、连续的、文化的。
情感偏差需要成为 AI 安全评估的标配维度。