情感计算与图像生成

主题范围

覆盖情感计算与图像生成/编辑的交叉领域,包括:

  • 情感图像编辑 (AIM/IET):修改图像以唤起特定情感
  • 情感图像生成 (EICG/C-EICG):从文本 + 情感条件生成图像
  • 情感数据集构建:大规模情感标注数据集
  • 情感偏差与安全:生成模型的情感倾向审计

当前覆盖(5 篇来源)

#来源任务情感表示时间
1EmoEdit编辑 (AIM)8 类离散2024
2EmoArt数据集 + Benchmark12 类 + A-V2025
3EmotiCrafter生成 (C-EICG)连续 V-A2025
4Affective Image Editing编辑 (AIEdiT)连续情感谱2025
5Generating Fearful Images偏差审计8 类离散2024

核心概念

关键实体

  • EmoEdit — 首个内容感知 AIM 框架
  • EmoArt — 132K 艺术情感数据集
  • EmotiCrafter — 首个连续 V-A 图像生成模型

技术趋势

  1. 从离散到连续:EmoEdit (8 类离散) → EmotiCrafter (连续 V-A)、AIEdiT (连续情感谱)
  2. 从颜色到内容:早期 AIM 只调颜色/风格 → EmoEdit 修改物体和场景
  3. 从编辑到生成:AIM 编辑原图 → C-EICG 从零生成情感图像
  4. 从方法到审计:Generating Fearful Images 提出更根本的问题——底层模型本身是否有情感偏差?

与统一多模态模型的关系

扩散模型图像编辑与生成 中的统一多模态模型(DreamOmni2, BAGEL, OmniGen2 等)主要优化通用编辑能力。情感编辑是其中一个特化方向,对情感语义的细粒度理解要求更高。EmoEdit 的 Emotion adapter 设计(即插即用、不改原模型)与统一模型的”通用基座 + 专项适配”思路一致。

待摄入相关 Clippings

  • EmoEdit 相关:Affective Image Editing (已处理)
  • EmoArt 相关:EmoArt (已处理)
  • 还有更多情感相关的未处理 Clippings 待后续处理

开放问题

  • 连续 V-A 空间中的哪个区域最适合情感增强编辑?
  • 情感编辑的主观性如何评估?自动化指标 vs 大规模用户调研?
  • 情感偏差在多大程度上影响了情感编辑方法的效果?
  • 跨文化情感表达的差异如何融入模型设计?

我的思考

情感编辑到底解决了什么问题?

表面上看,情感编辑是”让图像唤起特定情感”。但深层来看,它解决的是一个更根本的问题:视觉内容与人类主观体验之间的映射

当前所有生成模型都擅长”客观编辑”(加一只猫、换一个背景),但在”主观编辑”(让它更温馨、更压抑、更兴奋)上集体失语。这不是技术问题,是范式问题——我们一直用”物体识别”的思路在做”情感理解”。

情感编辑的真正突破可能需要:

  1. 明确的情感-视觉映射理论(心理学告诉我们什么视觉元素引起什么情感)
  2. 大规模的情感感知的人类反馈(不是简单的 A/B test,而是系统性地收集情感反应)
  3. 情感作为一等条件(不是编辑后的附加约束,而是预训练阶段就融入的条件)

情感数据集的方向

EmoArt 是目前最好的情感数据集,但有一个结构性缺陷:它来自艺术图像,而艺术图像的情感分布极度偏斜(87.93% 正向,76.41% 低 arousal)。

这不是 EmoArt 的问题——艺术本来就偏向”美”和”平静”。但如果我们用这个数据集训练情感编辑模型,模型会学到”有情感 = 平静愉悦”的偏差。Generating Fearful Images 的发现(模型偏向 fear)可能来自完全不同的机制(安全过滤的副作用?),但也可能来自训练数据中负面情感的”稀缺性”导致的过度补偿。

我的建议:情感数据集需要有意识地平衡情感分布。不是简单地 50/50 正负,而是根据应用场景设计分布。做艺术治疗的 EmoArt 偏正向是合理的;做情感编辑的 EmoEdit 需要覆盖全谱。

情感编辑的评估困局

这是情感编辑领域最头疼的问题。EmoEdit 用 Emo-A(情感分类器准确率)+ Emo-S(情感分数增量)评估,但存在循环:分类器本身是在 EmoSet 上训练的,而 EmoEditSet 也基于 EmoSet。评估工具和训练数据共享知识来源,就像用同一把尺子量自己。

出路:

  • 大规模用户调研(EmoEdit 做了,但 41 人 40 组仍太小)
  • 跨分类器评估(用多个独立训练的情感分类器取共识)
  • 生理信号(眼动、脑电、心率——更客观但昂贵)
  • 行为指标(用户看图片后的选择/决策变化——间接但更生态化)

情感偏差:被低估的安全问题

AI Safety 社区主要关注 toxicity、bias、hallucination,但情感偏差几乎没有被讨论。Generating Fearful Images 是少数直面这个问题的论文。

想想看:如果一个图像生成模型在 5000 万用户中使用,即使只有 5% 的偏差向负面情感倾斜,每天也会产生数百万张无意中传播负面情绪的图片。这比生成一张 toxic 图片的影响面更广,但更难检测——情感是主观的、连续的、文化的。

情感偏差需要成为 AI 安全评估的标配维度