AI 生成图像的情感偏差

定义

AI 图像生成模型在生成图像时系统性地偏向某些情感方向（特别是负面情感），独立于用户输入 prompt 的情感倾向。这是生成模型安全对齐的一个被低估的维度。

关键证据

Generating Fearful Images (2024) 研究发现：

AI 生成图像频繁偏向负面情感，特别是 fear（恐惧）
即使 prompt 本身是中性的或正向的，生成图像的情感分布仍向负面偏移
这种偏差在不同模型中均存在

可能的原因（待验证）

训练数据偏差：训练数据中某些情感场景被过度表达
安全过滤的副作用：过度过滤敏感内容可能导致模型在情感轴上产生意外偏移
架构特性：扩散模型或 VLM 的某些设计选择可能自然偏向特定情感模式

与其他研究方向的关系

方向	关系
情感图像编辑	精确情感控制的方法需要建立在无偏差的基座模型上
EmoArt EmoArt	艺术数据高度偏向 calm/positive，训练可能引入相反偏差
AI Safety	情感偏差是 AI 安全的一个子问题，但常被忽视

研究挑战

情感识别本身有偏：评估工具（情感分类器）的偏差可能与生成模型的偏差叠加
跨文化差异：情感表达和感知因文化而异，偏差的评估应跨文化
可接受偏差的边界：什么程度的情感偏差是”可接受的”？完全均匀分布也不是目标

开放问题

如何在不破坏安全对齐的前提下减少不必要的情感偏差？
情感偏差是否与模型的审美偏好（aesthetic bias）相关？
微调（如 EmoEdit 的 Emotion adapter）能否纠正底层偏差？