通过比较AI生成图像与源文本提示的情感，本研究发现主流生成式AI（如Stable Diffusion, GPT-4）存在系统性地放大负面情绪（特别是恐惧）的偏见，并提出了一个可能由此引发的“非良性循环”假说。

1. 总体介绍

1.1 问题背景

背景: 在当前的数字信息环境中，视觉内容，尤其是能激发强烈情绪（特别是负面情绪）的内容，在社交媒体上更容易获得高参与度。与此同时，生成式AI越来越多地使用这些在线数据进行训练。

现有解决方案及其不足:

AI偏见研究: 已有大量工作关注AI中的性别和种族偏见，但很少有研究探讨其在生成何种情感内容上是否存在偏见。
情感计算: 现有研究大多孤立地分析文本或图像中的情感，缺乏对生成模型中跨模态情感传递（从文本提示到生成图像）过程中可能出现的扭曲的探究。

核心问题: 作者提出了一个“非良性循环”(unvirtuous cycle) 的担忧：内容创作者为了流量制作情绪化内容 → AI模型学习这些数据后，在生成的内容中放大负面情绪 → 这些负面内容被注入信息环境，获得更多关注，并被用于训练下一代AI，从而导致负面情绪的螺旋式上升。

1.2 论文贡献

提出并验证情感偏见假说: 首次系统性地研究并证实了主流生成式AI模型在生成图像时存在朝向负面情绪（特别是恐惧）的显著偏见。
开发并评估跨模态情感分析流程: 设计了一套完整的研究流程，首先评估并选出最有效的图像情感识别模型（微调的ViT），然后将其用于比较文本提示和生成图像之间的情感分布差异。
对两大主流模型的实证分析: 研究不仅局限于一个模型，而是对Stable Diffusion和GPT-4/DALL-E这两个广泛使用的模型进行了验证，发现两者都存在相似的情感偏见，增强了结论的普适性。
揭示对信息生态的潜在影响: 论文的结果为理解AI如何可能加剧网络空间的负面情绪提供了经验证据，并对用户心理健康、政治动员等领域具有重要的警示意义。

2. Method

2.1 核心理念

本文的核心方法是通过跨模态比较来量化情感偏见。其基本逻辑是：理想情况下，一个无偏见的AI模型生成的图像所引发的情感，应该与其源文本提示所蕴含的情感分布保持一致。任何系统性的偏离都可能意味着偏见的存在。

2.2 数据集

EmoSet: 用于训练和评估图像情感识别模型。包含约11.8万张标注了8种离散情感（如娱乐、愤怒、恐惧等）的图片。
DiffusionDB: 用于验证情感偏见的核心数据集。包含由真实用户提示通过Stable Diffusion生成的1400万张图文对。

2.3 研究框架设计

研究分为三个主要步骤：

2.3.1 步骤一：寻找最佳图像情感识别方法

为了准确测量生成图像中的情感，作者对比了三种方法：

零样本学习 (Zero-shot): 使用CLIP, BLIP等大型视觉语言模型，无需额外训练直接对图像进行情感分类。
微调视觉模型 (Fine-tuning): 在EmoSet数据集上微调主流的视觉模型（Google ViT, SWIN Transformer, ConvNeXT），使其专门用于情感识别。
自动字幕+文本分析 (Auto-captioning): 使用BLIP-2或GPT-4为图像生成描述，再用文本情感分析模型（DeMuX-MEmo）从描述中提取情感。结论: 实验证明，微调后的Google ViT模型表现最佳，其F1分数远超其他方法，因此被选为后续分析的主要工具。

2.3.2 步骤二：分析文本提示中的情感

使用先进的文本情感分析模型DeMuX-MEmo来识别DiffusionDB数据集中用户原始文本提示（prompts）的情感分布。

2.3.3 步骤三：跨模态情感对比与偏见验证

将步骤一（图像情感）和步骤二（文本情感）的结果进行对比：

相关性分析: 计算图像情感与文本情感之间的斯皮尔曼相关系数，初步评估两者的一致性。
情感排名对比: 直接比较在图像和文本中最普遍的情感排名。这是验证偏见的核心步骤。例如，如果“恐惧”在图像中排名第一，但在文本中排名垫底，则说明存在显著偏见。
跨模型验证: 为了排除结果的偶然性，作者使用GPT-40模型从DiffusionDB中抽样提示来生成新图像，并重复上述对比分析。

3. 实验/评估/结果

3.1 核心发现：恐惧情绪的过度代表

结果惊人: 在DiffusionDB数据集中，“恐惧”(Fear) 是生成图像中最常见的情感（占比33%）。然而，在用于生成这些图像的文本提示中，“恐惧”的占比仅为5%，排名倒数第二。
提示的主导情绪: 与图像相反，文本提示中最普遍的情感是“兴奋”(Excitement, 43%) 和“喜悦”(Joy, 18%)。
GPT-4o验证: 使用GPT-4o生成的新图像也呈现出几乎完全相同的结果，进一步证实了这种偏见并非Stable Diffusion所独有。

3.2 情感一致性

负面情绪（如愤怒、厌恶）在文本和图像间的相关性略高于正面情绪，但整体相关性都偏低，说明跨模态的情感传递存在普遍的失真。

4. 结论

作者提出的关于生成式AI存在情感偏见的假说得到了有力证实。研究发现，至少两种主流的生成式AI模型在将文本提示转换为图像时，会系统性地、显著地过度代表负面情绪，尤其是恐惧。这种偏见可能会加剧“非良性循环”，对在线信息环境的健康和用户的心理福祉构成潜在威胁。

Blog1

探索

Generating Fearful Images: Investigating Potential Emotional Biases in Image-Generation Models