通过比较AI生成图像与源文本提示的情感,本研究发现主流生成式AI(如Stable Diffusion, GPT-4)存在系统性地放大负面情绪(特别是恐惧)的偏见,并提出了一个可能由此引发的“非良性循环”假说。

1. 总体介绍

1.1 问题背景

背景: 在当前的数字信息环境中,视觉内容,尤其是能激发强烈情绪(特别是负面情绪)的内容,在社交媒体上更容易获得高参与度。与此同时,生成式AI越来越多地使用这些在线数据进行训练。

现有解决方案及其不足:

  1. AI偏见研究: 已有大量工作关注AI中的性别和种族偏见,但很少有研究探讨其在生成何种情感内容上是否存在偏见。
  2. 情感计算: 现有研究大多孤立地分析文本或图像中的情感,缺乏对生成模型中跨模态情感传递(从文本提示到生成图像)过程中可能出现的扭曲的探究。

核心问题: 作者提出了一个“非良性循环”(unvirtuous cycle) 的担忧: 内容创作者为了流量制作情绪化内容 AI模型学习这些数据后,在生成的内容中放大负面情绪 这些负面内容被注入信息环境,获得更多关注,并被用于训练下一代AI,从而导致负面情绪的螺旋式上升。

1.2 论文贡献

  1. 提出并验证情感偏见假说: 首次系统性地研究并证实了主流生成式AI模型在生成图像时存在朝向负面情绪(特别是恐惧)的显著偏见。
  2. 开发并评估跨模态情感分析流程: 设计了一套完整的研究流程,首先评估并选出最有效的图像情感识别模型(微调的ViT),然后将其用于比较文本提示和生成图像之间的情感分布差异。
  3. 对两大主流模型的实证分析: 研究不仅局限于一个模型,而是对Stable Diffusion和GPT-4/DALL-E这两个广泛使用的模型进行了验证,发现两者都存在相似的情感偏见,增强了结论的普适性。
  4. 揭示对信息生态的潜在影响: 论文的结果为理解AI如何可能加剧网络空间的负面情绪提供了经验证据,并对用户心理健康、政治动员等领域具有重要的警示意义。

2. Method

2.1 核心理念

本文的核心方法是通过跨模态比较来量化情感偏见。其基本逻辑是:理想情况下,一个无偏见的AI模型生成的图像所引发的情感,应该与其源文本提示所蕴含的情感分布保持一致。任何系统性的偏离都可能意味着偏见的存在。

2.2 数据集

  • EmoSet: 用于训练和评估图像情感识别模型。包含约11.8万张标注了8种离散情感(如娱乐、愤怒、恐惧等)的图片。
  • DiffusionDB: 用于验证情感偏见的核心数据集。包含由真实用户提示通过Stable Diffusion生成的1400万张图文对。

2.3 研究框架设计

研究分为三个主要步骤:

2.3.1 步骤一:寻找最佳图像情感识别方法

为了准确测量生成图像中的情感,作者对比了三种方法:

  1. 零样本学习 (Zero-shot): 使用CLIP, BLIP等大型视觉语言模型,无需额外训练直接对图像进行情感分类。
  2. 微调视觉模型 (Fine-tuning): 在EmoSet数据集上微调主流的视觉模型(Google ViT, SWIN Transformer, ConvNeXT),使其专门用于情感识别。
  3. 自动字幕+文本分析 (Auto-captioning): 使用BLIP-2或GPT-4为图像生成描述,再用文本情感分析模型(DeMuX-MEmo)从描述中提取情感。 结论: 实验证明,微调后的Google ViT模型表现最佳,其F1分数远超其他方法,因此被选为后续分析的主要工具。

2.3.2 步骤二:分析文本提示中的情感

使用先进的文本情感分析模型DeMuX-MEmo来识别DiffusionDB数据集中用户原始文本提示(prompts)的情感分布。

2.3.3 步骤三:跨模态情感对比与偏见验证

将步骤一(图像情感)和步骤二(文本情感)的结果进行对比:

  1. 相关性分析: 计算图像情感与文本情感之间的斯皮尔曼相关系数,初步评估两者的一致性。
  2. 情感排名对比: 直接比较在图像和文本中最普遍的情感排名。这是验证偏见的核心步骤。例如,如果“恐惧”在图像中排名第一,但在文本中排名垫底,则说明存在显著偏见。
  3. 跨模型验证: 为了排除结果的偶然性,作者使用GPT-40模型从DiffusionDB中抽样提示来生成新图像,并重复上述对比分析。

3. 实验/评估/结果

3.1 核心发现:恐惧情绪的过度代表

  • 结果惊人: 在DiffusionDB数据集中,“恐惧”(Fear) 是生成图像中最常见的情感(占比33%)。然而,在用于生成这些图像的文本提示中,“恐惧”的占比仅为5%,排名倒数第二
  • 提示的主导情绪: 与图像相反,文本提示中最普遍的情感是“兴奋”(Excitement, 43%) 和“喜悦”(Joy, 18%)。
  • GPT-4o验证: 使用GPT-4o生成的新图像也呈现出几乎完全相同的结果,进一步证实了这种偏见并非Stable Diffusion所独有。

3.2 情感一致性

  • 负面情绪(如愤怒、厌恶)在文本和图像间的相关性略高于正面情绪,但整体相关性都偏低,说明跨模态的情感传递存在普遍的失真。

4. 结论

作者提出的关于生成式AI存在情感偏见的假说得到了有力证实。研究发现,至少两种主流的生成式AI模型在将文本提示转换为图像时,会系统性地、显著地过度代表负面情绪,尤其是恐惧。这种偏见可能会加剧“非良性循环”,对在线信息环境的健康和用户的心理福祉构成潜在威胁。