EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes

基本信息

  • 作者: Jingyuan Yang, Qirui Huang, Tingting Ding, Dani Lischinski, Daniel Cohen-Or, Hui Huang
  • 机构: 深圳大学、希伯来大学、特拉维夫大学
  • 发表年份: 2023
  • 论文: arXiv:2307.07961
  • 项目主页: https://vcc.tech/EmoSet

核心论点

视觉情感分析(Visual Emotion Analysis, VEA)领域的现有工作主要聚焦于特征设计,而对数据集构建关注不足。现有数据集普遍规模较小、标注单一(仅有情感类别标签)、类别不均衡。EmoSet 是首个带有丰富属性标注的大规模视觉情感数据集,在规模、标注丰富度、多样性和数据均衡性四个方面全面超越已有数据集。

作者的核心观点是:仅靠情感类别标签不足以弥合图像与情感之间的”情感鸿沟”(affective gap),需要引入可描述的情感属性作为辅助信息,才能实现更精确、可解释的视觉情感理解。

关键技术方法

数据集构建

  1. 情感关键词扩展: 基于 Mikels 八类情感模型(amusement, awe, contentment, excitement, anger, disgust, fear, sadness),利用 WordNet、Collins、Roget’s 三部词典进行同义词扩展,最终得到 810 个情感关键词。
  2. 多源数据采集: 从 Openverse、Pexels、Pixabay、RawPixels 四个平台检索图像,共收集 430 万张候选图片,经去重和投票后保留 330 万张(EmoSet-3.3M)。
  3. 人工标注子集: 从 EmoSet-3.3M 中筛选出 118,102 张图像(EmoSet-118K)进行精细人工标注,规模约为 FI 数据集的 5 倍。

标注体系

除情感类别外,论文受心理学研究启发,设计了六类可描述的情感属性,覆盖三个视觉层次:

层次属性类别数标注方式
低层亮度 (brightness)10传统方法自动计算
低层色彩丰富度 (colorfulness)10传统方法自动计算
中层场景类型 (scene type)365Places365 预训练模型
中层物体类别 (object class)600OpenImagesV4 检测模型,取置信度前三
高层面部表情 (facial expression)6FER2013 预训练模型
高层人体动作 (human action)400UniformerV2 模型

人工标注流程

  • 标注者需通过共情商数测试(得分 > 30)和 FI 数据集分类准确率测试(通过率 >= 85%),最终录用 60 名标注者。
  • 每张图像由 10 名标注者标注,采用”是/否”验证式标注(而非直接选择类别),以降低情感主观性带来的噪声。
  • 7/10 以上共识的标注结果才作为最终标签。

属性感知情感识别模块

论文设计了一个属性模块(Attribute Module),包含低层、中层、高层三个分支,可附加到任意 CNN 主干网络上,与主分支联合训练进行情感预测。

主要结果

  1. 数据集规模优势: EmoSet-118K 是当时最大的标注视觉情感数据集(118,102 张),是 FI(23,308 张)的约 5 倍;EmoSet-3.3M 含 330 万张弱标注图像。
  2. 识别性能最优: 在二分类(情感正负)和八分类任务上,EmoSet 均取得最佳性能。以 Stimuli-aware 方法为例,八分类准确率达 78.40%,远超 FI 上的 72.42%。
  3. 属性模块有效: 属性模块在无 ImageNet 预训练时平均提升 8.05%,有预训练时平均提升 2.50%,验证了情感属性对识别的辅助作用。
  4. 跨数据集泛化性: 在 EmoSet 上训练的模型迁移到 FI 时性能下降较小(5.36% / 11.86%),而反向迁移时下降显著(26.98% / 20.09%),说明 EmoSet 学到的表征更具泛化能力。
  5. 属性-情感相关性: 统计分析显示属性与情感类别之间存在强相关性(场景类型、物体类别、人体动作的 top-1 属性值与情感的平均相关度分别为 0.85、0.86、0.83),与人类认知一致。

局限性

  • 单一情感假设: 每张图像仅标注一种情感类别,未考虑现实中多种情感同时被激发的情况。
  • 离散情感模型: 基于 Mikels 八类模型,情感被离散化为有限类别,难以精确捕捉情感的连续性和复杂性。
  • 属性自动标注的噪声: 亮度和色彩丰富度由传统方法计算,场景/物体/表情/动作由预训练模型预测,存在自动标注误差。
  • 图像-文本一致性假设: 数据采集依赖”文本标签反映图像情感”的假设,但实际上图文情感不一致的情况普遍存在。
  • 文化偏差: 标注者和数据来源可能存在文化偏向,影响情感标注的普适性。

与相关工作的关系

与已有 VEA 数据集的对比

EmoSet 在多个维度上系统性地超越了现有数据集:

维度已有数据集EmoSet
规模最大的 FI 仅 23,308 张118,102 张人工标注 + 330 万弱标注
标注丰富度仅有情感类别情感类别 + 6 类情感属性
图像多样性单一来源(多为社交媒体)社交媒体 + 艺术作品
类别均衡性严重不均衡(如 FI 中 disgust 仅 7%)相对均衡(9%-17%)

与 EmoArt、EmoEdit 等的关系

  • EmoArt: 专注于艺术作品的情感分析,EmoSet 则同时包含社交媒体图像和艺术作品,覆盖范围更广。EmoSet 的艺术图像子集可与 EmoArt 形成互补。
  • EmoEdit: 聚焦于通过图像编辑来操控情感表达,而 EmoSet 的属性标注体系(特别是亮度、色彩等低层属性)可为 EmoEdit 类任务提供情感-属性关联的先验知识。
  • FI 数据集: EmoSet 直接以 FI 为对比基准,规模是其 5 倍,且在跨数据集泛化实验中证明了 EmoSet 训练的模型向 FI 迁移时性能损失更小。
  • Emotion6: 使用 Ekman 六类模型,规模仅 1,980 张;EmoSet 采用更细粒度的 Mikels 八类模型且规模大两个数量级。

在情感计算领域的位置

EmoSet 的出现填补了 VEA 领域”大规模 + 丰富标注”数据集的空白,为从单纯的情感识别走向情感理解(emotion understanding)提供了数据基础。其属性标注思路对后续多模态情感分析、情感图像生成与编辑等任务具有启发意义。