EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes

基本信息

作者: Jingyuan Yang, Qirui Huang, Tingting Ding, Dani Lischinski, Daniel Cohen-Or, Hui Huang
机构: 深圳大学、希伯来大学、特拉维夫大学
发表年份: 2023
论文: arXiv:2307.07961
项目主页: https://vcc.tech/EmoSet

核心论点

视觉情感分析（Visual Emotion Analysis, VEA）领域的现有工作主要聚焦于特征设计，而对数据集构建关注不足。现有数据集普遍规模较小、标注单一（仅有情感类别标签）、类别不均衡。EmoSet 是首个带有丰富属性标注的大规模视觉情感数据集，在规模、标注丰富度、多样性和数据均衡性四个方面全面超越已有数据集。

作者的核心观点是：仅靠情感类别标签不足以弥合图像与情感之间的”情感鸿沟”（affective gap），需要引入可描述的情感属性作为辅助信息，才能实现更精确、可解释的视觉情感理解。

关键技术方法

数据集构建

情感关键词扩展: 基于 Mikels 八类情感模型（amusement, awe, contentment, excitement, anger, disgust, fear, sadness），利用 WordNet、Collins、Roget’s 三部词典进行同义词扩展，最终得到 810 个情感关键词。
多源数据采集: 从 Openverse、Pexels、Pixabay、RawPixels 四个平台检索图像，共收集 430 万张候选图片，经去重和投票后保留 330 万张（EmoSet-3.3M）。
人工标注子集: 从 EmoSet-3.3M 中筛选出 118,102 张图像（EmoSet-118K）进行精细人工标注，规模约为 FI 数据集的 5 倍。

标注体系

除情感类别外，论文受心理学研究启发，设计了六类可描述的情感属性，覆盖三个视觉层次：

层次	属性	类别数	标注方式
低层	亮度 (brightness)	10	传统方法自动计算
低层	色彩丰富度 (colorfulness)	10	传统方法自动计算
中层	场景类型 (scene type)	365	Places365 预训练模型
中层	物体类别 (object class)	600	OpenImagesV4 检测模型，取置信度前三
高层	面部表情 (facial expression)	6	FER2013 预训练模型
高层	人体动作 (human action)	400	UniformerV2 模型

人工标注流程

标注者需通过共情商数测试（得分 > 30）和 FI 数据集分类准确率测试（通过率 >= 85%），最终录用 60 名标注者。
每张图像由 10 名标注者标注，采用”是/否”验证式标注（而非直接选择类别），以降低情感主观性带来的噪声。
7/10 以上共识的标注结果才作为最终标签。

属性感知情感识别模块

论文设计了一个属性模块（Attribute Module），包含低层、中层、高层三个分支，可附加到任意 CNN 主干网络上，与主分支联合训练进行情感预测。

主要结果

数据集规模优势: EmoSet-118K 是当时最大的标注视觉情感数据集（118,102 张），是 FI（23,308 张）的约 5 倍；EmoSet-3.3M 含 330 万张弱标注图像。
识别性能最优: 在二分类（情感正负）和八分类任务上，EmoSet 均取得最佳性能。以 Stimuli-aware 方法为例，八分类准确率达 78.40%，远超 FI 上的 72.42%。
属性模块有效: 属性模块在无 ImageNet 预训练时平均提升 8.05%，有预训练时平均提升 2.50%，验证了情感属性对识别的辅助作用。
跨数据集泛化性: 在 EmoSet 上训练的模型迁移到 FI 时性能下降较小（5.36% / 11.86%），而反向迁移时下降显著（26.98% / 20.09%），说明 EmoSet 学到的表征更具泛化能力。
属性-情感相关性: 统计分析显示属性与情感类别之间存在强相关性（场景类型、物体类别、人体动作的 top-1 属性值与情感的平均相关度分别为 0.85、0.86、0.83），与人类认知一致。

局限性

单一情感假设: 每张图像仅标注一种情感类别，未考虑现实中多种情感同时被激发的情况。
离散情感模型: 基于 Mikels 八类模型，情感被离散化为有限类别，难以精确捕捉情感的连续性和复杂性。
属性自动标注的噪声: 亮度和色彩丰富度由传统方法计算，场景/物体/表情/动作由预训练模型预测，存在自动标注误差。
图像-文本一致性假设: 数据采集依赖”文本标签反映图像情感”的假设，但实际上图文情感不一致的情况普遍存在。
文化偏差: 标注者和数据来源可能存在文化偏向，影响情感标注的普适性。

与相关工作的关系

与已有 VEA 数据集的对比

EmoSet 在多个维度上系统性地超越了现有数据集：

维度	已有数据集	EmoSet
规模	最大的 FI 仅 23,308 张	118,102 张人工标注 + 330 万弱标注
标注丰富度	仅有情感类别	情感类别 + 6 类情感属性
图像多样性	单一来源（多为社交媒体）	社交媒体 + 艺术作品
类别均衡性	严重不均衡（如 FI 中 disgust 仅 7%）	相对均衡（9%-17%）

与 EmoArt、EmoEdit 等的关系

EmoArt: 专注于艺术作品的情感分析，EmoSet 则同时包含社交媒体图像和艺术作品，覆盖范围更广。EmoSet 的艺术图像子集可与 EmoArt 形成互补。
EmoEdit: 聚焦于通过图像编辑来操控情感表达，而 EmoSet 的属性标注体系（特别是亮度、色彩等低层属性）可为 EmoEdit 类任务提供情感-属性关联的先验知识。
FI 数据集: EmoSet 直接以 FI 为对比基准，规模是其 5 倍，且在跨数据集泛化实验中证明了 EmoSet 训练的模型向 FI 迁移时性能损失更小。
Emotion6: 使用 Ekman 六类模型，规模仅 1,980 张；EmoSet 采用更细粒度的 Mikels 八类模型且规模大两个数量级。

在情感计算领域的位置

EmoSet 的出现填补了 VEA 领域”大规模 + 丰富标注”数据集的空白，为从单纯的情感识别走向情感理解（emotion understanding）提供了数据基础。其属性标注思路对后续多模态情感分析、情感图像生成与编辑等任务具有启发意义。

Blog1

探索

EmoSet 视觉情感数据集