本文介绍了一个大规模、多维度的艺术情感数据集 EmoArt,并通过在该数据集上进行基准测试和模型微调,显著提升了生成式AI在创作具有特定情感和艺术风格图像方面的能力。

1. 总体介绍

1.1 问题背景

背景: 尽管以 Stable Diffusion 为代表的文生图模型在生成逼真图像方面取得了巨大成功,但它们在理解和生成具有复杂情感、抽象美感和特定艺术风格的作品时,表现往往不尽人意。

现有解决方案及其不足:

  1. 现有情感数据集: 大多数情感数据集主要关注真实世界的照片,而非艺术品,无法捕捉艺术独特的表达方式。
  2. 现有艺术数据集: 像 ArtEmis 这样的艺术数据集虽然关注情感,但在视觉元素的结构化标注(如笔触、构图)方面有所欠缺,且规模和多样性有限,难以支持大规模生成模型的训练。如下表所示,EmoArt 在多个维度上超越了现有数据集。

image.png

核心问题: 当前AI艺术生成领域存在一个关键的“数据集鸿沟”。模型之所以缺乏“情商”和“艺术感”,根本原因在于缺少一个大规模、细粒度、专门为艺术情感理解和生成而设计的训练和评估数据集。

1.2 论文贡献

  1. 构建并发布 EmoArt 数据集: 创建了一个迄今为止最全面的情感艺术数据集之一,包含 132,664 件艺术品,横跨 56 种绘画风格,并提供了丰富的多维度标注。
  2. 开创性的多维标注框架: 每张图片都包含五个部分的结构化标注:客观场景描述、五个关键视觉属性(笔触、构图、色彩、线条、光线)、情绪效价与唤醒度、12个情感类别、以及潜在的艺术治疗效果。这是首次对艺术品的视觉形式进行如此系统的结构化标注。
  3. 建立情感生成基准: 利用 EmoArt 对7个主流的文生图扩散模型进行了全面的基准测试,并验证了通过 EmoArt 微调可以显著提升模型的性能,为后续研究提供了可靠的基准线。
  4. 提出新的评估视角: 提出了一个创新的“属性对齐” (Attributes Alignment) 评估指标,从艺术语义层面(如笔触、色彩)评估生成图像的质量,弥补了传统像素级指标在艺术评估上的不足。

2. Method

2.1 核心理念

本文的核心理念是,要让AI理解并生成富有情感的艺术,就必须为其提供一个能够将客观视觉元素、艺术形式与主观情感体验联系起来的结构化知识库。EmoArt 数据集本身就是这一理念的物化实现。

2.2 数据集

  • EmoArt: 本文的核心产出。它是一个包含 132,664 张绘画作品的庞大数据集,图像来源于 WikiArt、大都会艺术博物馆等公共领域平台,确保了使用的合法性和学术再现性。

2.3 研究框架设计

该研究的“方法”部分主要阐述了 EmoArt 数据集的构建与验证流程,如下图所示,分为三个关键步骤:

image.png

2.3.1 步骤一:数据收集与过滤

  • 收集: 从多个在线数据库广泛收集超过20万张艺术品图像。
  • 过滤: 实施四项严格的过滤程序以保证数据质量:
    1. 艺术形式过滤: 只保留绘画作品。
    2. 内容安全过滤: 移除不适宜内容(NSFW)。
    3. 图像质量过滤: 剔除低分辨率、有水印或损坏的图像。
    4. 类别平衡过滤: 移除样本过少的艺术流派以保证分析的有效性。

2.3.2 步骤二:多维度数据标注

  • 标注引擎: 创造性地采用先进的多模态模型 GPT-4o 作为主要的标注工具,以实现大规模、高效率的初步标注。
  • 标注框架: 如下图示例,对每张图片进行五维框架的结构化标注(内容描述、视觉属性、情感效价等)。

image.png

2.3.3 步骤三:大规模人工验证

  • 为了确保AI标注的准确性,作者组织了10名训练有素的标注员,对数据集中抽取的5,922张图像进行了独立的人工验证。
  • 结论: 验证结果显示,GPT-4o的标注与人类判断具有极高的一致性,证明了 EmoArt 数据集的高质量和可靠性。

image.png

3. 实验/评估/结果

3.1 核心发现:微调显著提升艺术生成质量

实验的核心发现在于,使用 EmoArt 数据集进行微调,能够显著提升生成模型在艺术风格还原和情感表达上的准确性。

  • 定量分析: 在基准测试中,使用 EmoArt 进行微调的 FLUX.1 模型在绝大多数主观和艺术属性对齐指标上都取得了最佳成绩。它在笔触、色彩、构图等维度的得分上均超越了包括其原始版本在内的所有其他模型。
  • 定性分析: 下图的生成样例直观地展示了微调带来的巨大提升。无论是需要表达“平静”氛围的色域绘画,还是描绘“和谐”意境的中国画,微调后的模型(a)都比原始模型(b)和其他模型(c, d)更接近真实作品(e)的风格和情感

image.png

4. 结论

作者总结道,EmoArt 是一个为情感感知艺术生成而设计的、系统性标注的、全面的宝贵资源。它通过提供细粒度的视觉与情感关联数据,为情感计算、计算创造力和多模态学习等领域的研究与应用提供了坚实的基础,并有望推动这些领域取得新的突破。