本文介绍了一个大规模、多维度的艺术情感数据集 EmoArt，并通过在该数据集上进行基准测试和模型微调，显著提升了生成式AI在创作具有特定情感和艺术风格图像方面的能力。

1. 总体介绍

1.1 问题背景

背景: 尽管以 Stable Diffusion 为代表的文生图模型在生成逼真图像方面取得了巨大成功，但它们在理解和生成具有复杂情感、抽象美感和特定艺术风格的作品时，表现往往不尽人意。

现有解决方案及其不足:

现有情感数据集: 大多数情感数据集主要关注真实世界的照片，而非艺术品，无法捕捉艺术独特的表达方式。
现有艺术数据集: 像 ArtEmis 这样的艺术数据集虽然关注情感，但在视觉元素的结构化标注（如笔触、构图）方面有所欠缺，且规模和多样性有限，难以支持大规模生成模型的训练。如下表所示，EmoArt 在多个维度上超越了现有数据集。

核心问题: 当前AI艺术生成领域存在一个关键的“数据集鸿沟”。模型之所以缺乏“情商”和“艺术感”，根本原因在于缺少一个大规模、细粒度、专门为艺术情感理解和生成而设计的训练和评估数据集。

构建并发布 EmoArt 数据集: 创建了一个迄今为止最全面的情感艺术数据集之一，包含 132,664 件艺术品，横跨 56 种绘画风格，并提供了丰富的多维度标注。
开创性的多维标注框架: 每张图片都包含五个部分的结构化标注：客观场景描述、五个关键视觉属性（笔触、构图、色彩、线条、光线）、情绪效价与唤醒度、12个情感类别、以及潜在的艺术治疗效果。这是首次对艺术品的视觉形式进行如此系统的结构化标注。
建立情感生成基准: 利用 EmoArt 对7个主流的文生图扩散模型进行了全面的基准测试，并验证了通过 EmoArt 微调可以显著提升模型的性能，为后续研究提供了可靠的基准线。
提出新的评估视角: 提出了一个创新的“属性对齐” (Attributes Alignment) 评估指标，从艺术语义层面（如笔触、色彩）评估生成图像的质量，弥补了传统像素级指标在艺术评估上的不足。

本文的核心理念是，要让AI理解并生成富有情感的艺术，就必须为其提供一个能够将客观视觉元素、艺术形式与主观情感体验联系起来的结构化知识库。EmoArt 数据集本身就是这一理念的物化实现。

EmoArt: 本文的核心产出。它是一个包含 132,664 张绘画作品的庞大数据集，图像来源于 WikiArt、大都会艺术博物馆等公共领域平台，确保了使用的合法性和学术再现性。

该研究的“方法”部分主要阐述了 EmoArt 数据集的构建与验证流程，如下图所示，分为三个关键步骤：

收集: 从多个在线数据库广泛收集超过20万张艺术品图像。
过滤: 实施四项严格的过滤程序以保证数据质量：
1. 艺术形式过滤: 只保留绘画作品。
2. 内容安全过滤: 移除不适宜内容（NSFW）。
3. 图像质量过滤: 剔除低分辨率、有水印或损坏的图像。
4. 类别平衡过滤: 移除样本过少的艺术流派以保证分析的有效性。

实验的核心发现在于，使用 EmoArt 数据集进行微调，能够显著提升生成模型在艺术风格还原和情感表达上的准确性。

定量分析: 在基准测试中，使用 EmoArt 进行微调的 FLUX.1 模型在绝大多数主观和艺术属性对齐指标上都取得了最佳成绩。它在笔触、色彩、构图等维度的得分上均超越了包括其原始版本在内的所有其他模型。
定性分析: 下图的生成样例直观地展示了微调带来的巨大提升。无论是需要表达“平静”氛围的色域绘画，还是描绘“和谐”意境的中国画，微调后的模型(a)都比原始模型(b)和其他模型(c, d)更接近真实作品(e)的风格和情感。

作者总结道，EmoArt 是一个为情感感知艺术生成而设计的、系统性标注的、全面的宝贵资源。它通过提供细粒度的视觉与情感关联数据，为情感计算、计算创造力和多模态学习等领域的研究与应用提供了坚实的基础，并有望推动这些领域取得新的突破。