网络架构师证书怎么考,贵阳seo推广,专业团队的梗,医疗网站专题模板Preface
本文旨在记录个人结合AI工具对IAA这个领域的一些了解#xff0c;主要是通过论文阅读的方式加深对领域的了解。有什么问题#xff0c;欢迎在评论区提出并讨论。
什么是IAA
Image Aesthetic Assessment#xff08;图像美学评估#xff09;是一种评估图像在视觉上的…Preface
本文旨在记录个人结合AI工具对IAA这个领域的一些了解主要是通过论文阅读的方式加深对领域的了解。有什么问题欢迎在评论区提出并讨论。
什么是IAA
Image Aesthetic Assessment图像美学评估是一种评估图像在视觉上的吸引力和美感的技术。它旨在量化和分析图像的美学质量即图像给人的美感体验。以下是图像美学评估的一些关键点
主观性与客观性
主观性图像的美学价值很大程度上取决于个人的感知和偏好因此美学评估具有一定的主观性。 客观性尽管如此图像美学评估也试图通过识别图像中普遍被认为具有吸引力的特征如色彩、构图、清晰度等来实现一定程度的客观性。 评估方法
基于内容的方法分析图像内容如场景、物体、人物表情等以评估其美学价值。 基于特征的方法提取图像的视觉特征如颜色直方图、纹理、边缘等并使用这些特征来评估美学。 基于深度学习的方法使用卷积神经网络CNN等深度学习模型来学习图像美学的复杂模式。
挑战
跨文化差异不同文化背景的人可能对图像的美学有不同的评价标准。 多样性与复杂性图像内容的多样性和复杂性使得美学评估成为一个具有挑战性的任务。 研究进展
近年来随着深度学习技术的发展图像美学评估领域取得了显著进展尤其是在使用深度卷积神经网络进行图像美学评分方面。 图像美学评估是一个跨学科领域涉及计算机视觉、认知科学、心理学和艺术等多个学科旨在更好地理解和自动化图像美学的评估过程。from kimi.ai
IAA和IQA的区别
Image Aesthetic Assessment图像美学评估和Image Quality Assessment图像质量评估是两个不同的概念它们在目标和方法上有所区别
目标差异
Image Aesthetic AssessmentIAA图像美学评估的目标是估计图像的美学价值即评估图像在视觉上的吸引力和美感。它更多地关注图像是否令人愉悦和有艺术感这通常涉及到主观感受和个人品味 。 Image Quality AssessmentIQA图像质量评估的目标是评价图像的质量这包括图像的清晰度、锐度、对比度、色彩保真度等客观属性。它更多地关注图像的技术质量即图像是否接近原始无失真的状态 。 方法差异
IAA图像美学评估通常依赖于图像的主题并在识别图像主题后再进行美学打分。它可能涉及到对图像内容的深层理解包括颜色、构图、主题等元素的综合评价 。 IQA图像质量评估方法可以分为全参考Full-Reference、半参考Reduced-Reference和无参考No-Reference三种。全参考方法需要一张清晰的参考图像来与失真图像进行比较半参考方法只需要参考图像的部分信息而无参考方法则完全不需要参考图像直接对失真图像进行质量评价 。 应用差异
IAA图像美学评估在美学辅助图像搜索、自动照片增强、照片筛选和相册管理等领域有广泛应用 。 IQA图像质量评估则在图像采集、编码压缩、网络传输等领域建立有效的图像质量评价机制中具有重要意义它帮助比较不同图像处理算法的性能优劣以及优化系统参数 。 总结来说图像美学评估更侧重于图像的主观美感而图像质量评估更侧重于图像的客观技术质量。两者虽然都与图像的视觉感知有关但关注的焦点和应用场景有所不同。from kimi.ai
Spearman rank order correlation coefficient (SRCC) 和 Pearson linear correlation coefficient (PLCC) 相关论文
NIMA: Neural Image Assessment
开山鼻祖
RELICRepresentationlearningofimagecompositionforaestheticprediction
**代码**https://github.com/fei-aiart/ReLIC/blob/master/code/CPC/models/relic2_model.py
**动机**图像审美与构图密切相关。然而现有的作品很少考虑构图。此外现有的构图特征通常是手工制作的。 **方法**在本文中我们提出了一种用于图像合成表示学习的新型端到端框架。特别地我们基于卷积神经网络CNN的深度特征构建了一个完全连接的图。在图中边缘属性即不同位置的深层特征之间的相似性用于表示图像构图。此外我们使用图的全局属性来表示各种美学方面。最后我们使用门单元将构图特征和各种美学特征组合起来进行美学预测。
简单解析 图中的edge对应方法中的fully-connected graph通过计算backbone最后输出特征的element-wise cos-dist 得到图中的global则是通过gap来得到。我来自适应权衡两者的contribution通过一个门控单元来实现 relic是用单个backbone relic是用两个backbone分别来提取 ue relic再试在relic基础上用上一个门控单元
TAVAR: Theme-Aware Visual Attribute Reasoning for Image Aesthetics Assessment
代码https://github.com/yipoh/TAVAR 人们首先理解图像主题然后分析视觉属性如有趣的内容、良好的光照、鲜艳的颜色和景深等。最终美学判断是通过复杂的推理完成的。 动机人们通常根据视觉属性来评价图像的美感例如有趣的内容、良好的光照、鲜艳的色彩等。此外视觉属性的感知取决于图像主题。因此视觉属性与图像主题之间的内在关系对于图像美学评估IAA至关重要但这一问题尚未得到全面研究。 方法出于这个动机本文提出了一种基于主题感知视觉属性推理TAVAR的新IAA模型。其基本思想是通过进行双层推理来模拟人类在图像美学中的感知过程。具体来说首先预训练视觉属性分析网络和主题理解网络分别提取审美属性特征和主题特征。然后构建第一级属性主题图ATG来研究视觉属性与图像主题之间的耦合关系。此外引入灵活的美学网络来提取一般的审美特征在此基础上我们构建了第二级属性美学图AAG来挖掘主题感知的视觉属性和审美特征之间的关系产生最终的审美预测。 简单解析分别训练主题预测属性预测网络方便分别提取主题特征特征。然后根据动机人根据属性评价美感而属性取决于主题先拿到主题感知的视觉属性特征以一个以主题特征为中心节点的GCN来实现再将属性特征与美学特征融合用一个以美学特征为中心节点的GCN实现最后接一个FC预测美学分数。
TANet-Rethinking Image Aesthetics Assessment: Models, Datasets and Benchmarks
代码https://github.com/woshidandan/TANet-image-aesthetics-and-quality-assessment 动机图像美学评估IAA的挑战在于不同主题的图像对应不同的评估标准直接从图像中学习美学而忽略主题变化对人类视觉感知的影响抑制了IAA的进一步发展然而现有的 IAA 数据集和模型忽略了这个问题。 方法为了解决这个问题我们证明了面向主题的数据集和模型设计对于 IAA 是有效的。具体来说1我们精心构建了一个新颖的数据集称为 TAD66K其中包含涵盖 47 个流行主题的 66K 图像每张图像都由 1200 多人使用专门的主题评估标准进行密集注释。 2其次我们提出了一个基线模型称为主题与美学网络TANet它可以保持恒定的审美感知以有效处理注意力分散的问题。此外TANet 可以根据识别的主题自适应地学习预测美学的规则。为了进一步提高每个主题的感知我们提出了 RGB 分布感知注意网络RGBNet来帮助网络感知 RGB 空间中的颜色分布并解决与标准注意的高复杂性相关的问题。 简单解析 Theme Understanding Network–用一个backbone提特征然后用一个动态网络方式的自适应增强特征。 RGB-distribution-aware Attention Network–考虑到色彩分布和相似性的原始信息存在于更接近原始图像的低级特征中这里先讲输入均匀分块讲注意力计算限制在块内来降低计算开销。此外这里只是提取块内元素之间的关系。 Aesthetics Perceiving Network–提取美学特征然后三者融合再去预测美学分数。
Prompt-DeT-Thinking Image Color Aesthetics Assessment: Models, Datasets and BenchmarksIAA分支-ICAA
我们对一项名为图像色彩美学评估ICAA的新任务进行了全面的研究旨在评估基于人类感知的色彩美学。 ICAA 对于成像测量和图像分析等各种应用都很重要。然而由于高度多样化的审美偏好和众多的颜色组合ICAA 比传统的图像质量评估任务提出了更多的挑战。为了推进 ICAA 研究1我们提出了一个名为 Delegate Transformer 的基线模型它不仅部署可变形变压器来自适应分配兴趣点而且还通过专用模块学习人类颜色空间分割行为。 2我们精心构建了一个面向颜色的数据集ICAA17K包含17K张图像涵盖30种流行的颜色组合、80种设备和50个场景每张图像都有超过1500人的密集注释。此外我们开发了包含 15 种方法的大规模基准测试这是迄今为止基于 SPAQ 和 ICAA17K 两个数据集的最全面的基准测试。我们的工作不仅实现了最先进的性能更重要的是为社区提供了探索 ICAA 解决方案的路线图。代码和数据集可在此处获得。
VILA: Learning Image Aesthetics from User Comments with Vision-Language Pretraining
动机评估图像的美感具有挑战性因为它受到构图、颜色、风格和高级语义等多种因素的影响。现有的图像美感评估IAA方法主要依赖于人类标记的评分这过于简化了人类感知的视觉美感信息。相反用户评论提供了更全面的信息是表达人类关于图像美学的意见和偏好的更自然的方式。 方法有鉴于此我们建议从用户评论中学习图像美学并探索视觉语言预训练方法来学习多模态美学表示。具体来说我们使用图像评论对预训练图像文本编码器解码器模型使用对比和生成目标来学习丰富且通用的美学语义而无需人类标签。为了有效地适应下游 IAA 任务的预训练模型我们进一步提出了一种轻量级的基于排名的适配器它使用文本作为锚点来学习美学排名概念。我们的结果表明我们的预训练美学视觉语言模型优于 AVA-Captions 数据集上的图像美学字幕的先前工作并且它对于美学任务例如零样本风格分类和零样本 IAA具有强大的零样本能力超过许多监督基线。只需使用所提出的适配器模块进行最少的微调参数我们的模型就可以在 AVA 数据集上实现最先进的 IAA 性能。 简单解析 预训练–从图就可以了解清楚了 下游微调–用”good image“经过文本编码器得到的特征作为锚点用一个adapter来实现PEFT图像的美学分数则是通过计算视觉特征与文本特征的预先相似度得到。算一个rank loss。 感觉这样做没办法输出较为准确的分数缺少对分数的监督
AesCLIP: Multi-Attribute Contrastive Learning for Image Aesthetics Assessment
动机最近像 CLIP 这样的大型预训练视觉语言模型在各种视觉任务中表现出了令人印象深刻的性能。说到 IAA一种直接的方法是使用美学图像来调整 CLIP 图像编码器。然而如果不考虑美学领域多模态数据的独特性这种方法只能取得有限的成功。人们通常根据色彩、光线和构图等细粒度美学属性来评估图像美学。然而如何从基于 CLIP 的语义空间中学习美学感知属性以前还没有人研究过。 方法基于这一动机本文提出了一种基于 CLIP 的 IAA 多属性对比学习框架并将其命名为 AesCLIP。具体来说AesCLIP 包括两个主要部分即基于审美属性的评论分类和属性感知学习。前者将审美评论分为不同的属性类别。然后后者通过对比学习来学习审美属性感知表示旨在减轻从一般视觉领域到美学领域的领域转变。 简单解析 预训练–数据AVA-Comments通过名词/形容词筛选和统计将评论划分为5类属性训练对于每一张图像随选取两种不同的属性然后溯源两条对应的评论。两条评论都经过文本编码器其中一个与视觉特征融合得到aesthetic-aware image embedding与另外的一个评论特征作为正对与其他图像的文本评论为负对 下游微调预训练后只使用图像编码器一个预测头
PARAPersonalized Image Aesthetics Assessment with Rich Attributes
动机个性化图像美学评估PIAA由于其高度主观性而具有挑战性。人们的审美趣味取决于多种因素包括形象特征和主体特征。现有的PIAA数据库在注释多样性方面受到限制尤其是学科方面已经不能满足PIAA研究日益增长的需求。 方法为了解决这一困境我们对个性化图像美学进行了迄今为止最全面的主观研究并引入了一个新的具有丰富属性的个性化图像美学数据库PARA该数据库由 31,220 张图像和 438 个受试者的注释组成。 PARA具有丰富的标注包括9个面向图像的客观属性和4个面向人的主观属性。此外还提供脱敏的受试者信息例如人格特质以支持PIAA和用户画像的研究。提供了对注释数据的综合分析统计研究表明审美偏好可以通过提出的主观属性来反映。我们还利用主题信息作为条件先验提出了一个条件 PIAA 模型。实验结果表明条件PIAA模型可以优于对照组这也是首次尝试展示图像美学和主体人物如何相互作用以产生复杂的图像美学个性化品味。我们相信该数据库和相关分析将有助于开展下一代 PIAA 研究。
Q-ALIGN: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels
动机随着在线视觉内容激增准确评估器变得至关重要。尽管大型多模态模型LMM表现出巨大潜力但如何实现与人类评分的一致性仍是难题。
方法我们提出用文本定义的离散评分级别而非直接分数来训练 LMM模拟人类的主观评分过程。新方法 Q-ALIGN 在图像和视频质量及美学评估任务上达到了最先进性能并通过教学大纲将这些任务统一为 ONEALIGN展示了显著优于传统模型的效果。 简单解析– 发现实验发现MLLM评级比评分更准确 做法讲监督信号从分数转换成级别-训练模型-推理时讲级别转换成分数
Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models
动机多模态大语言模型MLLMs如GPT-4V推动了视觉感知和理解任务的变革实现了多种能力的融合。然而当前的MLLMs在低级视觉属性识别和图像质量评估方面虽具备基础能力但提升精确度以减轻人类负担仍是关键需求。
方法为此我们构建了首个包含人类自然语言反馈的低级视觉数据集——Q-Pathway涵盖58K条详细反馈涉及18,973张多来源图像。通过GPT参与的转换我们生成了丰富的200K条指令-响应对称为Q-Instruct显著提升了多种基础模型的低级视觉能力。实验表明Q-Instruct有效增强了MLLMs在低级视觉任务上的表现推动模型更好地辅助人类工作。 简单解析模型上沿用现有的主要是通过数据解决模型能力上的缺失。