您的当前位置:首页正文

一种基于美学相似性度量的图像美学排序方法[发明专利]

2022-06-16 来源:爱站旅游
导读一种基于美学相似性度量的图像美学排序方法[发明专利]
(19)国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 114610939 A(43)申请公布日 2022.06.10

(21)申请号 202210237199.4(22)申请日 2022.03.11

(71)申请人 中山大学

地址 510275 广东省广州市海珠区新港西

路135号(72)发明人 许曼玲 戴宪华 (51)Int.Cl.

G06F 16/583(2019.01)G06F 16/535(2019.01)G06V 10/74(2022.01)G06V 10/764(2022.01)G06V 10/82(2022.01)G06K 9/62(2022.01)G06N 3/04(2006.01)G06N 3/08(2006.01)

权利要求书1页 说明书5页 附图2页

CN 114610939 A(54)发明名称

一种基于美学相似性度量的图像美学排序方法

(57)摘要

本发明提出了一种基于美学相似性度量的图像美学排序方法,该方法搭建了一套图像美学相似性评价模型,包括训练过程和测试过程。训

首先通过练过程中模型输入为两张待检测图像,

预训练的神经网络resnet50模型分别提取图像美学特征;接着利用余弦相似性度量两个图像美学特征的距离;最后基于最小化余弦相似度损失函数为目的进行参数更新训练。测试过程中,通过与用户交互的形式获取排序目标参考图像,模型依次检测待排序的多张图像与参考图像之间的美学相似度,以此为依据得出美学排序结果。本发明提出了一种新的美学排序思路,使得图像美学评价更契合工业落地需求。

CN 114610939 A

权 利 要 求 书

1/1页

1.一种基于美学相似性度量的图像美学排序方法,其特征在于,所述评价方法需搭建一个用于图像美学相似性度量的神经网络模型,包括训练过程与测试过程:训练过程以图像对作为输入,分别提取两张图像的美学相似性,通过最小化余弦相似性损失函数得到模型的最优解;测试过程通过用户交互获取排序的目标参考图像,利用已训练好的评价模型度量待排序的各张图像与参考图像之间的美学相似性,以此得出排序结论。

2.如权利要求1所述的一种基于美学相似性度量的图像美学排序方法,其特征在于,所述训练过程包括以下步骤:

S101、数据输入与前置处理,模型输入为两张图像,通过中心裁剪的方式统一输入尺寸;

S102、提取图像美学特征,经过预处理的图像输入参数共享的预训练resnet50网络,分别提取美学特征;

S103、美学相似度度量,将所得的两个美学特征向量利用余弦相似性计算其特征距离;S104、损失计算及模型参数更新,将所得的特征距离与真实标签共同作用,利用余弦相似度损失函数计算模型损失值,并通过梯度回传更新模型参数,以最小化损失为目的进行模型训练。

3.如权利要求1所述的一种基于美学相似性度量的图像美学排序方法,其特征在于,所述测试过程包括以下步骤:

S201、获取排序参考图像,通过用户输入等方法,获取用户希望得到的最佳图像,并将此作为排序的目标;

S202、测量待排序图像与参考图像之间的相似度,对输入的待排序图像依次进行中心裁剪预处理,并与参考图像组成数据对共同输入已训练完成的图像美学相似性评价模型,得出两者的相似距离;

S203、根据相似性得出美学评价结果,给出最终判定。

4.如权利要求3所述的一种融合用户个性化喜好的图像美学评价方法,其特征在于,所述步骤S203中,具体的判定方法为:排序的目标是获得与参考图像美学一致的图像,因此与参考图像美学相似性越大的图像,其排序越靠前。

2

CN 114610939 A

说 明 书

一种基于美学相似性度量的图像美学排序方法

1/5页

技术领域

[0001]本发明涉及深度学习图像处理技术领域,具体涉及了一种基于美学相似性度量的图像美学排序方法。

背景技术

[0002]大数据时代,人们获取信息的途径产生了巨大的变化。传统的文字阅读已经无法满足快节奏的生活习惯,“读图时代”悄然来临。然而随着人们拍摄、发布的图像越来越多,对图像处理技术也提出了更高的要求,人工设计特征的方式因其涵盖范围不完整与运行速度较慢等局限,逐渐被深度学习的方法所取代。图像美学评价任务同样搭乘上了深度学习的“高速发展快车”,取得了令人瞩目的效果。

[0003]图像美学评价任务作为许多图像处理技术的重要支线,近年来受到众多研究者关注。该任务的目的在于对图像的美学质量做出评价,判定图像是否具有大众审美意义上的较高视觉效果,这往往与图像本身的构图、色彩协调、分辨率等因素有关。美学评价任务的常规形式是对单张图像做美学质量分类或评分数值回归。然而不断更新的现实场景需求催生着更多的评价表达形式,美学排序就是其中之一。

[0004]美学排序将单图评价进一步延申为多图的排序,在各领域发挥着越来越重要的作用。对图像检索而言,系统需要根据用户输入的图像,按照相似性的高低排序给出检索结果,其中相似性不仅包括了图像内容的相似性,也包括了其美学质量上的相似性。在图像管理上,根据美学质量进行排序后,用户可以更便捷地进行相册地整理工作。而在推荐任务中,多张候选图像的相似性排序可以作为推荐的重要参考因素。然而,目前的排序模型大多直接将单图评价的结果直接排序,忽略了排序评价是一种有参照物的相对评价方法。同时,单图评价的模型多在所有图像类型上进行训练,而排序任务一般只需在同种图像类型间进行排序,不同的图像类型如“肖像照”与“建筑摄影”在评价维度上往往不具有可比较性。此外,结合落地的具体需求,美学排序不仅需要考虑图像的绝对美学质量,也需要考虑用户的个人审美需求。综上所述,一种结合用户目标的图像美学排序模型有待开发。发明内容

[0005]针对上述不足,本发明提出了一种基于美学相似性度量的图像美学排序方法,该方法首先训练了一个用于度量图像美学相似性的模型,通过与用户交互的形式获取排序参考图像,将待排序的多张图像与参考图像依次输入训练好的图像美学相似度评价模型,以模型输出为依据得出排序结论。[0006]本发明采用的技术方案为:

[0007]一种基于美学相似性度量的图像美学排序方法,该方法需搭建一个用于度量图像美学相似性的模型,包括训练过程与测试过程;训练过程中,模型以一组图像对作为输入,经过数据预处理后,利用预训练的resnet50神经网络分别提取图像美学特征并计算两个特征向量间的余弦相似度。模型采用余弦相似度损失函数,结合真实标签的美学相似情况给

3

CN 114610939 A

说 明 书

2/5页

出损失结果,并通过梯度反向传播更新模型参数;测试过程中,通过交互形式获取排序参考图像,待排序图像将分别与参考图像组成数据对,输入训练好的美学相似度评价模型,根据模型给出的美学相似度,得出最终排序结果。[0008]具体的,所提方法的训练过程实现步骤如下:[0009]S101、数据输入与预处理,图像美学相似度评价模型的输入为一组图像对共两张图像,并通过中心裁剪与像素归一化操作使得数据输入转化为统一尺寸;[0010]S102、美学特征提取,模型采用预训练的resnet50网络作为基础特征提取网络,对于两张输入图像所采用的特征提取网络参数完全共享,并利用全连接层进一步获取具有抽象表征的特征向量;[0011]S103、测量美学相似度,利用余弦相似性计算所得的两个美学特征向量间的距离;[0012]S104、损失计算及模型参数更新,根据两个美学特征向量间的距离及真实标签,利用余弦相似度损失函数计算模型损失值,以最小化该损失值为目标,通过梯度反向传播的方式更新模型梯度。[0013]进一步地,步骤S101中,数据的获取来源为Aesthetic VisualAnalysis(AVA)美学评价任务公开数据集,该数据集包含25万张带评分标签的图像,评分范围为0‑10分。为扩大数据差异度,将两张图像的评分均为6分以上或均为4分以下的图像对标记为相似样本数据,将两张图像中一张评分在6分以上,一张评分在4分以下的图像对标记为不相似样本数据。不在此评分区间的数据将被剔除;[0014]进一步地,步骤S101中,结合现实应用场景需求,输入的数据对仅在属性类型相同的图像之间构建。[0015]进一步地,步骤S104中,余弦相似度损失函数的计算公式如下:

[0016]

其中,ai,bi为所得的两个美学特征向量,yi为真实标签,yi=1代表真实标签为两张图像具有美学相似性,yi=‑1代表真实标签为两张图像不具有美学相似性;[0018]进一步地,所提方法的测试过程实现步骤如下:[0019]S201、获取排序参考图像,通过与用户交互的方式,获得排序任务所期望的最佳图像;

[0020]S202、计算待排序图像与参考图像的美学相似度,对于输入模型的待排序图像,利用已训练完成的美学相似度评价网络依次提取待排序图像与参考图像的美学特征,并计算两者间的余弦相似度;[0021]S203、得出评价结果,根据模型给出的余弦相似度进行图像排序;[0022]进一步地,步骤S301中获取排序参考图像的方式需根据具体应用场景做出调整,在图像检索任务中,参考图像为用户输入检索图像;在相册管理任务中,参考图像为用户标记收藏图像;

[0023]进一步地,步骤S203中得出排序结论的方法为:因排序的目的为得出最接近参考图像的序列,故将各待排序图像与参考图像之间的美学相似性从大到小排列,待排序图像与参考图像间的美学相似性数值越大,该图像排序位置越靠前;[0024]综上所述,本发明公开了一种基于美学相似性度量的图像美学排序方法。其有益

4

[0017]

CN 114610939 A

说 明 书

3/5页

效果为:本发明基于深度学习中图像美学评价技术,并结合落地需求,提出了一种新颖的图像美学排序方法。该方法采用具有用户参照图像的相对排序方式,且仅利用图像类型相同的数据进行训练,一方面更符合图像检索等实际应用中信息获取的合理性,另一方面,相较于无参照物的排序模型,该方案也有利于提供更贴合用户需求的排序结果。附图说明

[0025]图1为一种基于美学相似性度量的图像美学排序方法的整体框架设计图[0026]图2为一种基于美学相似性度量的图像美学排序方法的模型训练流程图[0027]图3为一种基于美学相似性度量的图像美学排序方法的模型测试流程图

具体实施方式

[0028]下面将结合附图和具体实施例对本发明进行进一步的详细说明,显然,所描述的实施例仅为部分实施例,而非全部实施例。[0029]在图像美学评价领域,现有的美学评价技术研究大多集中于单图评价,难以满足落地场景对评价方式多样性的需求,而一些对多图排序的研究仅将单图评价的结果直接作用于多图上,忽略了在多图比较中由参照物带来的评判偏差。本发明公开了一种基于美学相似性度量的图像美学排序方法,通过交互的方式获取用户的目标图像,使得美学评价不仅集中于单图,更关注多图之间的关联与比较,同时兼顾用户的实际需求,进一步推动了图像美学评价任务的落地应用。

[0030]本实施例基于Pytorch框架和Pycharm开发环境:Pytorch是一个开源的python机器学习库,包含各种适用于深度学习算法的工具包,可高效灵活地搭建神经网络模型,是目前主流的编程框架之一。

[0031]本实施例公开了一种基于美学相似性度量的图像美学排序方法,如图1所示,其主要设计框架为:[0032]S1、训练美学相似度评价模型,该模型用于提取输入的两张图片的美学特征,并输出所得的两个美学特征向量间的美学相似性;[0033]S2、作为该用户在该次排序中的标准图像;获取排序参考图像,[0034]S3、计算各待排序图像与参考图像之间的美学相似性;[0035]S4、得出排序结论;

[0036]其中S1为模型训练过程,S2‑S4为模型测试步骤;[0037]具体的,如图2所示,该图像美学评价方法的模型训练流程为:[0038]步骤一,图像对数据输入,并对数据进行中心裁剪及像素归一化等预处理。需要说明的是,本实施例训练数据来源于Aesthetic VisualAnalysis(AVA)大型图像美学评价公开数据集,该数据集包含25万图像,每张图像包含78至549位受试者的评分,评分范围为0‑10分。本实例取评分平均值为该图像最终评分,同时定义当两张图像的评分均为6分以上或均为4分以下时,该图像对为相似图像对,否则为不相似图像对,不在此评分区间的图像数据将被剔除。同时,考虑到不同类型属性的图像之间不具有可比较性,本实施例中仅使用相同类型图像构建数据对;[0039]步骤二,分别提取图像对的美学特征。需要说明的是,本实施例采用的基础特征提

5

CN 114610939 A

说 明 书

4/5页

取框架为resnet50神经网络,该网络使用独特的跳层结构大大防止了网络的退化,是目前神经网络中的主流框架之一。同时在原始网络末层接入全连接层,进一步提取图像的高级抽象特征表达,最终输出的向量维度为[N,128],其中N代表模型输入的图像对数量;[0040]步骤三,计算两个美学特征之间的余弦相似度。需要说明的是,余弦相似度的计算可使用Pytorch工具包中封装的torch.cosine_similarity()函数实现;[0041]步骤四,计算余弦相似损失。需要说明的是,本实施例所采用的损失函数计算公式如下所示:

[0042]

其中,ai,bi为所得的两个美学特征向量,yi为真实标签,yi=1代表真实标签为两

张图像具有美学相似性,yi=‑1代表真实标签为两张图像不具有美学相似性;[0044]步骤五,优化网络参数。需要说明的是,本实施例所采用的训练轮次为50轮,以最小化损失函数值为目标,通过梯度回传的方式更新网络参数;[0045]具体的,该图像美学评价方法中采用的预训练resnet50网络参数可以从torchvision工具包中的models模块导入,并在AVA数据集上进行本地微调;[0046]具体的,模型排序结果的性能优良可以使用Kendall Rank(肯德尔等级)相关系数作为评价标准,其计算公式为

[0043][0047]

C为两个序列中拥有一致性的元素对数,在本实施中即在真实美学排序序列和模型预测美学排序序列中排序关系一致的图像对数;D为两个序列中不拥有一致性的元素对数,在本实施中即在真实美学排序序列和模型预测美学排序序列中排序关系不一致的图像对数;N0为总图像对数;T1、T2分为针对两个序列中拥有相等值情况进行的修正参数,在本实施中即在真实美学排序序列中因评分分数相同而排序位置一样的图像,和在模型预测美学排序序列中因评分分数相同而排序位置一样的图像,其具体计算公式为:

[0048][0049]

其中,m表示将该序列排序位置相同的元素按照其位置归分为小集合时所产生的小集合数,Ui表示第i个小集合中所包含的元素个数;[0051]具体的,如图3所示,该图像美学评价方法的模型测试流程为:[0052]步骤一,获取参考图像。需要说明的是,结合不同的落地场景,获取参考图像的途径不同。在图像检索任务中,参考图像为用户输入的检索图像;在相册管理任务中,参考图像为用户收藏的图像;在其他应用场景中,可以通过提示用户选定或输入等方式获取;[0053]步骤二,将待排序的图像与参考图像构成数据对,作为输入数据输入已训练好的图像美学相似评价模型中。需要说明的是,待排序组中的多张图像需依次与参考图像作为图像对输入模型,对图像所做的预处理方法与训练过程完全一致;[0054]步骤三,模型评价图像对的美学相似性。需要说明的是,模型的输出值代表输入图像对在美学特征上的相似性;

[0050]

6

CN 114610939 A[0055]

说 明 书

5/5页

步骤四,得出排序结果,需要说明的是,排序结果按照各待排序图像与参考图像之

间的美学相似性数值大小从大到小排列,美学相似性数值越大,代表该图像与参考图像之间的美学程度越接近,故排序结果越靠前;[0056]对所公开的实施例的上述说明,使得本领域的专业人员可以使用本发明并实现本发明的功能。对本实施例的多种修改对本领域的专业技术人员是显而易见的,本发明所定义的一般原理可以在不脱离本发明精神的前提下,在其他实例中实施。因此,本发明不局限于本文中提及的实施例,在没有做出创造性劳动前提下所获得的其他具体实施例都属于本发明保护的范围。

7

CN 114610939 A

说 明 书 附 图

1/2页

图1

图2

8

CN 114610939 A

说 明 书 附 图

2/2页

图3

9

因篇幅问题不能全部显示,请点此查看更多更全内容