基于大模型的视觉样本数据自动标注方法及系统与流程-尊龙凯时官方app下载

文档序号:36401108发布日期:2023-12-16 03:54阅读:5来源:国知局


1.本发明涉及数据标注技术领域,尤其涉及一种基于大模型的视觉样本数据自动标注方法及系统



背景技术:

2.随着信息时代的到来,各种媒体数据呈指数式增长,在多媒体数据中,视觉数据如图像

视频等所占的比重越来越大,表现形式也越来越多

但为了使数据具有有效组织和管理,需要训练出视觉标注大模型,以进行视觉样本数据自动标注

3.现有的数据标注技术多为基于图像的低层特征为核心,分析图像在特征空间的相似性并为每类图像训练一个分类器,最终将待标注图像归入特征相似性最大的类别,实现数据标注

实际应用中,仅考虑训练分类器,而忽略训练数据的特征,可能导致对标注模型的训练过于单一,从而对进行视觉样本数据自动标注时的准确度较低



技术实现要素:

4.本发明提供一种基于大模型的视觉样本数据自动标注方法及系统,其主要目的在于解决进行视觉样本数据自动标注时的准确度较低的问题

5.为实现上述目的,本发明提供的一种基于大模型的视觉样本数据自动标注方法,包括:
6.s1、
对预设的视觉样本数据进行视觉样本分割,得到均等分割视觉样本,通过预设的多维融合特征算法提取所述均等分割视觉样本的视觉特征;
7.s2、
根据所述视觉特征生成所述视觉样本数据的视觉词直方图,利用预设的潜在主题分布算法,根据所述视觉词直方图计算所述视觉样本数据中每幅图像的潜在主题分布;
8.s3、
根据所述潜在主题分布及预设的原始标签生成所述视觉样本数据的视觉样本训练特征,利用所述视觉样本训练特征对预设的卷积神经网络进行训练,得到视觉样本标注模型;
9.s4、
利用所述视觉样本标注模型对预设的待标注视觉样本数据进行标签标注,得到所述待标注视觉样本数据的初始标注词,计算所述初始标注词的第一标注词置信度,其中所述计算所述初始标注词的第一标注词置信度,包括:
10.s41、
根据预设的标签类别及所述初始标注词生成标签关联矩阵;
11.s42、
利用如下预设的置信度算法根据所述标签关联矩阵计算所述初始标注词的第一标注词置信度:
12.t

[(1-2
σ
)
σ
(i-τ
m)-1
]t0[0013]
其中,
t
为所述第一标注词置信度,
σ
为置信控制因子,
τ
为置信退化参数,i为单位矩阵,m为所述标签关联矩阵,
t0为置信度初始值;
[0014]
s5、
通过预设的视觉相关性算法计算所述初始标注词与所述视觉样本训练特征中
的视觉样本数据之间的视觉词相关度,根据所述视觉词相关度计算所述待标注视觉样本数据的第二标注词置信度;
[0015]
s6、
根据所述第一标注词置信度及所述第二标注词置信度生成所述视觉样本数据的标注数据

[0016]
可选地,所述通过预设的多维融合特征算法提取所述均等分割视觉样本的视觉特征,包括:
[0017]
根据所述均等分割视觉样本的像素值生成所述均等分割视觉样本的颜色直方图,根据所述颜色直方图确定所述均等分割视觉样本的颜色特征;
[0018]
根据所述像素值对应的灰度值确定所述均等分割视觉样本的灰度共生矩阵,根据所述灰度共生矩阵确定所述均等分割视觉样本的纹理特征;
[0019]
根据所述均等分割视觉样本的像素坐标提取所述均等分割视觉样本的形状特征;
[0020]
通过所述多维融合特征算法将所述颜色特征

所述纹理特征及所述形状特征融合为所述视觉特征,其中所述多维融合特征算法为:
[0021]
si=
{ci,vi,xi}
[0022]
其中,
si为第i个均等分割视觉样本的视觉特征,ci
为第i个均等分割视觉样本的颜色特征,vi
为第i个均等分割视觉样本的纹理特征,
xi为第i个均等分割视觉样本的形状特征

[0023]
可选地,所述根据所述视觉特征生成所述视觉样本数据的视觉词直方图,包括:
[0024]
对所述视觉特征进行特征聚类,得到视觉词汇表;
[0025]
通过预设的最近邻算法将所述视觉特征与所述视觉词汇表中的视觉词汇特征进行量化匹配,得到量化视觉特征;
[0026]
将所述量化视觉特征转化为视觉词频次,根据所述视觉词频次生成所述视觉样本数据的视觉词直方图

[0027]
可选地,所述利用预设的潜在主题分布算法,根据所述视觉词直方图计算所述视觉样本数据中每幅图像的潜在主题分布,包括:
[0028]
利用预设的潜在主题分布算法计算所述视觉词直方图中每个视觉词的主题分布,其中所述潜在主题分布算法为:
[0029][0030]
其中,
p
为视觉词的主题分布,
θ
为混合主题分布,z为视觉词主题,
α
为狄利克雷分布第一参数,
β
为狄利克雷分布第二参数,
p(
θ
|
α
)
为在狄利克雷分布第一参数
α
的条件下混合主题分布的概率,
p(zn|
θ
)
为在混合主题分布
θ
的条件下视觉词中第n个视觉分块主题的概率,zn
为第n个视觉分块主题,
wn为第n个视觉分块,
p(wn|zn,
β
)
为在第n个视觉分块主题和狄利克雷分布第二参数
β
的条件下第n个视觉分块的概率,n为视觉分块的数量;
[0031]
根据所述主题分布统计所述视觉样本数据中每幅图像的潜在主题分布

[0032]
可选地,所述根据所述潜在主题分布及预设的原始标签生成所述视觉样本数据的视觉样本训练特征,包括:
[0033]
将所述潜在主题分布中对应的主题标签与预设的原始标签进行标签对比,得到比对标签;
[0034]
根据所述比对标签对所述主题标签进行标签修正,得到主题修正标签;
[0035]
根据所述主题修正标签及所述均等分割视觉样本对应的视觉样本分割组合生成所述视觉样本数据的视觉样本训练特征,其中所述视觉样本训练特征为:
[0036]v=
{(q1,r1),(q2,r2),

,(qk,rk)}
[0037]
其中,v为所述视觉样本训练特征,
qk为第k个视觉样本分割组合,rk
为第k个视觉样本分割组合对应的主题修正标签

[0038]
可选地,所述利用所述视觉样本训练特征对预设的卷积神经网络进行训练,得到视觉样本标注模型,包括:
[0039]
根据所述视觉样本训练特征的特征维数构建预设的卷积神经网络的输入单元

隐藏单元和输出单元;
[0040]
将所述视觉样本训练特征输入至所述输入单元中,得到所述输出单元输出的视觉样本标签,其中所述视觉样本标签输出公式为:
[0041][0042]
其中,
yr为输出层单元r对应的视觉样本标签,f为映射函数,glr
为样本在隐藏单元
l
与输出层单元r之间的连接权值,hl
为所述隐藏单元第
l
个神经元的输出,为输出层第r个神经元的阈值,
l
为神经元的数量;
[0043]
根据预设的损失函数计算所述视觉样本标签的样本标签损失值;
[0044]
当所述样本标签损失值小于预设的损失阈值时,输出所述卷积神经网络为所述视觉样本标注模型

[0045]
可选地,所述利用所述视觉样本标注模型对预设的待标注视觉样本数据进行标签标注,得到所述待标注视觉样本数据的初始标注词,包括:
[0046]
提取所述待标注视觉样本数据中每幅待标注图像的词袋特征;
[0047]
通过预设的潜在主题分布算法,根据所述词袋特征计算所述待标注视觉样本数据中每幅待标注图像的潜在主题分布;
[0048]
将所述潜在主题分布输入至所述视觉样本标注模型中进行标签标注,得得到所述每幅待标注图像的待标注词序列;
[0049]
选取概率最大的待标注词序列中的标注词为所述初始标注词

[0050]
可选地,所述通过预设的视觉相关性算法计算所述初始标注词与所述视觉样本训练特征中的视觉样本数据之间的视觉词相关度,包括:
[0051]
提取所述初始标注词对应的初始视觉样本数据;
[0052]
利用所述视觉相关性算法计算所述初始视觉样本数据与所述视觉样本数据之间的视觉词相关度,其中所述视觉相关性算法为:
[0053][0054]
其中,h为所述视觉词相关度,
e(d,au)
为初始视觉样本数据对应的初始标注词d与视觉样本数据中第u个样本数据对应的样本标注au
同时出现的次数,d为视觉样本数据中样
本数量,
e(d)
为视觉样本数据中包含初始标注词d的数目,e(au
)
为视觉样本数据中包含第u个样本数据对应的样本标注au
的数目

[0055]
可选地,所述根据所述第一标注词置信度及所述第二标注词置信度生成所述视觉样本数据的标注数据,包括:
[0056]
计算所述第一标注词置信度与所述第二标注词置信度的置信差值;
[0057]
当所述置信差值大于零时,将所述第一标注置信度对应的视觉标签作为所述视觉样本数据的标注数据;
[0058]
当所述置信差值小于零时,将所述第二标注置信度对应的视觉标签作为所述视觉样本数据的标注数据

[0059]
为了解决上述问题,本发明还提供一种基于大模型的视觉样本数据自动标注系统,所述系统包括:
[0060]
视觉特征提取模块,用于对预设的视觉样本数据进行视觉样本分割,得到均等分割视觉样本,通过预设的多维融合特征算法提取所述均等分割视觉样本的视觉特征;
[0061]
潜在主题分布计算模块,用于根据所述视觉特征生成所述视觉样本数据的视觉词直方图,利用预设的潜在主题分布算法,根据所述视觉词直方图计算所述视觉样本数据中每幅图像的潜在主题分布;
[0062]
视觉样本标注模型生成模块,用于根据所述潜在主题分布及预设的原始标签生成所述视觉样本数据的视觉样本训练特征,利用所述视觉样本训练特征对预设的卷积神经网络进行训练,得到视觉样本标注模型;
[0063]
第一标注词置信度计算模块,用于利用所述视觉样本标注模型对预设的待标注视觉样本数据进行标签标注,得到所述待标注视觉样本数据的初始标注词,计算所述初始标注词的第一标注词置信度;
[0064]
第二标注词置信度计算模块,用于通过预设的视觉相关性算法计算所述初始标注词与所述视觉样本训练特征中的视觉样本数据之间的视觉词相关度,根据所述视觉词相关度计算所述待标注视觉样本数据的第二标注词置信度;
[0065]
标注数据生成模块,用于根据所述第一标注词置信度及所述第二标注词置信度生成所述视觉样本数据的标注数据

[0066]
本发明实施例通过对视觉样本数据进行视觉样本分割,可以很好地描述图像中的语义内容;提取所述均等分割视觉样本的视觉特征,将均等分割视觉样本的多维特征融合拼接,得到具有信息丰富的视觉特征;根据视觉特征生成视觉样本数据的视觉词直方图,进而根据视觉词直方图计算视觉样本数据中每幅图像的潜在主题分布,可以非常直观地观察一副图像中具有的主题分布;根据潜在主题分布及原始标签生成视觉样本数据的视觉样本训练特征,通过潜在主题分布和标签的引入,可以引入语义级别的特征,捕捉样本的语义和语境信息,从而更好地描述样本的内容;利用视觉样本训练特征对卷积神经网络进行训练,得到视觉样本标注模型;利用视觉样本标注模型对待标注视觉样本数据进行标签标注,从而避免了人工标注中由于主观因素造成的标注差异,从而提高了数据的一致性和质量;计算初始标注词的第一标注词置信度及第二标注词置信度,进而得到更准确的视觉标注

因此本发明提出的基于大模型的视觉样本数据自动标注方法及系统,可以解决进行视觉样本数据自动标注时的准确度较低的问题

附图说明
[0067]
图1为本发明一实施例提供的基于大模型的视觉样本数据自动标注方法的流程示意图;
[0068]
图2为本发明一实施例提供的生成视觉词直方图的流程示意图;
[0069]
图3为本发明一实施例提供的生成视觉样本训练特征的流程示意图;
[0070]
图4为本发明一实施例提供的基于大模型的视觉样本数据自动标注系统的功能模块图;
[0071]
本发明目的的实现

功能特点及优点将结合实施例,参照附图做进一步说明

具体实施方式
[0072]
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明

[0073]
本技术实施例提供一种基于大模型的视觉样本数据自动标注方法

所述基于大模型的视觉样本数据自动标注方法的执行主体包括但不限于服务端

终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的至少一种

换言之,所述基于大模型的视觉样本数据自动标注方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台

所述服务端包括但不限于:单台服务器

服务器集群

云端服务器或云端服务器集群等

所述服务器可以是独立的服务器,也可以是提供云服务

云数据库

云计算

云函数

云存储

网络服务

云通信

中间件服务

域名服务

安全服务

内容分发网络
(content delivery network

cdn)、
以及大数据和人工智能平台等基础云计算服务的云服务器

[0074]
参照图1所示,为本发明一实施例提供的基于大模型的视觉样本数据自动标注方法的流程示意图

在本实施例中,所述基于大模型的视觉样本数据自动标注方法包括:
[0075]
s1、
对预设的视觉样本数据进行视觉样本分割,得到均等分割视觉样本,通过预设的多维融合特征算法提取所述均等分割视觉样本的视觉特征

[0076]
本发明实施例中,所述视觉样本数据包括图像和视频,为了提取视觉样本数据的视觉特征,需要将图像简单地分割成块,再从这些块中提取视觉特征,基于对视觉样本数据的分割,可以很好地描述图像中的语义内容

[0077]
进一步地,通过网格划分将视觉样本数据中每幅图像及每个视频对应的图像帧划分为网格大小相同的视觉样本,从而得到均等分割的视觉样本数据,并基于均等分割视觉样本提取其视觉特征,从不同的角度和维度捕捉视觉样本的信息,可以获得更丰富

更全面的视觉特征,提升对样本的描述能力

[0078]
本发明实施例中,所述视觉特征包括视觉样本数据中的颜色特征

纹理特征及形状特征,进而将多维特征融合形成均等分割视觉样本的视觉特征

[0079]
本发明实施例中,所述通过预设的多维融合特征算法提取所述均等分割视觉样本的视觉特征,包括:
[0080]
根据所述均等分割视觉样本的像素值生成所述均等分割视觉样本的颜色直方图,根据所述颜色直方图确定所述均等分割视觉样本的颜色特征;
[0081]
根据所述像素值对应的灰度值确定所述均等分割视觉样本的灰度共生矩阵,根据所述灰度共生矩阵确定所述均等分割视觉样本的纹理特征;
[0082]
根据所述均等分割视觉样本的像素坐标提取所述均等分割视觉样本的形状特征;
[0083]
通过所述多维融合特征算法将所述颜色特征

所述纹理特征及所述形状特征融合为所述视觉特征,其中所述多维融合特征算法为:
[0084]
si=
{ci,vi,xi}
[0085]
其中,
si为第i个均等分割视觉样本的视觉特征,ci
为第i个均等分割视觉样本的颜色特征,vi
为第i个均等分割视觉样本的纹理特征,
xi为第i个均等分割视觉样本的形状特征

[0086]
详细地,颜色直方图可以表示视觉图像的颜色特征,通过统计每幅视觉图像的颜色信息,把色彩空间量化为不同的颜色区间
(bins)
,并统计属于每个
bin
中像素的频率,从而得到颜色直方图,并通过颜色直方图中的色彩分布确定均等分割视觉样本的颜色特征

还需要根据视觉样本数据中每个图像像素值对应的灰度值生成灰度共生矩阵,灰度共生矩阵中每个元素表示特定灰度值对在指定方向和距离下出现的频次,进而可以从灰度共生矩阵中提取多种纹理特征,如能量是灰度共生矩阵中元素的平方和,衡量了图像纹理的强度;对比度反映了灰度值对之间的差异程度等

[0087]
具体地,形状是辨别真实世界物体的重要特征,可以将均等分割视觉样本设定在坐标系中,通过像素坐标可以提取分割视觉样本的物体区域轮廓,从而可以确定均等分割视觉样本中的形状特征,并且可以提取图像表示对象位置或对象之间的关系的空间关系,进而通过多维融合特征算法将均等分割视觉样本的多维特征融合拼接,得到具有信息丰富的视觉特征,可以提供更全面

鲁棒性更强的特征表示,从而在视觉识别

分类和检测等任务中取得更好的效果

[0088]
进一步地,为了降低图像和视觉特征的维度,通过生成视觉词直方图,可以将高维的视觉特征转化为固定维度的直方图表示,从而降低了数据的维度,方便处理和分析

[0089]
s2、
根据所述视觉特征生成所述视觉样本数据的视觉词直方图,利用预设的潜在主题分布算法,根据所述视觉词直方图计算所述视觉样本数据中每幅图像的潜在主题分布

[0090]
本发明实施例中,所述视觉词直方图可以有效地集成多种不同的图像特征,其经过量化后的多种特征称为视觉词也称为视觉词袋

[0091]
本发明实施例中,参照图2所示,所述根据所述视觉特征生成所述视觉样本数据的视觉词直方图,包括:
[0092]
s21、
对所述视觉特征进行特征聚类,得到视觉词汇表;
[0093]
s22、
通过预设的最近邻算法将所述视觉特征与所述视觉词汇表中的视觉词汇特征进行量化匹配,得到量化视觉特征;
[0094]
s23、
将所述量化视觉特征转化为视觉词频次,根据所述视觉词频次生成所述视觉样本数据的视觉词直方图

[0095]
详细地,通过对提取的特征进行聚类,建立视觉词汇表,其中聚类算法
(

k-means)
将特征空间划分为若干个簇,每个簇代表一个视觉词,通常称之为词汇量;进而对于每个图像,将其提取的视觉特征与视觉词汇表中的词汇进行量化匹配,找到与之最接近的视觉词,其中所述最近邻算法是将视觉特征与每个词汇进行比较,并选择距离最近的词汇作为量化结果,可以原始特征中提取出对于所关心的视觉性质最具代表性的信息;并将量
化后的视觉特征转化为视觉词的频次统计,形成视觉词直方图,且每个直方图的每个
bin
代表一个视觉词,在图像中出现的频次

[0096]
进一步地,为了使视觉词直方图中的视觉特征的语义信息关联起来,需要确定视觉样本数据中每幅图像的主题分布,以反映出图像中可能存在的不同主题的相对重要性

[0097]
本发明实施例中,所述潜在主题分布能够将图像的内容从不同角度进行概括,对于给定的视觉样本对应不同主题的概率分布,描述了每个视觉样本中每个主题的相对重要性或存在概率

[0098]
本发明实施例中,所述利用预设的潜在主题分布算法,根据所述视觉词直方图计算所述视觉样本数据中每幅图像的潜在主题分布,包括:
[0099]
利用预设的潜在主题分布算法计算所述视觉词直方图中每个视觉词的主题分布,其中所述潜在主题分布算法为:
[0100][0101]
其中,
p
为视觉词的主题分布,
θ
为混合主题分布,z为视觉词主题,
α
为狄利克雷分布第一参数,
β
为狄利克雷分布第二参数,
p(
θ
|
α
)
为在狄利克雷分布第一参数
α
的条件下混合主题分布的概率,
p(zn|
θ
)
为在混合主题分布
θ
的条件下视觉词中第n个视觉分块主题的概率,zn
为第n个视觉分块主题,
wn为第n个视觉分块,
p(wn|zn,
β
)
为在第n个视觉分块主题和狄利克雷分布第二参数
β
的条件下第n个视觉分块的概率,n为视觉分块的数量;
[0102]
根据所述主题分布统计所述视觉样本数据中每幅图像的潜在主题分布

[0103]
详细地,所述潜在主题分布算法中狄利克雷分布第一参数
α
和狄利克雷分布第二参数
β
是事先自定义设定的,而潜在主题分布算法是基于隐狄利克雷分配
(latent dirichlet allocation
,简称
lda)
实现的,在
lda
中,每个文档被表示为一个主题分布,而每个主题又被表示为一个词汇分布

通过对文档进行建模,
lda
可以推断出每个文档中各个主题的概率分布,即潜在主题分布,因此根据视觉词直方图中每个视觉词所占总体视觉样本的概率,可计算得到视觉词直方图中每个视觉词在狄利克雷分布第一参数
α
和狄利克雷分布第二参数
β
的条件下的主题分布概率

[0104]
具体地,根据视觉词直方图中每个视觉词的主题分布概率可以统计视觉样本数据中每幅图像的潜在主题分布,即根据一副图像中将每个视觉词的主题分布概率按照从大到小的顺序生成每幅图像的潜在主题分布,可以非常直观地观察一副图像中具有的主题分布

[0105]
进一步地,为了视觉样本具有更加丰富的特征表示,将潜在主题分布和原始标签结合,通过潜在主题分布和标签的引入,可以引入语义级别的特征,捕捉样本的语义和语境信息,从而更好地描述样本的内容

[0106]
s3、
根据所述潜在主题分布及预设的原始标签生成所述视觉样本数据的视觉样本训练特征,利用所述视觉样本训练特征对预设的卷积神经网络进行训练,得到视觉样本标注模型

[0107]
本发明实施例中,所述视觉样本训练特征是用于训练卷积神经网络的视觉样本训练集,以实现精确度更高的视觉样本标注模型

[0108]
本发明实施例中,参照图3所示,所述根据所述潜在主题分布及预设的原始标签生
成所述视觉样本数据的视觉样本训练特征,包括:
[0109]
s31、
将所述潜在主题分布中对应的主题标签与预设的原始标签进行标签对比,得到比对标签;
[0110]
s32、
根据所述比对标签对所述主题标签进行标签修正,得到主题修正标签;
[0111]
s33、
根据所述主题修正标签及所述均等分割视觉样本对应的视觉样本分割组合生成所述视觉样本数据的视觉样本训练特征,其中所述视觉样本训练特征为:
[0112]v=
{(q1,r1),(q2,r2),

,(qk,rk)}
[0113]
其中,v为所述视觉样本训练特征,
qk为第k个视觉样本分割组合,rk
为第k个视觉样本分割组合对应的主题修正标签

[0114]
详细地,会对视觉样本自定义赋予原始标签,通过视觉样本的潜在主题分布中对应的主题标签与原始标签进行对比,即使用潜在主题标签分布中的主题标签对视觉样本的原始标签进行标签修正,从而得到准确性更高的视觉样本的标签,并将修正后的主题标签与均等分割视觉样本拼接为视觉样本训练特征,其中每个均等分割视觉样本对应一个主题修正标签,从而利用视觉样本训练特征训练卷积神经网络,得到视觉样本标注模型

[0115]
进一步地,通过将潜在主题分布与标签相关联,可以增强对视觉样本的语义理解,潜在主题分布表示了样本中不同主题的存在概率,而原始标签提供了与样本相关的语义信息,结合这两者可以使训练特征更准确地反映样本的语义含义,有助于提高视觉识别

分类和检测等任务的性能

[0116]
本发明实施例中,所述视觉样本标注模型是用于对图像或视频数据进行标注的模型,标注可以是对象检测

图像分割

图像分类等任务的标签

[0117]
本发明实施例中,所述利用所述视觉样本训练特征对预设的卷积神经网络进行训练,得到视觉样本标注模型,包括:
[0118]
根据所述视觉样本训练特征的特征维数构建预设的卷积神经网络的输入单元

隐藏单元和输出单元;
[0119]
将所述视觉样本训练特征输入至所述输入单元中,得到所述输出单元输出的视觉样本标签,其中所述视觉样本标签输出公式为:
[0120][0121]
其中,
yr为输出层单元r对应的视觉样本标签,f为映射函数,glr
为样本在隐藏单元
l
与输出层单元r之间的连接权值,hl
为所述隐藏单元第
l
个神经元的输出,为输出层第r个神经元的阈值,
l
为神经元的数量;
[0122]
根据预设的损失函数计算所述视觉样本标签的样本标签损失值;
[0123]
当所述样本标签损失值小于预设的损失阈值时,输出所述卷积神经网络为所述视觉样本标注模型

[0124]
详细地,所述卷积神经网络是由输入单元

隐藏单元及输出单元构建的三层神经网络,第一层接收来自样本的输入信号,拥有与样本特征维数相同的神经元数目,中间层为隐含层,最后一层为输出层,包含与样本类别数相同的神经元数目

不同层之间的神经元通过带权重的边连接,通常采用
sigmoid
函数作为激活函数,产生层间神经元的输出,神经网
络的学习过程就是根据训练样本来调整不同神经元之间的连接权和阈值

[0125]
具体地,根据视觉样本标签输出公式可得到视觉样本训练特征对应的视觉样本标签,进而通过损失函数计算视觉样本标签的误差项,当损失值小于预设的损失阈值时,卷积神经网络停止迭代,并将此时的卷积神经网络作为视觉样本标注模型

[0126]
进一步地,通过训练出的视觉样本标注模型对待标注的视觉样本数据进行标签标注,通过模型的自动标注可以极大地提高标注的速度,标注模型在相同的输入下通常会产生一致的标签,避免了人工标注中由于主观因素造成的标注差异,从而提高了数据的一致性和质量

[0127]
s4、
利用所述视觉样本标注模型对预设的待标注视觉样本数据进行标签标注,得到所述待标注视觉样本数据的初始标注词,计算所述初始标注词的第一标注词置信度

[0128]
本发明实施例中,所述初始标注词是指通过视觉样本标注模型对待标注视觉样本数据输出的视觉样本标注词

[0129]
本发明实施例中,所述利用所述视觉样本标注模型对预设的待标注视觉样本数据进行标签标注,得到所述待标注视觉样本数据的初始标注词,包括:
[0130]
提取所述待标注视觉样本数据中每幅待标注图像的词袋特征;
[0131]
通过预设的潜在主题分布算法,根据所述词袋特征计算所述待标注视觉样本数据中每幅待标注图像的潜在主题分布;
[0132]
将所述潜在主题分布输入至所述视觉样本标注模型中进行标签标注,得得到所述每幅待标注图像的待标注词序列;
[0133]
选取概率最大的待标注词序列中的标注词为所述初始标注词

[0134]
详细地,所述词袋特征是指待标注视觉样本数据中的每幅待标注图像的视觉词直方图,并根据视觉词直方图计算每幅待标注图像的潜在主题分布,其中所述通过预设的潜在主题分布算法,根据所述词袋特征计算所述待标注视觉样本数据中每幅待标注图像的潜在主题分布与
s2
中所述利用预设的潜在主题分布算法,根据所述视觉词直方图计算所述视觉样本数据中每幅图像的潜在主题分布步骤一致,在此不再赘述

[0135]
具体地,将潜在主题分布及待标注视觉样本数据作为输入特征,输入至视觉样本标注模型中进行标签标注,即通过待标注视觉样本数据对应的潜在主题分布与视觉样本标注模型中的原始标签进行融合修正,以输出每幅待标注图像的待标注词序列,并选取概率最大的待标注词序列中的标注词作为待标注视觉样本数据中每幅图像或每个物体的初始标注词

[0136]
进一步地,为了使初始标注词更加准确地描述待标注视觉样本数据,则计算初始标注词的第一标注词置信度,通过置信度可以对初始标注词进行调整,以得到精确度更高的标注词

[0137]
本发明实施例中,所述第一标注词置信度是指在数据标注过程中,针对每个标注词或标签,评估其准确性或可信度的程度

[0138]
本发明实施例中,所述计算所述初始标注词的第一标注词置信度,包括:
[0139]
根据预设的标签类别及所述初始标注词生成标签关联矩阵;
[0140]
利用如下预设的置信度算法根据所述标签关联矩阵计算所述初始标注词的第一标注词置信度:
[0141]
t

[(1-2
σ
)
σ
(i-τ
m)-1
]t0[0142]
其中,
t
为所述第一标注词置信度,
σ
为置信控制因子,
τ
为置信退化参数,i为单位矩阵,m为所述标签关联矩阵,
t0为置信度初始值

[0143]
详细地,所述标签关联矩阵是指将标签类别与初始标志词进行关联,即在标签关联矩阵中行表示标签类别,列表示视觉数据,矩阵值中表示视觉数据与标签类别相对应的初始标注词,有初始标注词对应的标注为1,无初始标注词对应的标注为0,从而得到标签关联矩阵;并根据标签关联矩阵计算每个初始标注词的第一标注词置信度

[0144]
具体地,所述置信度算法中的置信退化参数
τ
(
一般取值略小于
1)
用于降低标签关联矩阵的误差,置信控制因子
σ
用于控制置信优化的程度,进而在计算初始标注词的第一标注词置信度之前,需要设定初始标注词的置信度初始值,其中置信度初始值可根据视觉样本标注模型输出的标注词概率所确定

[0145]
进一步地,通过计算初始标注词与所述视觉样本训练特征中的视觉样本数据之间的视觉词相关度,可以对第一标注词置信度进行优化,以得到准确性更高的视觉样本对应的标注词

[0146]
s5、
通过预设的视觉相关性算法计算所述初始标注词与所述视觉样本训练特征中的视觉样本数据之间的视觉词相关度,根据所述视觉词相关度计算所述待标注视觉样本数据的第二标注词置信度

[0147]
本发明实施例中,所述视觉词相关度是指当前待标注图像与图像集中相关图像的关系,通过计算标注词之间的加权互信息得到标注词之间的相关性

[0148]
本发明实施例中,所述通过预设的视觉相关性算法计算所述初始标注词与所述视觉样本训练特征中的视觉样本数据之间的视觉词相关度,包括:
[0149]
提取所述初始标注词对应的初始视觉样本数据;
[0150]
利用所述视觉相关性算法计算所述初始视觉样本数据与所述视觉样本数据之间的视觉词相关度,其中所述视觉相关性算法为:
[0151][0152]
其中,h为所述视觉词相关度,
e(d,au)
为初始视觉样本数据对应的初始标注词d与视觉样本数据中第u个样本数据对应的样本标注au
同时出现的次数,d为视觉样本数据中样本数量,
e(d)
为视觉样本数据中包含初始标注词d的数目,
e(au)
为视觉样本数据中包含第u个样本数据对应的样本标注au
的数目

[0153]
详细地,统计初始视觉样本数据中的初始标注词在视觉样本训练特征中的视觉样本数据相同的样本标注同时出现的次数,即在视觉样本数据中同时包含d和au
的次数,并统计在视觉样本训练特征中的视觉样本数据中包含初始标注词d的数目,以及在视觉样本数据中包含同样初始标注词d的样本标注au
的数目,从而得到初始标注词的视觉词相关度,如初始标注词为d,在视觉样本数据中包含的样本标注为
a1,a2,a3,则分别统计视觉样本数据中初始标注词d与的样本标注为
a1,a2,a3同时出现的次数,并统计初始标注词d在视觉样本数据的出现的次数,以及样本标注为
a1,a2,a3视觉样本数据的出现的次数,可得到初始标注词d分别与样本标注为
a1,a2,a3之间的视觉词相关度

[0154]
进一步地,根据视觉词相关度计算待标注视觉样本数据中每个标注词的第一标注词置信度,可对第一标注词置信度进行优化

[0155]
本发明实施例中,所述第二标注词置信度是指是指在数据标注过程中,根据视觉词相关度对每个标注词或标签,评估其准确性或可信度的程度

[0156]
本发明实施例中,所述根据所述视觉词相关度计算所述待标注视觉样本数据的第二标注词置信度,包括:
[0157]
根据所述视觉词相关度对所述标签关联矩阵进行更新,得到标签更新关联矩阵;
[0158]
利用所述置信度算法根据所述标签更新关联矩阵计算所述待标注视觉样本数据的第二标注词置信度

[0159]
详细地,根据初始标注词与视觉样本数据之间的视觉词相关度可以对标签关联矩阵进行更新,即重新调整标签关联矩阵中矩阵值,即通过预设的相关度阈值将与标注词相关的标签类别也标注为1,当视觉词相关度大于相关度阈值时,将与标注词相关的标签类别也标注为1,可得到标签更新关联矩阵

[0160]
具体地,利用置信度算法根据标签更新关联矩阵重新计算标注词置信度,从而得到第二标注词置信度,其中所述利用所述置信度算法根据所述标签更新关联矩阵计算所述待标注视觉样本数据的第二标注词置信度与
s4
中所述利用如下预设的置信度算法根据所述标签关联矩阵计算所述初始标注词的第一标注词置信度步骤一致,在此不再赘述

[0161]
s6、
根据所述第一标注词置信度及所述第二标注词置信度生成所述视觉样本数据的标注数据

[0162]
本发明实施例中,通过第一标注词置信度及第二标注词置信度可以视觉样本数据的标注数据进行更准确的标注

[0163]
本发明实施例中,所述根据所述第一标注词置信度及所述第二标注词置信度生成所述视觉样本数据的标注数据,包括:
[0164]
计算所述第一标注词置信度与所述第二标注词置信度的置信差值;
[0165]
当所述置信差值大于零时,将所述第一标注置信度对应的视觉标签作为所述视觉样本数据的标注数据;
[0166]
当所述置信差值小于零时,将所述第二标注置信度对应的视觉标签作为所述视觉样本数据的标注数据

[0167]
详细地,通过将第一标注词置信度与第二标注词置信度进行相比,当置信差值大于零时,选择第一标注置信度对应的视觉标签作为视觉样本数据中一幅图像或一个物体的标注数据;当置信差值小于零时,选择第二标注置信度对应的视觉标签作为视觉样本数据中一幅图像或一个物体的标注数据,从而得到更加准确的视觉样本数据的标注数据

[0168]
本发明实施例通过对视觉样本数据进行视觉样本分割,可以很好地描述图像中的语义内容;提取所述均等分割视觉样本的视觉特征,将均等分割视觉样本的多维特征融合拼接,得到具有信息丰富的视觉特征;根据视觉特征生成视觉样本数据的视觉词直方图,进而根据视觉词直方图计算视觉样本数据中每幅图像的潜在主题分布,可以非常直观地观察一副图像中具有的主题分布;根据潜在主题分布及原始标签生成视觉样本数据的视觉样本训练特征,通过潜在主题分布和标签的引入,可以引入语义级别的特征,捕捉样本的语义和语境信息,从而更好地描述样本的内容;利用视觉样本训练特征对卷积神经网络进行训练,
得到视觉样本标注模型;利用视觉样本标注模型对待标注视觉样本数据进行标签标注,从而避免了人工标注中由于主观因素造成的标注差异,从而提高了数据的一致性和质量;计算初始标注词的第一标注词置信度及第二标注词置信度,进而得到更准确的视觉标注

因此本发明提出的基于大模型的视觉样本数据自动标注方法及系统,可以解决进行视觉样本数据自动标注时的准确度较低的问题

[0169]
如图4所示,是本发明一实施例提供的基于大模型的视觉样本数据自动标注系统的功能模块图

[0170]
本发明所述基于大模型的视觉样本数据自动标注系统
100
可以安装于电子设备中

根据实现的功能,所述基于大模型的视觉样本数据自动标注系统
100
可以包括视觉特征提取模块
101、
潜在主题分布计算模块
102、
视觉样本标注模型生成模块
103、
第一标注词置信度计算模块
104、
第二标注词置信度计算模块
105
及标注数据生成模块
106。
本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中

[0171]
在本实施例中,关于各模块
/
单元的功能如下:
[0172]
所述视觉特征提取模块
101
,用于对预设的视觉样本数据进行视觉样本分割,得到均等分割视觉样本,通过预设的多维融合特征算法提取所述均等分割视觉样本的视觉特征;
[0173]
所述潜在主题分布计算模块
102
,用于根据所述视觉特征生成所述视觉样本数据的视觉词直方图,利用预设的潜在主题分布算法,根据所述视觉词直方图计算所述视觉样本数据中每幅图像的潜在主题分布;
[0174]
所述视觉样本标注模型生成模块
103
,用于根据所述潜在主题分布及预设的原始标签生成所述视觉样本数据的视觉样本训练特征,利用所述视觉样本训练特征对预设的卷积神经网络进行训练,得到视觉样本标注模型;
[0175]
所述第一标注词置信度计算模块
104
,用于利用所述视觉样本标注模型对预设的待标注视觉样本数据进行标签标注,得到所述待标注视觉样本数据的初始标注词,计算所述初始标注词的第一标注词置信度;
[0176]
所述第二标注词置信度计算模块
105
,用于通过预设的视觉相关性算法计算所述初始标注词与所述视觉样本训练特征中的视觉样本数据之间的视觉词相关度,根据所述视觉词相关度计算所述待标注视觉样本数据的第二标注词置信度;
[0177]
所述标注数据生成模块
106
,用于根据所述第一标注词置信度及所述第二标注词置信度生成所述视觉样本数据的标注数据

[0178]
详细地,本发明实施例中所述基于大模型的视觉样本数据自动标注系统
100
中所述的各模块在使用时采用与上述图1至图3中所述的基于大模型的视觉样本数据自动标注方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述

[0179]
在本发明所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现

例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式

[0180]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个
网络单元上

可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的

[0181]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中

上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现

[0182]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明

[0183]
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内

不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求

[0184]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理

其中,人工智能
(artificial intelligence

ai)
是利用数字计算机或者数字计算机控制的机器模拟

延伸和扩展人的智能,感知环境

获取知识并使用知识获得最佳结果的理论

方法

技术及应用系统

[0185]
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数

系统实施例中陈述的多个单元或系统也可以由一个单元或系统通过软件或者硬件来实现

第一

第二等词语用来表示名称,而并不表示任何特定的顺序

[0186]
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围

当前第1页1  
相关技术
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图