ISSN 1004-4140
CN 11-3017/P

基于LSTM与交叉注意力机制的少样本周期视频图像分割

汤少杰, 袁腾奇, 李思余, 李舒博, 张婷, 魏秋月, 姚鸿萍

汤少杰, 袁腾奇, 李思余, 等. 基于LSTM与交叉注意力机制的少样本周期视频图像分割[J]. CT理论与应用研究(中英文), xxxx, x(x): 1-12. DOI: 10.15953/j.ctta.2024.033.
引用本文: 汤少杰, 袁腾奇, 李思余, 等. 基于LSTM与交叉注意力机制的少样本周期视频图像分割[J]. CT理论与应用研究(中英文), xxxx, x(x): 1-12. DOI: 10.15953/j.ctta.2024.033.
TANG S J, YUAN T Q, LI S Y, et al. Few-shot Periodic Video Image Segmentation Based on LSTM and Cross-attention Mechanism[J]. CT Theory and Applications, xxxx, x(x): 1-12. DOI: 10.15953/j.ctta.2024.033. (in Chinese).
Citation: TANG S J, YUAN T Q, LI S Y, et al. Few-shot Periodic Video Image Segmentation Based on LSTM and Cross-attention Mechanism[J]. CT Theory and Applications, xxxx, x(x): 1-12. DOI: 10.15953/j.ctta.2024.033. (in Chinese).

基于LSTM与交叉注意力机制的少样本周期视频图像分割

基金项目: 陕西省科技厅面上项目(动物胚胎电信息重建算法研究(2023-JC-YB-521))。
详细信息
    通讯作者:

    汤少杰: 男,西安邮电大学自动化学院副教授、硕士研究生导师,主要从事医学成像、图像处理和分析以及电生理信号处理研究,E-mail:tangshaojie@xupt.edu.cn

  • 中图分类号: TP  183

Few-shot Periodic Video Image Segmentation Based on LSTM and Cross-attention Mechanism

  • 摘要:

    随着现代视频技术的发展,周期运动视频图像分割在运动分析、医学影像等领域中具有重要应用。本文基于深度学习技术设计一种新颖的周期性运动检测和分割网络,结合卷积长短期记忆网络(LSTM)和交叉注意力机制,只需要相对较少的标签,便能够有效捕获视频序列中感兴趣对象的时空上下文信息、跨帧一致性并进行精确分割。实验结果表明,少样本标签情况下,本文方法在周期性运动视频数据集上表现出色。在普通视频中,平均区域相似度和轮廓相似度分别为67.51% 和72.97%,相较于传统方法普遍提升1%~1.5%。在医学视频中,平均区域相似度和轮廓相似度分别为59.93% 和90.56%,在区域相似度上,相较于DAN和Unet分别提升12.92% 和8.85%。在轮廓相似度上,分别提升20.09% 和12.89%,具有更高的准确性和稳定性。

    Abstract:

    With the development of modern video technology, periodic motion video image segmentation has important applications in motion analysis, medical imaging, and other fields. In this study, we designed a novel periodic motion detection and segmentation network based on deep learning technology, which combines the convolutional long short term memory network (LSTM) and cross-attention mechanism. With relatively few labels, we can effectively capture the spatiotemporal context information of the objects of interest in the video sequence, achieving cross-frame consistency and accurate segmentation. Experimental results show that the proposed method performs well on periodic motion video datasets with few sample labels. In an ordinary video, the average region similarity and contour accuracy were 67.51% and 72.97%. respectively, which improved by 1%~1.5% than those obtained with the traditional method. In medical videos, the average region similarity and contour accuracy were 59.93% and 90.56%, respectively. Compared with DAN and Unet, the proposed method increased the regional similarity by 12.92% and 8.85%, whereas it improved the contour accuracy by 20.09% and 12.89%, respectively, thus achieving higher accuracy and stability.

  • 河流相储层是一类重要的含油气储集层,其精细描述的核心是有效识别出河道。但是此类储层纵向上常表现为砂体多期叠置,可识别厚度小于地震分辨率;横向上物性变化快,非均质性特征强,河道边缘特征不清晰。为了提高此类储层的识别精度,众多专家学者进行了深入研究,相干体[1-2]、地震波形结构属性[3]、甜点属性[4]、谱分解和分频属性融合[5]、概率神经网络[6]、相层双控智能识别描述[7]等方法技术得到广泛应用。

    上述研究主要集中在河道构型、地震相整体特征、含油气分布预测等相对宏观的信息,对河道边缘特征的精细刻画还较少,在河道信号微弱、强屏蔽干扰或者横向不连续等情况下难以精准刻画储层。而图像边缘检测可通过捕捉图像局部特征的细微突变实现边缘的定位[8],其本质是通过突出图像的有效边缘信息、弱化非边缘信息来提取边缘细节。在地震解释领域,已有学者将此项技术应用于断层与裂缝预测中[9-11]以及砂坝、砂体厚度的描述中[12-14]。然而现有相关文献对河道边缘特征的数学意义以及算子处理的本质含义分析不够深入,还有待精细解剖。

    本文从河道边缘几何特征与数学含义出发,从图像处理角度分析相干体边缘特征识别优势及存在的不足,以Sobel算子为例探究算子处理边缘识别的本质。对于图像灰度不均导致小河道识别困难的问题,提出基于直方图均衡化和模糊集理论的图像增强方法。上述技术方法均用三维河道理论模型和实际资料加以检验,应用效果显著,相关认识与结论对开展河流相储层精细描述有一定的借鉴作用。

    河流相储层中的河道,其垂向厚度一般小于调谐厚度,其正演模型的左右两边缘振幅为零,中心位置振幅最大(图1(a))。若提取振幅切片,河道内有幅值,呈“实心”特征。对图1(a)截面计算一阶导数,导数从左到河道中心为正,边缘特征为“右负左正”或者“左正右负”。如果对一阶导数求模,左右两边界均为正值,边缘呈“左右双正”特征(图1(c))。二阶导数是一阶导数的导数,所以它的值与原始振幅相比,符号相反,但河道空间形态会更加锐化(图1(d))。

    图  1  河道边缘几何特征与数学含义
    Figure  1.  Geometric characteristics and mathematical implication of the channel edge

    为便于对本文方法进行验证,构建200×300×100(线×道×时间)三维模型。模型有5个水平层,设计了4条河道,速度结构如图2(a)所示,河道1到河道4的砂岩速度分别为3600、3200、3150和3300 m/s,围岩速度为3100 m/s。从速度结构上看,各支河道反射系数由强到弱分别为河道1、河道4、河道2、河道3。河道1和河道2的埋深设计在47~57 ms之间,河道3和河道4在55~60 ms之间,河道1和河道4宽度为10道,河道3宽度为15道,河道2宽度为5道。正演模型采样间隔为1 ms,子波采用主频为30 Hz的雷克子波,加入最大振幅5%的随机噪声(图2(b))。

    图  2  用于方法测试的三维河道模型
    Figure  2.  Three-dimensional channel model for method testing

    对于地质异常体的边缘特征识别,常用的地震属性有均方根振幅、相干、曲率、甜点等,尤以相干属性为最常用[15]。对于以特征值为基础的第3代相干,其表征公式常有以下几种(表1[2],物理意义最明确、应用最广的是最大特征值相干。通过相干属性计算,河道特征比原始切片会更加清晰。

    表  1  特征值相干不同表征公式
    Table  1.  Different characterization formulas of eigenvalue coherence
     时间作者表征公式物理含义
     1999Gersztenkorn
    和Marfurt
    ${C_{31}} = \displaystyle \dfrac{{{\lambda _1}}}{{\sum\limits_{j = 1}^J {{\lambda _j}} }}$用最大特征值在所有特征值中的占比来表示相干
     2000Randen等${C_{32} } = \displaystyle \dfrac{ {2{\lambda _2} } }{ { {\lambda _1} + {\lambda _3} } } - 1 = \dfrac{ { {\lambda _2} - {\lambda _3} - ( { {\lambda _1} - {\lambda _2} } )} }{ { {\lambda _1} + {\lambda _3} } }$被称为“chaos”的相干属性
     2002Bakker${C_{33} } = \displaystyle \dfrac{ {2{\lambda _2}( { {\lambda _2} - {\lambda _3} })} }{ {( { {\lambda _1} + {\lambda _2} } )( { {\lambda _2} + {\lambda _3} } )} }$重点考虑第2特征值和第3特征值的差异
     2007Donias等${C_{34} } = 1 - \displaystyle \dfrac{3}{2}\dfrac{ { {\lambda _2} + {\lambda _3} } }{ { {\lambda _1} + {\lambda _2} + {\lambda _3} } } = \dfrac{ { {\lambda _1} - {\lambda _2} + {\lambda _1} - {\lambda _3} } }{ {2( { {\lambda _1} + {\lambda _2} + {\lambda _3} } )} }$“disorder”相干属性
     2017Wu${C_{35}} = \displaystyle \dfrac{{{\lambda _1}{{ - }}{\lambda _2}}}{{{\lambda _1}}}$利用第1特征值和第2特征值的差异
    下载: 导出CSV 
    | 显示表格

    图2(b)所示模型,计算C31相干,提取时间为55 ms处的相干切片与原始切片进行比较(图3)。可以看到:①原始切片(图3(a))展示的是振幅信息,所以河道内是包含振幅信息的,河道显示是“实心”的;②相干(图3(b))突出的是异常信息,所以在相干体上展示的是河道边缘信息,河道是“空心”的;③无论是原始切片还是相干切片,显示的幅值范围都需要人工设置比较合理的范围,才能做到基本清晰(如图3(c)调整了色标幅值范围,河道边缘对比度有了一定的提高,但受背景噪声影响,即使精细调整色标范围仍难以精准刻画能量较弱的河道边缘)。

    图  3  模型相干切片与原始振幅切片比较
    Figure  3.  Comparison between model coherence and original amplitude slices

    选取胜利油田罗家高密度资料作为实例数据,数据范围400线和600道,时间950~1050 ms。研究区曲流河、辫状河等河流相储层比较发育,河道相互叠置,横向变化大,砂体厚度小,河道砂体的精细描述是勘探开发的重点。

    通过观察原始振幅切片(图4(a),T0=984 ms)可以看到:①研究区中间偏右侧南北向发育有一条宽度较大的河道;②北部1条河道虽然不是很宽,但振幅较强。研究区大量发育的是河道较小的曲流河,它们的相干值差异不大,大量值分布在白色的小值上(图4(b),显示范围0.45~1.0),此时需要人为设置显示范围才能较好地展示全区河道分布(图4(c),显示范围0.8~1.0)。且即使色标做了调整,对河道的的刻画效果仍然欠佳,个别振幅较小的河道的边缘特征不明显,进行基于图像处理的目标处理具有客观必要性。

    图  4  实际资料相干切片与原始振幅切片比较
    Figure  4.  Comparison between coherence and original amplitude slices of the actual data

    计算一个点的导数,容易出现异常值。利用多个点特殊的组合,进行数值或导数计算,可以得到具有某些特殊特征的图像,这就是算子处理的功效。在图像处理领域,常用算子包括Canny、Prewitt、Sobel、Roberts、Laplace、LoG算子等,其中Sobel算子在梯度运算中应用了局部平均的思想,使其具备较强的抗噪能力,检测结果不易受噪声干扰,在地震边缘检测中已有应用[12-14]

    下面以Sobel算子为例,阐述其物理含义与计算公式。如图5,对于中心点(x, y),将第3列的和(局部平均)减去第1列的和,构建的是该点x方向的梯度Gx。求和运算可以均衡幅值,起到平滑的作用,计算时距离中心点最近的两个点(x+1, y)和(x − 1, y)给予2倍的权重;相减(差分)操作可以突出异常的边缘信息,同时起到去除相似背景的作用。类似地,可以得到y方向的梯度Gy。上述操作既可以用计算公式(1)实现,也可以核函数卷积实现,核函数设置见图5

    图  5  Sobel算子及核函数解析图
    Figure  5.  Analytical diagram of the Sobel operator and kernel function
    $$ \left\{ {\begin{array}{*{20}{l}} {{\boldsymbol{G}}_x} = & \{u (x + 1,y - 1) + 2u (x + 1,y) + u (x + 1,y + 1)\} -\\ & \{u (x - 1,y - 1) + 2u (x - 1,y) + u (x - 1,y + 1)\} \\ {{\boldsymbol{G}}_y} = &\{u (x - 1,y + 1) + 2u (x,y + 1) + u (x + 1,y + 1)\} - \\ &\{u (x - 1,y - 1) + 2u (x,y - 1) + u (x + 1,y - 1)\} \end{array}} \right. 。 $$ (1)

    实际应用时既可以用xy方向的梯度单独表示,使其具有方向性,也可以用1范数、2范数或$ \infty $范数(极大模)表示。

    $$ {{\boldsymbol{G}}_1} = \Big| {{{\boldsymbol{G}}_x}} \Big| + \Big| {{{\boldsymbol{G}}_y}} \Big| \text{,} $$ (2)
    $$ {{\boldsymbol{G}}_2} = \sqrt {{\boldsymbol{G}}_x^2 + {\boldsymbol{G}}_y^2} \text{,} $$ (3)
    $$ {\boldsymbol{G}}_{\infty} = \max \Big( {\big| {{{\boldsymbol{G}}_x}} \big|,\big| {{{\boldsymbol{G}}_y}} \big|} \Big) 。 $$ (4)

    为检验本文方法有效性,对图6(a)所示切片,用Sobel算子进行处理,结果如图6(b)~图6(d)所示。梯度处理后河道两侧出现了不同极性的边缘,以能量较强的河道1为例,边缘右负左正、下负上正,这与前文中图1的理论分析一致。经Gx方向处理后,线方向的河道边缘特征得到较好展示;Gy方向处理后,道方向的河道边缘特征有所加强,但南北向的河道空间特征变得模糊。图6(d)是计算GxGy模极大值结果,可以看到由于已计算了梯度的绝对值,河道出现类似于相干检测的边缘特征。总的来看,原始切片在采用Sobel算子做相关处理后相比于传统相干属性其边缘检测效果获得一定的增强,但对于能量较弱的河道边缘检测效果仍有待提高。

    图  6  理论模型Sobel算子处理及效果比较
    Figure  6.  Sobel operator processing and effect comparison of the theoretical model

    图7(a)实际资料进行处理,结果如图7(b)~图7(d)所示。对比分析可知,不同方向Sobel算子对南北向和东西向河道识别能力不一样,这与模型讨论认识一致;相对方向梯度,使用模值表征更利于刻画细小河道。

    图  7  实际资料Sobel算子处理及效果比较
    Figure  7.  Sobel operator processing and effect comparison of the actual data

    需要指出的是,以上只是对切片进行Sobel卷积操作,它没有构造导向和挖掘数据子体内部特征的功能,效果还比较受限,分辨率还有待提高。

    经相干体处理后的切片其数值分布范围很不均匀,且该经典方法与本文后续提出的基于算子处理的边缘增强技术对能量较弱地质异常体边缘显示效果仍然不佳。针对这样的问题,我们采用基于图像灰度处理的边缘增强技术来加以改善。

    图像边缘的抽象定义为图像灰度发生空间突变的像素集合,以灰度值表征的图像在均匀区域之间的幅值突变被称为边缘。若将地震数据视为图像,地震振幅视为灰度,地震边缘对应的幅值突变区域往往是波阻抗界面产生的位置,它是地下构造或岩性信息的一种反映。

    为解决相干处理后切片数值分布范围不均匀的问题,文章引入图像处理中的灰度直方图均衡化技术。首先统计灰度图像中元素具有的相同灰度值i出现的次数ni,计算灰度值i出现的概率:

    $$ P(i) = \frac{{{n_i}}}{n},\begin{array}{*{20}{c}} {}&{} \end{array}i \in 0,1,\cdots,{L_0} - 1 , $$ (5)

    式中,n为图像像素总数,L0为图像灰度矩阵中非重复灰度级的个数。再计算灰度值i的累计概率:

    $$ c(i) = \sum\limits_{k = 0}^i {P(k)} 。 $$ (6)

    按以下映射关系对原始像素进行处理,其中$ {C_{\text{p}}}(i) $为当前元素灰度值的均衡化结果,Le为图像处理预期的总灰度级(取值256):

    $$ {C_{\text{p}}}(i) = {\rm{round}}\Big( {c(\,i\,) \times ({L_e} - 1)} \Big) \text{,} $$ (7)

    round为四舍五入取整函数,用${C_{\text{p}}}(i)$替代原始灰度值为i的像素,得到最终均衡结果。

    为了进一步分离出相干等切片上的有效边缘信息,对均衡化后的图像做进一步模糊增强处理。方法核心思想是利用隶属度函数将空间域图像变换为模糊域内的模糊特征平面,在模糊特征平面上对模糊特征进行非线性变换,最后将其变换回空间域,得到增强处理的图像。

    在模糊集理论中,将一幅灰度级为LM×N图像u视为一个模糊集,通过隶属度函数将其由空间域转换到模糊特征域,并由模糊矩阵P进行表征:

    $$ {\boldsymbol{P}} = \bigcup\limits_{i = 1}^M {\bigcup\limits_{j = 1}^N {{\mu _i}_j} } /{u_i}_j;\begin{array}{*{20}{c}} {}&{} \end{array}i = 1,2, \cdots ,M;\begin{array}{*{20}{c}} {}&{} \end{array}j = 1,2, \cdots ,N \text{,} $$ (8)

    式中,${\mu _i}_j\left( {0 \leq {\mu _i}_j \leq 1} \right)$表示图像中第(ij)个像素点的灰阶,$ {u_i}_j $为特定灰度级的隶属度,一般这个特定灰度级取图像最大灰度$ {u_{\max }} $$ {\mu _i}_j $组成模糊特征平面$ \left\{ {{\mu _i}_j} \right\} $。采用Pal-King算法中的隶属函数[16]

    $$ {\mu _i}_j = F({u_{ij}}) = {\Big( {1 + \big( {( {{u_{\max }} - {u_{ij}}} )/{F_d}} \big)} \Big)^{ - {F_e}}} \text{,} $$ (9)

    式中,Fd为倒数模糊因子,Fe为指数模糊因子,这里取Fd=128,Fe=2。对$ {\mu _i}_j $进行模糊增强,非线性增强变换函数为:

    $$ {\mu _i}_j' = {E_r}({\mu _i}_j) = {E_1}\left( {{E_{r - 1}}({\mu _i}_j)} \right);\begin{array}{*{20}{c}} {}&{} \end{array}r = 1,2, \cdots ,$$ (10)
    $$ {E_1}({\mu _i}_j) = \left\{ {\begin{aligned} &2{\mu _i}{{_j}^2},&0 \leq {\mu _i}_j \leq {\mu _c} \\ &1 - 2{{\left( {1 - {\mu _i}_j} \right)}^2},&{\mu _c} \leq {\mu _i}_j \leq 1 \end{aligned}} \right. \text{,} $$ (11)

    式中,$ {E_r} $表示对函数Er次迭代运算,$ {\mu _c} $为渡越点,一般取0.5。利用$ {F^{ - 1}} $$ {\mu _i}_j' $进行逆变换即可得到增强后的图像$ {l_{ij}} $

    $$ {l_{ij}} = {F^{ - 1}}({\mu _i}_j') = {u_{\max }} + {F_d}\left( {1 - {{({\mu _i}_j')}^{ - \frac{1}{{{F_e}}}}}} \right) 。 $$ (12)

    从前面分析已知,相干切片上能量较弱的河道2与河道3的边缘特征依然不够清晰(图8(a)),视觉分辨率不高。分析其原因主要是灰度值过于集中(图8(c),灰度值大多聚焦在白色的大值上),所以与背景值接近的河道不易识别。图8(b)为灰度均衡化后结果,此时直方图主灰度级已分散到6个以上(图8(d)),由此河道弱边缘特征得到较大增强,不过背景噪声也被同步放大,需要后续进一步处理。

    图  8  理论模型灰度均衡化处理前后切片及直方图对比
    Figure  8.  Comparison of slices and histograms before and after grayscale equalization of the theoretical model

    针对均衡后噪声同步放大的问题(图9(a)),用模糊增强方法做进一步处理,图9(b)~图9(e)为1~4次模糊增强结果。可以看到:①1次模糊增强处理后,背景噪声得到较大程度的压制,弱边缘得到进一步增强;②模糊次数增加到 4次,噪声确实已得到较好去除,但边缘信息损失也很大。总的来看,1~2次模糊增强效果较好。

    图  9  理论模型图像模糊增强处理及效果对比
    Figure  9.  Image fuzzy enhancement processing and effect comparison of the theoretical model

    利用以上方法对实际资料相干切片,做直方图均衡化和模糊增强处理,结果如图10所示。可以看到:①原始相干切片的灰度范围较为集中,对比度不高,直方图均衡化后河道边缘特征变得比较清楚,由此也说明这样的图像目标处理十分必要;②与模型测试类似,模糊增强处理1~2次,能消除部分较强能量的背景信息,使河道边缘得到更好展示,有利于储层精细描述与油气预测。

    图  10  实际资料图像处理前后相干切片对比
    Figure  10.  Comparison of coherent slices before and after image processing of the actual data

    对于频繁分叉改道、多期砂体叠置的复杂河流相储层,直接用振幅切片,识别能力有限。多道相干计算,利用河道的空间信息,河道的边缘特征得到了有效的提取。但由于背景噪声的影响,相干体上能量较弱的细小河道还是得不到很好成像。

    利用图像处理中的灰度直方图均衡化技术,可以有效提高相干属性切片的对比度,凸显微小边缘特征。在此基础上进一步结合模糊增强,分离有效边缘和无效背景,可以进一步增强相干属性的边缘表征能力。

    图像处理中,Canny、Prewitt、Sobel等算子处理,物理意义明确,操作简单、快捷,可用于河流相储层的边缘检测。

  • 图  1   ConvLSTM结构图

    Figure  1.   ConvLSTM structure diagram

    图  2   模型框架图

    Figure  2.   Framework diagram of the model

    图  3   LCA模块图

    Figure  3.   LCA module diagram

    图  4   ConvLSTM模块图

    Figure  4.   ConvLSTM module diagram

    图  5   周期数据集构造示意图

    Figure  5.   Schematic of the periodic data set construction

    图  6   各模型鸭子分割结果对比

    Figure  6.   Comparison of duck segmentation results of each model

    图  7   各模型蛇分割结果对比

    Figure  7.   Comparison of snake segmentation results of each model

    图  8   各模型鸡胚胎分割结果对比

    Figure  8.   Comparison of chicken embryo segmentation results of each models

    表  1   各模型的显存使用

    Table  1   Memory use of each model

    模型显存/Gbits
    ResNet4.83
    ConvLSTM4.46
    DAN6.22
    Ours6.27
    下载: 导出CSV

    表  2   各模型在3图像组上的性能对比

    Table  2   Performance comparison of each model on 3 image groups

    模型 J F
    ResNet 0.552 0.592
    ConvLSTM 0.530 0.569
    DAN 0.637 0.687
    Ours 0.642 0.691
    下载: 导出CSV

    表  3   各模型在5图像组上的性能对比

    Table  3   Performance comparison of ecah model on 5 image groups

    模型 J F
    ResNet 0.555 0.605
    ConvLSTM 0.551 0.599
    DAN 0.665 0.715
    Ours 0.675 0.730
    下载: 导出CSV

    表  4   各模型在周期与非周期数据上性能对比

    Table  4   Performance comparison of each models on periodic and aperiodic data

    数据 模型 J F
    非周期 DAN 0.680 0.728
    非周期 Ours 0.671 0.719
    周期  DAN 0.665 0.715
    周期  Ours 0.675 0.730
    下载: 导出CSV

    表  5   各模型鸡胚胎分割性能对比

    Table  5   Comparison of chicken embryo partitioning of each models

    模型 J F
    DAN+ResNet 0.140 0.075
    LCA+ResNet 0.331 0.252
    Unet 0.511 0.777
    DAN+Unet 0.470 0.705
    LCA+Unet 0.599 0.906
    下载: 导出CSV
  • [1]

    BROX T, MALIK J. Object segmentation by long term analysis of point trajectories[C]//European conference on computer vision. Berlin, Heidelberg: Springer Berlin Heidelberg, 2010: 282-295. DOI: 10.1007/978-3-642-15555-0_21.

    [2]

    LEE Y J, KIM J, GRAUMAN K. Key-segments for video object segmentation[C]//2011 International Conference on Computer Vision. IEEE, 2011: 1995-2002. DOI: 10.1109/iccv.2011.6126471.

    [3]

    WANG W, SHEN J, PORIKLI F. Saliency-aware geodesic video object segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 3395-3402. DOI: 10.1109/cvpr.2015.7298961.

    [4]

    DUTT JAIN S, XIONG B, GRAUMAN K. Fusionseg: Learning to combine motion and appearance for fully automatic segmentation of generic objects in videos[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 3664-3673. DOI: 10.1109/cvpr.2017.228.

    [5]

    LI S, SEYBOLD B, VOROBYOV A, et al. Instance embedding transfer to unsupervised video object segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 6526-6535. DOI: 10.1109/cvpr.2018.00683.

    [6]

    LU X, WANG W, MA C, et al. See more, know more: Unsupervised video object segmentation with co-attention siamese networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 3623-3632. DOI: 10.1109/cvpr.2019.00374.

    [7] 许欣. 无监督学习的视频多目标分割算法研究[D]. 徐州: 中国矿业大学, 2021. DOI: 10.27623/d.cnki.gzkyu.2021.001191.
    [8] 成华阳. 基于高效深度学习的实时无监督视频目标分割算法研究[D]. 成都: 电子科技大学, 2022. DOI: 10.27005/d.cnki.gdzku.2022.002787.
    [9]

    CAELLES S, MANINIS K K, PONT-TUSET J, et al. One-shot video object segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 221-230. DOI: 10.1109/mmsp.2019.8901723.

    [10]

    TOKMAKOV P, ALAHARI K, SCHMID C. Learning video object segmentation with visual memory[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 4481-4490. DOI: 10.1109/iccv.2017.480.

    [11]

    CI H, WANG C, WANG Y. Video object segmentation by learning location-sensitive embeddings[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 501-516. DOI: 10.1007/978-3-030-01252-6_31.

    [12]

    OH S W, LEE J Y, XU N, et al. Video object segmentation using space-time memory networks[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 9226-9235. DOI: 10.1109/iccv.2019.00932.

    [13] 陈亚当, 赵翊冰, 吴恩华. 基于动态嵌入特征的鲁棒半监督视频目标分割[J]. 北京航空航天大学学报, 2024, 1-12. DOI: 10.13700/j.bh.1001-5965.2023.0354.

    CHEN Y D, ZHAO Y B, WU E H, et al. Robust semi-supervised video object segmentation with dynamic embedding[J]. Journal of Beijing University of Aeronautics and Astronautics, 2024, 1-12. DOI:10.13700/j.bh.1001-5965.2023.0354. (in Chinese).

    [14] 付利华, 赵宇, 姜涵煦, 等. 基于前景感知视觉注意的半监督视频目标分割[J]. 电子学报, 2022, 50(1): 195-206. DOI: 10.12263/DZXB.20201256.

    FU L H , ZHAO Y , JIANG H X , et al. Semi-Supervised video object segmentation based on foreground perception visual attention[J]. Acta Electonica Sinica, 2022, 50(1): 195-206. DOI:10.12263/DZXB.20201256. (in Chinese).

    [15] 李兰. 基于深度学习的半监督视频目标分割方法研究[D]. 成都: 电子科技大学, 2023. DOI: 10.27005/d.cnki.gdzku.2023.001778.
    [16]

    OH S W, LEE J Y, XU N, et al. Fast user-guided video object segmentation by interaction-and-propagation networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 5247-5256. DOI: 10.1109/cvpr.2019.00539.

    [17]

    HEO Y, JUN KOH Y, KIM C S. Interactive video object segmentation using global and local transfer modules[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, 2020, Proceedings, Part XVII 16. Springer International Publishing, 2020: 297-313. DOI: 10.1007/978-3-030-58520-4_18.

    [18]

    KHOREVA A, ROHRBACH A, SCHIELE B. Video object segmentation with referring expressions[C]//Computer Vision-ECCV Workshops. Munich, Germany, 2018, Proceedings Part Ⅳ. 2018: 7-12. DOI: 10.1007/978-3-030-11018-5_2.

    [19]

    SEO S, LEE J Y, HAN B. Urvos: Unified referring video object segmentation network with a large-scale benchmark[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XV 16. Springer International Publishing, 2020: 208-223. DOI: 10.1007/978-3-030-58555-6_13.

    [20]

    SIAM M, DORAISWAMY N, ORESHKIN B N, et al. Weakly supervised few-shot object segmentation using co-attention with visual and semantic embeddings[J]. Arxiv Preprint Arxiv: 2001.09540, 2020. DOI: 10.24963/ijcai.2020/120.

    [21] 唐子淑, 刘杰, 别术林. 基于CV模型的CT图像分割研究[J]. CT理论与应用研究, 2014, 23(2): 193−202.

    TANG Z S, LIU J, BIE S L. Study of CT image segmentation based on CV model[J]. CT Theory and Applications, 2014, 23(2): 193−202. (in Chinese).

    [22] 周茂, 曾凯, 杨奎, 等. 肺部CT图像分割方法研究[J]. CT理论与应用研究, 2018, 27(6): 683−691. DOI: 10.15953/j.1004-4140.2018.27.06.01.

    ZHOU M, CENG K, YANG K, et al. Research of lung segmentation based on CT image[J]. CT Theory and Applications, 2018, 27(6): 683−691. DOI: 10.15953/j.1004-4140.2018.27.06.01.

    [23] 邵叶秦, 杨新. 基于随机森林的CT前列腺分割[J]. CT理论与应用研究, 2015, 24(5): 647−655. DOI:10.15953/ j.1004-4140.2015.24.05.02.

    SHAO Y Q, YANG X. CT prostate segmentation based on random forest[J]. CT Theory and Applications, 2015, 24(5): 647−655. DOI: 10.15953/j.1004-4140.2015.24.05.02. (in Chinese).

    [24] 杨昌俊, 杨新. 基于图割与快速水平集的腹部CT图像分割[J]. CT理论与应用研究, 2011, 20(3): 291−300.

    YANG C J, YANG X. Abdominal CT image segmentation based on graph cuts and fast level set[J]. CT Theory and Applications, 2011, 20(3): 291−300.

    [25]

    BELLO I, ZOPH B, VASWANI A, et al. Attention augmented convolutional networks[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 3286-3295. DOI:10.1109/iccv.2019.00338. (in Chinese).

    [26]

    KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 2012, 25. DOI: 10.1145/3065386

    [27]

    HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735−1780. DOI: 10.1162/neco.1997.9.8.1735.

    [28]

    VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017, 30. DOI: 10.48550/arXiv.1706.03762.

    [29]

    PARMAR N, VASWANI A, USZKOREIT J, et al. Image transformer[C]//International Conference on Machine Learning. PMLR, 2018: 4055-4064. DOI: 10.48550/arXiv.1802.05751.

    [30]

    HOU R, CHANG H, MA B, et al. Cross attention network for few-shot classification[J]. Advances in Neural Information Processing Systems, 2019, 32. DOI: 10.48550/arXiv.1910.07677.

    [31]

    DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. Arxiv Preprint Arxiv: 1810.04805, 2018. DOI: 10.18653/v1/N19-1423.

    [32]

    BELLO I, ZOPH B, VASWANI A, et al. Attention augmented convolutional networks[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 3286-3295. DOI: 10.1109/ICCV.2019.00338.

    [33]

    ZHANG C, LIN G, LIU F, et al. Canet: Class-agnostic segmentation networks with iterative refinement and attentive few-shot learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 5217-5226. DOI: 10.1016/j.patcog.2021.108468.

    [34]

    DENG J, DONG W, SOCHER R, et al. Imagenet: A large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2009: 248-255. DOI: 10.1109/cvpr.2009.5206848.

    [35]

    HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 770-778. DOI: 10.1109/cvpr.2016.90

    [36]

    CHEN H, WU H, ZHAO N, et al. Delving deep into many-to-many attention for few-shot video object segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 14040-14049. DOI: 10.1109/cvpr46437.2021.01382.

    [37]

    ZHAO C, SHI S, HE Z, et al. Spatial-temporal V-Net for automatic segmentation and quantification of right ventricle on gated myocardial perfusion SPECT images[J]. Medical Physics, 2023, 50(12): 7415−7426. DOI: 10.1002/mp.16805.

    [38]

    RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation[C]//Medical Image Computing and Computer-assisted Intervention-MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III 18. Springer International Publishing, 2015: 234-241. DOI: 10.1007/978-3-319-24574-4_28.

  • 期刊类型引用(0)

    其他类型引用(1)

图(8)  /  表(5)
计量
  • 文章访问数:  147
  • HTML全文浏览量:  27
  • PDF下载量:  25
  • 被引次数: 1
出版历程
  • 收稿日期:  2024-02-26
  • 修回日期:  2024-03-23
  • 录用日期:  2024-04-07
  • 网络出版日期:  2024-05-13

目录

/

返回文章
返回
x 关闭 永久关闭