面向判别性低秩回归模型的优化模型方法研究

王婷 王威廉 于传波

引用本文:
Citation:

面向判别性低秩回归模型的优化模型方法研究

    作者简介: 王婷(1988−),女,河北人,硕士,研究方向为模式识别、图像处理、深度学习,Email:wangting611724@126.com;
    通讯作者: 王威廉, wlwang_47@126.com
  • 中图分类号: TP391.41

Discriminative low-rank regression model research based on optimized model

    Corresponding author: WANG Wei-lian, wlwang_47@126.com ;
  • CLC number: TP391.41

  • 摘要: 针对传统的回归模型方法忽略标签信息利用的缺点,提出了一种优化模型的判别性低秩回归模型方法,该方法使得标签信息利用更加充分. 通过预先设置模型目标矩阵,结合局部优化和全局优化的方式改进损失函数,然后利用增广拉格朗日方法求解目标函数,在上一步求解函数的基础上得到新的模型目标矩阵,并通过线性回归模型计算最终的映射矩阵. 这种通过优化模型目标值的方式,提高了低秩回归模型的泛化能力. 最后,通过对比实验验证了所提方法的有效性,实验结果表明,与其他几种低秩回归模型方法相比,本文算法的识别率更高.
  • 图 1  实验数据库样本示图

    Figure 1.  Samples of experimental databases

    图 2  低秩大小对识别率影响曲线图

    Figure 2.  Graph of the effect of low rank size on recognition rate

    表 1  AR人脸数据库识别率实验结果

    Table 1.  Experimental results of recognition rate on AR face database

    算法6train8train10train
    PCA 0.3475 0.3917 0.4269
    NPE 0.8443 0.8655 0.8937
    LPP 0.8829 0.9164 0.9417
    DLA 0.9089 0.9326 0.9551
    CRC 0.9031 0.9348 0.9545
    LRLR 0.8317 0.8331 0.8711
    LRRR 0.9239 0.9501 0.9693
    DENLR 0.9227 0.9478 0.9667
    本文方法 0.9360 0.9572 0.9749
    下载: 导出CSV

    表 2  Oxford 102 Flowers数据库识别率实验结果

    Table 2.  Experimental results of recognition rate on Oxford 102 Flowers database

    算法5train10train15train
    PCA0.69590.77030.8509
    NPE0.80330.85920.8783
    LPP0.80510.86700.8885
    DLA0.85840.91570.9370
    CRC0.85310.90400.9211
    LRLR0.80660.84070.8645
    LRRR0.86010.92600.9492
    DENLR0.86080.92920.9521
    本文方法0.88110.93720.9624
    下载: 导出CSV

    表 3  Caltech-256数据库识别率实验结果

    Table 3.  Experimental results of recognition rate on Caltech-256 database

    算法10train15train20train
    PCA0.67950.73250.7574
    NPE0.76560.792508004
    LPP0.77380.80640.8190
    DLA0.80270.83160.8344
    CRC0.81770.83770.8461
    LRLR0.83240.86300.8743
    LRRR0.83240.86730.8743
    DENLR0.82780.86730.8828
    本文方法0.84270.87500.8850
    下载: 导出CSV

    表 4  算法运行时间对比(训练+测试)/s

    Table 4.  Comparison of running time of each algorithm(training time & testing time) /s

    算法6train8train10train
    PCA53.976.7103.3
    NPE137.5149.8226.8
    LPP103.9105.8167.7
    DLA622.41101.12204.1
    CRC33.153.790.5
    LRLR2.15.910.8
    LRRR2.25.611.1
    DENLR1.72.93.9
    本文方法3.66.811.5
    下载: 导出CSV
  • [1] Lin Z, Ganesh A, Wright J, et al. Fast convex optimization algorithms for exact recovery of a corrupted low-rank matrix[J]. Journal of the Marine Biological Association of the Uk, 2009, 56(3): 707-722.
    [2] Huang S Y, Yeh Y R, Eguchi S. Ro-bust principal component analysis[J]. Journ-al of the Acm, 2009, 58(3): 1-37.
    [3] Cai X, Ding C, Nie F, et al. On the equivalent of low-rank linear regressions a-nd linear discriminant analysis based regre-ssions[C]. The 19th ACM SIGKDD inter-national conference, Chicago, Illinois, USA, 2013: 1 124-1 132.
    [4] Lisha Chen, Jianhua Z. Huang. Sparse reduced-rank regression for simultaneous dimension reduction and variable selection[J]. Journal of the american statistical ass-ociation, 2012, 107(500): 1 533-1 545. DOI:  10.1080/01621459.2012.734178.
    [5] Zhang T, Tao D, Li X, et al. Patch Alignment for dimensionality reduction[J]. IEEE Transactions on Knowledge & Data Engineering, 2009, 21(9): 1 299-1 313.
    [6] Yang W K, Wang Z Y, Sun C Y. A collaborative representation based projections method for feature extraction[J]. Pattern Recognition, 2015, 48(1): 20-27. DOI:  10.1016/j.patcog.2014.07.009.
    [7] Huang K K, Dai D Q, Ren C X. Regularized coplanar discriminant analysis for dimensionality reduction[J]. Pattern Recognition, 2017, 62(Complete): 87-98.
    [8] Torre D L, Fernando. A least-squares framework for component analysis[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012, 34(6): 1 041-1 055.
    [9] Xiang S, Nie F, Meng G, et al. Discri-minative least squares regression for multi-class classification and feature selection[J]. IEEE Transactions on Neural Networks and Learning Systems, 2012, 23(11): 1 738. DOI:  10.1109/TNNLS.2012.2212721.
    [10] Li Y F, Ng om, et al. Nonnegative least-squares methods for the classification of high-dimensional biological data[J]. IEEE/ACM Transactions on Computational Biology & Bioinformatics, 2013, 10(2): 447-456.
    [11] Zhang Z, Lai Z H, Xu Y. Discrimin-ative elastic-net regularized linear regressi-on[J]. IEEE Transactions on Image Proces-sing A Publication of the IEEE Signal Pr-ocessing Society, 2017, 26(3): 1 466-1 481. DOI:  10.1109/TIP.2017.2651396.
    [12] Wright J, Yang A Y, Ganesh A, et al. Robust face recognition via sparse represe-ntation[J]. IEEE Transactions on Pattern A-nalysis and Machine Intelligence, 2009, 31(2): 210. DOI:  10.1109/TPAMI.2008.79.
    [13] Zhang L, Yang M, Feng X C. Sparse r-epresentation or collaborative representation: Which helps face recognition?[C]. Interna-tional Conference on Computer Vision, Barcelona, Spain, 2011: 471-478.
    [14] Wright J, Peng Y G, Ma Y. Robust principal component analysis: exact recovery of corrupted low-rank mall-ices by convex optimization[C]. 23rd Annual Conference on Neural Information Processing Systems, Vancouver, Canada, 2009: 2 080-2 088.
    [15] Tan H, Cheng B, Feng J, et al. Low-n-rank tensor recovery based on multi-linear augmented Lagrange multiplier method[J]. Neurocomputing, 2013, 119(16): 144-152.
    [16] Phillips P J, Moon H. The FERET evaluation methodology for face-recognition algorithms[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(10): 1 090-1 104. DOI:  10.1109/34.879790.
    [17] Nilsback M E, Zisserman A. Delving deeper into the whorl of flower segmentation[J]. Image and Vision Computing, 2010, 28(6): 1 049-1 062. DOI:  10.1016/j.imavis.2009.10.001.
    [18] Griffin G, Holub A, Perona P. Caltech-256 Object Category Dataset[R]. Pasadena (California): Caltech Technical Report. 2007.
    [19] M. Turk, A. Pentland. Eigenfaces for recognition[J]. J. Cogn. Neurosci, 1991, 3(1): 71-86. DOI:  10.1162/jocn.1991.3.1.71.
    [20] He X F, Cai D, Yan S, et al. Neighborhood Preserving Embedding[C]. IEEE International Conference on Computer Vision, Beijing, China, 2005: 1 208-1 213.
    [21] He X F, Yan S C, Hu Y X. Face recognition using Laplacian faces[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2005, 27(3): 328.
    [22] Simonyan K and Zisserman A. Very deep convolutional networks for large-scale image recognition[C]. Proceedings of the International Conference on Learning Representations(ICLR), Banff, Canada, 2014.
    [23] 彭叶, 王顺芳, 丁海燕. 改进的小波分解、Fisher脸及几何特征相结合的人脸识别方法[J]. 云南大学学报: 自然科学版, 2011, 33(S2): 215-219.

    An improved method of face recognition combined with wavelet, Fisher face and geometrical characteristics[J]. Journal of Yunnan University: Natural Sciences Edition, 2011, 33(S2): 215-219.
    [24] 刘平, 王顺芳. 一种局部保留C2DPCA人脸特征提取方法[J]. 云南大学学报: 自然科学版, 2011, 33(S2): 206-209.

    A locality preserving C2DPCA facial feature extraction method[J]. Journal of Yunnan University: Natural Sciences Edition, 2011, 33(S2): 206-209.
  • [1] 余鹏飞刘兵 . 改进的ART1网络及其在英文字符识别中的应用. 云南大学学报(自然科学版),
    [2] 杨雨薇张亚萍 . 一种改进的SIFT图像检测与特征匹配算法. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20160731
    [3] 诸薇娜张学杰 . 面孔认知:概念、问题及其研究进展. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20130221
    [4] 阮春生徐若飞和智君徐常亮张鸽陈穗云方力 . 云南省不同烟叶的综合评价研究. 云南大学学报(自然科学版),
    [5] 阮春生张强陈林丁波洋方力陈穗云 . 不同烟草品种紫外-可见光谱特征的提取研究. 云南大学学报(自然科学版),
    [6] 丁婷婷聂仁灿周冬明 . 改进型稀疏表示的图像分类方法*. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20170583
    [7] 黄琛李文婷张旭孙悦魏浩然 . 城市供水管网片区用水异常模式识别*. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20180415
    [8] 李建雄冯鑫史伟光粘华 . 基于排队理论的标签识别流程优化研究. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20150438
    [9] 张芳娟 . k-Jordan可乘映射. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20120277
    [10] 陈励王学仁 . 回归函数断点的小波识别方法. 云南大学学报(自然科学版),
    [11] 翟伟斌陈晓舟曹克非 . 四峰映射分维的整体规律. 云南大学学报(自然科学版),
    [12] 汪金花曹兰杰郭云飞赵礼剑吴兵 . 铁尾矿高−多光谱遥感特征分析与信息识别. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20180656
    [13] 郑喜印 . 赋范空间上凸多值映射的误差界. 云南大学学报(自然科学版),
    [14] 许传云周忠 . 双峰映射的一类特殊符号乘法. 云南大学学报(自然科学版),
    [15] 张川曹克非 . 双降型双峰映射的规范星花积. 云南大学学报(自然科学版),
    [16] 李红平陈祥望徐丹 . 基于双边滤波的HDR图像色调映射算法. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.2013051a
    [17] 方刚熊江吴鸿娟钟静 . 基于区间映射的约束拓扑关联规则挖掘. 云南大学学报(自然科学版),
    [18] 刘琰煜周冬明聂仁灿侯瑞超丁斋生 . 低秩表示和字典学习的红外与可见光图像融合算法. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20180753
    [19] 王麟刘毅鹏汪健丁宇超杨若文 . 5个CMIP5模式对低纬高原气温的模拟和预估. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20150378
    [20] 张芳娟 . 素*-环上非线性保XY+YX*积映射. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20130743
  • 加载中
图(2)表(4)
计量
  • 文章访问数:  208
  • HTML全文浏览量:  190
  • PDF下载量:  10
  • 被引次数: 0
出版历程
  • 网络出版日期:  2020-06-08

面向判别性低秩回归模型的优化模型方法研究

    作者简介:王婷(1988−),女,河北人,硕士,研究方向为模式识别、图像处理、深度学习,Email:wangting611724@126.com
    通讯作者: 王威廉, wlwang_47@126.com
  • 1. 云南大学滇池学院 理工学院 云南 昆明 650228
  • 2. 云南大学 信息学院 云南 昆明 650500
  • 3. 天津大学 自动化学院 天津 300401

摘要: 针对传统的回归模型方法忽略标签信息利用的缺点,提出了一种优化模型的判别性低秩回归模型方法,该方法使得标签信息利用更加充分. 通过预先设置模型目标矩阵,结合局部优化和全局优化的方式改进损失函数,然后利用增广拉格朗日方法求解目标函数,在上一步求解函数的基础上得到新的模型目标矩阵,并通过线性回归模型计算最终的映射矩阵. 这种通过优化模型目标值的方式,提高了低秩回归模型的泛化能力. 最后,通过对比实验验证了所提方法的有效性,实验结果表明,与其他几种低秩回归模型方法相比,本文算法的识别率更高.

English Abstract

  • 低秩在计算机视觉领域应用广泛,低秩可以用于视频处理中的前后背景的分离[1],也可以用于图像处理中去除图像噪声[2],低秩回归模型可用于模式识别[3-4]等等. 回归模型主要是根据拟合建立线性关系求解映射矩阵,并在映射的空间里面对数据进行分类. 通俗的来讲,低秩回归模型和子空间方法有一定的联系,都是将高维度的数据通过某种映射关系投影到更能反映数据结构的低维空间中,不同的是低秩回归模型的映射子空间是固定的,而传统的子空间学习方法如判别性局部对齐(discriminative locality alignment,DLA)[5]、基于协同表示的投影(collaborative representation based projections,CRP)[6]、正则化共面判别分析(regularized coplanar discriminant Analysis,RCDA)[7]等可以投影到多个低维的子空间中,并选取其中合适的一个子空间.

    最小二乘回归(least square regression, LSR)[8]方法是较早的用于模式分类的回归模型之一,模型相对简单. 随着相关理论的不断完善,越来越多的模型也相继被提出,比如判别性最小二乘回归(discriminative least square regression, DLSR)[9]、非负最小二乘(Nonnegative least squares,NLS)[10].

    由于图片包含了噪声,低秩方法可以有效恢复图像,将噪声、阴影部分从中去除,如鲁棒性主成分分析(robust principal component analysis,RPCA)[2]可以将图片分为“干净图片”和“噪声图片”. 基于相似的原理,同类别的样本数据而具有一定的关联性,不同类别之间区分性较大,通过低秩最小化可以更好的寻找数据的内部结构,对于分类识别具有较好的帮助. 低秩线性回归(LRLR)[3]将低秩和回归模型巧妙的结合在一起,提取数据矩阵的结构信息,减少无用信息,然而LRLR会产生较严重的过拟合现象,导致模型的不稳定性增强. row-rank ridge regression (LRRR)[3]、判别性弹性网正则化线性回归DENLR[11]和边缘弹性网正则化线性回归(marginalized elastic-net regularized linear regression, MENLR)[11]通过正则化的方式有效的缓解了过拟合现象. 但是,上述的几种方法的标签信息只是在设置目标值的时候用到过,导致标签信息利用不充分. LRLR、LRRR方法回归模型的目标值都是人为定义的,并不具有实际的参考性,虽然DENLR通过弹性网络的方式来迭代优化目标值,但是泛化能力不足.

    本文提出的优化模型的判别性低秩回归模型方法充分的利用标签信息,并通过优化模型目标值的方式创新性的提高了低秩回归模型的泛化能力. 首先,预先设置模型目标矩阵;其次,结合局部优化和全局优化的方式改进损失函数;然后,利用增广拉格朗日方法求解目标函数;最后,在上一步求解函数的基础上得到新的模型目标矩阵,并通过线性回归模型计算最终的映射矩阵.

    • 定义数据集表示为 ${{X}}$,假设数据集中有C类样本,第 $i$ 类样本个数表示为 ${N_i}$,第 $i$ 类第 $j$ 个样本为 ${{{x}}_{i,j}} \in {R^{d \times 1}}$. 那么该数据集中的样本个数 $N = {N_1}{\rm{ + }}{N_2} + \cdots + {N_C}$,第 $i$ 类样本可以表示为:${{{X}}_i} = \left[ {{{{x}}_{i,1}},{{{x}}_{i,2}}, \cdots ,{{{x}}_{i,{N_i}}}} \right] \in {R^{d \times {N_i}}}$,数据集 ${{X}} = \left[ {{{{X}}_1},{{{X}}_2}, \cdots ,} \right. \left.{{{{X}}_C}} \right] = \left[ {{{{x}}_1},{{{x}}_2}, \cdots ,{{{x}}_N}} \right] \in {R^{d \times N}}$.

    • 线性回归模型的表达方式与稀疏表示分类器(sparse representation based classification,SRC)1112[12]和协同表示分类器(collaborative representation based classification method,CRC) 1213[13]有相同之处,区别在于线性回归回归到目标矩阵,而SRC和CRC是真实的数据样本. 线性回归的数学表示如下:

      $\mathop {\min }\limits_{{D}} \left\| {{{Y}} - {{{X}}^T}{{D}}} \right\|_F^2$

      式中的矩阵 ${{Y}} \in {R^{N \times C}}$ 即目标矩阵,每一行都只有一个1,剩余C-1个维度都是0. 而1所在的k的位置则表示属于第k类. 式中的 ${{D}} \in {R^{d \times K}}$ 即需要求解的映射矩阵,式中的 $F$ 即范数,正如前面所提到的,回归模型中的子空间维度是确定的而不像流形学习中的子空间学习方法,因此不需要寻找合适的低维子空间.

    • 与1.1节提到的线性回归模型相比,低秩回归模型增加了低秩限制条件. 考虑到同一类的样本会有很多的相似之处,而不同类之间区别性较大,低秩约束可以有效的减少数据的无用信息,更好的表示数据的内在结构.

      低秩线性回归LRLR在线性回归模型的基础上添加了低秩限制:

      $\mathop {\min }\limits_{{D}} \left\| {{{Y}} - {{{X}}^T}{{D}}} \right\|_F^2{\rm{ , }}s.t.{\rm{ }}rank\left( {{D}} \right) < s$

      式中的 $s < \min (N,K)$ 表示的是低秩的大小取值. 但是,LRLR模型容易产生过拟合现象. LRRR在LRLR的基础之上增加了正则化,有效的缓解了该问题:

      $\mathop {\min }\limits_{{D}} \left\| {{{Y}} - {{{X}}^T}{{D}}} \right\|_F^2{\rm{ + }}\lambda \left\| D \right\|_F^2{\rm{ , }}s.t.{\rm{ }}rank\left( {{D}} \right) < s$

      式中的 $\lambda $ 主要有两点作用,一是使得模型更加稳定,二是平衡前后两个矩阵值.

      由于式(2)、(3)都有低秩限制条件,属于非凸、非光滑函数,导致求解不方便. 在特定条件下,低秩限制条件可以由核范数替代[14]. 所以(2)、(3)式可以分别改写为公式(4)、(5):

      $\mathop {\min }\limits_{{D}} \left\| {{{Y}} - {{{X}}^T}{{D}}} \right\|_F^2{\rm{ + }}\lambda {\left\| {{D}} \right\|_*}$

      $\mathop {\min }\limits_{{D}} \left\| {{{Y}} - {{{X}}^T}{{D}}} \right\|_F^2{\rm{ + }}{\lambda _1}{\left\| {{D}} \right\|_*} + {\lambda _2}\left\| {{D}} \right\|_F^2$

    • 实际的数据集中的样本都会有一定的相似性,虽然回归模型最终是要回归到目标值矩阵,但是如果将同类和不同类别之间的样本预先处理的话,对回归模型会有很大的帮助. 同类样本返回的回归值理论上是一样的,所以如果同类样本之间更相近的话,可以使得回归模型更加可靠.

      以样本 ${{{x}}_i}$ 为例,可以计算出训练集中与 ${{{x}}_i}$ 最近的样本并将其分为两大类,一类是同类的样本,另一类是不同类的样本. 选出同类中最近的 ${k_1}$ 个样本,表示为:${{{x}}_i} = \left[ {{{x}}_i^{{{\rm{s}}_{\rm{1}}}},{{x}}_i^{{{\rm{s}}_{\rm{2}}}}, \cdots ,{{x}}_i^{{{\rm{s}}_{{{\rm{k}}_{\rm{1}}}}}}} \right]$,不同类别中最近的 ${k_2}$ 个样本 ${{{x}}_i} = \left[ {{{x}}_i^{{{\rm{d}}_{\rm{1}}}},{{x}}_i^{{{\rm{d}}_{\rm{2}}}}, \cdots ,{{x}}_i^{{{\rm{d}}_{{{\rm{k}}_{\rm{2}}}}}}} \right]$. 所以 ${{{x}}_i}$ 的局部块表示为:$\mathop {{{{x}}_i}}\limits^ \sim = \left[ {{{x}}_i^{{{\rm{s}}_{\rm{1}}}},{{x}}_i^{{{\rm{s}}_{\rm{2}}}}, \cdots ,{{x}}_i^{{{\rm{s}}_{{{\rm{k}}_{\rm{1}}}}}},{{x}}_i^{{{\rm{d}}_{\rm{1}}}},{{x}}_i^{{{\rm{d}}_{\rm{2}}}}, \cdots ,{{x}}_i^{{{\rm{d}}_{{{\rm{k}}_{\rm{2}}}}}}} \right]$$\mathop {{{{x}}_i}}\limits^ \sim $ 局部块映射到子空间的表达式可以为:$\mathop {{{{y}}_i}}\limits^ \sim = \left[ {{{y}}_i^{{{\rm{s}}_{\rm{1}}}},{{y}}_i^{{{\rm{s}}_{\rm{2}}}}, \cdots ,{{y}}_i^{{{\rm{s}}_{{{\rm{k}}_{\rm{1}}}}}},{{y}}_i^{{{\rm{d}}_{\rm{1}}}},{{y}}_i^{{{\rm{d}}_{\rm{2}}}}, \cdots ,{{y}}_i^{{{\rm{d}}_{{{\rm{k}}_{\rm{2}}}}}}} \right]$.

      在低维空间中,理想的情况就是同类样本尽可能的靠近,与此同时,不同类的样本要尽可能的远离:

      $\arg \mathop {\min }\limits_{\mathop {{{{y}}_i}}\limits^ \sim } \sum\limits_{m = 1}^{{k_1}} {\left\| {{{{y}}_i} - {{y}}_i^{{s_m}}} \right\|_{}^2} - \beta \sum\limits_{n = 1}^{{k_2}} {\left\| {{{{y}}_i} - {{y}}_i^{{d_n}}} \right\|_{}^2} $

      式(6)可以变为:

      $\begin{array}{l} \arg \mathop {\min }\limits_{\mathop {{{{y}}_i}}\limits^ \sim } \displaystyle\sum\limits_{m = 1}^{{k_1}} {tr[({{{y}}_i} - {{y}}_i^{{s_m}})(} {{{y}}_i} - {{y}}_i^{{s_m}}{)^T}] \\ - \beta \displaystyle\sum\limits_{n = 1}^{{k_2}} {tr[({{{y}}_i} - {{y}}_i^{{d_n}})} {({{{y}}_i} - {{y}}_i^{{d_n}})^T}]{\rm{ = }}\arg \mathop {\mathop {\min }\limits_{\mathop {{{{y}}_i}}\limits^ \sim } tr(\mathop {{{{y}}_i}}\limits^ \sim }\limits_{} {{{L}}_i}\mathop {{{{y}}_i}^T}\limits^ \sim ) \\ \end{array} $

      式(7)中的 ${{{L}}_i} = \left[ {\begin{array}{*{20}{c}} {\sum {{{{\omega }}_i}} }&{ - {{\omega }}_i^T} \\ { - {{{\omega }}_i}}&{diag\left( {{{{\omega }}_i}} \right)} \end{array}} \right]$,其中 ${{{\omega }}_i}{\rm{ = }}{\left( {\underbrace {1,1, \cdots ,1}_{{k_1}},\underbrace {\beta ,\beta , \cdots ,\beta }_{{k_2}}} \right)^T}$$\;\beta $ 即权重因子,$tr$$($$)$ 即矩阵的迹.

      对于每一个 $\mathop {{{{y}}_i}}\limits^ \sim $,都可以通过一个选择矩阵来表示:$\mathop {{{{y}}_i}}\limits^ \sim {\rm{ = }}{{Y}}{{{S}}_i}$,其中 ${{Y}}'{\rm{ = }}\left[ {{{{y}}_1},{{{y}}_2}, \cdots ,{{{y}}_N}} \right]$${({{{S}}_i}{\rm{)}}_{pq}}{\rm{ = }} \left\{\!\!\!\! {\begin{array}{*{20}{l}} 1,p = {{{F}}_i}(q)\\ 0,{\text{其他情况}} \end{array}} \right. \in {R^{N \times (1 + {k_1} + {k_2})}}$${{{F}}_i}{\rm{ = }}\left[ {i,{i^{{s_1}}}, \cdots ,{i^{{s_{{k_1}}}}},{i^{{d_1}}}, \cdots ,}\right. $$\left.{{i^{{d_{{k_2}}}}}} \right] $

      对于数据集中全部样本的损失函数可以表示为:

      $\begin{split} & \arg \min \sum\limits_{i = 1}^N {{{Y}}'} {{{S}}_i}{{{L}}_i}{{{S}}_i}^T{{Y}}{'^T} = \arg \min tr({{Y}}'{{LY}}{'^T}) \\ & = \arg \min tr({{{D}}^T}{{XL}}{{{X}}^T}{{D}}) \\ \end{split} $

    • 目前大多数的低秩回归模型方法的标签信息只是在设置目标值的时候用到过,导致标签信息利用不充分,介于这种情况,本文将局部优化与低秩模型相结合,极大程度上利用了标签的信息. 本文所提方法的表示如下:

      $ \mathop {\min }\limits_{{D}} \left\| {{{Y}} - {{{X}}^T}{{D}}} \right\|_F^2{\rm{ + 2}}{\lambda _1}{\left\| {{D}} \right\|_*} + {\lambda _2}tr({{{D}}^T}{{XL}}{{{X}}^T}{{D}}) $

      假设 ${{D}} = {{AB}}{\rm{ ,(}}{{A}} \in {R^{d \times s}},{{B}} \in {R^{s \times K}})$,文献[11]证明了 ${\left\| {{D}} \right\|_*} = \mathop {\min }\limits_{{{D = AB}}} {\left\| {{A}} \right\|_F}{\left\| {{B}} \right\|_F} = \mathop {\min }\limits_{{{D = AB}}} \dfrac{1}{2}(\left\| {{A}} \right\|_F^2 + \left\| {{B}} \right\|_F^2)$,所以公式(9)可以变成:

      $ \begin{split} &\mathop {\min }\limits_{{D}} \left\| {{{Y}} - {{{X}}^T}{{D}}} \right\|_F^2{\rm{ + }}{\lambda _1}\left( {\left\| {{A}} \right\|_F^2 + \left\| {{B}} \right\|_F^2} \right) + \\ & {\lambda _2}tr({{{D}}^T}{{XL}}{{{X}}^T}{{D}}){\rm{ }}s.t.{\rm{ }}{{D}} = {{AB}} \\ \end{split} $

    • 因为目标函数中附有限制条件,所以直接求解不太方便,可以通过增广拉格朗日方法[15]进行求解,其中 ${{M}}$ 表示的是拉格朗日乘子:

      $\begin{split} & \mathop {\min }\limits_{{D}} \left\| {{{Y}} - {{{X}}^T}{{D}}} \right\|_F^2{\rm{ + }}{\lambda _1}\left( {\left\| {{A}} \right\|_F^2 + \left\| {{B}} \right\|_F^2} \right) + \\ & {\lambda _2}tr({{{D}}^T}{{XL}}{{{X}}^T}{{D}}) + tr\left[ {{{{M}}^T}({{D}} - {{AB}})} \right] +\\ &{\lambda _3}\left\| {{{D}} - {{AB}}} \right\|_F^2 \\ \end{split} $

      假设 ${{{M}}^K}$ 是当前K轮迭代对偶问题的最优解. 更新A矩阵,保持其他变量不变:

      $\begin{split} f({{A}}) =& \mathop {\min }\limits_{{A}} {\lambda _1}\left\| {{A}} \right\|_F^2 + tr\left[ {{{{M}}^T}({{D}} - {{AB}})} \right] \\ &+ {\lambda _3}\left\| {{{D}} - {{AB}}} \right\|_F^2 \\ {\rm{= }}&\mathop {\min }\limits_{{A}} {\lambda _1}\left\| {{A}} \right\|_F^2 + {\lambda _3}\left\| {{{D}} - {{AB}} + \frac{{{M}}}{{2{\lambda _3}}}} \right\|_F^2 \\ \end{split} $

      $\frac{{\partial f({{A}})}}{{\partial {{A}}}} = 2{\lambda _1}{{A}} + 2{\lambda _3}\left( {{{D}} - {{AB}} + \frac{{{M}}}{{2{\lambda _3}}}} \right)\left( { - {{{B}}^T}} \right)$

      ${{{A}}^{K + 1}} = {\lambda _3}\left( {{{{D}}^K} + \frac{{{{{M}}^K}}}{2}} \right){\left( {{{{B}}^K}} \right)^T}{\left( {{\lambda _1}{{I}} + {\lambda _3}{{{B}}^K}{{\left( {{{{B}}^K}} \right)}^T}} \right)^{ - 1}}$

      同理更新B矩阵,保持其他变量不变:

      $f({{B}}) = \mathop {\min }\limits_{{B}} {\lambda _1}\left\| {{B}} \right\|_F^2 + {\lambda _3}\left\| {{{D}} - {{AB}} + \frac{{{M}}}{{2{\lambda _3}}}} \right\|_F^2$

      可得更新后的B矩阵:

      ${{{B}}^{K + 1}} = {\lambda _3}\left( {{{{D}}^K} + {{\frac{{{M}}}{2}}^K}} \right){\left( {{{{B}}^K}} \right)^T}{\left( {{\lambda _1}{{I}} + {\lambda _3}{{{B}}^K}{{\left( {{{{B}}^K}} \right)}^T}} \right)^{ - 1}}$

      更新D矩阵,保持其他变量不变:

      $\begin{split} f({{D}}) =& \mathop {\min }\limits_{{D}} \left\| {{{Y}} - {{{X}}^T}{{D}}} \right\|_F^2 + {\lambda _2}tr\left( {{{{D}}^T}{{XL}}{{{X}}^T}{{D}}} \right) \\ &+ {\lambda _3}\left\| {{{D}} - {{AB}} + \frac{{{M}}}{{2{\lambda _3}}}} \right\|_F^2 \\ \end{split} $

      可得更新后的D矩阵:

      $\begin{split} {{{D}}^{K + 1}} =& {\left( {{{X}}{{{X}}^T} + {\lambda _2}{{XL}}{{{X}}^T} + {\lambda _3}{{I}}} \right)^{ - 1}}\\ &*\left( {{{XY}} + {\lambda _3}{{{A}}^K}{{{B}}^K} - \frac{{{{{M}}^K}}}{2}} \right)\end{split}$

      更新M矩阵:

      ${{{M}}^{K + 1}} = {{{M}}^K} + {\lambda _3}\left( {{{{D}}^K} - {{{A}}^K}{{{B}}^K}} \right)$

    • LRLR和LRRR算法除了标签信息利用不充分之外,其回归的目标值都是预先设置的. DENLR算法通过弹性网络的方式有效的解决了目标值预先设置的问题,但是需要通过迭代优化的方式来优化目标值,且泛化能力不足. 本文采用简单的方式较好的解决其中不足. 通过2.3节,可以得到映射矩阵D,本文将 ${{{X}}^T}{{D}}$ 替代原来的目标回归矩阵Y. 因为这里求得的目标回归值对实际数据的回归具有很好的泛化能力,所以 ${{{X}}^T}{{D}}$ 作为回归矩阵更优.

      $\arg \mathop {\min }\limits_{{U}} \left\| {{{{X}}^T}{{D}} - {{{X}}^T}{{U}}} \right\|_F^2 + \lambda \left\| {{U}} \right\|_F^2$

      求得最终的映射矩阵 ${{U}} = {\left( {{{X}}{{{X}}^T} + \lambda {{I}}} \right)^{ - 1}} \left( {{{X}}{{{X}}^T}{{D}}} \right)$.

      本文算法详细步骤如下:

      步骤1:输入训练样本 ${{X}} \in {R^{d \times N}}$ 及对应的标签矩阵 ${{Y}} \in {R^{N \times K}}$,LSR初始化ABD

      步骤2:

      for K=1:n

       利用公式(14)更新A矩阵

       利用公式(16)更新B矩阵

       利用公式(18)更新D矩阵

       更新拉格朗日乘子M

      end

      步骤3::${{{X}}^T}{{D}}$ 替代模型目标值,并用公式(20)求解最终的矩阵U

      步骤4:测试数据通过映射矩阵U投影到低维空间,在低维空间中用最近邻分类器分类

    • 为了验证本文所提算法的可靠性,本文方法与其他8种对比方法在AR人脸数据库[16]、Oxford 102 Flowers数据库[17]、Caltech-256数据库[18]进行了实验. 作对比的八种方法中有四种是经典的流形学习方法,分别是PCA[19]、NPE[20]、LPP[21]、DLA[5],其中除了PCA是无监督方法外,另外三种采用的是监督学习. 此外,对比方法中还有CRC[13],以及低秩回归模型中的LRLR[3]、LRRR[11]、DENLR[11]算法. 本文实验结果均是随机选取训练样本,并取10次运行结果的平均值作为最终的识别率. 实验中数据均先用PCA做预处理,并保存98%的能量;低秩相关算法实验中低秩的选择为s=$K$;本文实验的运行环境为Inter(R) Core(TM) i7-4500U CPU @ 1.80 GHZ 2.40 GHZ, 8.00 GB 内存,Windows 8操作系统,软件平台为MATLAB R2014a.

    • AR人脸数据由126个人组成,其中每个人都有26张人脸图片,每人的人脸照片包括光照变化的14张,以及围巾、墨镜遮挡的12张. 实验中选择100人并将图片的像素调整为b32×32. 选取的部分样本图片可以见图1(a). 该数据库中的实验部分是随机的,分别随机选取每人的6、8、10张图片作训练集,剩余图片作测试. 所提算法参数设置如下:$ {\lambda _1}{\rm{ = }}0.01,{\lambda _2}{\rm{ = }}0.001, {\lambda _3}{\rm{ = }}0.01,\lambda {\rm{ = }}0.01,{k_1} = {k_2} = 4,\omega {\rm{ = - }}2. $ AR人脸数据库实验结果见表1.

      图  1  实验数据库样本示图

      Figure 1.  Samples of experimental databases

      算法6train8train10train
      PCA 0.3475 0.3917 0.4269
      NPE 0.8443 0.8655 0.8937
      LPP 0.8829 0.9164 0.9417
      DLA 0.9089 0.9326 0.9551
      CRC 0.9031 0.9348 0.9545
      LRLR 0.8317 0.8331 0.8711
      LRRR 0.9239 0.9501 0.9693
      DENLR 0.9227 0.9478 0.9667
      本文方法 0.9360 0.9572 0.9749

      表 1  AR人脸数据库识别率实验结果

      Table 1.  Experimental results of recognition rate on AR face database

      表1中的识别率数据显示了本文方法较其他几种在识别率上是占优势的,对比方法中PCA、NPE、LPP、DLA方法是经典的子空间学习方法,由于不知道在什么维度取得最高识别效果,实验中选择的是各方法的最高识别率. 本文选取其为了了解低秩的取值大小对低秩回归模型的影响,以6train实验为例,图2画出了随着低秩大小取值改变对LRLR、LRRR、DENLR及本文方法识别率曲线变化情况.

      图  2  低秩大小对识别率影响曲线图

      Figure 2.  Graph of the effect of low rank size on recognition rate

      图2中,我们可以发现,低秩大小的取值情况对识别率影响几乎是不变的,当然从侧面直观的反映出本文提出方法在识别率上要优于其他低秩回归模型方法.

    • Oxford 102 Flowers共有102种不同类型的花,每一类花都至少有40张图片,共计8189张图片. 由于花的类型相近,且每种花具有不同的大小、光照、样式变化,所以该数据库在图像识别领域具有一定的挑战性. 图1(b)是Oxford 102 Flowers数据库部分样本图片. 本文选取每种花40张图片作为子数据集,共计4080张图片用于实验. 该数据库先用VGG-verydeep-19提取了VGG19特征[22],作为数据向量. 实验分别随机选取每类花的5、10、15张图片作为训练集,剩余的图片用作测试,本文方法在改数据库中的实验参数设置如下:$ {\lambda _1}{\rm{ = }}0.01,{\lambda _2}{\rm{ = }}0.001,{\lambda _3}{\rm{ = }}0.01, \lambda {\rm{ = }}0.01, {k_1} = {k_2} = 4,\omega {\rm{ = - 1}}{\rm{.}} $ 与上一实验参数设置基本相似,改动不大. Oxford 102 Flowers数据库实验结果如表2所示.

      算法5train10train15train
      PCA0.69590.77030.8509
      NPE0.80330.85920.8783
      LPP0.80510.86700.8885
      DLA0.85840.91570.9370
      CRC0.85310.90400.9211
      LRLR0.80660.84070.8645
      LRRR0.86010.92600.9492
      DENLR0.86080.92920.9521
      本文方法0.88110.93720.9624

      表 2  Oxford 102 Flowers数据库识别率实验结果

      Table 2.  Experimental results of recognition rate on Oxford 102 Flowers database

      表2的数据来看,低秩回归模型方法要比传统的子空间学习方法在识别率上要更占优势,而本文提出的算法在对比方法中是最佳的识别率.

    • Caltech-256数据库由256个类别物体,共计30608幅图像组成,其中每个类别至少有80个图像. 图1(c)是Caltech-256数据库的部分样本图片. 本文实验部分选取了100中物体类别,每类物体80张图片作为本文实验的数据集,共计8000张. 实验分别随机选取了10、20、30张图片用作训练,相对应的剩余图片作为测试集进行测试. 本文方法在该数据库中的实验参数设置如下:${\lambda _1}{\rm{ = }}0.01,{\lambda _2}{\rm{ = }}0.001,{\lambda _3}{\rm{ = }}0.01,\lambda {\rm{ = }}0.01, {k_1} = 3,{k_2} = 8,\omega {\rm{ = - 2}}$,实验参数的选择和前两次实验的选择大致一样. Caltech-256数据库实验结果详见表3.

      算法10train15train20train
      PCA0.67950.73250.7574
      NPE0.76560.792508004
      LPP0.77380.80640.8190
      DLA0.80270.83160.8344
      CRC0.81770.83770.8461
      LRLR0.83240.86300.8743
      LRRR0.83240.86730.8743
      DENLR0.82780.86730.8828
      本文方法0.84270.87500.8850

      表 3  Caltech-256数据库识别率实验结果

      Table 3.  Experimental results of recognition rate on Caltech-256 database

      表3的数据,我们可以直观的发现,本文方法识别率是最高的. 以10train为例,虽然单纯的从识别率上看,本文方法比LRRR只高了0.01,但是除了每类10张训练外测试的数据有7000张. 所以说本文方法比LRRR正确识别的图片要高70多张图片.

    • 算法的复杂度也是客观反映一个算法的评价要素. 本节以AR人脸[23]数据库为例,将各算法的运行时间作个简单的对比. 实验也是选取10次运行的平均时间作为最终的指标. 和低秩回归方法不同,PCA[24]、NPE、LPP、DLA方法没有固定的子空间维度,且不知在哪一维度识别率最佳. 在AR人脸库中,这四种方法的最佳识别率在200维度内,因此,本文选取1到200维的运行时间作为指标,运行时间结果见表4.

      算法6train8train10train
      PCA53.976.7103.3
      NPE137.5149.8226.8
      LPP103.9105.8167.7
      DLA622.41101.12204.1
      CRC33.153.790.5
      LRLR2.15.910.8
      LRRR2.25.611.1
      DENLR1.72.93.9
      本文方法3.66.811.5

      表 4  算法运行时间对比(训练+测试)/s

      Table 4.  Comparison of running time of each algorithm(training time & testing time) /s

      表4可以看出,本文方法和其他几种低秩回归模型相比,运行时间上要稍慢一些. 但与CRC方法相比,本文方法和其他几种低秩回归模型方法要快许多. 虽然与经典的子空间学习方法如PCA、LPP、NPE、DLA不具一定可比性,因为低秩回归模型方法有确定的子空间维度,而几种子空间学习方法不确定是在哪一维度最优. 虽然时间上不具有一定可比性,但是也可以看出低秩回归模型不用考虑子空间维度的选择,因此属于低秩回归模型的一大优点.

    • 在AR人脸数据库、Oxford 102 Flowers数据库及Caltech-256数据库的9组对比实验(表1表2表3)验证了本文方法的有效性,在这几组实验中,所提方法实验对比,可以看出本文方法的识别率都是最高的. 虽然本文提出的模型参数选择较多,但是在这三个数据库中的实验部分,本文模型参数选择变动不大,从侧面可以反映出所提模型对参数选取不大敏感. 和LRLR、LRRR、DENLR在运行时间上相比虽然不占优势,但明显优于其他几种对比方法.

    • 低秩回归模型在模式识别领域占有重要的作用,传统的回归模型方法往往忽略了标签信息的利用,标签信息只是在设置目标值的时候用到过,因此样本的标签信息利用不充分. 此外,多数的低秩回归模型如LRLR和LRRR的回归的目标值都是预先设置的,缺乏对实际情况的考量. DENLR通过弹性网络的方式有效的解决了目标值预先设置的问题,但是需要通过迭代优化的方式来优化目标值,且泛化能力不足. 本文提出的优化模型的判别性低秩回归模型方法使得标签信息更加充分,而且还通过优化模型目标值的方式提高了低秩回归模型的泛化能力. 从三大数据库的实验结果可以看出,本文提出方法在识别率上更有优势,算法运行效率也优于CRC和一些经典的子空间学习方法.

参考文献 (24)

目录

    /

    返回文章
    返回