基于条件随机场的多线索中文语义角色标注

王一成 万福成 马宁

引用本文:
Citation:

基于条件随机场的多线索中文语义角色标注

    作者简介: 王一成(1992−),男,山西人,硕士生,研究方向为自然语言处理、智能信息系统、知识图谱. E-mail:465744062@qq.com;
    通讯作者: 万福成, wanfucheng@126.com
  • 中图分类号: TP391

Multi-clue Chinese semantic role labeling based on conditional random fields

    Corresponding author: WAN Fu-cheng, wanfucheng@126.com ;
  • CLC number: TP391

  • 摘要: 随着人工智能和中文信息处理技术的产业化发展,自然语言处理相关研究已逐步深入到语义理解层次上,而中文语义角色标注则是语义理解领域的核心技术. 针对现有线性标注模型无法满足语义信息技术产业化发展对准确率的需求,提出了采用多层级语言学线索组合的模型优化方法. 首先,选取综合标注性能优异的条件随机场基准模型,构建相配套的语义角色标注语料库. 然后,在模型中融入词法及句式等多层级语言学线索,实现了对模型的多层次优化. 最后,通过对比实验各项标注指标,论证了融入的相关语言学线索可以有效增强线性序列模型的标注性能.
  • 图 1  CRFs线性语义角色标注示例结构图

    Figure 1.  Example structure of CRFs linear semantic role annotation

    图 2  词性粗颗粒度语料构建示意图

    Figure 2.  Schematic diagram of the construction of coarse-grained part of speech corpus

    图 3  多线索实验流程图

    Figure 3.  Multi-clue experiment flow chart

    图 4  不同句式的占比情况

    Figure 4.  The proportion of different sentences

    图 5  实验4标注错误率占比

    Figure 5.  Proportion of test corpus error rate in experiment 4

    表 1  主要语义角色出现频数统计

    Table 1.  Frequency statistics of major semantic roles

    语义角色频数语义角色频数
    核心谓词 21 981 时间 2 997
    施事 8 188 连接 11 288
    受事 10 692 介词 8 621
    程度 4 074 方位 3 539
    处所 3 651 原因 372
    下载: 导出CSV

    表 2  CRF++中两种标注实例结果对比

    Table 2.  Comparison of two annotation example results in CRF++

    标注实例标注准确率/%
    核心成分
    Chunking76.1571.8116.25
    Basenp73.0167.82 11.33
    下载: 导出CSV

    表 3  不同词颗粒度线索标注结果对比

    Table 3.  Comparison of different part-of-speech granularity clues

    颗粒度标注准确率/%
    核心成分
    粗颗粒76.1571.8116.25
    细颗粒77.0472.9617.45
    粗-细颗粒76.1471.8316.28
    下载: 导出CSV

    表 4  添加长短句线索标注结果对比

    Table 4.  The compare results of adding long and short sentence clues

    颗粒度标注准确率/%
    核心成分
    长短句线索78.9673.8117.92
    原对照组77.0472.9617.45
    下载: 导出CSV

    表 5  添加命名实体线索标注结果对比

    Table 5.  The results comparisonof adding named entity clue annotation

    颗粒度标注准确率/%
    核心成分
    命名实体线索80.5274.95 18.67
    原对照组78.9673.8117.92
    下载: 导出CSV

    表 6  最终实验结果与前人标注对比

    Table 6.  The final experimental results are compared with previous studies

    方法标准总准确率/%
    本文方法80.52
    CRF[8]74.76
    最大熵模型[9]75.60
    联合模型[15]78.69
    NNsrl[22]66.46
    下载: 导出CSV
  • [1] Pradhan S, Hacioglu K, Krugler V, et al. Support vector learning for semantic argument classification[J]. Machine Learning Journal, 2005, 60(1): 11-39.
    [2] Pradhan S, Ward W, Hacioglu K, et al. Semantic role labeling using different syntactic views[C]. Proceedings of ACL-2005, USA, 2005: 581-588.
    [3] Blunsom P. Maximum entropy Markov models for semantic role labelling[C]. Proceedings of Australasian Language Technology Workshop 2004, Sydney, Australia, 2004: 109-116.
    [4] Liu T, Che W, Li S, et al. Semantic role labeling system using maximum entropy classifierp[C]. Proceedings of the 9th Conference on Computational Natural Language Learning (CoNLL-2005),Ann Arbor, USA, 2005:189–192.
    [5] Cohn T, Blunsom P. Semantic role labelling with tree conditional random fields[C]. Proceedings of CoNLL-2005, USA, 2005: 169-172.
    [6] Chen J, Rambow O. Use of deep linguistic features for the recognition and labeling of semantic arguments[C]. Proceedings of EMNLP-2003, Japan, 2003: 41-48.
    [7] Ponzetto S, Strube M. Semantic role labeling using lexical statistical information[C]. Proceedings of CoNLL-2005, USA, 2005: 213-216.
    [8] 于江德, 樊孝忠, 庞文博, 等. 基于条件随机场的语义角色标注[J]. 东南大学学报, 2007, 23(3): 361-364. Yu J D, Fan X Z, Pang W B, et al. Semantic role labeling based on conditional random field[J]. Journal of Southeast University, 2007, 23(3): 361-364.
    [9] 于江德, 王希杰, 余正涛. 基于最大熵模型的语义角色标注[J]. 微电子学与计算机, 2010, 27(8): 173-176. Yu J D, Wang X J, Yu Z T. Semantic role labeling based on maximum entropy model[J]. Microelectronics & Computer, 2010, 27(8): 173-176.
    [10] 刘怀军, 车万翔, 刘挺. 中文语义角色标注的特征工程[J]. 中文信息学报, 2007, 22(1): 79-84. DOI:  10.3969/j.issn.1003-0077.2007.01.013. Liu H J, Che W X, Liu T. Feature engineering for Chinese semantic role labeling[J]. Journal of Chinese Information Processing, 2007, 22(1): 79-84.
    [11] 李济洪, 王瑞波, 王蔚林, 等. 汉语框架语义角色的自动标注[J]. 软件学报, 2010, 30(4): 597-611. Li J H, Wang R B, Wang W L, et al. Automatic Llabeling of semantic roles on Chinese FrameNet[J]. Journal of Software, 2010, 30(4): 597-611.
    [12] 李济洪. 汉语框架语义角色的自动标注技术研究[D]. 太原: 山西大学,2010.

    Li J H. Research on techniques of automatic semantic role labeling of Chinese FrameNet[D]. Taiyuan: Shanxi University, 2010.
    [13] 柯永红, 朱永福, 穗志方, 等. 基于多特征的语义角色标注一致性计算方法研究[J]. 北京大学学报:自然科学版, 2018, 54(3): 475-480. Ke Y H, Zhu Y F, Sui Z F, et al. A method for semantic roles labeling consistency calculation based on multi-features[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(3): 475-480.
    [14] 李世奇, 赵铁军, 李晗静, 等. 基于特征组合的中文语义角色标注[J]. 软件学报, 2011, 22(2): 222-232. DOI:  10.3724/SP.J.1001.2011.03844. Li S Q, Zhao T J, Li H J, et al. Chinese semantic role labeling based on feature combination[J]. Journal of Software, 2011, 22(2): 222-232.
    [15] 王文学. 基于联合方法的中文语义角色标注研究[D]. 上海: 上海交通大学, 2012.

    Wang X W. The research on Chinese semantic role labeling based on a combination strategy[D]. Shanghai: Shanghai Jiaotong University, 2012.
    [16] Wan F C. Extracting algorithm for the optimum solution answer oriented towards the restricted domain[J]. IPPTA: Quarterly Journal of Indian Pulp and Paper Technical Association, 2018, 30(5): 590-597.
    [17] Wang Y C, Wan F C, Ma N, et al. Research on Chinese semantic role labeling with hierarchical syntactic clues[C]. Proceedings of EMEHSS-2019, Suzhou, China,2019: 190-196.
    [18] Lafferty J, McCallum A, Pereira F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C].Proceedings of 18th International Conference on Machine Learning, Williamstown, 2001: 282-289.
    [19] China Computer Federation[C/OL].The 2nd CCF Conference on Natural Language Processing & Chinese Computer.[2019-06-10].http://tcci.ccf.org.cn/conference/2013/index.html.
    [20] 何保荣, 邱立坤, 孙盼盼. 基于句式与句模对应规则的语义角色标注[J]. 中文信息学报, 2018, 32(4): 59-65. DOI:  10.3969/j.issn.1003-0077.2018.04.007. He B R, Qiu L K, Sun P P. Semantic role labeling based on correspondence rules between syntactic pattern and semantic pattern of sentences[J]. Journal of Chinese Information Processing, 2018, 32(4): 59-65.
    [21] Han Language Processing[Z/OL]. [2019-08-26]. http://hanlp.linrunsoft.com/.
    [22] 王臻, 常宝宝, 穗志方. 基于分层输出神经网络的汉语语义角色标注[J]. 中文信息学报, 2014, 28(6): 56-61. DOI:  10.3969/j.issn.1003-0077.2014.06.008. Wang Q, Chang B B, Sui Z F. Chinese semantic role labeling based on neural network with optimized output layer[J]. Journal of Chinese Information Processing, 2014, 28(6): 56-61.
    [23] 杨凤玲, 周俏丽, 蔡东风, 等. 结合短语结构句法的语义角色标注[J]. 中文信息学报, 2018, 32(6): 1-11. DOI:  10.3969/j.issn.1003-0077.2018.06.001. Yang F L, Zhou Q L, Cai D F, et al. Semantic role labeling combined with phrase structure prasing[J]. Journal of Chinese Information Processing, 2018, 32(6): 1-11.
    [24] 王明轩, 刘群. 基于深度神经网络的语义角色标注[J]. 中文信息学报, 2018, 32(2): 50-57. DOI:  10.3969/j.issn.1003-0077.2018.02.006. Wang M X, Liu Q. A simple and effective deep model for semantic role labeling[J]. Journal of Chinese Information Processing, 2018, 32(2): 50-57.
  • [1] 曹春华杨棣 . 左消语言与析取语言及其推广的乘积性质. 云南大学学报(自然科学版), 2005, 27(2): 104-106.
    [2] 崔晓娟贺西平蒙永红卫相润 . APDL语言优化设计复合超声变幅杆. 云南大学学报(自然科学版), 2018, 40(1): 88-93. doi: 10.7540/j.ynu.20170510
    [3] 施心陵王逍张榆锋汪源源 . 基于实时联想的医学诊断报告书语言生成器. 云南大学学报(自然科学版), 2003, 25(3): 217-220.
    [4] 岳昆吴益忠刘惟一李劲 . SCDL:一种面向对象的Web服务合成描述语言. 云南大学学报(自然科学版), 2007, 29(1): 24-29.
    [5] 徐广义严馨余正涛周丽华 . 融合跨语言特征的柬埔寨语命名实体识别方法*. 云南大学学报(自然科学版), 2018, 40(5): 865-871. doi: 10.7540/j.ynu.20170593
    [6] 黄元康李红松余鹏飞王鹏钱呈祥 . 基于Markov随机场理论的眼底图视盘轮廓的提取研究. 云南大学学报(自然科学版), 2016, 38(4): 530-535. doi: 10.7540/j.ynu.20150533
    [7] 王静黄建国管静赵东风 . 噪声及失配条件下匹配处理器的定位性能分析和比较. 云南大学学报(自然科学版), 2004, 26(1): 20-23,29.
    [8] 杨姝段青松章可赵艳秦向东 . 稀盐酸预处理沼气发酵原料水葫芦的优化条件研究. 云南大学学报(自然科学版), 2014, 36(2): 260-266. doi: 10.7540/j.ynu.20130605
    [9] 陈贵元季秀玲林连兵魏云林 . 低温脂肪酶产生菌筛选与鉴定、产酶条件及酶学性质研究. 云南大学学报(自然科学版), 2010, 32(1): 108-113 .
    [10] 岳昆刘惟一 . 保持语义约束的XML文档规范化. 云南大学学报(自然科学版), 2005, 27(4): 300-304.
    [11] 刘鹏远李彤孙宝林蒋国银 . 细粒度同异步偏序权限建模角色访问控制模型. 云南大学学报(自然科学版), 2014, 36(4): 504-511. doi: 10.7540/j.ynu.20130603
    [12] 蔡莉姚绍文张璇 . 基于语义网的隐私本体的建立和Web应用. 云南大学学报(自然科学版), 2010, 32(1): 43-47,7 .
    [13] 刘开宇 . 电场资料在贵阳机场雷暴天气中的应用. 云南大学学报(自然科学版), 2012, 34(S2): 397-400.
    [14] 程春玉孟捷 . 旅客到达昆明机场交通方式选择影响因素分析. 云南大学学报(自然科学版), 2011, 33(S2): 333-336.
    [15] 李晋枝乔克林何树红 . 随机利率因素的破产模型. 云南大学学报(自然科学版), 2003, 25(1): 9-12.
    [16] 陈丽丽何银梅谢崇伟 . 随机Logistic模型的稳态关联函数. 云南大学学报(自然科学版), 2012, 34(4): 420-424.
    [17] 乔丽华吴志敏林国广 . 随机Cahn-Hilliard 方程的随机吸引子及其Hausdorff维数. 云南大学学报(自然科学版), 2012, 34(3): 249-257,264.
    [18] 李雪丽尹福其朱雪珂 . 随机FitzHugh-Nagumo系统的随机吸引子的分形维数. 云南大学学报(自然科学版), 2018, 40(1): 1-11. doi: 10.7540/j.ynu.20170411
    [19] 刘开宇 . 贵阳机场辐射雾MOS预报系统的设计与实现. 云南大学学报(自然科学版), 2014, 36(S1): 112-116. doi: 10.7540/j.ynu.20140256
    [20] 何 驰 . 气象因素对机场跑道利用率影响及评估方法. 云南大学学报(自然科学版), 2012, 34(S2): 394-396.
  • 加载中
图(5)表(6)
计量
  • 文章访问数:  604
  • HTML全文浏览量:  334
  • PDF下载量:  25
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-07-22
  • 录用日期:  2019-12-07
  • 网络出版日期:  2020-02-07
  • 刊出日期:  2020-05-01

基于条件随机场的多线索中文语义角色标注

    作者简介:王一成(1992−),男,山西人,硕士生,研究方向为自然语言处理、智能信息系统、知识图谱. E-mail:465744062@qq.com
    通讯作者: 万福成, wanfucheng@126.com
  • 1. 西北民族大学,中国民族语言文字信息技术教育部重点实验室,甘肃 兰州 730030
  • 2. 西北民族大学,甘肃省民族语言智能处理重点实验室,甘肃 兰州 730030

摘要: 随着人工智能和中文信息处理技术的产业化发展,自然语言处理相关研究已逐步深入到语义理解层次上,而中文语义角色标注则是语义理解领域的核心技术. 针对现有线性标注模型无法满足语义信息技术产业化发展对准确率的需求,提出了采用多层级语言学线索组合的模型优化方法. 首先,选取综合标注性能优异的条件随机场基准模型,构建相配套的语义角色标注语料库. 然后,在模型中融入词法及句式等多层级语言学线索,实现了对模型的多层次优化. 最后,通过对比实验各项标注指标,论证了融入的相关语言学线索可以有效增强线性序列模型的标注性能.

English Abstract

  • 语义角色标注(Semantic Role Labeling, SRL)是自然语言处理的重要技术,这一技术的出现极大地优化了现有的语言信息理解系统的性能. 与深层语义分析相比,语义角色标注具有问题清晰、标注简便、易于呈现等特点,在信息检索、问答系统、机器翻译等多种自然语言处理领域应用前景广阔,并对今后进行深层语义分析以及篇章理解的研究具有重要的铺垫作用.

    随着统计机器学习方法在文本信息处理领域异军突起,很多带有语义信息的大规模语料资源被建立,大大加快了基于线性序列的语义角色标注方法的实用化步伐. 在基于线性序列标注的英文语义角色标注研究方面,Prandhan等[1-2]将支持向量机的机器学习方法应用于语义角色标注中,获得了较好的效果,之后在此基础上通过改进支持向量机算法,在不使用全局特征的条件下获得了较好的标注结果.Blunsom[3]采用最大熵马尔科夫模型进行了语义角色标注研究,Liu等[4]受此启发将最大熵的改进模型应用于该领域,取得更好的标注成绩,但此类方法也产生了标注偏置等一系列问题;为了能够有效地解决标注偏置问题,Cohn等 [5]首次成功地将条件随机场应用到语义角色标注中;决策树作为一种线性概率学习方法,适合处理线性块状划分的标注,因其具有条理清晰,便于修改的特点,Chen等[6]以及Ponzetto等[7]率先将其应用于语义角色标注领域,但该方法对于处理高维标注问题效果欠佳. 在汉语方面,经过十余年的发展,线性序列的中文语义角色标注在模型实用方面取得了显著的进展. 在CoNLL2004大会中,首次将语义角色标注确立为主题,并在浅层句法分析理论基础上开展. 其中东南大学的于江德等[8-9]结合英文语义角色标注研究实现了以短语和命名实体作为标注单元,利用条件随机场模型进行语义角色的标注,之后又利用最大熵分类器模型,将句法特征作为标注单元,进行了语义角色标注的进一步研究;哈工大的刘怀军等[10]针对中文语言的特性提出了新特征及其特征组合的最大熵语义角色标注方法;李济洪等[11-12]则首次将语义角色标注任务当作词序列标注问题进行处理,该方案不同于大多数以句法成分为标注单位,开辟了一种全新的思路. 在多线索的研究方面,柯永红等[13]提出面向语料的格式,标签结构和内容等多个线索,该方法大大提升了标注的一致性检验效率. 李世奇等[14]利用句法分析系统筛选高效线索,提出了一种基于支持向量机的多线索组合的标注方法. 王文学[15]通过浅层句法分析和深层句法分析方法进行对比研究,提出通过全局特征训练联合模型. 此外,本研究团队也做了相关的工作,Wan[16]针对受限域的问题求解时,提出了融合浅层语义分析的最佳答案抽取方法. Wang等[17]将层次化的句法线索引入中文语义角色标注中,获得了较好的语义角色识别效果.

    总体来说,在以“智能信息处理技术与工业大数据融合”为目标的产业升级大背景下,语义角色标注作为承上启下的关键技术,对其准确率的要求也随之提高,亟需在现有技术基础上开发一种即可灵活扩展特征,又高效简洁的语义角色标注方法. 经过十余年的发展,虽然基于统计机器学习方法的语义角色标注研究进展颇多,但就算法层面来看,作为工业领域广受欢迎的条件随机场标注方法,其模型的多层级特征横向对比研究甚少. 本文根据已有线性序列的语义角色标注研究,构建可灵活扩展的句列语料,递进式的引入多层级语言学线索,采用“词-核心成分-句”的多维评测方式,分析各类型线索对模型的提升率,优化条件随机场标注模型的线索筛选,以期对中文语义角色标注的工业化应用提供借鉴。

    • 多线索的语义角色标注方法是在基于线性序列的语义角色标注模型中,通过添加多种语言学线索使得原有模型的标注性能得到一定程度的提升. 作为一种较为成熟可行的方法,其主体思路是在一定规模的语料库中人工标出各种施事、受事、结果、方式等语义角色,运用统计学习方法(最大熵、条件随机场、支持向量机、决策树等)从已标注完成的大规模语料中进行数据训练,通过提取各类语义角色在不同句子中的概率规则,对新语料中各语义角色进行概率最大的预估标注.

    • 多线索方法标注模型采用一定的标记策略,将问题转化为以词为基本标注单元的词序列标注问题,使用一种或多种线性特征分类器组合的方式对句子中各类语义角色同时进行识别和标注. 在后处理阶段,预测了句法分析树中可匹配的全部语义角色后,采用简单的后处理规则去识别找不到匹配的语义角色成分,其中具有嵌套关系的成分将保留概率最高的语义角色.

      在标注模型选取上,对比分析了当前主流的三大线性序列标注模型—最大熵、支持向量机、条件随机场. 最大熵模型是以句子中的每个切分词作为训练样本,虽然能有效地应对训练语料有限的情况,但该模型无法灵活的添加各类特征,因此不适用多线索情况. 对于复杂语料中出现的语义角色不完全可分情况,支持向量机模型的标注效率较差,无法兼容大规模的训练数据. 而条件随机场模型能够考虑到序列中各个元素之间的相关性,具备添加任意特征的便捷优势,总体性能指标较好. 综合考虑以上因素,将采用条件随机场模型进行研究,实现标注性能的深入改进.

    • 融合语言学线索的语义角色标注模型采取通用的标记方法,使用条件随机场模型将问题转化成以词为基本标注单元的词序列标注问题,融入多种线性语言学线索,构建统计标注模型进行自动标注训练,之后选取参照语言学线索进行对比研究.

      条件随机场模型[18] (Conditional Random Fields, CRFs) 是一种性能优异的概率序列标注模型,它基于观测序列对目标序列进行建模,重点解决序列化标注问题. 随着近年来大数据、云计算的兴起,该算法被广泛应用于复杂统计信息处理领域. 其原理:对于给定的观测序列T={t1t2,…,tn},条件随机场将其对应的状态序列S={s1s2,…,sn}的条件概率定义为:

      $\begin{split} {{P}}\left( {S|T} \right) =& \frac{1}{{Z\left( T \right)}}\exp\left( \mathop \sum \nolimits_{{\rm{i}},{\rm{j}}} {l_j}{q_j}\left( {{s_{i - 1}},{s_i},t_i,i} \right) +\right.\\ &\left.\mathop \sum \nolimits_{{\rm{i}},{\rm{k}}} {m_k}{p_k}\left( {{s_i},t_i,i} \right) \right), \end{split}$

      式中,Z(T)为归一化因子,使得所有状态序列的概率和为1;${q_j}\left( {{s_{i - 1}},{s_i},t_i,i} \right)$ 为观测序列i-1和 i 标记处的状态转移函数;${p_k}\left( {{s_i},t_i,i} \right)$ 是观测序列 i 标记处的状态特征函数;ljmk 是相应特征函数的权值,通过训练估计得到. CRFs通常采用如图1的一阶线性链式结构进行标注.

      图  1  CRFs线性语义角色标注示例结构图

      Figure 1.  Example structure of CRFs linear semantic role annotation

      采用 CRFs 模型,因其具有以下特点:

      (1)语义角色标注问题本质上是一种序列标注问题,而CRFs模型本身就是用来解决序列标注问题的绝佳模型.

      (2)在语义角色标注模型中,一段序列内标注单元之间相关性较强,而序列间的相关性较弱,甚至可视为是独立的.

      因此,在实际的语义角色标注任务中,CRFs模型往往比其他线性标注模型能够获得较好的表现. 融合语言学线索的条件随机场训练流程主要由5个步骤:①语料处理. ②特征模板生成. ③特征选取. ④模型训练. ⑤语义角色识别.

    • 实验首先以公开的中文句法标注语料为基础,确定使用的标记集,筛选并构建线性序列的中文语义角色标注语料库作为实验语料;然后调整语料的格式,构建并训练基于条件随机场的SRL模型;在初始标注模型的基础上通过修改或添加多组新线索,逐步对原始模型进行改进训练,最后进行模型测评,分析对比得出相关结论.

    • 在中文语义角色标注语料方面,由于缺乏不同领域的大规模训练语料,导致在领域适应问题上,基于线性序列的语义角色标注方法也未有较好的突破,因此研究仅考虑单一领域的标注问题. 实验选用面向新闻领域的清华大学和哈尔滨工业大学依存语料[19]作为原始语料,在此基础上进行加工,参照宾大中文树库的短语句法信息标注标准,实现中文语义角色标注语料库的构建. 在构建语义角色标注语料库的过程中,除了保留谓词划分、语义角色识别等传统语义角色标注语料库构建方面的要求外,还融入了词法、句法等相关语言学线索.

      实验构建的语料库题材是新闻语料,语义描述全面且颗粒度适中. 经过筛选,共得到语料22 000句,其中训练语料20 000句,测试语料2 000句. 语料库中主要语义角色统计数据如表1所示.

      语义角色频数语义角色频数
      核心谓词 21 981 时间 2 997
      施事 8 188 连接 11 288
      受事 10 692 介词 8 621
      程度 4 074 方位 3 539
      处所 3 651 原因 372

      表 1  主要语义角色出现频数统计

      Table 1.  Frequency statistics of major semantic roles

      图2在原始语料中含有多列特征,根据不同组的实验任务需求,进行所需标注信息的特征列筛选工作. 以词性颗粒度的线性标注实验为例,筛选结果如图2所示.

      图  2  词性粗颗粒度语料构建示意图

      Figure 2.  Schematic diagram of the construction of coarse-grained part of speech corpus

    • 采用CRF++0.58工具包中的CRF-L2算法作为CRFs模型的训练算法,使用输出序列的一阶转移特征,并选取最佳调节参数C=4.0进行参数平滑. 其按照语料特征列选取的不同,可划分为4组对照实验. 其具体流程如图3所示.

      图  3  多线索实验流程图

      Figure 3.  Multi-clue experiment flow chart

      实验1:在Windows环境下,使用CRF++0.58工具包中example下适合语义角色标注的chunking与basenp实例分别对相同的语料进行模型训练及测试,模型测试结果对比如表2所示.

      标注实例标注准确率/%
      核心成分
      Chunking76.1571.8116.25
      Basenp73.0167.82 11.33

      表 2  CRF++中两种标注实例结果对比

      Table 2.  Comparison of two annotation example results in CRF++

      通过表2中不同标注实例结果对比发现,CRF++0.58工具包中的chunking实例表现更为优异,3项指标中“句”的提升率更为明显,说明chunking实例对短句子的标注更有效.因此,以下实验将在chunking实例的基础上进行.

      实验2:在CRF++0.58工具包中example的chunking实例下,对语料的词性线索采取粗-细颗粒度划分,保证其他线索特征相同的条件下,分别进行3组模型训练及测试的对照实验,模型测试结果对比如表3所示.

      颗粒度标注准确率/%
      核心成分
      粗颗粒76.1571.8116.25
      细颗粒77.0472.9617.45
      粗-细颗粒76.1471.8316.28

      表 3  不同词颗粒度线索标注结果对比

      Table 3.  Comparison of different part-of-speech granularity clues

      3组不同词性颗粒度线索的标注结果表明,不同的词性颗粒度对标注准确率有较大影响,词性细颗粒度比粗颗粒度的训练模型具备更好的标注结果,但将二者叠加后,模型标注准确率却不升反降.另外,词性颗粒度线索对“核心成分”与“句”指标项的提升作用相对明显,表明其对简单句的标注性能有更大提升.

      实验3:探索添加长-中-短句式阈值线索[20]能否进一步提升标注性能.

      在以上两组实验基础上,通过结果错误句分析得出:短句子中的非核心成分标注出错率较高,而长句子中核心成分的标注出错率较高. 因此设想通过添加长短句判别线索值(词个数少于6为短句,线索阈值为1;词个数在6到10之间为中句,线索阈值为2;词个数为11到15之间为长句,线索阈值为3;词个数大于15的为超长句,线索阈值为4),进一步的深入探讨,其中进行语料划分统计后的结果如图4所示.

      图  4  不同句式的占比情况

      Figure 4.  The proportion of different sentences

      统计结果表明,10个词以内的中短句语料占总语料的77%,对实验2的测评结果进行错误标注句分析,发现在大于10个词的句子中整句出错占比较大,出错原因大多与核心成分、主要角色在句中的位置有关,进一步印证了添加长短句线索阈值的必要性. 通过模型训练及测试,其测试结果对比如表4所示.

      颗粒度标注准确率/%
      核心成分
      长短句线索78.9673.8117.92
      原对照组77.0472.9617.45

      表 4  添加长短句线索标注结果对比

      Table 4.  The compare results of adding long and short sentence clues

      结果分析表明:长短句线索对“词”与“核心成分”评测项的提升作用相对明显,表明其对于训练语料中出现的语义相似、句式一致的短句非核心成分与长句核心成分的标注具有较大的提升效果,对于简单短句、非核心成分不完整或较少的普通句则具有微弱的标注反作用.

      实验4:探索添加命名实体线索是否能够进一步提升标注准确率.

      在实验3中,通过添加句式线索使得模型性能有了较大提升,对测评结果分析显示:虽然句式不同所带来的标注出错问题得到改善后,但词性颗粒度不同所映射出的命名实体标注出错较高的问题并未改善. 因此探索通过添加命名实体线索进一步提升模型性能.

      实验借助清华大学开发的开源工具包HanLP[21]标注出语料中的命名实体,标注集合有人名(R),地名(LOC),组织机构名(O),时间名(T)4类实体. 之后进行模型训练及测试,模型测试结果对比如表5所示.

      颗粒度标注准确率/%
      核心成分
      命名实体线索80.5274.95 18.67
      原对照组78.9673.8117.92

      表 5  添加命名实体线索标注结果对比

      Table 5.  The results comparisonof adding named entity clue annotation

      结果分析表明:增添命名实体线索后,3项标注指标均有较大提升,改善了因词性颗粒度不同所映射出的命名实体出错率较高的问题,同时也削弱了长短句线索对于角色不完整的普通句和简单短句带来的负面影响,使得模型标注准确率能够进一步提高.

      将实验得到的最终结果与前人所构建的同量级标注模型作对比,结果表明多层级的新线索对标注效果有明显提升,词元级线索对谓词和核心成分角色的提升有较大帮助,句子级线索则更侧重于非核心角色及整句的标注中发挥作用. 结果对比如表6所示.

      方法标准总准确率/%
      本文方法80.52
      CRF[8]74.76
      最大熵模型[9]75.60
      联合模型[15]78.69
      NNsrl[22]66.46

      表 6  最终实验结果与前人标注对比

      Table 6.  The final experimental results are compared with previous studies

    • 实验是在线性序列的中文语义角色标注基础上的一次改进尝试,构建的语料中既含有大量动词性谓词的句子,同时也包含大量名词性谓词的句子,接近真实的语言环境. 采用控制变量的实验方法,共设置四组对照试验,第1组实验对比不同CRFs模块实例,分析同一算法的不同实例对标注准确率的影响. 通过实验得出Chunking实例的标注性能最佳,证明选取适应于该领域的算法实例至关重要. 实验2~4则是通过融入不同层次的语言学线索,探究改进模型的最佳线索.

      首先,实验2通过添加词法方面的语言学线索来改进模型标注性能,结合CRFs模型添加特征的方式等因素,选择“词性颗粒度”线索作为词法改进的突破点,该组实验与预期设想有所不同的是,粗、细词性颗粒度叠加之后的效果反而不及单一颗粒度线索的效果,通过对比训练日志,发现随着词颗粒度的变细,线索标签的数量呈指数增加. 标签数量的增多,将直接反映于线索个数的增加,线索个数过多,将导致模型的收敛速度变慢. 结果分析表明:①训练模型生成过程中出现了大量冗余或无关特征. ②因词性粗细颗粒度的不同,模型在标注人名、组织机构名等命名实体时产生了切分歧义. 从侧面说明,对于线性序列分类器来说,并非特征越细越好,特征过多,容易导致信息冗余,增加系统负担,拖累模型的整体标注准确率.

      实验3、4是建立在实验2的基础上,对标注结果进行错误分析并提出相关假设,进而验证相关设想能够降低出错率. 在众多出错原因中,发现句型相似的情况下,其短句中非核心成分和长句的核心成分出错率较高,进而猜想通过添加长短句标签,来提高语义、句式相似的标注准确率. 实验3在句式层面进行线索扩充,通过增添长短句阈值线索验证了以上猜想,使得准确率有了进一步提升. 实验4的设置也是为解决实验2中的遗留问题,通过增加命名实体线索,改善了实验2中因词性颗粒度不同所带来的命名实体标注出错较高问题.

      总体来说,每融入一个新线索特征都会对实验结果产生不同程度的影响,为了获得较好的标注结果,实验前抽选了不同层次的十几种语言学线索,在小规模语料上进行对照筛选,得到了4类对模型准确率提升较大的语言学线索. 在大规模语料的实验中,标注模型进行预测时,产生了一些意料之外的预测结果,例如多个核心成分(尤其是句式较长的句子)、边界超越、依赖边交叉等. 以实验4为例(如图5)对标注错误进行分类统计,发现在添加长短句阈值特征后,核心成分、施事、受事以及处所五大主要语义角色的错误占比依然超过50%. 其中出现的多个核心成分冲突涉及句规则概率最大和标注结果唯一性原则,需要改写维特比算法;对于占比最大的处所类语义角色错误,涉及到构建相关领域的命名实体库、制定细化的处所词判别规则以及语义相似度计算等深入处理,这些问题将是我们下一步工作的重点.

      图  5  实验4标注错误率占比

      Figure 5.  Proportion of test corpus error rate in experiment 4

    • 语义角色凭借其展示简明、易于标注、应用广泛等特点,使其成为语义分析领域的研究热点. 本文在基于CRF的中文语义角色标注模型基础上,尝试融入词法、句法等多层次的语言学线索,相较于传统的线性序列标注的语义角色标注算法,是对线性语义角色标注的深入改进. 实验表明,针对性地添加4类语言学线索,验证了新线索对标注效果有明显提升,同时也验证了句法类的线索对语义角色识别有较大帮助,而核心成分及谓词等词法线索则更侧重于在语义角色分类中发挥作用. 此外,某些线索叠加后,模型在解码任务中会出现局部或整体性能指标的下降. 在接下来的研究工作中,我们将重点探究在标注模型中融入能够体现结构化的高阶线索[23], 并将其与深度学习方法[24]进行组合标注,使模型能够更好展现语义角色之间的关系,从而获得模型性能的更大提升.

参考文献 (24)

目录

    /

    返回文章
    返回