多特征融合的越南语关键词生成方法

陈瑞清 高盛祥 余正涛 张迎晨 张磊 杨舰

引用本文:
Citation:

多特征融合的越南语关键词生成方法

    作者简介: 陈瑞清(1997−),男,云南人,硕士生,主要研究跨语言信息检索. E-mail:crq1150843144@163.com;
    通讯作者: 高盛祥, gaoshengxiang.yn@foxmail.com
  • 中图分类号: TP391

Vietnamese keyphrase generation method based on multi-feature fusion

    Corresponding author: GAO Sheng-xiang, gaoshengxiang.yn@foxmail.com ;
  • CLC number: TP391

  • 摘要: 越南语属于低资源语种,高质量关键词新闻数据稀缺,为了解决样本不足条件下生成越南语新闻关键词的准确性不高的问题,提出了一种多特征融合的越南语关键词生成模型,拟提升生成的越南语关键词与越南语新闻文档的相关性. 首先,将越南语新闻实体、词性、词汇位置特征与词向量拼接,使输入模型的词向量包含更多维度的语义信息;其次,利用双向注意力机制捕获上下文与新闻标题的依赖关系,增强标题在关键词生成中的指导作用;最后,结合复制机制生成越南语关键词,从而提高关键词的语义相关性. 在构建的越南语新闻关键词数据集上进行实验,结果表明融合多特征的关键词生成模型能在越南语训练样本有限的条件下生成高质量关键词,F1@10、R@50 分数比TG-Net分别提升了13.2%和17.1%.
  • 图 1  越南语新闻关键词数据集词性分布

    Figure 1.  Part-of-speech distribution of Vietnamese news keyphrases dataset

    图 2  VnCoreNLP解析结果

    Figure 2.  The analysis results of VnCoreNLP

    图 3  越南语关键词生成框架

    Figure 3.  The framework of Vietnamese keyphrase generation

    图 4  越南语关键词生成流程

    Figure 4.  The process of Vietnamese keyphrase generation

    表 1  越南语关键词生成举例(黑色加粗斜体为源文档中已出现的关键词)

    Table 1.  Example of Vietnamese keyphrase generation (black,bold and italics are keyphrases that have appeared in the source document)

    Title:Mỹ đưa Xiaomi,Comac của Trung Quốc vào danh sách đen về quốc phòng
    Content:Chính quyền của Tổng thống Mỹ Donald Trump ngày 14/1 đã đưa thêm 9 doanh nghiệp của Trung Quốc vào danh sách đen về quốc phòng,trong đó có nhà sản xuất máy bay Comac và nhà sản xuất điện thoại di động Xiaomi.9 doanh nghiệp trên sẽ phải đối mặt với lệnh cấm đầu tư mới của Washington.Các nhà đầu tư Mỹ tới ngày 11/11/2021 sẽ buộc phải từ bỏ cổ phần tại các công ty bị liệt vào danh sách đen.Theo Đại sứ quán Trung Quốc tại Mỹ,Xiaomi và Comac hiện chưa phải hồi yêu cầu bình luận về thông tin trên....
    (1) Present Keyphrases:Tổng thống Mỹ Donald Trumpcổ phần;tin trên;máy bay;điện thoại di động; sẽ buộc phải;
    (2) Absent Keyphrases:Hạn chế đầu tư;Người mỹ;
    (3) Ground Truth:Tổng thống Mỹ Donald Trump;cấm đầu tư;Xiaomi; Đại sứ quán Trung Quốc tại Mỹ;cổ phần; danh sách đen; sản xuất máy bay;
    下载: 导出CSV

    表 2  越南语新闻关键词数据统计

    Table 2.  The statistics of Vietnamese news keyphrase dataset

    类别句子数量词数量关键词数量
    训练集216 8171 974 02559 254
    验证集21 982173 9828 701
    测试集20 295163 5408 169
    下载: 导出CSV

    表 3  在测试数据集上已出现的关键词预测结果

    Table 3.  Keyphrase prediction results that have appeared on the test dataset

    模型$ P@5 $$ R@5 $F${1}@5$$ P@10 $$ R@10 $F${1}@10$
    CopyRNN 0.388 0.298 0.337 0.354 0.309 0.330
    CopyCNN 0.396 0.301 0.342 0.357 0.314 0.334
    TG-Net 0.439 0.336 0.381 0.372 0.341 0.356
    本文方法 0.505 0.364 0.423 0.446 0.367 0.403
    下载: 导出CSV

    表 4  在测试数据集上未出现的关键词预测结果

    Table 4.  Keyphrase prediction results that did not appear on the test dataset

    模型$ P@20 $$ R@20 $${{\rm{F}}1}@20$$ P@50 $$ R@50 $${{\rm{F}}1}@50$
    CopyRNN 0.328 0.324 0.326 0.312 0.348 0.329
    CopyCNN 0.339 0.332 0.335 0.319 0.352 0.335
    TG-Net 0.368 0.357 0.362 0.349 0.390 0.368
    本文方法 0.392 0.396 0.393 0.397 0.457 0.425
    下载: 导出CSV

    表 5  融入不同特征生成关键词效果对比

    Table 5.  The comparison of the effect of integrating different features for keyphrase generation

    融入特征${{\rm{F}}1}@5$${{\rm{F}}1}@10$$ R@20 $$ R@50 $
    0.337 0.330 0.324 0.348
    位置 0.359 0.348 0.311 0.383
    词性 0.365 0.359 0.319 0.398
    新闻实体 0.354 0.343 0.308 0.381
    标题 0.369 0.364 0.321 0.404
    位置+标题 0.382 0.375 0.336 0.412
    词性+标题 0.401 0.392 0.354 0.441
    新闻实体+标题 0.388 0.381 0.345 0.421
    位置+词性+新闻实体+标题 0.423 0.403 0.367 0.457
    下载: 导出CSV

    表 6  越南语新闻关键词数据集下模型预测关键词结果对比(加粗字体为预测正确的关键词)

    Table 6.  The comparison of keyphrase prediction results of models under the Vietnamese news keyphrase dataset (keyphrases shown in bold are correct predictions)

    Title:Thủ tướng: Doanh nghiệp Áo cần nắm bắt cơ hội đầu tư vào Việt Nam
    Content:Chiều 14/5,tại Trụ sở Chính phủ,Thủ tướng Nguyễn Xuân Phúc tiếp Chủ tịch Phòng Kinh tế Áo,ông Harald Mahrer.Tại buổi tiếp,Thủ tướng Nguyễn Xuân Phúc vui gặp Chủ tịch Phòng Kinh tế Áo thăm Việt Nam và cho biết,Chính phủ hoan nghênh việc mở văn phòng đại diện của Phòng Kinh tế Áo tại Việt Nam.Thủ tướng khẳng định,Áo là đối tác quan trọng và tin cậy của Việt Nam và hai bên cần tiếp tục thúc đẩy quan hệ thương mại,kinh tế,đầu tư giữa hai nước.Chủ tịch Phòng Kinh tế Áo trân trọng cảm ơn Thủ tướng Nguyễn Xuân Phúc dành thời gian tiếp và gửi lời thăm hỏi của Thủ tướng Áo tới Thủ tướng Nguyễn Xuân Phúc. Ông đánh giá cao việc hỗ trợ của Phòng Thương mại và Công nghiệp Việt Nam và các cơ quan chức năng của Việt Nam. Đây là cơ sở rất quan trọng để thúc đẩy hợp tác giữa doanh nghiệp hai nước.Chủ tịch Phòng Kinh tế Áo cho biết,đoàn sang Việt Nam lần này có 50 doanh nghiệp Áo,tìm cơ hội đầu tư kinh doanh tại Việt Nam.Trao đổi với đại diện các doanh nghiệp Áo về vấn đề quan tâm,nhất là trước bối cảnh cạnh tranh thương mại toàn cầu,Thủ tướng Nguyễn Xuân Phúc nhấn mạnh cơ hội và thời cơ đầu tư vào Việt Nam của các doanh nghiệp Áo nói riêng và EU nói chung,nhất là khi EU phê chuẩn Hiệp định Thương mại Việt Nam-EU (EVFTA).Thủ tướng cho rằng,các doanh nghiệp Áo cần phải nắm bắt để đón lấy thời cơ này,đầu tư vào Việt Nam trong các lĩnh vực công nghiệp chế biến,luyện kim,chế tạo,thương mại điện tử,dệt,sứ thủy tinh,ngân hàng,bảo hiểm...Thủ tướng cho rằng,đầu tư của Áo vào Việt Nam còn hạn chế và mong muốn cùng với việc mở văn phòng đại diện Phòng Kinh tế Áo tại Việt Nam,hai nước sẽ thúc đẩy hoạt động đầu tư lớn hơn và hiệu quả hơn thời gian tới.
    (a)Present Keyphrase
    Ground Truth:{Doanh nghiệp Áo; cơ hội đầu tư vào Việt Nam; Thủ tướng Nguyễn Xuân Phúc; Chủ tịch Phòng Kinh tế Áo; đối tác quan trọng và tin cậy;
    quan hệ thương mại; hợp tác giữa doanh; cạnh tranh thương mại toàn cầu;EVFTA; hoạt động đầu tư}
    TG-Net:1. Doanh nghiệp Áo;2.nắm bắt; 3.Việt Nam;4.công nghiệp chế biến; 5.cảm ơn;quan hệ thương mại;7.luyện kim; 8. cạnh tranh thương mại toàn cầu;9.cơ này; 10.gặp
    本文方法:1. Doanh nghiệp Áo;2. cơ hội đầu tư vào Việt Nam;3. Thủ tướng Nguyễn Xuân Phúc;4. Chủ tịch Phòng Kinh tế Áo;5. đối tác quan trọng; 6. hợp tác; 7. EVFTA;8.Việt Nam; 9.hoạt động đầu tư;10.quan hệ thương mại
    (b)Absent Keyphrase
    Ground Truth:{Hợp tác Áo-Việt Nam; Quan hệ kinh tế và thương mại}
    TG-Net:1.Cơ hội của Áo; 2.phát triển kinh tế;3.Thương mại Việt Nam; 4.Quan hệ kinh tế và thương mại;5.Hợp tác quan trọng; 6.Cơ sở để hợp tác; 7.Hỗ trợ của EU; 8.Tăng trưởng kinh tế;9.Doanh nghiệp việt nam; 10.Kinh tế kinh doanh
    本文方法:1.nắm lấy cơ hội; 2.Hợp tác Áo-Việt Nam;3.Quan hệ kinh tế và thương mại;4.Hợp tác quan trọng; 5.Thành lập văn phòng đại diện; 6.Mối quan hệ đáng tin cậy; 7.Kinh tế kinh doanh; 8.Cơ hội kinh tế;9.Nền kinh tế Áo; 10.cánh đồng
    下载: 导出CSV
  • [1] Meng R, Zhao S Q, Han S G, et al. Deep keyphrase generation [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Vancouver, Canada, 2017: 582-592.
    [2] Boudin F, Gallina Y, Aizawa A, et al. Keyphrase generation for scientific document retrieval [C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Seattle, USA, 2020: 1 118-1 126.
    [3] Ye H, Wang L. Semi-supervised learning for neural keyphrase generation [C]// Proceedings of the Conference on Empirical Method in Natural Language Processing, Brussel, Belgium, 2018: 4 142-4 153.
    [4] Do N, Ho L. Domain-specific keyphrase extraction and near-duplicate article detection based on ontology [C]// The IEEE RIVF International Conference on Computing & Communication Technologies - Research, Innovation, and Vision for Future, Can Tho, Vietnam, 2015: 123-126.
    [5] Hung B T. Vietnamese keyword extraction using hybrid deep learning methods [C]// Proceedings of 5th NAFOSTED Conference on Information and Computer Science, Ho Chi Minh City, Vietnam, 2018: 412-417.
    [6] Tien H N, Ngo Q T, Minh H N T, et al. Rule based English-Vietnamese bilingual terminology extraction from Vietnamese documents [C]// Proceedings of the Tenth International Symposium on Information and Communication Technology, Hanoi, Vietnam, 2019: 56-62.
    [7] Yong Z, Yang F, Wei D X. Deep keyphrase generation with a convolutional sequence to sequence model [C]// Proceedings of 4th International Conference on Systems and Informatics, Hangzhou, China, 2017: 1 477-1 485.
    [8] Wang C, Gao Y F, Zhang J N, et al. Title-Guided encoding for keyphrase generation [C]// Proceedings of the AAAI Conference on Artificial Intelligence, Hawaii, USA, 2019: 6 268-6 275.
    [9] Wang Y, Li J, Chan H P, et al. Topic-Aware neural keyphrase generation for social media language [C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy, 2019: 2 516-2 526.
    [10] Chan H P, Chen W, Wang L, et al. Neural keyphrase generation via reinforcement learning with adaptive rewards [C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy, 2019: 2 163-2 174.
    [11] Diao S Z, Song Y, Zhang T, et al. Keyphrase generation with cross-document attention[J]. arXiv: 2004.09800, 2020.
    [12] 郭剑毅, 赵晨, 刘艳超, 等. 融合语言特性的越南语兼类词消歧[J]. 数据采集与处理, 2019, 34(4): 5-12. Guo J Y, Zhao C, Liu Y C, et al. Vietnamese multi-category words disambiguation combined with language features[J]. Journal of Data Acquisition and Processing, 2019, 34(4): 5-12.
    [13] 胡德敏, 王荣荣. 融合语言特征的抽象式中文摘要模型[J]. 计算机应用研究, 2020, 37(2): 351-354. Hu D M, Wang R R. Abstractive Chinese summarization model with linguistic features[J]. Application Research of Computers, 2020, 37(2): 351-354.
    [14] 宗成庆. 统计自然语言处理[M]. 2版. 北京: 清华大学出版社, 2013.

    Zong C Q. Statistical natural language processing[M]. 2nd ed. Beijing: Tsinghua University Press, 2013.
    [15] Vu T, Nguyen D Q, Dras M, et al. VnCoreNLP: A Vietnamese natural language processing toolkit [C]// Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics, Columbus, USA, 2018: 56-60.
    [16] Luong T, Pham H, Manning C D. Effective approaches to attention-based neural machine translation [C]// Proceedings of the Conference on Empirical Method in Natural Language Processing, Lisbon, Portugal, 2015: 1 412-1 421.
    [17] See A, Liu P J, Manning C D. Get to the point: summarization with pointer-generator networks [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Vancouver, Canada, 2017: 1 073-1 083.
    [18] Dey R, Salemt F M. Gate-variants of gated recurrent unit (GRU) neural networks [C]// IEEE 60th International Midwest Symposium on Circuits and Systems, Medford, USA, 2017: 1 597-1 600.
    [19] Seo M, Kembhavi A, farhadi A, et al. Bidirectional attention flow for machine comprehension[J]. arXiv: 1611.01603, 2016.
    [20] Kingma D P, Ba J. Adam: a method for stochastic optimization [C]. arXiv: 1412.6980, 2014.
    [21] Yuan X D, Wang T, Meng R, et al. One size does not fit all: Generating and evaluating variable number of keyphrases [C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Seattle, USA, 2020: 7 961-7 975.
  • [1] 徐广义严馨余正涛周丽华 . 融合跨语言特征的柬埔寨语命名实体识别方法*. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20170593
    [2] 朱傲万福成马宁车郭怡 . 结合池化技术和特征组的汉语语义角色标注. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20200642
    [3] 潘光友李娅芳许易琦 . 学术论文关键词的概念辨析和选词应注意问题. 云南大学学报(自然科学版),
    [4] 陈瑜靓王 津 . 图数据库关键词检索算法分析研究. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.2014a04
    [5] 许易琦罗娅妮许春霞刘平书邓砚张瑞君 . 论文关键词与学科研究热点关系分析以《林业调查规划》为例. 云南大学学报(自然科学版),
    [6] 李明悦何乐生雷晨龚友梅 . 基于注意力特征融合的SqueezeNet细粒度图像分类模型. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20200577
    [7] 田阳武浩 . 基于双层注意力机制的对偶正则化评分预测. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20200398
    [8] 王思明李昭坊 . 基于特征向量变换GAN的多域图像转换方法. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20190646
    [9] 刘鹏飞张伟峰何克晶 . 差分进化算法优化的图注意力网络集成研究. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.P00152
    [10] 薛琪孟祥福张峰张霄雁朱金侠朱尧王丹丹 . HLMGAN:分层学习的多奖励文本生成对抗网络. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.P00173
    [11] 卢康贺西平安笑笑贺升平尼涛 . 基于TSVM的多特征融合超声金属防伪识别. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20160548
    [12] 刘晓凤王灵矫郭华 . 基于博弈论的SDN多控制器负载均衡机制研究. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20200036
    [13] 侯静高国明杨滢 . 蒙古及邻区重磁异常的小波多尺度分析特征. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20190330
    [14] 汪金花曹兰杰郭云飞赵礼剑吴兵 . 铁尾矿高−多光谱遥感特征分析与信息识别. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20180656
    [15] 罗思洋龙华邵玉斌杜庆治 . 噪声环境下多特征融合的语音端点检测方法. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20200444
    [16] 王力龚振东 . 基于多特征的APSO-SVR的模拟电路故障预测. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20200475
    [17] 马欣欣郭敏 . 基于EEMD和多域特征融合的手势肌电信号识别研究. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20170300
    [18] 孙祥凯程莹 . 广义向量平衡问题的对偶. 云南大学学报(自然科学版),
    [19] 李琰崔建福马镭石磊 . 局部影响分析在支持向量机中的应用. 云南大学学报(自然科学版),
    [20] 李坤琼刘双 . 向量平衡问题的严格有效性. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20130551
  • 加载中
图(4)表(6)
计量
  • 文章访问数:  184
  • HTML全文浏览量:  174
  • PDF下载量:  11
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-04-15
  • 录用日期:  2021-07-24
  • 网络出版日期:  2021-09-28

多特征融合的越南语关键词生成方法

    作者简介:陈瑞清(1997−),男,云南人,硕士生,主要研究跨语言信息检索. E-mail:crq1150843144@163.com
    通讯作者: 高盛祥, gaoshengxiang.yn@foxmail.com
  • 1. 昆明理工大学 信息工程与自动化学院,云南 昆明 650500
  • 2. 昆明理工大学 云南省人工智能重点实验室,云南 昆明 650500

摘要: 越南语属于低资源语种,高质量关键词新闻数据稀缺,为了解决样本不足条件下生成越南语新闻关键词的准确性不高的问题,提出了一种多特征融合的越南语关键词生成模型,拟提升生成的越南语关键词与越南语新闻文档的相关性. 首先,将越南语新闻实体、词性、词汇位置特征与词向量拼接,使输入模型的词向量包含更多维度的语义信息;其次,利用双向注意力机制捕获上下文与新闻标题的依赖关系,增强标题在关键词生成中的指导作用;最后,结合复制机制生成越南语关键词,从而提高关键词的语义相关性. 在构建的越南语新闻关键词数据集上进行实验,结果表明融合多特征的关键词生成模型能在越南语训练样本有限的条件下生成高质量关键词,F1@10、R@50 分数比TG-Net分别提升了13.2%和17.1%.

English Abstract

  • 随着一带一路倡议推进,中国与越南在政治、经济、文化等方面的交流日益密切. 当今社会,互联网新闻报道作为信息传播的重要载体,成为人们了解越南国家的主要方式. 面对互联网每天产生数以百万计的新闻,语言理解成为了艰巨挑战. 如何从海量越南新闻报道中获取关键信息,提高信息使用率,对面向越南新闻舆情分析、跨语言新闻事件检索等领域具有重要研究价值.

    在自然语言处理任务中,越南语关键词通常作为多词单元以简短的文本总结了越南语文档的基本思想,对文本摘要、信息检索和文本分类等下游任务非常有利[1-2]. 越南语关键词生成任务的主要目标是在给定源文档的情况下自动生成简洁凝练,代表文档主要内容的关键词. 根据关键词的生成方式不同,可将关键词生成的方法分为两种类型:抽取式方法和生成式方法[3]. 目前越南语关键词研究大多使用抽取式方法,首先利用词汇特征(词性标签)、词频特征(Term Frequency-Inverse Document Frequency,TF-IDF)、外部信息特征(标题)等得到候选关键词集合,然后通过排序算法对候选词集进行排序,排名最高的候选词最终选择作为关键词[4]. 文献[4]基于本体论提出了针对特定领域的关键词提取算法,该算法基于本体自动提取文档的关键词,并使用提取出的关键词来计算两篇文章的相似度,在越南劳工和就业报纸在线网站上取得了不错的效果. 文献[5]提出了一种结合卷积神经网络(Convolutional Neural Networks,CNN)和长短期记忆网络(Long Short-Term Memory,LSTM)的混合深度学习解决方案用于越南语文本中的关键字提取,提出的模型具有更高的准确性和F1得分. 文献[6]利用基于规则的方法从越南单语文档中自动提取英语−越南语双语术语. 抽取式方法在越南语上的研究取得了不错的进展,但仍存在一定的局限性,例如,对于不存在于源文档中的关键词,抽取模型就无法预测这些词语[1].

    与抽取式方法相比,生成式方法不仅可以提取源文档中出现的关键词,还可以生成源文档中不存在的关键词. 它与人类思考方式更接近,通过理解整个文档后,重新组织语言生成源文档中已出现的关键词和不存在的关键词. 文献[1]采用了编码器-解码器结构,注意力机制和复制机制相结合的CopyRNN模型,并在大规模数据集上训练关键词生成模型. 带有门控循环单元的双向RNN在从大多数数据集中提取文档已出现的关键词时效果没有非深度学习方法好,但是CopyRNN也有不错的性能. 文献[7]提出了基于卷积神经网络的CopyCNN模型,提高了关键词的生成速度. 尽管如此,CopyRNN和CopyCNN网络将标题和正文平等对待,将标题和正文连接为唯一的源文本作为输入,而忽略了标题和关键词之间的语义相似性. 文献[8]将标题信息用于指导编码,显著提升了生成关键词的质量. 文献[9]通过引入主题模型使关键词生成模型能够挖掘文档中的潜在主题,提高了关键词与源文本的主题契合度. 文献[10]通过强化学习方法,增加了生成关键词的多样性. 文献[11]选择transformer作为编码器和解码器,利用跨文档注意力机制获得相关文档的潜在主题,以帮助在解码器生成更好的关键词. 实验证明,与基于CNN、RNN的生成模型相比,基于transformer的关键词生成模型能够产生高度准确和多样的关键词,说明了transfomer在关键词生成方面的强大能力. 现有研究通常依赖大规模关键词训练数据,在英文关键词生成任务中取得的良好结果[8].

    表1所示,抽取式方法可以提取文档中像“Tổng thống Mỹ Donald Trump(美国总统特朗普)”的词语,这类关键词已经出现在源文档中,称为“已出现的关键词(present keyphrases)”,但是抽取式方法无法得到像“Hạn chế đầu tư(限制投资)”未出现在源文档中的关键词. 生成式方法可以通过上下文内容,生成未出现在源文档中的关键词,这类关键词称为“未出现的关键词(absent keyphrases)”.

    Title:Mỹ đưa Xiaomi,Comac của Trung Quốc vào danh sách đen về quốc phòng
    Content:Chính quyền của Tổng thống Mỹ Donald Trump ngày 14/1 đã đưa thêm 9 doanh nghiệp của Trung Quốc vào danh sách đen về quốc phòng,trong đó có nhà sản xuất máy bay Comac và nhà sản xuất điện thoại di động Xiaomi.9 doanh nghiệp trên sẽ phải đối mặt với lệnh cấm đầu tư mới của Washington.Các nhà đầu tư Mỹ tới ngày 11/11/2021 sẽ buộc phải từ bỏ cổ phần tại các công ty bị liệt vào danh sách đen.Theo Đại sứ quán Trung Quốc tại Mỹ,Xiaomi và Comac hiện chưa phải hồi yêu cầu bình luận về thông tin trên....
    (1) Present Keyphrases:Tổng thống Mỹ Donald Trumpcổ phần;tin trên;máy bay;điện thoại di động; sẽ buộc phải;
    (2) Absent Keyphrases:Hạn chế đầu tư;Người mỹ;
    (3) Ground Truth:Tổng thống Mỹ Donald Trump;cấm đầu tư;Xiaomi; Đại sứ quán Trung Quốc tại Mỹ;cổ phần; danh sách đen; sản xuất máy bay;

    表 1  越南语关键词生成举例(黑色加粗斜体为源文档中已出现的关键词)

    Table 1.  Example of Vietnamese keyphrase generation (black,bold and italics are keyphrases that have appeared in the source document)

    虽然英语关键词生成已经取得了很好的进展,由于越南语高质量关键词新闻数据集稀少,远低于英文训练样本规模,生成过程中考虑的特征信息不足,同样的生成方法在越南语上效果却不理想. 在表1利用CopyRNN方法生成的present keyphrases中,“tin trên(信息)”在此篇新闻中并不属于重要信息,不能作为关键词. “máy bay(飞机)”与真实关键词“sản xuất máy bay(飞机制造商)”属于不同实体,也不能作为准确的关键词使用. 此外,“điện thoại di động(手机)”、“ Người mỹ(美国人)”等关键词均与参考标准关键词(ground truth)无关,无关的关键词占比53%.

    越南语构词的主要特点是每一个音节作为独立的单位,具有实际语义,又可作为构成多音节词的基础. 越南语兼类词具有多个词性,主要集中在名词、动词、形容词和量词等词性之间的转化上[12],例如Vượt qua khó khăn(困难、困难的,名词兼形容词),muối(盐,名词兼动词),một cân muối(一斤盐),muối dưa(腌菜);在某些词前出现其他词时,这些词的词性会发生转变,例如动词前有“sự(事),việc(事情)”时,该动词会变成名词使用. 兼类词在不同语境下显示的词性不同,所表达的含义也不一样,对越南语关键词生成效果有重要影响.

    越南语新闻与中文新闻结构相似,由标题、新闻内容等信息组成. 越南语新闻标题表述完整,具有实际的语义,通常是主谓结构或动宾结构并且包含了能够凸显新闻核心内容的关键词语. 新闻的正文通常在第一段交代新闻事件的时间、地点、人物、动作和对象等关键信息,后续段落则围绕这些关键信息进行展开.

    为了提升生成的越南语新闻关键词与新闻文档的相关性,本文提出了一种多特征融合的越南语生成模型. 通过融入越南语词性、新闻实体、词汇位置、新闻标题等特征,模型能够在生成关键词的过程中考虑更多的特征信息,以提高生成越南语新闻关键词的准确率. 本文的主要贡献有:

    (1)利用越南语词性、新闻实体、词汇位置、新闻标题等特征进行越南语关键词生成,有效缓解了越南语关键词数据集稀缺,训练样本不足导致生成关键词不准确的问题;

    (2)通过双向注意力机制对上下文和新闻标题的语义向量进行融合,有效增强了新闻标题在生成过程中的指导作用,保持新闻标题与生成关键词语义上的一致性.

    • 关键词生成任务中的主要挑战就是要确定文档所围绕的关键概念和关键实体. 为了实现此目标,我们使用了基于词嵌入的表示形式并融入了其他特征比如越南语词性特征、新闻实体特征、词汇位置特征[13]等.

    • 词性是词汇基本的语法属性,决定了词汇的语义倾向性[14]. 词性能够提供词语的抽象表示,对解决词语歧义问题具有重要的作用. 兼类词的词性会受到前后两个词的词性影响,如“quả(果子)”有量(单位)词和名词两种词性,在“một quả bong(一个球)”中,由于“một(一)”是数词,“bong”是名词,从而可以判断“quả”是量词. 与其他词性的词汇相比,在关键词生成任务中名词和动词通常包含了文档关键信息,对越南语新闻关键词数据集词性分布统计如图1所示. 可以看出,越南语新闻关键词数据集中的词性组成不是均匀分布,而是主要集中在几类词性上,这说明词性对关键词生成具有较强的指示作用. 本文采用VnCoreNLP越南语自然语言处理工具包[15]对越南语新闻关键词数据集进行词性标注,共26种词性. 以句子“Ông Nguyễn Khắc Chúc đang làm việc tại Đại học Quốc gia Hà Nội.”为例,词性标注结果如图2所示. 将词性向量化表示后与词向量拼接,使词向量包含词性特征.

      图  1  越南语新闻关键词数据集词性分布

      Figure 1.  Part-of-speech distribution of Vietnamese news keyphrases dataset

      图  2  VnCoreNLP解析结果

      Figure 2.  The analysis results of VnCoreNLP

    • 实体是人们最关注的词汇,往往是信息抽取的焦点,通常包括人名、地名、机构名、时间、专有名词等具有特定意义的实体[14]. 在关键词生成任务中,新闻实体包含了代表新闻文档主题的关键信息. 本文用VnCoreNLP越南语自然语言处理工具包对越南语新闻关键词数据集进行新闻实体识别,标注的实体共计9类:“B-LOC”,“I-LOC”,“B-MISC”,“I-MISC”,“B-ORG”,“I-ORG”,“B-PER”,“I-PER”,“O”,B表示开始,I表示内部,O表示非实体,如B/I-XXX,其中B/I表示这个词属于实体的开始或内部,XXX表示实体的类型,分为人名PER、地名LOC、组织机构名ORG、其他MISC 4类. 以句子“Ông Nguyễn Khắc Chúc đang làm việc tại Đại học Quốc gia Hà Nội”为例,实体识别结果如图2所示. 将实体向量化表示后与词向量拼接,使词向量包含新闻实体特征.

    • 新闻文档的第一句或第一段通常涵盖整篇文章的主旨信息,文档的前半部分内容比后半部分内容更重要[13]. 越南语新闻文档采用倒金字塔写作方式,最重要的信息在标题中就会体现出来,新闻主题在第一段出现的可能性最大,最后一段往往属于对前面几段内容的总结. 因此计算词汇的位置特征来表示不同位置词汇的重要性,计算公式如下:

      $ {l_{}} = \frac{{{1} + n - i}}{n}, $

      其中, $ l $ 代表词汇的位置特征,$ i $ 代表新闻文本中第 $ i $ 个词汇的位置,$ n $ 代表该新闻文本中总的词汇数目. $ l $ 的值越大,说明该位置的词汇越重要.

      本文将词转化为原始词向量,通过词向量拼接的方式在原始词向量后面添加向量化后的词性、新闻实体、位置等特征,最终输入编码器的词向量表示为:

      $ {{\boldsymbol{x}}_{\boldsymbol{i}}} = \{ {\boldsymbol{r}}_{\boldsymbol{i}}^{{{\rm{w}}}},{\boldsymbol{r}}_{\boldsymbol{i}}^{{{\rm{p}}}},{\boldsymbol{r}}_{\boldsymbol{i}}^{{{\rm{n}}}},{\boldsymbol{r}}_{\boldsymbol{i}}^{{{\rm{l}}}}\}, $

      其中,w、p、n、l分别代表词、词性、命名实体、词位置, ${{\boldsymbol{r}}^{{{\rm{w}}}}}$ 代表原始词向量,${{\boldsymbol{r}}^{{{\rm{p}}}}}$ 代表词性标注后的词向量,${{\boldsymbol{r}}^{{{\rm{n}}}}}$ 代表新闻实体识别后的词向量,${{\boldsymbol{r}}^{{{\rm{l}}}}}$ 代表词的位置特征.

    • 关键词生成模型将给定的上下文 $ {\boldsymbol{x}} = ({{\boldsymbol{x}}_1},\cdots,{{\boldsymbol{x}}_n}) $ 作为输入,得到一组关键词序列 $ {\boldsymbol{y}} = ({{\boldsymbol{y}}_1},\cdots,{{\boldsymbol{y}}_n}) $ 作为输出. 模型如图3所示,分为拼接层、编码层、双向注意力层、合并层和解码层. 首先将通过越南语词性标注工具和命名实体工具得到对应词性标签和新闻实体,并将词性,新闻实体以及位置特征向量化表示后与词向量拼接;然后双向注意力层为每个上下文中的单词收集相关的标题信息,以反映上下文的重要部分. 该层的输入是上下文 $ {\boldsymbol{X}} = ({{\boldsymbol{x}}_1},{{\boldsymbol{x}}_2},\cdots,{{\boldsymbol{x}}_{\boldsymbol{i}}}) $ 和标题 $ {\boldsymbol{T = }}({{\boldsymbol{t}}_1},{{\boldsymbol{t}}_2},\cdots,{{\boldsymbol{t}}_{\boldsymbol{j}}}) $ 的上下文向量表示,输出是上下文的标题感知向量表征 $ {\boldsymbol{G}} = ({{\boldsymbol{g}}_1},{{\boldsymbol{g}}_2},\cdots,{{\boldsymbol{g}}_{\boldsymbol{i}}}) $;最后,合并层将汇总的标题信息合并到每个上下文单词中,从而产生最终的融合标题信息的上下文表征. 在得到标题感知的上下文表征之后,我们使用基于注意力的解码器[16]并结合了复制机制[17]来生成关键词.

      图  3  越南语关键词生成框架

      Figure 3.  The framework of Vietnamese keyphrase generation

    • 本模型在输入层添加了一个拼接层,用于将原始词向量与词性、新闻实体、词汇位置等语言特征拼接后生成最终输入模型的词向量. 原始向量进入特征拼接层,拼接层根据式(1)计算该文章中词汇的位置信息,将每个词汇的词性标记和新闻实体标记映射为词性嵌入和新闻实体嵌入. 将每个词汇的词性嵌入、新闻实体嵌入、词汇位置 $ l $ 与原始词向量拼接在一起,最终构成一个512维的向量 ${{\boldsymbol{x}}_{\boldsymbol{i}}} = \{ {\boldsymbol{r}}_{\boldsymbol{i}}^{{w}},{\boldsymbol{r}}_{\boldsymbol{i}}^{{p}},{\boldsymbol{r}}_{\boldsymbol{i}}^{{n}},{\boldsymbol{r}}_{\boldsymbol{i}}^{{l}}\}$.

      门控循环单元网络(Gated Recurrent Unit networks,GRU)单元结构[18]具有更新门和重置门,更新门决定是否使用候选隐藏状态来更新隐藏状态,重置门决定前一层的隐藏状态信息有多少被遗忘. 计算公式如下:

      $ {\tilde s _{\boldsymbol{t}}} = \tanh ({W_{\rm{s}}}({r_t}*{s_{t - 1}})) + {U_{\rm{s}}}{x_t} + {b_{\rm{s}}}, $

      $ {s_t} = (1 - {z_t})*{s_{t - 1}}+{z_t}*{\tilde s _t}, $

      $ {z_t} = \delta ({W_{\rm{z}}}{s_{t - 1}} + {U_{\rm{z}}}{x_t} + {b_{\rm{z}}}), $

      $ {r_t} = \delta ({W_{\rm{r}}}{s_{t - 1}} + {U_{\rm{r}}}{x_t} + {b_{\rm{r}}}). $

      其中,“*”表示元素乘积,$ {W_{\rm{z}}} $$ {W_{\rm{r}}} $ 分别更新门 $ {z_t} $ 和重置门 $ {r_t} $ 的权重矩阵,$ {W_{\rm{s}}} $ 为输出时的权重矩阵,$ {x_t} $t时刻的输入向量,$ {\tilde s _t} $$ {s_t} $ 表示t时刻的候选状态和输出状态 $ {b_{\rm{s}}} $$ {b_{\rm{r}}} $$ {b_{\rm{z}}} $ 为常数,$ \delta $ 为sigmoid激活函数.

      编码层将整个源文档和标题压缩成一个连续的向量,学习源文档每个单词的矢量表示. 本文使用双向GRU作为编码器,输入的是带有词性特征、新闻实体特征、词汇位置特征的上下文向量 ${\boldsymbol{x}} = $$ ({{\boldsymbol{x}}_1},\cdots,{{\boldsymbol{x}}_{{i}}})$ 和标题向量 ${\boldsymbol{t}} = ({{\boldsymbol{t}}_1},\cdots,{{\boldsymbol{t}}_{{j}}})$. 前向GRU从左到右读取输入序列,分别生成上下文隐藏状态序列 $ ({{\overrightarrow {\boldsymbol{h}}}_{1}},{\cdots},{{\overrightarrow {\boldsymbol{h}}}_{i}}) $ 和标题隐藏状态序列 $ ({\overrightarrow {\boldsymbol{q}}}_{1},{\cdots},{{\overrightarrow {\boldsymbol{q}}}_{j}}) $. 后向GRU反向读取输入序列,分别生成上下文隐藏状态序列 $ ({{\overleftarrow {\boldsymbol{h}}}_{1}},{\cdots},{{\overleftarrow {\boldsymbol{h}}}_{i}}) $ 和标题隐藏状态序列 $ ({{\overleftarrow {\boldsymbol{q}}}_{1}},{...},{{\overleftarrow {\boldsymbol{q}}}_{j}}) $. 每个时间步骤中连接前向和后向的GRU隐藏状态,上下文和标题通过双向GRU最终输出隐藏状态分别为 ${\boldsymbol{H}} = ({{\boldsymbol{h}}_1},{{\boldsymbol{h}}_2},\cdots,{{\boldsymbol{h}}_{{i}}})$${\boldsymbol{Q}} = ({{\boldsymbol{q}}_1}, $$ {{\boldsymbol{q}}_2},\cdots,{{\boldsymbol{q}}_{{j}}})$. 编码器输出隐藏状态计算公式如下:

      $ {{\overrightarrow {\boldsymbol{h}}}}_{{{i}}}={\rm{G}}({{\boldsymbol{x}}}_{{{i}}},{{\overrightarrow {\boldsymbol{h}}}}_{{{i}}-1}), $

      $ {{\overleftarrow {\boldsymbol{h}}}}_{{{i}}}=\text{G}({{\boldsymbol{x}}}_{{{i}}},{{\overleftarrow {\boldsymbol{h}}}}_{{{i}}+1}), $

      $ {{\overleftarrow {\boldsymbol{q}}}}_{{{j}}}=\text{G}({{\boldsymbol{t}}}_{{{j}}},{{\overleftarrow {\boldsymbol{q}}}}_{{{j}}-1}), $

      $ {{\overleftarrow {\boldsymbol{q}}}}_{{{j}}}=\text{G}({{\boldsymbol{t}}}_{{{j}}},{{\overleftarrow {\boldsymbol{q}}}}_{{{j}}+1}). $

      其中,G表示GRU网络,${{\boldsymbol{x}}_{{i}}}$${{\boldsymbol{t}}_{{j}}}$ 是第i个上下文词和第j个标题词的词向量,双向GRU对应的最终隐状态由两个方向的隐状态拼接表示为 ${{\boldsymbol{h}}}_{{{i}}}= $$ ({\overrightarrow {\boldsymbol{h}}}_{{{i}}};{\overleftarrow {\boldsymbol{h}}}_{{{i}}})$${{\boldsymbol{q}}}_{{{j}}}=({\overrightarrow {\boldsymbol{q}}}_{{{j}}};{\overleftarrow {\boldsymbol{q}}}_{{{j}}})$.

      标题对于生成能够准确描述文档的关键词提供了很好的参考信息. 为了有效利用标题中的相关信息,我们采用了类似BIDAF[19]的双向注意力机制来建模标题与上下文的交互. 对于每一个上下文词,标题可看作类似查询的输入.

      双向注意力层的输入分别是上下文和标题的向量表征 ${{\boldsymbol{h}}_{{i}}}$${{\boldsymbol{q}}_{{j}}}$. 在这一层中,通过从上下文到标题以及从标题到上下文两个方向计算注意力. 首先计算相似度矩阵 $ {\boldsymbol{S}} $,计算公式如下:

      $ {{\boldsymbol{S}}_{{{ij}}}} = \alpha ({{\boldsymbol{h}}_{{i}}},{{\boldsymbol{q}}_{{j}}}). $

      其中, ${{\boldsymbol{S}}_{{{ij}}}}$ 表示第i个上下文词和第j个标题词的相似度,$ \alpha $ 是一个可训练的标量函数,对其两个输入向量相似性进行编码, ${{\boldsymbol{h}}_{{i}}}$$ {\boldsymbol{H}} $ 的第i个列向量,${{\boldsymbol{q}}_{{j}}}$$ {\boldsymbol{Q}} $ 的第j个列向量. 我们选择 $\alpha ({\boldsymbol{H}},{\boldsymbol{Q}})= $$ {{\boldsymbol{W}}}_{({{s}})}^{{\rm{T}}}[{{\boldsymbol{h}}}_{{{i}}};{{\boldsymbol{q}}}_{{{j}}};{{\boldsymbol{h}}}_{{{i}}}\circ {{\boldsymbol{q}}}_{{{j}}}]$,其中“;”表示向量拼接,“$ \circ $”表示矩阵乘法,$ {{\boldsymbol{W}}_{({\boldsymbol{s}})}} $ 是可训练参数,T表示转置.

      (1)从上下文到标题的注意力:上下文到标题的注意力表示哪一个标题词与上下文词最相关. $ {a_i} $ 代表标题词与第i个上下文词的注意力权重,其中 $ \sum {{a_{ij}} = 1} $. 注意力的计算公式如下:

      $ {{\boldsymbol{u}}_{{i}}} = {\rm{softmax}}({{\boldsymbol{S}}_{{{i}}:}}), $

      $ {{\boldsymbol{a}}_{{i}}} = \sum\limits_{{j}} {{{\boldsymbol{u}}_{{{i}},{{j}}}}{{\boldsymbol{q}}_{{j}}}} . $

      其中,softmax为归一化指数函数,${\mu _i} $ 为归一化后上下文文本第i个词与标题文本中每一个词的相似度,ai为标题相对于上下文最重要的词加权求和后的注意力.

      (2)从标题到上下文的注意力:标题到上下文的注意力表示哪一个上下文词与标题词最相关. 注意力权重的计算公式如下:

      $ {\boldsymbol{v}} = {\rm{softmax}}{(_{{\bf{col}}}}({\boldsymbol{S}})), $

      $ {{\boldsymbol{b}}_{{i}}} = \sum\limits_{{i}} {{{\boldsymbol{v}}_{{i}}}{{\boldsymbol{c}}_{{i}}}} , $

      其中,col(S)为相似度矩阵中相似度最大的列,v为归一化后标题词与最相关上下文词的相似度,hi为上下文向量,bi为上下文相对于标题最重要的词加权求和后的注意力.

      最后,将上下文词向量和注意力向量组合在一起产生 ${\boldsymbol{G}} = [{{\boldsymbol{g}}_1},{{\boldsymbol{g}}_2},\cdots,{{\boldsymbol{g}}_{{i}}}]$$ {\boldsymbol{G}} $ 的定义如下:

      $ {\boldsymbol{G}} = [{{\boldsymbol{h}}_{{i}}};{{\boldsymbol{a}}_{{i}}};{{\boldsymbol{c}}_{{i}}} \circ {{\boldsymbol{a}}_{{i}}};{{\boldsymbol{c}}_{{i}}} \circ {{\boldsymbol{b}}_{{i}}}]. $

      合并层对上下文向量 ${{\boldsymbol{h}}_{{i}}}$ 和聚合相关标题信息的向量 ${{\boldsymbol{g}}_{{i}}}$ 进行编码,最后得到融合标题信息的上下文表示,计算公式如下:

      $ {\overrightarrow {\boldsymbol{m}}}_{{{i}}}={\rm{G}}([{{\boldsymbol{h}}}_{{{i}}};{{\boldsymbol{g}}}_{{{i}}}],{\overrightarrow {\boldsymbol{m}}}_{{{i}}-1}), $

      $ \overleftarrow {\boldsymbol{m}}_{{{i}}}={\rm{G}}([{{\boldsymbol{h}}}_{{{i}}};{{\boldsymbol{g}}}_{{{i}}}],{\overleftarrow {\boldsymbol{m}}}_{{{i}}-1}), $

      $ {\tilde {\boldsymbol{m}}_{{{i}}}}=\lambda {{\boldsymbol{h}}}_{{{i}}}+(1-\lambda )[{\overrightarrow {\boldsymbol{m}}}_{{{i}}};{\overleftarrow {\boldsymbol{m}}}_{{{i}}}]. $

      其中 $ \lambda \in (0,1) $ 是超参数. ${{\tilde{\boldsymbol m}}_{{i}}}$ 融合标题信息的上下文表示.

      解码层使用了一个基于注意力的单向GRU[16]进行解码,计算公式如下:

      $ {{\boldsymbol{h}}_{{t}}} = {\rm{G}}([{{\boldsymbol{e}}_{{{t}} - 1}}{;}\tilde {\boldsymbol{h}} _{{{t}} - 1}],{{\boldsymbol{h}}_{{{t}} - 1}}), $

      $ {{\boldsymbol{\hat c}}_{{t}}} = {\rm{attn}}({{\boldsymbol{h}}_{{t}}},{\rm{[}}{{\tilde{\boldsymbol m}}_1}{\rm{,}}{{\tilde{\boldsymbol m}}_2}{\rm{,}}\cdots,{{\tilde{\boldsymbol m}}_{{i}}}{\rm{];}}{{\boldsymbol{W}}_1}{\rm{),}} $

      $ {{\tilde{\boldsymbol h}}_{{t}}} = {\rm{tanh}}({{\boldsymbol{W}}_2}[{{\boldsymbol{\hat c}}_{{t}}}{\rm{;}}{{\boldsymbol{h}}_{{t}}}]). $

      其中, t =1,2,···,Ly,Ly是生成的关键词长度,et-1是第 t -1个预测关键词的词嵌入,e0是起始符的词嵌入, attn 代表注意力权重计算, tanh 是双曲正切激活函数,${{{\hat {\boldsymbol{c}}}}_{{t}}} $ 为融合标题信息和上下文信息的向量,${\boldsymbol{h}}_t $为时间步长 t 的隐状态向量,${{\tilde{ {\boldsymbol{h}}}}_{{t}}} $ 为注意力向量,w为参数矩阵.

      计算当前步骤在预定义词汇表v上的预测概率分布的公式如下:

      $ {{{P}}_v}({y_{\rm{t}}}{\text{|}}{y_{{\boldsymbol{t}} - 1}},x,t) = {\rm{softmax}}({{\boldsymbol{W}}_v}\tilde {\boldsymbol{h}} _{\boldsymbol{t}} + {{\boldsymbol{b}}_v}). $

      其中,Pv为关键词生成的概率, x 为上下文序列, t为标题序列, $ {y_{t - 1}} = [{y_1},\cdots,{y_{t - 1}}] $ 是先前的预测单词序列,$ {{\boldsymbol{b}}}_{v}\in{R}^{\left|v\right|} $ 是可训练的参数向量.

      复制机制能使解码器直接从输入文档中复制单词,能够缓解未登录词(Out Of Vocalbulary,OOV)问题. 在生成预测词之前,采用该机制来有效利用文本信息来增强模型的提取能力. 参照文献[17],首先在预测的每一步计算一个生成概率 $ {g_t} $

      $ {g_t} = {\rm{sigmoid}}({\boldsymbol{w}}_{\boldsymbol{g}}^{{\rm{T}}}\tilde {\boldsymbol{h}} _{\boldsymbol{t}} + {{\boldsymbol{b}}_{\boldsymbol{g}}}). $

      其中,sigmoid 为激活函数,$ {{\boldsymbol{w}}_{\boldsymbol{g}}} $$ {{\boldsymbol{b}}_{\boldsymbol{g}}} $ 是可训练的参数.

      接下来,$ {g_t} $ 用于确定是否将源文档中的单词复制为第t个目标关键词. $ {g_t} $ 对词汇分布和注意力分布进行加权平均,得到了扩展词汇表上的以下概率分布, 使用 $ {P_v}({y_t}) $$ {P_{}}({y_t}) $ 来分别表示 $ {P_v}({y_t}|{y_{t - 1}}, x,t) $$ {P_{}}({y_t}|{y_{t - 1}},x,t) $,计算公式如下:

      $ {P_{}}({y_t}) = (1 - {g_t}){P_v}({y_t}) + {g_t}\sum\limits_{i:{x_i} = {y_t}} {{{\hat \alpha }_{t,i}}} . $

      其中, $ {\hat \alpha _{t,i}} $$ {{\boldsymbol{h}}_{\boldsymbol{t}}} $$ {\tilde {\boldsymbol{m}} _{\boldsymbol{i}}} $ 之间的归一化注意力得分. 对于所有词汇外的单词,$ {P_\upsilon }({y_t}) $ 设置为0. 同样地,如果 $ {y_t} $ 没有在上下文中出现,复制概率 $ \displaystyle \sum\limits_{i:{x_i} = {y_t}} {{{\hat \alpha }_{t,i}}} $ 则为0.

    • 本模型选择负对数似然损失作为损失函数,计算公式如下:

      $ L = - \sum\limits_{t = 1}^{{L_y}} {\lg {P_{}}({y_t}|{y_{t - 1}},h,t;\theta )} . $

      其中, $ {L_y} $ 是目标关键词y的长度,$ {y_t} $y中的第t个词语,$ \theta $ 代表所有可训练的参数.

    • 关键词生成流程如图4所示,具体步骤如下:

      图  4  越南语关键词生成流程

      Figure 4.  The process of Vietnamese keyphrase generation

      步骤 1 读取越南语新闻文档,分为上下文(标题+正文)和标题信息.

      步骤 2 预处理. 对越南语新闻文档进行分词,得到分词后的词汇表vocab,并为词汇表中的词生成词性标志和新闻实体标志.

      步骤 3 将词汇表中的词汇、词性标志和新闻实体标志向量化,获得原始词向量 $ {{\boldsymbol{r}}^{\boldsymbol{w}}} $、词性标志向量 $ {{\boldsymbol{r}}^{\boldsymbol{p}}} $ 和新闻实体向量 $ {{\boldsymbol{r}}^{\boldsymbol{n}}} $,并根据式(1)计算词的位置特征值 $ {{\boldsymbol{r}}^{\boldsymbol{l}}} $ 并拼接语言特征向量concatenate($ {\boldsymbol{r}}_{\boldsymbol{i}}^{\boldsymbol{w}},{\boldsymbol{r}}_{\boldsymbol{i}}^{\boldsymbol{p}}, $$ {\boldsymbol{r}}_{\boldsymbol{i}}^{\boldsymbol{n}},{\boldsymbol{r}}_{\boldsymbol{i}}^{\boldsymbol{l}} $).

      步骤 4 计算编码层、双向注意力层、合并层的隐藏状态,根据式(18)计算输出 $ {y_t} $ 的概率,利用波束搜索算法选择top10分数迭代预测关键词.

      步骤 5 输出最终关键词.

    • 我们从3个具有高质量关键词的越南语新闻网站爬取了20000篇越南语新闻文档,新闻文档中的关键词由作者分配,但这样的新闻文档数量有限. 经过数据清洗后,选择篇幅字数在200~450,关键词数量大于4个的新闻文档,最终留下13000篇新闻. 其中9000篇用作训练集,2 000篇用作验证集,2 000篇用作测试集. 验证集和测试集是随机选择的.具体数据如表2所示. 数据以json的格式储存,每篇新闻包含3个字段:{title,content,keyphrases}

      类别句子数量词数量关键词数量
      训练集216 8171 974 02559 254
      验证集21 982173 9828 701
      测试集20 295163 5408 169

      表 2  越南语新闻关键词数据统计

      Table 2.  The statistics of Vietnamese news keyphrase dataset

      参照文献[1]的方法对数据进行相同的预处理,并将所有数字替换为<digit>. 将每个文档的标题和上下文(标题+正文)分别用作输入文本,并将其所有关键词连接成单个序列作为输出. 在输出序列中,关键词以一定顺序排列:已出现的关键词在未出现的关键词之前,其中已出现的关键词根据其在输入文档中的首次出现的重新顺序排列,所有未出现的关键词保持其原始顺序.

    • 在训练阶段,根据词频排序选择前50 000个单词构成词表,词嵌入维度设置为100,隐藏层维度设置为256,$ \lambda $ 设置为0.5. 除了 $ {{\boldsymbol{h}}_0} $ 初始化为 $ [{\overrightarrow {\boldsymbol{m}} _{\boldsymbol{i}}},{\overleftarrow {\boldsymbol{m}} _1}] $,GRU单元的初始状态均为全零向量. 标题、上下文和关键词共享嵌入矩阵,包括嵌入矩阵在内的所有可训练变量均以[−0.1,0.1]的均匀分布随机初始化. 采用Adam优化器[20],设置训练批次大小为64,初始学习率为0.001,dropout率为0.1. 最后使用波束搜索生成多个关键词,波束大小设置为50,最大序列长度设置为40.

    • 给定一篇越南语新闻文档,模型预测出n个关键词,最重要的词在第一位,按照重要性依次排列. 本文采用准确率,召回率,F1值作为评价指标. 参与评估的关键词数量对评估的质量有着重要影响,通常选择前k个预测的关键词用于评估[21]. F1值是基于召回率和准确率来计算的,其中准确率定义为前k个预测正确的关键词的数量(M)与前k个预测关键词总数(K)的比值. 召回率定义为前k个预测正确的关键词的数量(M)与参考标准关键词(ground truth)总数(N)的比值. 预测得到的关键词准确度与F1值呈正相关,如果模型预测出的关键词与参考标准关键词完全相同,F1值将接近1.

      准确率P,召回率R和F1值的计算公式如下:

      ${{P = }}\frac{{{M}}}{{{K}}}, $

      $ {{R = }}\frac{{{M}}}{{{N}}}, $

      $ {{{{\rm{F}}}}{1}}{{ = }}\frac{{{{2PR}}}}{{{{P + R}}}}{{.}} $

    • 我们选择了具有复制机制的两个编码器-解码器模型作为CopyRNN和CopyCNN以及TG-Net作为关键词生成任务的基准模型.

    • 在越南语新闻关键词数据集上我们比较了不同基准模型在现有关键词预测的能力. 表3列出了每个模型的前5个和前10个预测的F1值.

      模型$ P@5 $$ R@5 $F${1}@5$$ P@10 $$ R@10 $F${1}@10$
      CopyRNN 0.388 0.298 0.337 0.354 0.309 0.330
      CopyCNN 0.396 0.301 0.342 0.357 0.314 0.334
      TG-Net 0.439 0.336 0.381 0.372 0.341 0.356
      本文方法 0.505 0.364 0.423 0.446 0.367 0.403

      表 3  在测试数据集上已出现的关键词预测结果

      Table 3.  Keyphrase prediction results that have appeared on the test dataset

      本文提出的融合语言特征的模型与其他3种模型相比,取得最佳性能. 可以看出,融合词汇特征的模型在基于Seq2Seq框架的基础上,增加词汇特征融合要比不融合词汇特征的模型在F1值上的指标均有所提升. 在越南语训练数据规模远小于原始实验中英语数据规模的条件下,CopyRNN、CopyCNN和TG-Net性能直线下降,性能远低于在大规模英语数据集上训练的模型. 说明在训练数据不足的情况下,普通RNN、CNN网络已不再适用于关键词生成,由于TG-Net利用标题等外部信息指导生成,一定程度上缓解了训练数据不足造成的影响. 我们的模型比TG-Net模型提高了13.2%(F1@10分数). 与CopyRNN和CopyCNN相比,我们的模型分别提高了0.221和0.207(F1@10分数). 实验表明在标记数据不足的情况下,与不融合语言特征的模型相比,融合语言特征的模型能够有效利用文档中的特征信息,具有更好的关键词提取能力.

    • 生成未出现的关键词是生成模型的基本特征,预测未出现的关键词需要理解上下文语义的能力. 在这部分只考虑参考标准关键词(ground truth)中未出现的关键词和预测出的未出现的关键词用作评估. 一般将前20和前50个预测关键词的召回率用于度量预测未出现的关键词准确度. 表4列出了每个模型的前20个和前50个预测的召回率.

      模型$ P@20 $$ R@20 $${{\rm{F}}1}@20$$ P@50 $$ R@50 $${{\rm{F}}1}@50$
      CopyRNN 0.328 0.324 0.326 0.312 0.348 0.329
      CopyCNN 0.339 0.332 0.335 0.319 0.352 0.335
      TG-Net 0.368 0.357 0.362 0.349 0.390 0.368
      本文方法 0.392 0.396 0.393 0.397 0.457 0.425

      表 4  在测试数据集上未出现的关键词预测结果

      Table 4.  Keyphrase prediction results that did not appear on the test dataset

      可以看出,我们的模型在越南语新闻关键词数据集上始终优于先前的序列到序列模型. 与最佳模型TG-Net相比,我们的模型性能提高了0.171(R@50 分数). 总体而言,结果表明我们的模型能够捕获上下文内容的底层语义. 类似于已出现的关键词预测,融入词性、新闻实体、位置、标题等特征为未出现的关键词预测提供了显著的提升,这些特征有助于在解码过程选择合适的单词. 删除复制机制不会影响预测未出现关键词的性能,这是因为复制机制只能选择输入文档中的单词,而这些单词不可能包含在未出现的关键词中.

    • 为了验证词性特征、新闻实体特征、位置特征融入词向量和利用双向注意力机制融入标题的效果,设置了消融实验.

      表5中可以看出,与位置特征和新闻实体特征相比,融入词性特征更能提升生成关键词的准确率. 相比较在词向量中融入新闻实体、位置和词性特征,利用双向注意力机制引入标题信息,能够使准确率更高. 同时在词向量中融入新闻实体特征、位置特征、词性特征和通过双向注意力机制利用标题特征的方法取得了最好的效果. 实验结果表明,对于像越南语等低资源语言训练样本不足的情况下,融入词特征可以提高关键词生成模型性能,而提出的融入多特征的越南语关键词生成模型达到了最好的效果.

      融入特征${{\rm{F}}1}@5$${{\rm{F}}1}@10$$ R@20 $$ R@50 $
      0.337 0.330 0.324 0.348
      位置 0.359 0.348 0.311 0.383
      词性 0.365 0.359 0.319 0.398
      新闻实体 0.354 0.343 0.308 0.381
      标题 0.369 0.364 0.321 0.404
      位置+标题 0.382 0.375 0.336 0.412
      词性+标题 0.401 0.392 0.354 0.441
      新闻实体+标题 0.388 0.381 0.345 0.421
      位置+词性+新闻实体+标题 0.423 0.403 0.367 0.457

      表 5  融入不同特征生成关键词效果对比

      Table 5.  The comparison of the effect of integrating different features for keyphrase generation

    • 为了说明我们所提出的模型与TG-Net模型之间的生成关键词差异,表6展示了从越南语新闻文档测试集中选择的一个例子. 在这个例子中,一共有12个参考标准关键词(ground truth). 对于已出现的关键词(present keyphrases)预测,可以发现两个模型都能从标题中预测关键词“Doanh nghiệp Áo(奥地利企业)”,但是对于另外一个标题中的关键词“cơ hội đầu tư vào Việt Nam(越南投资机会)”,我们的模型能够成功预测,而TG-Net只预测到该关键词的一部分“Việt Nam(越南)”. “Thủ tướng Nguyễn Xuân Phúc(阮春福总理)”作为人名实体,TG-Net无法预测该关键词. 对于未出现的关键词(absent keyphrases)预测,注意到TG-Net不能预测未出现的关键词“Quan hệ kinh tế và thương mại(经贸关系)”,但我们的模型可以利用“kinh tế (经济)”“thương mại(商业)”等名词成功生成未出现的关键词. 总体来看,位于文章开始和结尾的关键词,我们的模型都能够成功预测,而TG-Net没有预测到位于文章结尾的关键词“hoạt động đầu tư(投资活动)”. 这些结果表明了我们的模型能够有效利用越南语新闻标题、越南语词性、新闻实体、词汇位置等相关信息生成关键词,在已出现的关键词预测和未出现的关键词预测方面取得了更好的结果. 但是由于本方法比较依赖词性标注和命名实体识别准确率,对于词性标注和命名实体识别方法准确度不高的其他小语种,例如泰语、老挝语、缅甸语,可能无法达到良好效果.

      Title:Thủ tướng: Doanh nghiệp Áo cần nắm bắt cơ hội đầu tư vào Việt Nam
      Content:Chiều 14/5,tại Trụ sở Chính phủ,Thủ tướng Nguyễn Xuân Phúc tiếp Chủ tịch Phòng Kinh tế Áo,ông Harald Mahrer.Tại buổi tiếp,Thủ tướng Nguyễn Xuân Phúc vui gặp Chủ tịch Phòng Kinh tế Áo thăm Việt Nam và cho biết,Chính phủ hoan nghênh việc mở văn phòng đại diện của Phòng Kinh tế Áo tại Việt Nam.Thủ tướng khẳng định,Áo là đối tác quan trọng và tin cậy của Việt Nam và hai bên cần tiếp tục thúc đẩy quan hệ thương mại,kinh tế,đầu tư giữa hai nước.Chủ tịch Phòng Kinh tế Áo trân trọng cảm ơn Thủ tướng Nguyễn Xuân Phúc dành thời gian tiếp và gửi lời thăm hỏi của Thủ tướng Áo tới Thủ tướng Nguyễn Xuân Phúc. Ông đánh giá cao việc hỗ trợ của Phòng Thương mại và Công nghiệp Việt Nam và các cơ quan chức năng của Việt Nam. Đây là cơ sở rất quan trọng để thúc đẩy hợp tác giữa doanh nghiệp hai nước.Chủ tịch Phòng Kinh tế Áo cho biết,đoàn sang Việt Nam lần này có 50 doanh nghiệp Áo,tìm cơ hội đầu tư kinh doanh tại Việt Nam.Trao đổi với đại diện các doanh nghiệp Áo về vấn đề quan tâm,nhất là trước bối cảnh cạnh tranh thương mại toàn cầu,Thủ tướng Nguyễn Xuân Phúc nhấn mạnh cơ hội và thời cơ đầu tư vào Việt Nam của các doanh nghiệp Áo nói riêng và EU nói chung,nhất là khi EU phê chuẩn Hiệp định Thương mại Việt Nam-EU (EVFTA).Thủ tướng cho rằng,các doanh nghiệp Áo cần phải nắm bắt để đón lấy thời cơ này,đầu tư vào Việt Nam trong các lĩnh vực công nghiệp chế biến,luyện kim,chế tạo,thương mại điện tử,dệt,sứ thủy tinh,ngân hàng,bảo hiểm...Thủ tướng cho rằng,đầu tư của Áo vào Việt Nam còn hạn chế và mong muốn cùng với việc mở văn phòng đại diện Phòng Kinh tế Áo tại Việt Nam,hai nước sẽ thúc đẩy hoạt động đầu tư lớn hơn và hiệu quả hơn thời gian tới.
      (a)Present Keyphrase
      Ground Truth:{Doanh nghiệp Áo; cơ hội đầu tư vào Việt Nam; Thủ tướng Nguyễn Xuân Phúc; Chủ tịch Phòng Kinh tế Áo; đối tác quan trọng và tin cậy;
      quan hệ thương mại; hợp tác giữa doanh; cạnh tranh thương mại toàn cầu;EVFTA; hoạt động đầu tư}
      TG-Net:1. Doanh nghiệp Áo;2.nắm bắt; 3.Việt Nam;4.công nghiệp chế biến; 5.cảm ơn;quan hệ thương mại;7.luyện kim; 8. cạnh tranh thương mại toàn cầu;9.cơ này; 10.gặp
      本文方法:1. Doanh nghiệp Áo;2. cơ hội đầu tư vào Việt Nam;3. Thủ tướng Nguyễn Xuân Phúc;4. Chủ tịch Phòng Kinh tế Áo;5. đối tác quan trọng; 6. hợp tác; 7. EVFTA;8.Việt Nam; 9.hoạt động đầu tư;10.quan hệ thương mại
      (b)Absent Keyphrase
      Ground Truth:{Hợp tác Áo-Việt Nam; Quan hệ kinh tế và thương mại}
      TG-Net:1.Cơ hội của Áo; 2.phát triển kinh tế;3.Thương mại Việt Nam; 4.Quan hệ kinh tế và thương mại;5.Hợp tác quan trọng; 6.Cơ sở để hợp tác; 7.Hỗ trợ của EU; 8.Tăng trưởng kinh tế;9.Doanh nghiệp việt nam; 10.Kinh tế kinh doanh
      本文方法:1.nắm lấy cơ hội; 2.Hợp tác Áo-Việt Nam;3.Quan hệ kinh tế và thương mại;4.Hợp tác quan trọng; 5.Thành lập văn phòng đại diện; 6.Mối quan hệ đáng tin cậy; 7.Kinh tế kinh doanh; 8.Cơ hội kinh tế;9.Nền kinh tế Áo; 10.cánh đồng

      表 6  越南语新闻关键词数据集下模型预测关键词结果对比(加粗字体为预测正确的关键词)

      Table 6.  The comparison of keyphrase prediction results of models under the Vietnamese news keyphrase dataset (keyphrases shown in bold are correct predictions)

    • 为了解决样本不足条件下生成越南语新闻关键词的准确性不高的问题,提出一种多特征融合的越南语关键词生成方法,提高了生成越南语关键词的准确率以及与越南语新闻文档的相关性. 该方法在现有的标题指导的关键词生成网络中,利用双向注意力机制融入越南语新闻标题,有效挖掘出越南语新闻标题中的关键信息. 所提出的方法能够结合越南语中越南语词性、新闻实体、词汇位置等特征以及越南语新闻标题中高度汇总的信息来指导关键词的生成,在越南语新闻关键词数据集上进行了实验和验证工作,结果表明,该方法对于生成已出现的关键词和未出现的关键词均具有显著优势,所提模型在F1@10和 R@50 分数的预测上,最多比TG-Net提高了0.132和0.171. 未来的主要工作如下:①探索利用越南语句法结构对关键词生成的影响;②将本模型扩展到越南语其他领域,例如越南语学术文档领域等;③考虑将该方法应用在更多的低资源语言上.

参考文献 (21)

目录

    /

    返回文章
    返回