2-芳基苯并二氢吡喃-4-酮类衍生物抗菌活性的定量构效关系研究及分子设计

陈艳 堵锡华 吴琼 石春玲

引用本文:
Citation:

2-芳基苯并二氢吡喃-4-酮类衍生物抗菌活性的定量构效关系研究及分子设计

    通讯作者: 陈艳, chenyan681110@126.com
  • 中图分类号: O641

QSAR Study on the antifungal activity of 2-heteroaryl-4-chromanone derivatives and their molecular design

    Corresponding author: CHEN Yan, chenyan681110@126.com ;
  • CLC number: O641

  • 摘要: 为了研究2-杂环芳基苯并二氢吡喃-4-酮类衍生物对水稻稻疫病杀菌活性,开发新型高活性杀菌剂. 采用分子连接性指数和分子电性距离矢量表征2-杂环芳基苯并二氢吡喃-4-酮类衍生物的分子结构,通过最佳变量子集回归的方法建立34个化合物杀菌活性的四元线性回归方程,非交叉相关系数(R2)和交叉相关系数$(R^2_{\rm{CV}}) $分别为0.854和0.788,该模型经统计方法验证具有良好的鲁棒性和预测能力. 以模型中的4个变量X1M36M14M32作为人工神经网络的输入层,设定4∶3∶1的神经网络结构构建BP神经网络算法模型,总相关系数达到0.983. 结果表明:2-杂环芳基苯并二氢吡喃-4-酮类衍生物的杀菌活性与4种结构参数呈现良好的非线性关系. 由结构修饰提出了4个具有较高杀菌活性的化合物,有待以后生物实验予以证实.
  • 图 1  2-杂环芳基苯并二氢吡喃-4-酮类衍生物的基本结构

    Figure 1.  The basic structure of 2-heteroary-4-chromanone derivatives

    图 2  34个Jackknife 检验相关系数的雷达图

    Figure 2.  Radar diagram of 34 Jackknife test correlation coefficients

    图 3  两种方法得到的活性(pIC50)的预测值和实验值的相关图

    Figure 3.  Estimated values by two methods vs experimented values of pIC50

    表 1  2-杂环芳基苯并二氢吡喃-4-酮类衍生物的结构参数及杀菌活性

    Table 1.  Structural parameter and fungicidal activity of 2-heteroary-4-chromanone derivatives

    序号R1HetaR2X1M14M32M36pIC50
    实验值预测1预测2
    17-CH3-10.29026.6274.7070.0005.905.875.99
    27-OCH3-10.69826.8864.7230.0006.296.116.28
    3H-9.36737.0254.4320.0005.145.105.17
    46-CH3-10.29027.2194.8690.0005.895.835.94
    56-Cl-10.42427.3754.9631.7935.735.585.69
    66-Br-10.93827.8305.2341.4915.835.905.85
    76-Br-10.03123.7004.4891.4245.405.575.57
    8H-8.55132.7403.7050.0004.664.814.67
    97-OCH3-9.88222.8113.9820.0005.875.835.86
    106-CH3-9.47323.1074.1270.0005.445.545.47
    117-CH3-9.47322.5593.9700.0005.665.585.51
    126-Cl-9.60723.2584.2201.6975.185.325.22
    137-OCH3-10.49827.8583.4150.0006.046.186.05
    146-Cl-10.22328.2523.6501.6155.845.695.91
    156-CH3-10.09028.0963.5580.0005.845.905.86
    166-Br-10.64828.7073.9171.3625.765.945.79
    17H-9.16737.5263.1480.0004.985.185.14
    18H-9.16734.8203.2800.0005.095.225.11
    196-Br-10.64825.9614.0521.3726.225.986.18
    206-CH3-10.09025.3513.6920.0006.135.946.07
    216-Cl-10.22325.5073.7841.6305.875.735.88
    227-CH3--10.09024.8183.5370.0006.015.986.07
    237-OCH3--10.49825.0883.5490.0006.246.236.22
    24H-4-Cl10.35440.3373.5271.3425.735.555.63
    25H-3-NO210.52236.0985.8970.0005.855.595.84
    26H-2-Cl10.35441.4583.8492.6305.365.255.31
    27H-3-Cl10.35439.3653.5991.5625.385.535.58
    28H-4-OCH310.62840.5453.4930.0005.765.955.77
    29H-4-CH310.22040.0673.4960.0005.495.715.49
    30H-4-F9.59839.5623.2971.7535.275.075.29
    31H-2-Cl-6-F9.59838.1553.271−0.4795.715.495.57
    32H-2-F10.65432.8193.7565.4655.105.175.07
    337-CH3-3-NO211.44526.1676.2290.0006.236.346.22
    346-Cl-3-NO211.57926.8566.4771.5915.866.095.85
    35*6-CH37-OCH3-11.62118.6215.3290-6.78-
    36*6-OCH37-CH311.42117.0344.1520-6.89-
    37*7-OCH3-3-OCH311.95930.2094.008 60-6.93-
    38*7-OCH33-CH311.55129.8224.009 806.69
    a:Ⅰ:2-thienyl;Ⅱ:2-furanyl;Ⅲ:2-pyridinyl;Ⅳ:3-pyridinyl;*为设计的分子
    下载: 导出CSV

    表 2  2-芳基苯并二氢吡喃-4-酮衍生物抗菌活性与结构参数的最佳变量回归结果

    Table 2.  The results of structural parameter and pIC50 with Leaps-and-Bounds regression

    序号RR2Radj2SFRcv2变量
    10.6830.4670.4500.29828.0030.393X1
    20.8360.6980.6790.22835.8620.634X1M36
    30.8830.7790.7570.19835.3360.708X1M36M14
    40.9240.8540.8330.16442.2980.788X1M36M14M32
    50.9250.8560.8300.16633.1880.767X1M36M14M32E44
    下载: 导出CSV
  • [1] 杨光富, 姜晓华, 丁宇, 等. 新型2-杂环芳基苯并二氢吡喃-4-酮衍生物的三维定量构效关系研究[J]. 化学学报, 2002, 60(1): 134-138. DOI:  10.3321/j.issn:0567-7351.2002.01.024. Yang G F, Jiang X H, Ding Y, et al. Three dimentional quantitative structure-activity relationships of novel 2-heteroaryl-4-chromanone derivatives[J]. Acta Chimica Sinica, 2002, 60(1): 134-138.
    [2] 位灯国. QSAR及其在新型农药分子设计中的应用[D]. 武汉: 华中师范大学, 2005: 14-17.

    Wei D G. QSAR and Its application in molecular design of novel pesticides.[J]. Wuhan: Central China Normal University, 2005: 14-17.
    [3] Wang C, Feng C J. QSAR Studies on the inhibitory activity of levofloxacin- thiadiazole HDAC iconjugates to histone deacetylases[J]. Chinese J Struct Chem, 2018, 37(11): 1 679-1 688.
    [4] 项瑶, 赵钟祥, 陈静波. 咪唑类ALK5抑制剂的3D−QSAR及分子对接研究[J]. 云南大学学报: 自然科学版, 2017, 39(4): 633-642. DOI:  10.7450/j.ynu.20160624. Xiang Y, Zhao Z X, Chen J B. 3D-QSAR and docking studies on imidazole derivatives as activin receptor−like kinase 5 (ALK5) inhibitors[J]. Journal of Yunnan University: Natural Sciences Edition, 2017, 39(4): 633-642.
    [5] Zhang L, Zhang Q Q, Tang F, et al. 3D-QSAR Studies of the pteridine analogues as iNOS inhibitors[J]. Chinese Journal of Structural Chemistry, 2018, 37(9): 1 371-1 378.
    [6] Tong J B, Qin S S, Jiang G Y. 3D-QSAR Study of melittin and amoebaporeanalogues by CoMFA and CoMSIA methods[J]. Chinese Journal of Structural Chemistry, 2019, 38(2): 201-210.
    [7] 胡黔楠, 梁逸曾, 王亚丽, 等. 直观队列命名法的基本原理及其在矩阵与拓扑指数计算中的应用[J]. 计算机与应用化学, 2003, 20(4): 386-390. DOI:  10.3969/j.issn.1001-4160.2003.04.020. Hu Q N, Liang Y Z, Wang Y L, et al. The basic principles of heruisticqueue notation and its applications in calculation of matrix and topological index for topogicalgraghs[J]. Computers and Applied Chemistry, 2003, 20(4): 386-390.
    [8] 张婷, 梁逸曾, 赵晨曦, 等. 基于分子结构预测气相色谱程序升温保留指数[J]. 分析化学, 2006, 34(11): 1 607-1 610. DOI:  10.3321/j.issn:0253-3820.2006.11.021. Zhang T, Liang Y Z, Zhao C X, et, al. Prediction of temperature-programmed retention indices from molecule structures[J]. Chinese Journal of Analytical Chemistry, 2006, 34(11): 1 607-1 610.
    [9] Kier L B, Hall L H. Molecular connectivity in structure-activity analysis[M]. Endland: Research Studies Press, 1986.
    [10] 许禄, 胡昌玉. 应用化学图论[M]. 北京: 科学出版社, 2000: 149-162.

    Xu L, Hu C Y. Application of graph theory in chemistry[M]. Beijing: Science Press, 2000: 149-162.
    [11] Hall L H, Kier L B. Molecular similarity based on novel atom-type electrotopological state indice[J]. Journal of Chemical Information and Computer Sciences, 1995, 35(6): 1 074-1 080.
    [12] Liu S S, Liu H L, Yin C S, et al. VSMP: A novel variable selection and modeling method based on the prediction[J]. Journal of Chemical Information and Computer Sciences, 2003, 43(8): 964-969.
    [13] Dietrich W S, Dreyer N D, Hansch C. Confidence intervalestimators for parameters associated with quantitative structure/activity relationship[J]. Journal of Medicinal Chemistry, 1980, 23(11): 1 201-1 205. DOI:  10.1021/jm00185a010.
    [14] 冯长君, 沐来龙, 杨伟华, 等. 有机污染物的生物富集因子与拓扑指数的数学模型[J]. 物理化学学报, 2008, 24(6): 1 053-1 057. DOI:  10.3866/PKU.WHXB20080624. Feng C J, Mu L L, Yang W H, et al. A mathematical model between bioconcentration factors and topological indices of organic pollutants[J]. Acta Physico-Chimica Sinica, 2008, 24(6): 1 053-1 057.
    [15] 许禄, 邵学广. 化学计量学方法[M]. 2版. 北京: 科学出版社, 2004.

    Xu L, Shao X G. Chemometricsmethod[M]. 2nd Edition. Beijing: Science Press, 2004
  • [1] 顾云兰李宝宗 . 2-苯基吲哚衍生物的定量结构-活性关系研究. 云南大学学报(自然科学版), 2004, 26(3): 241-244.
    [2] 陈娴张廉高王子恒王月平何严萍 . 苯并咪唑-5-羧酸酰胺HCV NS5B聚合酶抑制剂的分子全息QSAR研究及设计. 云南大学学报(自然科学版), 2017, 39(6): 1040-1050. doi: 10.7540/j.ynu.20170197
    [3] 陶晨杨小生戎聚全陈明邓先扩陈金秀 . 乌蕨挥发油成分分析及其抗菌活性. 云南大学学报(自然科学版), 2006, 28(3): 245-246,250.
    [4] 王传旭于慧瑛赵爱华李新 . 一株盐湖芽孢杆菌AF-1的鉴定及其抗尖孢镰刀菌活性研究. 云南大学学报(自然科学版), 2019, 41(1): 164-171. doi: 10.7540/j.ynu.20170347
    [5] 杨君如余巍朱玉婷李方芳赵琦华谢明进 . 一个基于席夫碱配体的Mn(Ⅱ)配合物的合成、结构表征及体外抗多重耐药白色念珠菌的活性研究*. 云南大学学报(自然科学版), 2018, 40(3): 529-537. doi: 10.7540/j.ynu.20170586
    [6] 余巍卢春梅唐宜芳周杰李方芳赵琦华廖国阳谢明进 . 一个新型双核Schiff base镉配合物的合成、结构表征及体外抗临床分离多重耐药菌的作用研究. 云南大学学报(自然科学版), 2016, 38(6): 932-939. doi: 10.7540/j.ynu.20160227
    [7] 周石洋杨善彬郭香琴 . 2-[(吗啉基)氨基]-N-吡喃基苯甲酰胺类VEGFR 2激酶抑制剂的合成及其抗肿瘤活性研究. 云南大学学报(自然科学版), 2017, 39(2): 294-302. doi: 10.7540/j.ynu.20160531
    [8] 何琴张立科黄保军 . RBF网络在取代苯胺和苯酚定量构效关系研究中的应用. 云南大学学报(自然科学版), 2010, 32(6): 685-689, .
    [9] 叶亚飞李全董星徐盛宇程晓红 . 基于2,4,6-三苯基吡啶星型液晶分子的设计合成及性能研究. 云南大学学报(自然科学版), 2010, 32(2): 208-212 .
    [10] 吴小云龚维陈治明陈卓尹晓刚 . DMAP催化“一锅法”合成4,6-二苯基-2-氨基-3,5-二氰基-4H-吡喃衍生物. 云南大学学报(自然科学版), 2019, 41(1): 144-150. doi: 10.7540/j.ynu.20180134
    [11] 刘立志王启方张克勤李世东 . 三七根腐病拮抗菌的筛选及活性产物的初步分离. 云南大学学报(自然科学版), 2004, 26(4): 357-359,363.
    [12] 隆泉赵革建郑保忠周应揆 . 新型纳米无机抗菌剂TiO2和ZnO的广谱抗菌性研究. 云南大学学报(自然科学版), 2007, 29(2): 173-176.
    [13] 吴刚涂学炎殷晓玲 . 水溶性膦配体4-二苯膦代苯并-18-冠-6的合成研究. 云南大学学报(自然科学版), 2002, 24(3): 215-217.
    [14] 项金钟柳清菊赵景畅王毓德刘焕林吴兴惠王儒林陈再兴 . 抗菌建筑陶瓷研制. 云南大学学报(自然科学版), 2002, 24(1): 42-45.
    [15] 王晓琦史丽琴王艳 . 苯并12-冠-4桥联的氮杂环卡宾催化ε-己内酯开环聚合研究. 云南大学学报(自然科学版), 2017, 39(3): 463-468. doi: 10.7540/j.ynu.20160511
    [16] 刘小龙陈静波姜治国赵元鸿张洪彬 . 1-芳基取代咪唑的合成及其生物活性研究. 云南大学学报(自然科学版), 2007, 29(5): 511-514,518.
    [17] . 具有介孔结构的锐钛矿型C,Co-MTiO2抗菌性能研究. 云南大学学报(自然科学版), 2013, 35(1): 57-62. doi: 10.7540/j.ynu.2012.12394
    [18] 李海根熊知行 . 三分子(叠氮化钠、炔烃、乙酸酯)反应合成1,4-二取代-1,2,3-三氮唑. 云南大学学报(自然科学版), 2011, 33(4): 449-452, .
    [19] . 2-[(取代苯胺基)羰基甲硫基]-DACO类化合物的合成及抗HIV活性研究. 云南大学学报(自然科学版), 2013, 35(1): 70-75. doi: 10.7540/j.ynu.2012.12412
    [20] 段银赵静峰曾祥慧李萍张洪彬 . 甾体-咪唑盐杂合物的设计、合成及细胞毒活性研究. 云南大学学报(自然科学版), 2018, 40(6): 1223-1232. doi: 10.7540/j.ynu.20180577
  • 加载中
图(3)表(2)
计量
  • 文章访问数:  171
  • HTML全文浏览量:  134
  • PDF下载量:  7
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-11-07
  • 录用日期:  2020-01-18
  • 网络出版日期:  2020-02-07
  • 刊出日期:  2020-03-01

2-芳基苯并二氢吡喃-4-酮类衍生物抗菌活性的定量构效关系研究及分子设计

    通讯作者: 陈艳, chenyan681110@126.com
  • 徐州工程学院 化学化工学院,江苏 徐州 221018

摘要: 为了研究2-杂环芳基苯并二氢吡喃-4-酮类衍生物对水稻稻疫病杀菌活性,开发新型高活性杀菌剂. 采用分子连接性指数和分子电性距离矢量表征2-杂环芳基苯并二氢吡喃-4-酮类衍生物的分子结构,通过最佳变量子集回归的方法建立34个化合物杀菌活性的四元线性回归方程,非交叉相关系数(R2)和交叉相关系数$(R^2_{\rm{CV}}) $分别为0.854和0.788,该模型经统计方法验证具有良好的鲁棒性和预测能力. 以模型中的4个变量X1M36M14M32作为人工神经网络的输入层,设定4∶3∶1的神经网络结构构建BP神经网络算法模型,总相关系数达到0.983. 结果表明:2-杂环芳基苯并二氢吡喃-4-酮类衍生物的杀菌活性与4种结构参数呈现良好的非线性关系. 由结构修饰提出了4个具有较高杀菌活性的化合物,有待以后生物实验予以证实.

English Abstract

  • 植物抗毒素是植物体受到外界病原微生物的侵扰后所产生并积累的一类具有抗菌活性的小分子物质[1], 尽管植物体内的抗毒素往往含量很低,但却表现出独特的抗菌活性,构成了植物防御体系的重要组成部分,因而受到了化学和生物学研究者的广泛关注. 以植物抗毒素为先导创制新农药成为一个很有意义的研究方向.

    黄烷酮类化合物是一类重要的植物抗毒素,成为新抗菌药的合成模板,但这类化合物作为抗菌剂最大的缺点是分子结构中存在多个羟基而不容易在植物组织内传导,所以需要对黄烷酮类化合物进行结构修饰,多数的结构修饰仅局限于苯环上的修饰,没有改变基本骨架,杨光富课题组根据生物等排取代原理,利用经典的苯环的等排体—呋喃基、噻吩基、吡啶基来取代苯环,设计合成了34个2-杂环芳基苯并二氢吡喃-4-酮类衍生物,结构见图1. 并测定了这些化合物对水稻稻疫病杀菌活性的IC50[2].

    图  1  2-杂环芳基苯并二氢吡喃-4-酮类衍生物的基本结构

    Figure 1.  The basic structure of 2-heteroary-4-chromanone derivatives

    本文基于上述化合物对水稻稻疫病杀菌活性,采用物质定量构效关系(Quantitative Structure-Activity Relationships,QSAR)[3-6]方法,研究了2-杂环芳基苯并二氢吡喃-4-酮类衍生物杀菌活性与拓扑指数的最佳数学模型,据此模型中的变量组合为输入层建立BP神经网络模型,准确估算和预测这些化合物对水稻稻疫病杀菌活性,并根据模型探讨影响该类化合物抗菌活性的主要结构基团及其杀菌机理,为设计杀菌活性更好的化合物提供理论依据.

    • 杨光富课题组对合成的黄酮烷类化合物对水稻稻疫病杀菌活性IC50值,取其负对数(pIC50)用于建模. 见表1. pIC50数值越大,活性越高.

      序号R1HetaR2X1M14M32M36pIC50
      实验值预测1预测2
      17-CH3-10.29026.6274.7070.0005.905.875.99
      27-OCH3-10.69826.8864.7230.0006.296.116.28
      3H-9.36737.0254.4320.0005.145.105.17
      46-CH3-10.29027.2194.8690.0005.895.835.94
      56-Cl-10.42427.3754.9631.7935.735.585.69
      66-Br-10.93827.8305.2341.4915.835.905.85
      76-Br-10.03123.7004.4891.4245.405.575.57
      8H-8.55132.7403.7050.0004.664.814.67
      97-OCH3-9.88222.8113.9820.0005.875.835.86
      106-CH3-9.47323.1074.1270.0005.445.545.47
      117-CH3-9.47322.5593.9700.0005.665.585.51
      126-Cl-9.60723.2584.2201.6975.185.325.22
      137-OCH3-10.49827.8583.4150.0006.046.186.05
      146-Cl-10.22328.2523.6501.6155.845.695.91
      156-CH3-10.09028.0963.5580.0005.845.905.86
      166-Br-10.64828.7073.9171.3625.765.945.79
      17H-9.16737.5263.1480.0004.985.185.14
      18H-9.16734.8203.2800.0005.095.225.11
      196-Br-10.64825.9614.0521.3726.225.986.18
      206-CH3-10.09025.3513.6920.0006.135.946.07
      216-Cl-10.22325.5073.7841.6305.875.735.88
      227-CH3--10.09024.8183.5370.0006.015.986.07
      237-OCH3--10.49825.0883.5490.0006.246.236.22
      24H-4-Cl10.35440.3373.5271.3425.735.555.63
      25H-3-NO210.52236.0985.8970.0005.855.595.84
      26H-2-Cl10.35441.4583.8492.6305.365.255.31
      27H-3-Cl10.35439.3653.5991.5625.385.535.58
      28H-4-OCH310.62840.5453.4930.0005.765.955.77
      29H-4-CH310.22040.0673.4960.0005.495.715.49
      30H-4-F9.59839.5623.2971.7535.275.075.29
      31H-2-Cl-6-F9.59838.1553.271−0.4795.715.495.57
      32H-2-F10.65432.8193.7565.4655.105.175.07
      337-CH3-3-NO211.44526.1676.2290.0006.236.346.22
      346-Cl-3-NO211.57926.8566.4771.5915.866.095.85
      35*6-CH37-OCH3-11.62118.6215.3290-6.78-
      36*6-OCH37-CH311.42117.0344.1520-6.89-
      37*7-OCH3-3-OCH311.95930.2094.008 60-6.93-
      38*7-OCH33-CH311.55129.8224.009 806.69
      a:Ⅰ:2-thienyl;Ⅱ:2-furanyl;Ⅲ:2-pyridinyl;Ⅳ:3-pyridinyl;*为设计的分子

      表 1  2-杂环芳基苯并二氢吡喃-4-酮类衍生物的结构参数及杀菌活性

      Table 1.  Structural parameter and fungicidal activity of 2-heteroary-4-chromanone derivatives

    • 采用 chem3D Ultra 9.0 软件画出34个2-杂环芳基苯并二氢吡喃-4-酮类衍生物的分子结构,在MATLAB 软件中调用上述分子结构,用文献[7-8]的方法编制程序,计算得到12种分子连接性指数[9]、4种形状指数[10]、46种电性拓扑状态指数[11]和91种分子电性距离矢量[12],共153种分子描述符,去掉全部为零的数组,剩余的数组组成自变量集X,以对水稻稻疫病杀菌活性(pIC50)为因变量,用逐一剔除法(leave-one-out)交互检验统计量为目标函数,用MINITAB软件的最佳变量子集回归的方法筛选最佳变量组合,结果见表2.

      序号RR2Radj2SFRcv2变量
      10.6830.4670.4500.29828.0030.393X1
      20.8360.6980.6790.22835.8620.634X1M36
      30.8830.7790.7570.19835.3360.708X1M36M14
      40.9240.8540.8330.16442.2980.788X1M36M14M32
      50.9250.8560.8300.16633.1880.767X1M36M14M32E44

      表 2  2-芳基苯并二氢吡喃-4-酮衍生物抗菌活性与结构参数的最佳变量回归结果

      Table 2.  The results of structural parameter and pIC50 with Leaps-and-Bounds regression

      表2中的RR2Radj2SF分别代表了回归样本数、相关系数、判定系数、调整的判定系数、估计标准误差、Fischer检验值.

      表2可见,随着模型中变量数的增多,RR2持续增大,Radj2FRcv2在模型4处出现最大值,S在模型4出现最小值,目前通常用LOO的交互检验相关系数(Rcv2)来评判一个模型的预测效果和鲁棒性,该数值也在模型4出现最大值,所以本文选用X1M36M14M32为最佳变量组合.

    • 将34个2-杂环芳基苯并二氢吡喃-4-酮类衍生物对水稻稻疫病杀菌活性(pIC50)与上述优化筛选的4个最佳变量组合X1M36M14M32进行多元线性回归,得到四元模型为:

      $ \begin{split} {\rm{pI}}{{\rm{C}}_{50}} =& \left( {0.619 \pm 0.059} \right){X_1} - (0.024 \pm 0.005){M_{14}}-\\ &\left( {0.168 \pm 0.044} \right){M_{32}} - ( 0.170 \pm \\ &0.026){M_{36}} +\left( {0.916 \pm 0.540} \right).\\[-12pt] \end{split} $

      将数据X1M36M14M32代入模型(1)中,其计算值(列于表1,预测1)与相应实验值基本吻合,平均误差为0.141.

    • (1)根据一般的统计标准,一个具有良好预测能力的模型,其R2≥0.8,Rcv2≥0.5,模型(1)的R2Rcv2分别为0.854和0.788,表明所建模型具有良好的预测能力.

      (2)模型的调整判定系数Radj2(0.833)与交互检验相关系数Rcv2(0.788)的差为0.045,小于0.3,表明模型有良好的稳定性.

      (3)采用Jackknife法[13]对模型的稳健性进行检验,即在34个2-杂环芳基苯并二氢吡喃-4-酮类衍生物中依次剔除1个化合物,用剩余的33个化合物进行建模,共得到34个Jackknife检验相关系数R,对34个数据做雷达图(见图2),以0.895为圆心,0.005为间距作图,发现34个分子的R值均在0.909~0.931之间,主要集中在0.920~0.930之间,说明模型(1)没有异常的“离域点”存在.

      图  2  34个Jackknife 检验相关系数的雷达图

      Figure 2.  Radar diagram of 34 Jackknife test correlation coefficients

      (4)为了检验模型的稳定性,引入了变异膨胀因子(Variance inflation factor,VIF)[14],来评价模型中的变量是否存在自相关性. 变异膨胀因子VIF的定义式如下:

      $ {\rm{VIF}} = 1/\left( {1 - {R^2}} \right). $

      该式中R2表示为自变量集中时某一个变量与剩余变量的判定系数. 当VIF值为1时,则表示各自变量之间,完全不具有相关性;当VIF值小于5时,则表示各自变量间相关性很弱,模型具有一定的稳定性;当VIF值大于5时,则表示各变量之间存在有明显的共线关系,所建立的模型无法用于估算与预测. 模型(1)中X1M36M14M32的VIF值分别为1.695、1.129、1.675和1.144,证明模型(1)中各自变量间不存在自相关性,该模型是稳定的.

    • 为了提高模型的预测精准度,采用基于误差反向传播(Back-propagation,BP)算法的三层人工神经网络[15]进行进一步的研究,以上述筛选的最优变量组合X1M36M14M32为神经网络的输入层单元,对水稻稻疫病杀菌活性(PIC50)作为输出层单元,最佳隐蔽层的单元数(H)由许禄等[15]和Andrea的建议规则[11]得到, 即:

      $ 2.2 > \rho \left( { = N/M} \right) \geqslant 1.4, $

      式(3)中NM分别是样本数和网络总权重. M被定义为:

      $ M = (I + 1)H + (H + 1)Q, $

      式(4)中: IHQ分别是输入层、隐蔽层和输出层的单元数.

      本文的I=4,Q=1 及N=34, 可得2.89<H ≤3.88. 取H=3. 本研究采用4∶3∶1 的网络结构建立模型.

      为了防止过训练、过拟合现象,将34个化合物分为3个集:训练集(每5个数据为数组的第1,3,4个数据)、测试集(第2个数据)和验证集(第5个数据),得到3个集的相关系数分别为0.988,0.982和0.996,总的相关系数为0.983. 利用神经网络得到的预测值列于表1(预测2), 平均误差为0.05,用两种方法得到的预测值和实验值的相关图见图3,可以看出,神经网络得到的预测值比用多元线性回归的方法得到的预测值更接近实验值.

      图  3  两种方法得到的活性(pIC50)的预测值和实验值的相关图

      Figure 3.  Estimated values by two methods vs experimented values of pIC50

    • 进入模型的结构参数有2种:分子连接性指数X1和分子电性距离矢量M14M32M36,其中X1为分子连接性指数中的零级路径指数,主要反映了分子的大小;分子电性距离矢量M14反映第2类碳原子(-C-)和第2类碳原子(-C-)之间的相互作用;M32为第3类碳原子(>C-)和第9类氧原子(=O)之间的相互作用;M36为为第3类碳原子(>C-)和第13类卤原子(-X)之间的相互作用,这3个电性距离矢量隐含了4类非氢原子的结构参数,即-C-,>C-, =O和-X.

      模型(1)中各自变量前的回归系数的绝对值大小反映各自变量对因变量的影响程度,可见X1M14M32M36对杀菌活性(pIC50)的影响大小为X1>M32≈>M36>M14. 从方程中各系数前的符号可以看出X1与活性(pIC50)正相关,说明分子越大,活性越高. 例如,环上增加-CH3、-OCH3等基团时,由于这些基团为疏水基团,可以增加药物分子与病菌受体之间的亲和力,从而提高药物分子的杀菌活性;余下的电性距离矢量与杀菌活性(pIC50)均负相关,说明上述涉及到的4个结构片段越少,活性越高. 例如,分子中有-NO2,-X等基团时,由于他们的强吸电子性,使得分子的极性增加,同时它们可以和病菌体周围的水形成氢键,所以和病菌体周围的水相结合力强,和病菌受体的结合力较弱,从而杀菌活性较弱.

      根据以上对模型的分析,设计了4个可能具有较高生物活性的分子,其预测活性列于表1,35~38. 不过这4个化合物是否对水稻稻疫病实际有较高的杀菌活性,尚有待通过实验予以验证.

    • 基于分子连接性指数和分子电性距离矢量对34个2-杂环芳基苯并二氢吡喃-4-酮类衍生物的抽象分子结构实现数值化表征,采用多元线性回归中最佳变量子集回归的方法建立了它们对水稻稻疫病杀菌活性(pIC50)的最佳QSAR模型,该模型通过统计方法验证具有良好的鲁棒性和预测能力,并以模型中的4个最优变量组合作为神经网络的输入层单元,采用4∶3∶1的BP神经网络结构,进一步提升了预测能力. 根据模型中的变量组合,分析了影响2-杂环芳基苯并二氢吡喃-4-酮类衍生物对水稻稻疫病杀菌活性的因素,并进行结构修饰,提出了4个水稻稻疫病有更强杀菌活性的化合物.

参考文献 (15)

目录

    /

    返回文章
    返回