节点文献

基于多任务学习的化学品性质预测

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 肖子君朱明华陈景文

【机构】 工业生态与环境工程教育部重点实验室,大连市化学品风险防控及污染防治技术重点实验室,大连理工大学环境学院

【摘要】 化学品的性质参数与环境行为参数对环境暴露评价十分重要,但有实验值的化学品数量少,难以满足化学品风险评价需求。因而有必要发展机器学习模型预测相关参数以填补数据空缺。传统机器学习模型多为单任务(ST)模型,忽略了任务间联系,模型准确性低。多任务(MT)模型可以通过共享机制同时学习到多个相关终点的信息,提升模型的准确性。因此,本研究基于化学品溶质参数数据集与生物蓄积性参数数据集,探索了MT模型在小数据建模上的应用。本研究构建了基于显式氢的分子图和注意力权重的多任务关系型图卷积神经网络(MT-RGAN-H)模型,实现同时预测五个溶质参数[过量分子摩尔折射率(E)分子偶极/极化性参数(S)、氢键酸度(A)、氢键碱度(B)和正十六烷-空气分配系数的对数值(L)。本研究还发展了结合迁移学习和多任务学习的图神经网络(TL-MTL-GNN)模型。该模型以化学品的正辛醇水分配系数作为源域,三种生物蓄积性参数作为目标域,实现了对三种生物蓄积性参数[生物富集因子(FBC)、生物放大因子(FBM)和生物积累因子(FBA)]的同时预测。MT-RGAN-H在参数E,S,A,B和L的验证集上的决定系数(R2val)分别为0.97,0.92,0.84,0.96和0.98,优于单任务模型和前人模型。进一步,基于MT-RGAN-H模型预测的溶质参数预测了化学品的六种与分配相关的理化性质参数,其预测准确性高于前人模型。TL-MTL-GNN对log FBC,log FBM和log FBA的R2val分别为0.732,0.739和0.846,优于单任务模型和前人模型。进一步将TL-MTL-GNN应用于预测约106个化学品的生物蓄积性。共58392种化学品在模型应用域内,其中约22.6%的化学品被判定为具有生物蓄积性。两种MT模型在预测不同重点上效果均优于ST模型,表明MT模型可在小数据集建模方面发挥作用。且模型涵盖化学品种类全面,应用域广,预测准确性高,可以为预测化学品的分配行为参数提供支撑。

【基金】 国家自然科学基金项目(22136001);国家自然科学基金项目(22206022);国家重点研发计划项目(2022YFC3902100)
  • 【会议录名称】 中国毒理学会第十一次全国毒理学大会论文集
  • 【会议名称】中国毒理学会第十一次全国毒理学大会
  • 【会议时间】2024-09-20
  • 【会议地点】中国江苏苏州
  • 【分类号】TP18;X592;X820.4
  • 【主办单位】中国毒理学会
节点文献中: 

本文链接的文献网络图示:

本文的引文网络