阿姆斯特丹大学的研究人员及其昆士兰大学和挪威水研究所的同事开发了一种使用机器学习评估化学品毒性的策略。他们在特刊“促进环境科学、工程和技术的数据科学”的环境科学与技术文章中介绍了他们的方法。与基于定量构效关系(QSAR)建模的传统“计算机模拟”评估相比,本研究中开发的模型可以带来实质性改进。
据研究人员称,机器学习可以极大地改善新化学品安全设计开发和现有化学品评估中分子的危害评估。后者的重要性体现在以下事实:欧洲和美国的化学机构列出了多年来开发的大约800,000种化学品,但对这些化学品的环境归宿或毒性知之甚少。
由于化学归宿和毒性的实验评估需要大量时间、精力和资源,因此建模方法已被用于预测危险指标。特别是经常应用定量构效关系(QSAR)建模,将原子排列和3D结构等分子特征与物理化学性质和生物活性相关联。根据建模结果(或可用的测量数据),专家根据全球化学品统一分类和标签制度(GHS)中的定义对分子进行分类。对于特定类别,分子随后会受到更多研究、更积极的监测并最终立法。
然而,这个过程有固有的缺点,其中大部分可以追溯到QSAR模型的局限性。它们通常基于同质训练集,并假设外推的线性构效关系。因此,现有的QSAR模型无法很好地代表许多化学品,它们的使用可能会导致大量的预测错误和化学品的错误分类。
跳过QSAR预测
在发表于环境科学与技术的论文中,SaerSamanipour博士及其合著者提出了一种完全跳过QSAR预测步骤的替代评估策略。阿姆斯特丹大学范特霍夫分子科学研究所的环境分析科学家Samanipour与同一所大学生物多样性和生态系统动力学研究所的环境化学家AntoniaPraetorius博士合作。他们与昆士兰大学和挪威水研究所的同事一起,开发了一种基于机器学习的策略,用于根据分子描述符直接对化学品的急性水生毒性进行分类。
研究的总体工作流程,从原始数据到最终生成的模型。ES&T论文的插图。
该模型是通过907项实验获得的鱼类急性毒性数据(96小时LC50值)开发和测试的。新模型跳过了对每种化学品的毒性值(96hLC50)的明确预测,而是直接将每种化学品分类为许多预定义的毒性类别。例如,这些类别可以由特定法规或标准化系统定义,如急性水生危害的GHS类别一文中所示。该模型解释了训练集中使用的数据中大约90%的方差,以及测试集数据中大约80%的方差。
更准确的预测
与基于QSAR回归模型的策略相比,这种直接分类策略导致错误分类减少了五倍。随后,研究人员扩展了他们的策略以预测大量32,000种化学品的毒性类别。
他们证明,他们的直接分类方法可以产生更高准确度的预测,因为来自不同来源和不同化学家族的实验数据集可以分组以生成更大的训练集。它可以适应各种国际法规和分类或标签系统规定的预定义类别。将来,直接分类方法还可以扩展到其他危险类别(例如慢性毒性)以及环境归宿(例如流动性或持久性),并显示出改进用于化学危险和风险评估的计算机工具的巨大潜力。