小型农村饮用水处理(DWT)厂通常仅使用氯来实施消毒过程。对于这些工厂,游离氯残留(FCR)是消毒的关键性能指标。FCR表示氯氧化目标污染物后水中剩余的游离氯的浓度。
实际上,FCR是由工厂操作员根据他们的经验确定的。具体来说,操作员选择氯剂量以达到满意的FCR浓度,但通常必须对氯需求进行估计。
确定准确FCR的挑战导致了先进FCR预测技术的使用。特别是,机器学习(ML)算法已被证明可以有效实现这一目标。通过识别复杂系统中众多变量之间的相关性,成功的ML实施可以准确预测FCR,甚至可以根据经济高效、技术含量低的监控数据进行预测。
在《FrontiersofEnvironmentalScience&Engineering》上发表的一项新研究中,作者实施了带有分类提升(CatBoost)的梯度提升(GB)ML模型来预测FCR。GB算法(包括CatBoost)累积决策树以生成预测函数。
输入数据是从美国佐治亚州的一家DWT工厂收集的,包括各种DWT监测记录和操作过程参数。开发了广义建模方法的四次迭代,包括(1)基本情况、(2)滚动平均值、(3)参数合并和(4)直观参数。
研究团队还将SHApely加性解释(SHAP)方法应用到了这项研究中。SHAP是一款开源软件,用于解释具有许多输入参数的ML模型,它允许用户直观地了解每个参数如何影响预测函数。我们可以通过计算每个参数对应的SHA值来研究每个参数对预测输出的影响。例如,SHAP分析将通道Cl2列为最有影响力的参数。
在所有四次迭代中,第四次也是最后一次迭代仅考虑了直观的物理关系和过滤下游测量的水质。作者总结了四次机器学习建模迭代的比较性能。他们表示,主要发现是:1)通过足够数量的相关输入参数,机器学习模型可以产生准确的预测结果;2)ML模型可以由相关性驱动,这些相关性可能有也可能没有物理基础;3)机器学习模型可以类似于操作员经验。
展望未来,研究团队建议未来的研究应探索扩大适用范围。例如,分析的数据集仅限于一整年。因此,更大的数据可用性有望扩大适用范围并提高预测能力。