第一、通讯作者:王焰新 院士 通讯单位:中国地质大学(武汉) DOI:10.13578/j.cnki.issn.1671-1556.20220853
第一、通讯作者:王焰新 院士
通讯单位:中国地质大学(武汉)
DOI:10.13578/j.cnki.issn.1671-1556.20220853
截止到2020年,全球78亿人中仍有20亿人无法获得或只能获得有限的安全饮用水。
地质成因劣质地下水(GCG)的广泛存在是造成这种严酷现实的重要原因之一,因此识别GCG已成为全球关注的热点。
近年来,基于树的机器学习方法不仅成为揭示GCG空间分布和防范公共健康风险的有力工具,而且能帮助我们更好地理解地下水中劣质组分的水文生物地球化学行为。
为了促进基于树的机器学习在水文地质尤其是地下水水质与健康领域更为广泛的运用,本文综述了近20年来分类和回归树、随机森林和增强回归树等基于树的机器学习方法在GCG研究中的应用,讨论了如何应对正确优化模型超参数、细心选择强有力的预测变量和合理评估模型性能等诸多挑战。
文章指出,尽管基于树的算法已经成为揭示GCG分布模式或推断形成机制的有力工具,但为了避免对基于树的模型的盲目无经验性应用而造成的误导性结果,需要着重解决以下挑战:
(1)正确优化选择
模型超参数。部分已有研究忽略了对模型超参数的描述,而模型性能严重依赖超参数,应用算法默认的超参数虽然可以保证模型有基本的预测能力,但对获得最优模型远远不够。
(2)选择强有力的预测变量。合理的预测变量是模型预测能力和从模型中推断物理机制的前提。变量的预测能力和数据可获取性之间的权衡是预测变量的选择原则。水化学和钻孔数据等与GCG直接相关的变量由于在整个研究区往往不可获取,只能选择这些参数的代理作为预测变量。结合水文地球化学模拟、更先进的传感器网络和开放获取数据库,将有望为机器学习模型提供更强有力的预测变量。
(3)合理评估模型性能。超参数的优化和预测变量的评估需要合理的模型性能评价指标。并不存在万能钥匙般的评价指标,不同的模型需要不同的评价指标。例如,为了发现更多可能的安全供水来源,特异度会成为首选的评价指标;而当模型的预期目标是为了识别更多潜在的GCG时,则应当采用敏感性作为评价指标。此外,对于常见的不平衡数据集,准确性和AUC不能作为可靠的评价指标,应当以如敏感性和特异度的几何均值或其他形式的综合度量来评价模型。
图文导读
图1 决策树模型
图2 随机森林模型
图3 增强回归树模型
图4 基于树的机器学习算法在劣质地下水预测中的案例研究结果。a全球高砷地下水预测[1];b东南
亚高砷地下水预测[14];c印度高砷地下水预测[27];d恒河三角洲高砷地下水预测[13];e印度高氟地下水预测[20];f孟加拉高砷地下水预测[21];g美国高砷地下水分类和回归树模型[17];h美国大陆北部冰川含水层系统高砷地下水预测[15]
---------------------------------------
王焰新,曹海龙,谢先军,等.基于树的机器学习方法预测地质成因劣质地下水空间分布[J].安全与环境工程,2022,29(5):58-64,77.
可识别下方二维码直达文章页面.