• ISSN 1673-5722
  • CN 11-5429/P

联合DBSCAN聚类采样和SVM分类的滑坡易发性评价

鲍帅 刘纪平 王亮

鲍帅,刘纪平,王亮,2021. 联合DBSCAN聚类采样和SVM分类的滑坡易发性评价. 震灾防御技术,16(4):625−636. doi:10.11899/zzfy20210403. doi: 10.11899/zzfy20210403
引用本文: 鲍帅,刘纪平,王亮,2021. 联合DBSCAN聚类采样和SVM分类的滑坡易发性评价. 震灾防御技术,16(4):625−636. doi:10.11899/zzfy20210403. doi: 10.11899/zzfy20210403
Bao Shuai, Liu Jiping, Wang Liang. Landslide Susceptibility Evaluation Based on Combined DBSCAN Cluster Sampling and SVM Classification[J]. Technology for Earthquake Disaster Prevention, 2021, 16(4): 625-636. doi: 10.11899/zzfy20210403
Citation: Bao Shuai, Liu Jiping, Wang Liang. Landslide Susceptibility Evaluation Based on Combined DBSCAN Cluster Sampling and SVM Classification[J]. Technology for Earthquake Disaster Prevention, 2021, 16(4): 625-636. doi: 10.11899/zzfy20210403

联合DBSCAN聚类采样和SVM分类的滑坡易发性评价

doi: 10.11899/zzfy20210403
基金项目: 国家重点研发计划(2019YFC1509401)
详细信息
    作者简介:

    鲍帅,男,生于1996年。硕士研究生。主要从事空间数据挖掘、地震次生灾害信息服务方面的研究。E-mail:baogis@163.com

    通讯作者:

    王亮,男,生于1963年。研究员。主要从事地理信息系统设计开发与应用方面的研究。E-mail:wangl@casm.ac.cn

  • 2 https://www.resdc.cn/data.aspx?DATAID=307
  • 3 https://www.resdc.cn/data.aspx?DATAID=290
  • 4 https://geodata.pku.edu.cn/index.php?c=content&a=show&id=877
  • 5 http://www.gscloud.cn/search

Landslide Susceptibility Evaluation Based on Combined DBSCAN Cluster Sampling and SVM Classification

  • 摘要: 针对基于机器学习的滑坡易发性评价中非滑坡样本选取不规范导致的分类精度较低问题,本文提出联合基于密度的噪声应用空间聚类(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)采样策略和支持向量机(Support Vector Machine,SVM)分类方法的DBSCAN-SVM滑坡易发性评价模型。首先,基于DBSCAN聚类和空间分析选取非滑坡样本;然后,将样本数据代入SVM分类模型进行训练与验证,预测并提取SVM分类中属于滑坡的概率,获得滑坡易发性;最后,以四川省绵阳市为试验区,预测滑坡易发性概率,基于滑坡易发性精度与分级结果等要素,与传统非滑坡样本采集策略的SVM滑坡易发性评价模型进行对比,并结合实际情况对DBSCAN-SVM模型评价结果进行分析。研究结果表明,相比传统SVM滑坡易发性评价模型,本文提出的DBSCAN-SVM滑坡易发性评价模型在高易发区和极高易发区中包含的滑坡样本数量较多,准确率、召回率、AUC、F1分数均得到提高,精度较高。
    1)  2 https://www.resdc.cn/data.aspx?DATAID=307
    2)  3 https://www.resdc.cn/data.aspx?DATAID=290
    3)  4 https://geodata.pku.edu.cn/index.php?c=content&a=show&id=877
    4)  5 http://www.gscloud.cn/search
  • 地震时如遇降雨,易形成山体分水岭,且山脊部位易发生滑坡,地震引发的滑坡灾害对人民生命财产造成一定威胁。提高滑坡预测的准确性,可降低滑坡灾害程度,增加震害防治针对性。滑坡易发性评价已成为有关部门和民众关注的焦点,国内外诸多学者对滑坡灾害预测、分析和评价等进行了研究,并取得一定进展。滑坡易发性分析方法根据理论基础和预测手段的不同,可分为基于地貌学方法、基于滑坡编录分析方法、基于物理力学方法、启发式方法和统计学方法(王毅等,2021)。其中,统计学方法依托机器学习理论,叠加历史灾情信息及影响因素加权,可更加准确地找到滑坡发生的可能性与其影响因子之间的非线性关系,且机器学习不要求评价因子呈正态分布,适用于大面积区域(黄发明等,2018)。目前,国内外学者常用的评估模型包括基于逻辑回归模型的九寨沟地震滑坡危险性评估模型(马思远等,2019)、随机森林赋权信息量模型(林荣福等,2020)、熵指数融入支持向量机模型(徐胜华等,2020)、粒子群算法优化支持向量机(Support Vector Machine,简称SVM)模型(武雪玲等,2016)等。同等条件下,支持向量机模型分类精度最高,效果最好。

    支持向量机二分类问题隶属于监督学习,模型训练精度受样本质量影响。在滑坡易发性评价问题中,滑坡样本可通过现场调查和高分辨率光学遥感卫星等方式确定,非滑坡样本可通过人工筛选和统计方法选取。非滑坡样本选取方法包括随机法(Peng等,2014)、缓冲法(林荣福等,2020徐胜华等,2020)、坡度法(Kavzoglu等,2014)、聚类法(黄发明等,2018Liu等,2021)。应用随机法时,在滑坡范围外随机生成非滑坡样本;应用缓冲法时,对滑坡进行缓冲区分析,在缓冲区外生成非滑坡样本;应用坡度法时,设定坡度阈值,筛选小于阈值的区域,在此区域生成非滑坡样本;应用聚类法时,采用模糊C均值(Fuzzy C-Means,简称FCM)聚类获取非滑坡样本,自组织映射(Self-Organizing Map,简称SOM)神经网络聚类采用非监督学习方法预先将研究区分类,从易发性相对低的区域中选择非滑坡点。

    上述非滑坡样本选取方法各有利弊,随机法最简单快速,选取的非滑坡样本可能靠近滑坡样本;坡度法筛选出的坡度通常<2°的非滑坡单元,在模型训练过程中易造成过拟合问题;SOM聚类结果受神经元结构和数量的影响较大。对于聚类法而言,相比随机法,选择的非滑坡样本不会在空间上十分靠近滑坡样本;相比缓冲法,确定的滑坡样本影响范围更合理有效;相比坡度法,不会出现过拟合的情况。因此,本文提出联合基于密度的噪声应用空间聚类(Density-Based Spatial Clustering of Applications with Noise,简称DBSCAN)的非滑坡采样策略和SVM分类方法的滑坡易发性评价模型。SVM分类方法使用核函数克服维数灾难和非线性可分问题,向高维空间映射时未增加计算的复杂度,具有较好的鲁棒性。DBSCAN为自适应聚类方法,无须提前设定K值,且具有对噪声不敏感、可发现任意形状的簇、相比K均值聚类算法其聚类结果无偏倚等优点。采用DBSCAN聚类方法选取的非滑坡样本与已有滑坡样本共同用于滑坡易发性评价模型训练和验证。使用缓冲法结合随机法产生的非滑坡样本作为参考,定义为普通SVM滑坡易发性评价模型。基于机器学习评价指标、滑坡样本分级统计等角度对比滑坡易发性评价模型精度,进而得到非滑坡样本选取的最佳方法。

    DBSCAN聚类方法由Martin Ester等于1996年提出,属于基于密度的空间聚类算法。

    (1)定义1(E邻域)

    对象pE邻域指以p为中心,以E为半径的区域,即

    $$ {N_E}({{p}}) = \{ {{q}} \in D|D_1({{p}},{{q}}) \leqslant E\} $$ (1)

    式中,D为数据集,D1(p,q)为对象p与对象q之间的距离;NE(p)包含了数据集D中与对象p距离不大于E的所有对象。

    (2)定义2(核心对象)

    给定数据集D,设定邻域密度阈值M,若存在对象pD,且满足式(2)时,则对象p为1个核心对象。

    $$ |{N_E}({{p}})| \geqslant M $$ (2)

    式中,|NE(p)|为对象pE邻域对象个数。

    (3)定义3(簇)

    给定数据集D,数据集C为数据集D的非空子集,且满足以下条件时称数据集C为簇:①对任意对象q,若核心对象pC且对象q是从核心对象p密度可达的,则对象qC;②对任意对象p,qC,对象p与对象q是密度相连的。

    (4)定义4(噪声点)

    给定数据集D,若对象p不属于任何簇,则称对象p为噪声点,即:

    $$ N = \{ {{p}} \in D|\forall i:{{p}} \notin {C_i}\} $$ (3)

    式中,N为噪声点集合,Ci为数据集D中的簇。

    滑坡样本聚类簇的数量事先无法确定,且滑坡影响范围与其分布密度密切相关,本文使用DBSCAN方法对滑坡样本进行聚类最合适。使用DBSCAN方法得到的最终簇即为由密度可达关系导出的最大密度相连的样本集合,计算流程如下:①对于给定的数据集D,首先给定参数EM。②任意访问1个未读取过的对象点,根据EM判断其是否为核心对象,如果不是核心对象,即为边界点或噪声点;如果是核心对象,则找到这个对象能够密度可达的所有样本集合,即为1个聚类簇。③访问其他未被读取过的核心对象,寻找密度可达的样本集合,此时得到另一个簇,运行至所有核心对象均被访问过为止(李文杰等,2019)。

    Vapnik(1995)基于线性可分条件下的最优分类超平面,开发了SVM。两类样本0和1,H代表分类后的超平面,H0H1代表最接近H的各种样本平行于H的超平面。H0H1H的距离相等,二者之间的距离称为分类区间。最优分类超平面是以最大的间隔正确地将2类样本分开的平面。

    设线性可分样本集为(xi,yi),i=1,2,···,nxRdd表示空间维数,y=[−1,1],为类别标号。d维空间线性判别函数的一般形式为y=w·x+bw为法向量,b为常数,分类超平面方程为:

    $$ {\boldsymbol{w}} \cdot x + b = 0 $$ (4)

    为找到最优超平面,需最优化以下目标函数:

    $$ \min \phi ({\boldsymbol{w}}) = \frac{1}{2}({\boldsymbol{w }}\cdot {\boldsymbol{w}}) $$ (5)

    式中,$ \phi({\boldsymbol{w}}) $为最大间隔倒数。

    利用Lagrange乘子法可得到以下目标函数:

    $$ \min L({\boldsymbol{{\boldsymbol{w}}}},b,a) = \frac{1}{2}({\boldsymbol{w}} \cdot {\boldsymbol{w}}) - \sum\limits_{i = 1}^n {{a_i}\{ {y_i}[({\boldsymbol{w}} \cdot {x_i}) + b] - 1\} } $$ (6)

    式中,ai为每个样本对应的Lagrange乘子,$ L({\boldsymbol{w}}, b, a) $为拉格朗日目标函数。

    对式(6)wb求偏导,并令其等于零,可将原问题转化为以下对偶问题:

    $$ \left\{ \begin{gathered} \max Q(a) = \sum\limits_{i = 1}^n {{a_i}} - \frac{1}{2}\sum\limits_{i,j = 1}^n {{a_i}{a_j}{y_i}{y_j}({x_i} \cdot {x_j})} \hfill \\ {{\boldsymbol{y}}^{\rm{T}}}a = 0 \hfill \\ {a_i} \geqslant 0,i = 1,\cdots,n \hfill \\ \end{gathered} \right. $$ (7)

    式中,$ Q(a) $为对$ \phi({\boldsymbol{w}}) $求解极大化函数。

    式(7)即为线性不等式约束条件下的二次规划问题,假设最优解为$a_i^* $,则最优分类函数为:

    $$ f(x) = {{\rm{sgn}}} \left\{ \sum\limits_{i = 1}^n {a_i^*{y_i}({x_i} \cdot x) + {b^*}} \right\} $$ (8)

    式中,sgn(·)为符号函数;支持向量的$a_i^* $取值不为0,非支持向量的$a_i^* $取值为0;$b^*$为分类阈值。

    在线性不可分的情况下,某些训练样本无法满足式(8)的条件,因此需在条件中增加松弛项$ \xi_{t} $,则式(8)变为:

    $$ {y_i}[({\boldsymbol{w}} \cdot {x_i}) + b] - 1 + {\xi _i} \geqslant 0 $$ (9)

    目标函数变为:

    $$ \min \phi ({\boldsymbol{w}},\xi ) = \frac{1}{2}({\boldsymbol{w}} \cdot {\boldsymbol{w}}) + C\sum\limits_{i = 1}^n {{\xi _i}} $$ (10)

    式中,$ \phi({\boldsymbol{w}}, \xi) $为SVM优化函数;C为惩罚因子,可控制对错分样本的惩罚程度。

    利用SVM方法求解上述最优化问题时,通过采用核函数代替训练样本的内积运算(陈强等,2013),即:

    $$ Q(a) = \sum\limits_{i = 1}^n {{a_i} - \frac{1}{2}} \sum\limits_{i,j = 1}^n {{a_i}{a_j}{y_i}{y_j}K({x_i} \cdot {x_j})} $$ (11)

    式中,$ Q(a) $表示对$ \phi(w) $求解极大化函数,$ K\left(x_{{i}} \cdot x_{{j}}\right) $表示核函数。

    核函数主要形式包括线性核函数、多项式核函数、径向基核函数和Sigmoid核函数,其中径向基核函数将样本映射到更高维的空间。当类别标签和特征因子之间是非线性关系时,效果更好。本研究中,滑坡与多个诱发因素之间存在非线性关系,区分滑坡样本与非滑坡样本时,采用径向基核函数将样本数据映射到高维平面,寻找2类样本之间的最优超平面,使滑坡样本与非滑坡样本之间的隔离边缘最大化。

    (1)滑坡点聚类分析

    对于研究区内的滑坡隐患点,采用DBSCAN方法进行聚类分析,利用邻域半径E和邻域密度阈值M控制聚类结果和精度。

    (2)非滑坡样本选取

    对于簇中点,求解其最小凹包多边形;对于噪声点,进行点的缓冲区分析。凹包多边形和噪声点的缓冲范围共同确定了滑坡影响范围。在滑坡影响范围外、研究区内,选取非滑坡样本,滑坡样本与非滑坡样本数量比为1∶2.5,作为模型训练和验证的样本数据。

    (3)滑坡易发性评价模型训练和验证

    样本数据选取分为训练数据集和验证数据集。选取与滑坡相关的地理数据作为评价因子,提取评价因子中与样本位置相对应的数据,代入SVM算法。迭代寻求惩罚系数C和核函数参数γ的最优解,进而使模型的分类精度达到最高。

    (4)研究区滑坡易发性预测

    将整个研究区的评价因子代入训练和验证后的模型,预测其属于滑坡和非滑坡类样本的概率,并进一步提取属于滑坡类样本的概率,作为预测结果。

    (5)研究区滑坡易发性制图、统计和精度评价

    预测结果反算为具有空间意义的栅格图层,对其进行重新分类,统计每个分级的数量,计算各类机器学习评价指标,对比分析不同模型的分级差异性和精度差异性。技术路线如图1所示。

    图 1  技术路线
    Figure 1.  Technical route

    四川省绵阳市位于四川盆地西北部、涪江中上游。东邻广元市青川县、剑阁县和南充市南部县、西充县,南接遂宁市射洪县,西接德阳市罗江县、中江县、绵竹市,西北与阿坝藏族羌族自治州和甘肃省文县接壤,如图2所示。地理坐标为北纬30°42′~33°03′、东经103°45′~105°43′。全市呈北西南东条带状分布,东西宽约144 km,南北长约296 km,辖区面积20 256.88 km2。山区占61.0%,丘陵区占20.4%,平坝区占18.6%。

    图 2  研究区
    Figure 2.  Study area

    绵阳市跨越我国地形第一、第二阶梯,西北部位于第一阶梯东侧,以山地地形为主,东南部位于第二阶梯西侧的四川盆地,辖区内部海拔差异巨大,地表形态区分较明显。流域地形西北部高、东南部较低。上游地处高山峡谷,植被覆盖较广,暴雨洪水回流时间短,具有典型的山溪性河流暴涨暴落特点。绵阳市降水较充沛,降水量年际变化较大,年平均降水量825.8~1 417 mm。降水分布特点为南北部和东部少、中部和西部多。西部山区(平武、北川及安县、江油西北山地)属于四川省多震区之一。龙门山地震带从安县、江油以北地区通过,松潘-较场地震带主要在九寨沟、松潘、平武和茂县的较场等地。全市受地震威胁的面积占总面积的86%以上。绵阳市西北部山地由于坡陡,岩石十分破碎,在地震、暴雨作用下极易发生滑坡。

    研究区内滑坡样本分布主要分为2部分:一部分沿龙门山断裂带由西南向东北方向延伸,宽度较小,密度较大;另一部分位于绵阳市东南部,均匀分布于河网两侧,此地区位于四川盆地地区西北部,如图3所示。

    图 3  滑坡样本分布
    Figure 3.  Landslide sample distribution

    滑坡和岩性数据源自中国科学院地理科学与资源研究所资源环境科学与数据中心。岩性数据包括面积、性质和特征描述等指标;滑坡数据包括滑坡样本数据名称、编号、所属行政区划、经纬度、地下水种类、构造部位、地震烈度、险情等级和防治建议等。研究数据由卫星影像、摄影测量图、政府报告和历史滑坡文件补充,以确定滑坡样本空间位置信息。NDVI数据来源于北京大学城市与环境学院地理数据平台,数据分辨率为1 km,年份为2015年。行政边界、河网等矢量数据来源于BigMap。DEM数据来源于地理空间数据云,采用ASTER GDEM系列30 m分辨率数字高程数据。降雨数据来源于中国科学院水利部成都山地灾害与环境研究所数字山地与遥感应用研究中心侵蚀地貌过程与生态过程研究团队,数据内容为1991—2020年降雨平均值,精度为0.1 mm,为节约存储空间,放大10倍保存,对比ERA5降水量数据,验证本降雨数据的可靠性。

    (1)DBSCAN聚类选取非滑坡样本

    对滑坡样本进行聚类分析。邻域半径和最小样本个数决定聚类结果,聚类流程如图4所示(高攀等,2019)。为保证聚类结果转换为滑坡样本的影响范围多边形,最小样本个数为3。DBSCAN聚类结果如图5所示。

    图 4  聚类流程
    Figure 4.  Clustering process
    图 5  聚类结果
    Figure 5.  Clustering results

    DBSCAN为基于密度的聚类方法,不同于划分和层次聚类,将簇定义为密度相连的点的最大集合,可将具有足够高密度的区域划分为簇。本研究将密度足够高的滑坡样本聚类为簇,考虑单一滑坡、滑坡与滑坡之间的相互影响。滑坡样本被归为若干个簇,对每个簇求解其最小凹多边形,确定每个簇的影响范围。

    聚类结果显示,研究区内滑坡样本聚为23类,43个点未被归类到任何簇中,即噪声点。针对每个聚类簇,根据不规则三角网(TIN)求解其最小凹包多边形。对于噪声点,以1 000 m为缓冲半径进行缓冲区分析。凹包多边形和噪声点缓冲区共同确定滑坡样本影响范围。在滑坡范围外、研究区内部,按滑坡样本与非滑坡样本为1∶2.5的比例采集2 500个非滑坡样本。非滑坡样本间距≥1 000 m,以保证非滑坡样本采集的均匀性。为验证非滑坡样本选取的合理性,将非滑坡样本转为KML格式,导入在线三维数据平台中,随机截取包含非滑坡样本的8张影像,如图6所示。

    图 6  部分非滑坡样本
    Figure 6.  Partial non-landslide samples

    图6可知,非滑坡样本均匀分布于城镇、山区、水系等区域。结合先验知识研判、地形数据和水文数据可知,非滑坡样本与滑坡样本所处位置区分较明显,研究区内各种地形条件、各坡度区间、不同植被覆盖程度的地区均包含一定数量的非滑坡样本。结合非滑坡样本采集中的随机法和缓冲法,对滑坡样本进行缓冲区分析,缓冲半径为1 000 m。在缓冲区外、研究区内部,按滑坡样本与非滑坡样本为1∶2.5的比例随机生成非滑坡样本。将2种非滑坡样本采集策略生成的非滑坡样本分别与滑坡样本合并,用作SVM二分类模型训练和验证数据。

    (2)SVM二分类模型训练和验证

    评价因子的选取需考虑其重要性和合理性。重要性指评价因子对滑坡的解释程度。本文参考已有研究成果关于评价因子的选取(黄发明等,2018徐胜华等,2020),结合专家经验、研究区地形特征和灾害分布等特点,选取以下5类共8个评价因子(图7):①地形因子,包括高程、坡度、坡向、剖面曲率;②地质因子,即岩性;③遥感因子,即归一化植被指数(Normalized Difference Vegetation Index,简称NDVI);④气象因子,即降雨;⑤水文因子,即与河流距离。

    图 7  评价因子
    Figure 7.  The evaluation factors

    地形因子基于研究区数字高程模型,坡度反映地表单元陡缓程度;坡向决定地表单元受光照强弱,对土壤湿度、植被类型和植被覆盖等具有重要影响;剖面曲率反映地形复杂程度。斜坡的地层条件是发生滑坡的物质基础。组成斜坡的岩石种类不同,其抗剪强度不同,发生滑坡的难易程度不同。NDVI可体现研究区植被覆盖情况,植被覆盖影响水土保持能力,进而影响滑坡易发性。降雨导致斜坡上土石层饱和,增加滑体质量,降低土石层抗剪强度,增加滑坡发生的可能性。河流对坡体具有侵蚀动力作用,河水位变化时,坡体可能受浮托、侵蚀、软化、增重作用等。

    数据统一为TIFF格式,空间分辨率为30 m,共8 778行、6 157列、22 511 781个有效栅格单元。以样本数据为索引,提取评价因子中对应位置上的数据,共同组成滑坡易发性评价模型训练和验证数据。选取80%的数据作为训练数据集,用于模型训练,余下20%的数据用于验证模型精度。评价因子选取的合理性指评价因子之间应避免存在较强的相关性。为保证所选取因子的合理性,计算各评价因子的方差膨胀系数(Variance Inflation Factor,简称VIF),结果显示该系数均小于8,表明评价因子之间不存在共线性的问题。

    (3)研究区滑坡易发性预测

    将评价因子的全部数据代入训练完成的滑坡易发性评价模型中,提取预测结果中隶属于滑坡的概率,将其反算为具有地理意义的TIFF格式空间数据,即为滑坡易发性评价结果。对比统计两种非滑坡样本采集策略的结果差异。

    DBSCAN-SVM模型评价结果中,高易发区和极高易发区主要沿龙门山后山大断裂带分布,此断裂带沿汶川、茂县、平武、青川由西南向东北延伸。结合岩性图层,断裂带所处位置的岩性为极易滑岩组,表明上述范围在断裂带、岩性和滑坡隐患点的共同影响下,滑坡易发性较高。极低易发区多位于龙门山断裂带西北部高海拔地区,此地区坡度主要分布于20°~40°,虽隶属于易发生滑坡的坡度范围,但该范围降水较少,植被覆盖度较高,不利于滑坡的发生。低易发区多位于龙门山断裂带东南侧的绵阳市游仙区中东部、盐亭县和三台县大部分地区,地处四川盆地,该地区滑坡隐患点分布相对均匀,密度、坡度较小,海拔较低,植被覆盖适中。

    采用准确率(Accuracy)、精确率(Precision)、召回率(Recall)、AUC、F1分数(F1-Socre)等指标衡量模型精度,对比不同模型之间的差异。准确率衡量分类正确的比例,精确率指模型判为正的所有样本中有多少是真正的正样本,召回率指所有正样本有多少被模型判为正样本,AUC为ROC曲线与x轴围成的面积。滑坡易发性评价模型衡量指标如表1图8所示。

    表 1  模型性能指标评价
    Table 1.  Model performance index evaluation
    模型类型 准确率 精确率 召回率 AUC F1分数
    SVM 0.794 5 0.950 6 0.810 4 0.764 3 0.874 9
    DBSCAN-SVM 0.832 4 0.937 0 0.857 6 0.853 8 0.895 6
    下载: 导出CSV 
    | 显示表格
    图 8  ROC曲线
    Figure 8.  ROC curve

    表1可知,DBSCAN-SVM模型相比SVM模型,准确率提高0.037 9,召回率提高0.047 2,F1分数提高0.020 7。由图8可知,DBSCAN-SVM模型AUC较大,且ROC曲线更靠近左上角。综上所述,DBSCAN-SVM模型精度优于SVM模型。

    分别采用自然间断点和相等间距的分级方法对2种模型评价结果进行对比,自然间断点法针对单个图层,使类与类之间的不同最大化;相等间距法针对多个图层,采取相同的分段阈值,对比分析值隶属于不同区间的数量。将图层分为5个等级,对应易发性等级分别为极低、低、中等、高和极高(图9)。对已有滑坡样本和易发性评价结果进行联合查询,计算滑坡易发性高和极高区域中包含的滑坡样本数量、占比,间接评价易发性评价模型优劣。SVM、DBSCAN-SVM模型自然间断点法分级统计结果分别如表23所示,SVM、DBSCAN-SVM模型相等间距法分级统计分别如表45所示。

    图 9  滑坡易发性自然间断点法分级图
    Figure 9.  Classification of natural discontinuities in landslide susceptibility
    表 2  SVM模型自然间断点法分级统计结果
    Table 2.  SVM model natural discontinuity method classification statistics
    易发性等级栅格数栅格比例/%滑坡栅格数滑坡栅格比例/%滑坡栅格频率比
    极低4 615 69520.50111.10.053 7
    12 550 67855.7542142.10.755 2
    中等2 514 80511.1714414.41.289 1
    1 628 5997.2313813.81.908 7
    极高1 202 0045.3528628.65.345 8
    下载: 导出CSV 
    | 显示表格
    表 4  SVM模型相等间距法分级统计结果
    Table 4.  SVM model equal spacing method classification statistics
    易发性等级栅格数栅格比例/%滑坡栅格数滑坡栅格比例/%滑坡栅格频率比
    极低5 778 72025.67161.60.062 3
    13 266 64358.9351651.60.875 6
    中等2 021 2778.9814414.41.603 6
    1 216 4935.4023723.74.388 9
    极高228 6481.02878.78.529 4
    下载: 导出CSV 
    | 显示表格

    图9表2表3可知,采用自然间断点法进行分级统计时,SVM模型中高易发区和极高易发区包含滑坡样本共424个,占滑坡样本总数的42.4%;DBSCAN-SVM模型中高易发区和极高易发区包含滑坡样本共594个,占滑坡样本总数的59.4%。可知DBSCAN-SVM模型高易发区和极高易发区中包含的滑坡样本数量更多,因此在自然间断点法中,DBSCAN-SVM模型精度优于SVM模型。

    表 3  DBSCAN-SVM模型自然间断点法分级统计结果
    Table 3.  DBSCAN-SVM model natural discontinuity method classification statistics
    易发性等级栅格数栅格比例/%滑坡栅格数滑坡栅格比例/%滑坡栅格频率比
    极低6 590 68529.28313.10.105 9
    7 185 19531.9218018.00.563 9
    中等4 030 99517.9119519.51.088 8
    2 609 42311.5922022.01.898 2
    极高2 095 4839.3037437.44.021 5
    下载: 导出CSV 
    | 显示表格

    表4表5可知,采用相等间距法进行分级统计时,DBSCAN-SVM模型中有47.2%的滑坡样本位于高易发区和极高易发区,大于SVM模型的32.4%,可知相等间距法中DBSCAN-SVM模型预测精度高于SVM模型(黄发明等,2018)。

    表 5  DBSCAN-SVM模型相等间距法分级统计结果
    Table 5.  DBSCAN-SVM model equal spacing method classification statistics
    易发性等级栅格数栅格比例/%滑坡栅格数滑坡栅格比例/%滑坡栅格频率比
    极低9 251 42541.09787.80.189 8
    7 055 40231.3425825.80.823 2
    中等3 000 18713.3319219.21.440 4
    2 027 9779.0123523.52.608 2
    极高1 176 7905.2323723.74.531 5
    下载: 导出CSV 
    | 显示表格

    本文同时采用聚类和分类2种方法建立滑坡易发性评价模型,通过实例应用定量分析本文所提方法精度提高程度。

    对于非滑坡样本的选取,缓冲法确定的滑坡影响范围仅考虑单一滑坡的影响范围,忽略了在空间位置相近的多个滑坡之间的相互影响;坡度法在筛选非滑坡样本时,过分注重某单一元素对滑坡的解释性,选取的非滑坡样本聚集于地势平缓地区,但结合实际情况和有关坡度与滑坡之间关系的研究成果,低滑坡易发区对应的坡度不一定较小,滑坡与坡度的对应关系为分段函数(郭果等,2013),因此坡度法选取的非滑坡样本对模型训练易造成过拟合问题。

    分类方法为机器学习领域的2种经典模型的组合,并结合地理信息科学领域的不规则三角网等相关知识。该方法的优势在于模型训练和验证耗时较短,效率较高,充分考虑了样本之间的空间关系,但对滑坡内部构造、力学模型等的论证和分析相对较少(吴玮莹等,2017)。

    对比已有研究使用的数据,本文涉及的评价因子种类和数量相对较少,且部分原始数据精度相对较低情况下,取得了精度较高的滑坡易发性评价结果。

    本文结合DBSCAN方法和SVM方法,联合构建滑坡易发性评价模型。选取高程、坡度、坡向、剖面曲率、岩性、归一化植被指数、降雨、与河流距离作为评价因子,对四川省绵阳市进行滑坡易发性评价。统计与分析结果显示,机器学习精度评价与滑坡隐患点分级统计结果均表明DBSCAN-SVM滑坡易发性评价模型优于SVM滑坡易发性评价模型,表明本文所提模型对滑坡易发性评价具有较好的准确性和适用性,对于深入研究滑坡易发性、滑坡隐患点识别等具有一定促进作用。

  • 图  1  技术路线

    Figure  1.  Technical route

    图  2  研究区

    Figure  2.  Study area

    图  3  滑坡样本分布

    Figure  3.  Landslide sample distribution

    图  4  聚类流程

    Figure  4.  Clustering process

    图  5  聚类结果

    Figure  5.  Clustering results

    图  6  部分非滑坡样本

    Figure  6.  Partial non-landslide samples

    图  7  评价因子

    Figure  7.  The evaluation factors

    图  8  ROC曲线

    Figure  8.  ROC curve

    图  9  滑坡易发性自然间断点法分级图

    Figure  9.  Classification of natural discontinuities in landslide susceptibility

    表  1  模型性能指标评价

    Table  1.   Model performance index evaluation

    模型类型 准确率 精确率 召回率 AUC F1分数
    SVM 0.794 5 0.950 6 0.810 4 0.764 3 0.874 9
    DBSCAN-SVM 0.832 4 0.937 0 0.857 6 0.853 8 0.895 6
    下载: 导出CSV

    表  2  SVM模型自然间断点法分级统计结果

    Table  2.   SVM model natural discontinuity method classification statistics

    易发性等级栅格数栅格比例/%滑坡栅格数滑坡栅格比例/%滑坡栅格频率比
    极低4 615 69520.50111.10.053 7
    12 550 67855.7542142.10.755 2
    中等2 514 80511.1714414.41.289 1
    1 628 5997.2313813.81.908 7
    极高1 202 0045.3528628.65.345 8
    下载: 导出CSV

    表  4  SVM模型相等间距法分级统计结果

    Table  4.   SVM model equal spacing method classification statistics

    易发性等级栅格数栅格比例/%滑坡栅格数滑坡栅格比例/%滑坡栅格频率比
    极低5 778 72025.67161.60.062 3
    13 266 64358.9351651.60.875 6
    中等2 021 2778.9814414.41.603 6
    1 216 4935.4023723.74.388 9
    极高228 6481.02878.78.529 4
    下载: 导出CSV

    表  3  DBSCAN-SVM模型自然间断点法分级统计结果

    Table  3.   DBSCAN-SVM model natural discontinuity method classification statistics

    易发性等级栅格数栅格比例/%滑坡栅格数滑坡栅格比例/%滑坡栅格频率比
    极低6 590 68529.28313.10.105 9
    7 185 19531.9218018.00.563 9
    中等4 030 99517.9119519.51.088 8
    2 609 42311.5922022.01.898 2
    极高2 095 4839.3037437.44.021 5
    下载: 导出CSV

    表  5  DBSCAN-SVM模型相等间距法分级统计结果

    Table  5.   DBSCAN-SVM model equal spacing method classification statistics

    易发性等级栅格数栅格比例/%滑坡栅格数滑坡栅格比例/%滑坡栅格频率比
    极低9 251 42541.09787.80.189 8
    7 055 40231.3425825.80.823 2
    中等3 000 18713.3319219.21.440 4
    2 027 9779.0123523.52.608 2
    极高1 176 7905.2323723.74.531 5
    下载: 导出CSV
  • [1] 陈强, 田杰, 黄海宁等, 2013. 基于统计和纹理特征的SAS图像SVM分割研究. 仪器仪表学报, 34(6): 1413—1420 doi: 10.3969/j.issn.0254-3087.2013.06.031

    Chen Q. , Tian J. , Huang H. N. , et al. , 2013. Study on SAS image segmentation using SVM based on statistical and texture features. Chinese Journal of Scientific Instrument, 34(6): 1413—1420. (in Chinese) doi: 10.3969/j.issn.0254-3087.2013.06.031
    [2] 高攀, 田浩, 李健等, 2019. 基于改进DBScan算法的雷暴挖掘与研究. 高压电器, 55(4): 169—177

    Gao P. , Tian H. , Li J. , et al. , 2019. Excavation and research of thunderstorm based on improved DBScan algorithm. High Voltage Apparatus, 55(4): 169—177. (in Chinese)
    [3] 郭果, 陈筠, 李明惠, 2013. 土质滑坡发育概率与坡度间关系研究. 工程地质学报, 21(4): 607—612 doi: 10.3969/j.issn.1004-9665.2013.04.018

    Guo G. , Chen J. , Li M. H. , 2013. Statistic relationship between slope gradient and landslide probability in soil slopes around reservoir. Journal of Engineering Geology, 21(4): 607—612. (in Chinese) doi: 10.3969/j.issn.1004-9665.2013.04.018
    [4] 黄发明, 殷坤龙, 蒋水华等, 2018. 基于聚类分析和支持向量机的滑坡易发性评价. 岩石力学与工程学报, 37(1): 156—167

    Huang F. M. , Yin K. L. , Jiang S. H. , et al. , 2018. Landslide susceptibility assessment based on clustering analysis and support vector machine. Chinese Journal of Rock Mechanics and Engineering, 37(1): 156—167. (in Chinese)
    [5] 李文杰, 闫世强, 蒋莹等, 2019. 自适应确定DBSCAN算法参数的算法研究. 计算机工程与应用, 55(5): 1—7, 148 doi: 10.3778/j.issn.1002-8331.1809-0018

    Li W. J. , Yan S. Q. , Jiang Y. , et al. , 2019. Research on method of self-adaptive determination of DBSCAN algorithm parameters. Computer Engineering and Applications, 55(5): 1—7, 148. (in Chinese) doi: 10.3778/j.issn.1002-8331.1809-0018
    [6] 林荣福, 刘纪平, 徐胜华等, 2020. 随机森林赋权信息量的滑坡易发性评价方法. 测绘科学, 45(12): 131—138

    Lin R. F. , Liu J. P. , Xu S. H. , et al. , 2020. Evaluation method of landslide susceptibility based on random forest weighted information. Science of Surveying and Mapping, 45(12): 131—138. (in Chinese)
    [7] 马思远, 许冲, 田颖颖等, 2019. 基于逻辑回归模型的九寨沟地震滑坡危险性评估. 地震地质, 41(1): 162—177 doi: 10.3969/j.issn.0253-4967.2019.01.011

    Ma S. Y. , Xu C. , Tian Y. Y. , et al. , 2019. Application of logistic regression model for hazard assessment of earthquake-triggered landslides: a case study of 2017 Jiuzhaigou (China) MS7.0 event. Seismology and Geology, 41(1): 162—177. (in Chinese) doi: 10.3969/j.issn.0253-4967.2019.01.011
    [8] 王毅, 方志策, 牛瑞卿等, 2021. 基于深度学习的滑坡灾害易发性分析. 地球信息科学学报, 23(12): 2244—2260 doi: 10.12082/dqxxkx.2021.210057

    Wang Y. , Fang Z. C. , Niu R. Q. , et al. , 2021. Landslide susceptibility analysis based on deep learning. Journal of Geo-Information Science, 23(12): 2244—2260. (in Chinese) doi: 10.12082/dqxxkx.2021.210057
    [9] 吴玮莹, 王晓青, 邓飞, 2017. 基于高分卫星遥感影像的地震应急滑坡编目与分布特征探讨——以2017年8月8日九寨沟7.0级地震为例. 震灾防御技术, 12(4): 815—825

    Wu W. Y., Wang X. Q., Deng F., 2017. Compilation and spatial analysis of co-seismic landslide inventory by using high-resolution remote sensing images in earthquake emergency response: an example of the Jiuzhaigou MS7.0 earthquake on August 8, 2017. Technology for Earthquake Disaster Prevention, 12(4): 815—825. (in Chinese)
    [10] 武雪玲, 沈少青, 牛瑞卿, 2016. GIS支持下应用PSO-SVM模型预测滑坡易发性. 武汉大学学报·信息科学版, 41(5): 665—671

    Wu X. L, Shen S. Q. , Niu R. Q. , 2016. Landslide susceptibility prediction using GIS and PSO-SVM. Geomatics and Information Science of Wuhan University, 41(5): 665—671. (in Chinese)
    [11] 徐胜华, 刘纪平, 王想红等, 2020. 熵指数融入支持向量机的滑坡灾害易发性评价方法——以陕西省为例. 武汉大学学报·信息科学版, 45(8): 1214—1222

    Xu S. H. , Liu J. P. , Wang X. H. , et al. , 2020. Landslide susceptibility assessment method incorporating index of entropy based on support vector machine: a case study of Shaanxi province. Geomatics and Information Science of Wuhan University, 45(8): 1214—1222. (in Chinese)
    [12] Kavzoglu T. , Sahin E. K. , Colkesen I. , 2014. Landslide susceptibility mapping using GIS-based multi-criteria decision analysis, support vector machines, and logistic regression. Landslides, 11(3): 425—439. doi: 10.1007/s10346-013-0391-7
    [13] Liu M. M. , Liu J. P. , Xu S. H. , et al. , 2021. Landslide susceptibility mapping with the fusion of multi-feature SVM model based FCM sampling strategy: a case study from Shaanxi Province. International Journal of Image and Data Fusion, 12(4): 349—366. doi: 10.1080/19479832.2021.1961316
    [14] Peng L. , Niu R. Q. , Huang B. , et al. , 2014. Landslide susceptibility mapping based on rough set theory and support vector machines: a case of the Three Gorges area, China. Geomorphology, 204: 287—301. doi: 10.1016/j.geomorph.2013.08.013
    [15] Vapnik V. N., 1995. The nature of statistical learning theory. New York: Springer.
  • 期刊类型引用(4)

    1. 黄发明,曾诗怡,姚池,熊浩文,范宣梅,黄劲松. 滑坡易发性预测建模的不确定性:不同“非滑坡样本”选择方式的影响. 工程科学与技术. 2024(01): 169-182 . 百度学术
    2. 洪浩源,王德生,朱阿兴. 面向机器学习型区域滑坡易发性评价的训练样本采样方法. 地理学报. 2024(07): 1718-1736 . 百度学术
    3. 贾雨霏,魏文豪,陈稳,杨清卓,盛逸凡,徐光黎. 基于SOM-I-SVM耦合模型的滑坡易发性评价. 水文地质工程地质. 2023(03): 125-137 . 百度学术
    4. 茹曼,郑燕,张斌,常勤慧. 基于SVM-RF模型的地质灾害易发性评价——以河南省博爱县青天河景区为例. 地质与资源. 2023(05): 633-641 . 百度学术

    其他类型引用(7)

  • 加载中
图(9) / 表(5)
计量
  • 文章访问数:  259
  • HTML全文浏览量:  60
  • PDF下载量:  33
  • 被引次数: 11
出版历程
  • 收稿日期:  2021-11-20
  • 刊出日期:  2021-12-31

目录

/

返回文章
返回