视觉是自然赋予动物和人类的一项惊人的能力。视觉皮层在猕猴大脑皮层中占据了大约50%的比重,在人类的大脑中,视觉皮层也比对应其他任何功能的皮层占据着更大的比重。 想象一下,当人们观察图1这幅图片时,会看到什么?这是一座双层公路铁路两用桥梁。而此时计算机看到的却是一个数字矩阵。现在,如果把这个数字矩阵拿给任何一个人看,能否从中看出这是一座公铁两用桥呢?答案当然是否定的。
视觉是自然赋予动物和人类的一项惊人的能力。视觉皮层在猕猴大脑皮层中占据了大约50%的比重,在人类的大脑中,视觉皮层也比对应其他任何功能的皮层占据着更大的比重。
想象一下,当人们观察图1这幅图片时,会看到什么?这是一座双层公路铁路两用桥梁。而此时计算机看到的却是一个数字矩阵。现在,如果把这个数字矩阵拿给任何一个人看,能否从中看出这是一座公铁两用桥呢?答案当然是否定的。
图1 人类视觉和计算机视觉
计算机视觉(Computer Vision, CV)是一门研究如何让计算机像人类那样“看”的学科。更准确点说,它是利用摄像机和电脑代替人眼,使得计算机拥有类似于人类的那种对目标进行分割、分类、识别、跟踪、判别决策的功能。计算机视觉是使用计算机及相关设备对生物视觉的一种模拟,是人工智能领域的一个重要部分,它的研究目标是使计算机具有通过二维图像认知三维环境信息的能力。
计算机视觉技术的发展
对计算机视觉方面的研究,最早可以追溯到1966年,美国麻省理工学院的一个本科生暑期项目。
在20世纪60年代,就有许多研究人员发表了对人工合成世界的理解。进入20世纪70年代,计算机的图像识别技术不断进步。在一张图像中,人们可以看到天空、树木和建筑,而计算机识别出来的图像则是按照事物的不同特征,将其单独分割成不同的区块来显示。20世纪80年代出现的人工神经网络,一度蓬勃发展,又经历了由盛转衰的过程,研究人员把兴趣转向了对几何学的深入研究和对数学严谨性的提高。1985年,美国伊利诺伊大学的大型计算机只有24MB内存,而现在,仅仅是一块智能手表,其存储量和处理能力都远远超过了当年的大型计算机。20世纪90年代,人脸识别和统计分析开始流行起来。而到了本世纪初,人们将识别的应用领域扩大到了很多方面,建立了大型的进行了标注/注释的数据集,同时开始了对视频数据的处理。与此同时,计算机的运算能力也有了巨大进步,这也促成了人工神经网络的回归及其在图像识别的快速发展,计算机视觉系统的数量也在逐步增加。在不久的将来,智能自动驾驶汽车和智能机器人都将帮助人类进行日常活动。
数码相机技术和计算机处理能力的进步,使各种各样的计算机视觉技术的应用成为可能。然而,当前的状况是,在美国甚至全世界,人工检测仍然是民用基础设施状况检测的主要形式。在下一发展阶段,广泛使用计算机视觉技术进行结构健康监测将成为可能,计算机视觉技术的优势和潜能将大大降低民用基础设施状况检测的成本和风险,并最终取代传统的人工检测。美国土木工程师学会(ASCE)发表的一份题为《愿景2025》的报告中谈到,未来将更多地依靠并利用实时访问动态数据库、传感器、诊断工具和其他先进技术,对基础设施的状况做出正确的判断。
不同应用场景下
的结构静态与动态监测
结构健康监测的目的是,通过测量结构物的加速度、位移、应变等物理量,定量了解结构物目前的状态。基于计算机视觉的结构健康监测技术具有非接触的特点,克服了传统接触式传感器存在的成本高,不易维护等问题。本节将讨论基于计算机视觉的结构健康监测技术的研究与应用,基于其应用场景的不同,将分静态应用和动态应用两部分阐述。
静态监测的应用
基于视觉的结构静态位移和应变的测量通常采用数字图像相关法(Digital Image Correlation,DIC)。DIC是一类非接触式方法的统称,这类方法获取目标的图像以数字形式存储,并通过图像分析获取目标全域的形状、变形和(或)运动数值。除了估算图像平面内的位移场,DIC算法还可以通过不同的后处理方法,来获得二维平面内的应变场(2D DIC)、平面外的位移场和应变场(3D DIC),以及进行体积测量(VDIC)等。
DIC算法在实验室和工程实践中均得到了广泛的应用。例如,Hoult等人在实验室中用2D DIC方法对单轴载荷下的钢试件进行应变测量,并将结果与应变片的测量结果进行比较,二者高度吻合。在Ellenberg等人的实验中,3D DIC 方法被用来测量实验室中试件的静态位移,测量精度达到了亚像素级。McCormick和Lord采用2D DIC方法测量了静载4辆32 吨卡车的高速公路桥面的垂直位移。Yoneyama等人使用2D DIC方法估算了载有一辆20 吨卡车的桥梁主梁的挠度。Reagan使用携带立体照相机的无人机,将3D DIC方法应用于桥梁变形的长期监测。
动态监测的应用
测量结构在激励下的动态响应,例如位移、加速度等,进行模态分析和系统识别,从而获取结构系统的动态特性,是结构健康监测的重要内容。基于计算机视觉的方法由于具有非接触的优势,已被广泛应用于结构的位移测量,以及模态分析和系统识别。
哥伦比亚大学的Maria Feng教授首先在实验室中通过对一简支梁结构的实验,证明了视觉传感器在密集全场位移测量中的准确性。该实验中,通过一相机对结构30个测点的位移测量得到的结构频率和振型,与使用6个加速度计得到的结果高度一致。随后,视觉传感器被应用到对曼哈顿大桥在运行火车激励下的远程(相机距离大桥的跨中位置约300米处)、实时和多点(3个测量位点)动态位移测量中。
图2 曼哈顿大桥远程多点动态位移测量
亚利桑那大学的Hongki Jo教授为了让计算机视觉技术更简单易行,探索了用智能手机进行实时动态位移监测的可行性。他们在iOS环境下为iPhone开发了一个新的应用程序,进行基于视觉的位移测量。在户外振动台试验中,该方法在距离目标33m的情况下,位移测量精度达到了亚毫米级,且动态位移测量结果与传统的激光位移传感器的测量结果吻合良好。
图3 户外振动台试验结果
(红色:智能手机;黑色:激光传感器)
自动化的结构物检测
一个自动化的结构检测框架主要由两个步骤组成:一是利用无人机、车辆、遥控设备等搭载相机进行图像采集;二是利用计算机视觉技术对图像进行处理。
德国魏玛包豪斯大学的Hallermann团队操控无人机沿挡土墙飞行并进行拍摄。在两次拍摄之间,一些硬纸板被添加到挡土墙表面,以模拟挡土墙可能发生的变化。两次拍摄所采集到的图像被用来进行3D重建,得到两个点云。接下来,用CloudCompare软件比较两个点云,最终结果如图4所示。该结果表明,这种基于视觉的结构检测方法对于识别结构物的变化是行之有效的。
图4 通过比较3D点云对挡土墙的变化进行识别
英国剑桥大学的Kenichi Soga教授开发了一个对隧道衬砌的外观变化进行检测、定位、分类和分级的自动化系统,如图5所示。该系统旨在为检测人员提供协助,对老化的隧道网络进行结构健康监测和维护。首先采集一组参考图像,利用“运动推断结构”(Structure from Motion,SfM) 技术进行三维重建,得到隧道衬砌的参考模型。之后采集到的新图像可以在该参考模型中进行准确定位。隧道发生的变化可以通过新图像与参考图像的对比,以及参考模型和新图像所建模型几何形状的对比来获得。除了检测结构发生的变化,该系统还可以对检测到的变化进行归类,并根据损伤的严重程度进行分级。
图5 隧道衬砌自动检测系统
普渡大学的Shirley Dyke教授提出了一种自动目标区域(Region of Interest, ROI)定位技术,名为ROI Image Localization for Visual Interrogation (RILVI)。该技术的主要贡献在于,先从收集到的大量图像中提取出经过适当裁剪和缩放的目标区域,再对这些目标区域进行视觉检测。RILVI技术的可行性通过对图6中桁架结构的实验得到了验证。在实验中,采集的789张原始图像中的118个焊缝,也就是对该桁架进行视觉检测的目标区域,被成功定位,从而大大提高了视觉检测的实施效率。
图6 利用RILVI技术对桁架结构中的目标区域(焊缝)进行定位
震后结构安全检测
地震发生后,快速的结构检查和评估对于生产生活秩序的迅速恢复至关重要。由于具有快速、安全、客观、可靠的特点,计算机视觉在建筑物震后安全评估中得到了越来越广泛的应用。
Hoskere等人参与了2017年9月墨西哥普埃布拉州地震的震后结构检测,并提出了损伤状态感知模型(Condition-aware Model)。在该模型中,先利用深度学习算法,对无人机采集到的图片进行损伤检测和场景分割。这里,场景是指图片中的不同区域,例如建筑的墙面、开口(门、窗等)、废墟、道路、天空、植物等。场景的引入有利于提高损伤检测的准确性,例如,天空中的电线,很容易被识别成裂缝,但由于其场景,即天空的存在,可以很容易排除其为裂缝的可能性(显然,天空中不可能存在裂缝)。无人机采集到的图片将被用于3D重建,以获取结构物的几何模型。这些图片识别出来的损伤和场景,将被投影到结构物的几何模型上。损伤状态感知模型的使用,有助于实现损伤在结构几何模型上的可视化存储,进而帮助人们分析结构物整体的安全性能,从而做出快速而准确的判断。
图7 损伤状态感知模型(Condition-aware Model)
截至2020年,中国的铁路网长度超过13万公里,位居世界第二,其中有许多高速铁路基础设施。高铁基础设施中的关键结构是铁路桥梁,若发生地震,这些桥梁需要进行快速震后检测。Narazaki提出了一个基于视觉的钢筋混凝土铁路桥梁自主检查框架,以实现快速的震后响应和恢复。为各种检测算法的研究提供一个代表震后结构检测场景的测试环境至关重要。此研究中合成环境(Synthetic Environment)的开发,可以为铁路桥梁生成逼真的计算机图形模型,从而为机器学习算法的开发生成训练数据(图8)。在该合成环境中,还可以为无人机快速结构检测规划导航路径。这项研究是朝着整个铁路桥梁震后检测程序自动化目标迈出的重要一步,以最大限度地减少自然灾害下人民生命财产的损失,尽快恢复生产生活秩序。
图8 合成环境生成的带有构件和损伤标签的训练数据
基于计算机视觉的民用基础设施监测与检测研究,正在快速发展。最终,高效、经济、自动化的民用基础设施监测和检查将成为可能,这预示着基础设施维护和管理方式的革命即将到来。这些研究的实施最终将帮助全世界的城市变得更加安全,并在面对地震等自然灾害时具有更强的恢复力。
未来将需要更多训练有素的年轻工程师来创造和引领这些新兴技术,为社会提供更多的可持续性发展。对下一代工程师的教育和培养,是一项至关重要的任务,值得我们深入思考。