基于BIM的工程管理信息技术研究展望

胡振中刘毅林超 (清华大学深圳国际研究生院, 广东深圳 518071) 摘要

胡振中刘毅林超

(清华大学深圳国际研究生院, 广东深圳 518071)

摘要

随着社会信息化进程的不断加快，信息技术逐渐成为建筑从业人员提升工程管理质量的重要手段，BIM 作为建筑领域数字化发展的关键组成部分被广泛应用于工程管理之中，如何在已有理论和应用的基础上进一步发展工程管理信息技术成为研究者关注的焦点。分别从工程数据的组织与处理以及挖掘与分析这两个方面对 BIM 相关研究进行总结与归纳，包括 IFC 标准、多尺度信息模型、模型轻量化技术，以及工程领域数据挖掘的关键步骤与典型方法。在此基础上，对 BIM 与工程信息技术面临的瓶颈问题进行分析，并指出和探讨了三个未来主要的发展方向：工程领域数字孪生、城市信息模型、工程领域知识图谱，为进一步的研究与技术应用提供参考。

引言

随着“工业 4.0”时代的到来 ^[1] ，众多新方法、新技术和新设备的出现与应用使工程建设领域步入高速发展时期，人们对于建筑从设计、施工到运维全生命期过程的管理要求也愈来愈高，例如控制资源消耗与工期 ^[2] 、保证施工质量 ^[3] 与安全 ^[4] 、降低对周边环境的影响 ^[5] 等。建筑信息模型(BIM)是一种包含建筑多维度信息的数字模型，包括建筑的几何外形、组成与材料、施工进度安排等。BIM 的基本理念是将建筑相关的可用数据整合到一个统一的信息模型库之中，通常以三维模型为主要载体，以供不同阶段的各个参与方存储、提取、管理、使用以及交换数据，以达到协同工作、提高效率、降低成本的目的。由于 BIM 可以容纳全生命期中产生的众多数据，利用 BIM 相关信息技术来辅助工程管理成为了一种常用手段 ^[6] 。例如，Kang 等提出了一种基于 BIM 和规则集的数据挖掘方法，用于考虑功能可变和可扩展的数据集成和功能扩展支持 ^[7] ；Habibi 结合BIM 模型与建筑模拟工具对建筑能耗与室内环境进行模拟分析，以促进节能建筑的设计与改造 ^[8] ；Valinejadshoubi 等利用 BIM 进行传感器数据管理与传感器组件显示，进一步分析建筑物构件的损坏程度并实现其可视化 ^[9] 。

数据是 BIM 的核心，作为一个共享的信息资源，不同阶段的不同参与方可以在 BIM 中添加或提取所需数据，从而实现协同作业。BIM 要解决的首要问题，就是如何在计算机中存储与管理工程数据。随着 BIM 应用的不断深入，BIM 模型的体量也在逐渐增加，大体量模型的分层管理与轻量化等信息技术也成为了这一方面的研究热点。除了工程数据的组织与处理外，如何挖掘出模型中积累数据的价值是 BIM 面临的第二个问题，而机器学习相关理论的发展为该问题的解决提供了技术支撑。目前，关于BIM 与工程管理信息技术的研究主要集中在工程数据的组织与管理、工程数据的挖掘与分析两个方面，相关研究成果的出现也促进了 BIM 技术在工程领域的推广应用。然而，现有 BIM 在深化应用、尺度扩展以及知识转化等方面存在一定瓶颈，其进一步发展的方向也尚不明确。针对这些问题，首先对工程数据的组织与处理、挖掘与分析相关技术进行总结；继而分析当前 BIM 信息技术发展所面临的问题；最后展望数字孪生、城市信息模型、知识图谱 3 个主要发展方向，探讨其在尺度扩展、功能扩展、技术集成、知识积累以及信息深化应用与智能化等方面的发展潜力。

工程数据的组织与处理

工程数据的组织与处理随着信息技术的广泛应用，人类生产活动所产生的数据量呈现出指数增长的态势，数据量的急速增长导致了大数据现象 ^[10] 。大数据具有大体量、高增速和多种类 3 个显著特点，也被合称为“3V” 。工程数据就是一种典型的大数据。首先，建筑信息可简单划分为几何信息和工程信息，或按照类别划分为构件信息、几何信息、材质信息和空间关联信息等，也可按照阶段划分为对象信息、设计信息、施工信息和运维信息，例如，一个三层的机场在设计阶段的模型、综合进度和土方计算数据以及相关图片和文件的信息总量可达 50 GB，具有大体量的特征；其次，工程数据文件类型涵盖 DWG 、DXF、DGN、RVT、IFC 和 DOC/XLS/PPT 等，数据种类繁多；最后，在建筑全生命期内会产生大量的采集与分析数据，例如监控视频数据等，增长速度大。

要利用建筑在全生命期中产生的各种数据，首先需考虑如何在计算机中存储与管理这些数据，即数据的组织问题；其次还需要考虑对数据进行处理，以使数据能够满足后续的使用要求。本文将以 IFC 标准、多尺度信息模型以及模型轻量化技术这 3 项内容为例来介绍工程数据的组织与处理。

1.1 基于 IFC 标准的组织

如前所述，建筑信息可分为几何信息和工程信息。几何信息是指建筑在构件尺寸与形状等几何属性上的数据，按照建模方式的不同可进一步分为两类：体量小、包含拓扑信息的实体模型，以及描述简单但计算量小的表面模型。工程信息是指除了几何信息之外的其他建筑相关信息，包括不随时间变化的静态信息，如材料、体量、属性、关联文档等，以及随时间动态变化的动态信息，如传感器监测信息与维护维修信息等。

建筑信息的组织方式是多种多样的，不同的软件有着不同的信息存储格式和管理方法，以几何信息为例，就存在 OBJ、FBX、GLTF、3DM 等格式。众多的组织方式导致不同软件间的数据导入导出可能涉及到格式不兼容的问题，因此就需要一种通用的数据格式作为交换媒介。目前建筑业广泛采用工业基础类(IFC) 标准来描述和组织建筑信息，同时它也是 BIM 数据交换的标准。IFC 是一种中性数据格式，通常在建筑全生命期内用于描述、交换和共享信息，它通过一组预定义的类表示建筑信息。例如，建筑物的物理构件如墙、门和窗等通过IfcBuilding Element 类及其子类表示 ^[11] 。

IFC 标准将信息划分成资源层、核心层、交互层、领域层 4 个不同的层次，如图 1 所示。其中资源层是 IFC 架构的底层，包括几何资源、属性资源、成本资源、日期资源等。第二层为核心层，包括基本核心与核心延伸两部分内容，基本核心用于提供对象的基本概念并定义对象的结构与组成，核心延伸则是基本核心的特殊化，以满足相关参与方的使用所需。核心层提供了对象的基本结构以及大部分抽象概念。交互层定义了不同领域之间共享的观念、对象或元素，例如服务元素、构件元素、建筑元素、管理元素和设备元素等；领域层则提供了不同领域所需要的对象，例如结构分析领域、施工管理领域和暖通空调领域等。

此外，针对一些特殊的信息，还需在 IFC 标准的基础上进行扩展。例如，对于监测信息，需要考虑进一步扩展属性集：包含传感器本身特性以及输出数据特性的特征信息、描述传输数据时采用的协议信息、描述传感器与 IFC 中其他实体关系的作用位置信息，以及一段时间内传感器采集到的历史数据。以特征信息为例，可扩展定义表示传感器型号与测量范围等属性，如图 2 所示。

1.2 多尺度 BIM 模型联动

建筑信息模型的精细程度通常用细度等级(LOD)衡量，在不同的 LOD 下，BIM 模型有着不同的几何形态和细节层次 ^[12] 。高 LOD 模型在提供更多建筑信息的同时，对建模的时间和成本也提出了更高的要求，将所有组件进行详细建模并导入单个系统进行可视化几乎是不可能的。实际上，大多数情况下示意图或者粗略模型就能够提供足够的信息来辅助工程管理。为了适应不同的应用场景，研究人员引入了由微观、宏观、系统尺度组成的多尺度信息模型 ^[13-15] 。模型尺度通常可以用 LOD 进行区分，比如将 LOD400~500 的模型视为微观尺度模型，将 LOD200~300 的模型视为宏观尺度模型，将LOD100 的模型视为系统尺度模型，如图 3 所示。其中宏观尺度信息主要用来识别空间、道路、管线和电线连接，以在广域平面中生成一个拓扑网络模型；微观尺度信息提供精确的属性信息和几何形状，在多方参与协同工作中进行精细模拟与分析；系统尺度信息则为子系统提供概要表达，辅助快速把控工程。例如，在昆明新机场航站楼项目中，Hu 等在施工阶段建立了 3 个宏观模型、2 个系统模型以及 6 个微观模型，在运维阶段建立了 3 个宏观模型和 5 个微观模型，以支持两个阶段的参与者在施工管理和设施管理领域的协作 ^[13] 。

1.3 BIM 模型轻量化技术

随着航站楼、购物中心、体育馆等大型公共建筑的不断涌现，以及建筑信息采集种类与精度的不断提高，BIM 模型中所包含的数据量也在逐渐增长，这为 BIM 相关软件的应用带来了巨大的压力。为实现大体量 BIM 模型的高效存储、传输与可视化，使用相关技术和算法实现模型的轻量化成为了研究的热点，按照轻量化思路以及应用目标的不同，BIM 模型的轻量化技术可以分为存储轻量化、传输轻量化以及显示轻量化，如图 4 所示。

存储轻量化是指在容许范围内对 BIM 模型的几何数据进行更改，在略微降低几何精度的条件下，尽可能减小几何数据所占据的存储空间。按照实现思路的不同，存储轻量化可以分为两类：基于映射的模型表达以及基于表面模型的网格简化。前者是指将几何外形相似的构件用同一个构件进行表示，通过减少独立构件的数量来减小模型总体数据量。该方法涉及到两个构件之间的相似度计算，相似度算法包括 3 个步骤：首先将构件坐标初始化，找到构件的中心点以便对两个构件进行校准；然后根据轴线和质心判断构件是否属于同一类型且相似度是否处在规定范围内，若不是则停止计算；最后是计算两个构件之间的相似度准确数值。基于表面模型的网格简化技术则是通过删除或修改模型中对整体形状影响相对较小的几何组成来减小模型体积，包括几何元素删除、边折叠和顶点删除等。

建筑的设计、构建和运行需要多个项目参与者之间的协作，并产生涉及跨平台交换的大型模型，对这些模型的有效存储和传输是实现这一过程的关键因素。传输轻量化是指在不损失 BIM 模型质量的前提下，尽可能减小 BIM 模型文件的体积，从而降低模型网络传输所需的代价。按照压缩目标对象的不同，具体又可分为几何信息传输轻量化，如网格压缩算法、法向量压缩算法等，以及属性传输轻量化，如建立高频词汇字典的固定字典压缩法。

由于模型在显示过程中实际上仅需考虑可见部分，因此另一种轻量化的思路是在模型显示的过程中通过资源重分配以及剔除多余部分来实现轻量化，即显示轻量化。具体包括以下 5 种技术：

1)渐进网格技术：记录每一步删除的几何信息，形成有着不同误差的渐进网格；

2)背面剔除技术：在渲染前预先判断某个面的可见性并剔除不可见的面；

3)深度检测技术：在像素颜色计算阶段略去计算不可见像素点；

4)细节层次技术：将更多的计算资源分配给离视点近的网格构件；

5)渐变面法向量：采用动态法向量替换静态面法向量，提高曲面显示效果。

工程数据的挖掘与分析

建筑在设计、施工、运维等过程中会产生种类繁多的数据，例如构件尺寸、进度计划、设备使用情况以及能耗监测数据等，通过前述的工程数据组织与处理方法，能够将它们集成到 BIM 模型之中。但是，要如何进一步发掘这些来源广泛、格式各异数据背后所蕴藏的价值，成为了行业工作者所面临的新问题。一方面，不同数据之间的关系错综复杂，难以直接通过经验推断数据背后的规律；另一方面，庞大的数据量也为人工处理和理解它们带来了巨大的障碍。这些原因在很大程度上阻断了数据转化为有效信息的桥梁，并导致数据库中的大量数据成为了没有用途的“垃圾数据” 。

随着信息技术的发展，数据挖掘愈发受到众多行业的关注，并成为相关领域的研究热点，相关成果也为解决 “垃圾数据” 这一问题提供了重要工具。所谓数据挖掘，是指从大量数据中分析获取得到有价值的潜在规律的过程，作为一种处理海量数据、抽取有效信息的常规手段，近年来一直被各学科的研究人员所重视。数据挖掘过程通常包含以下 5 个步骤，如图 5 所示。

1)数据收集与过滤：将原始数据收集到指定的数据库之中，并从中过滤得到所需的目标数据；

2)数据预处理：包括不同来源、不同格式数据的合并，以及噪声数据的清理等，使数据保持完整和一致；

3)数据变换：通过数值化、归一化、嵌入等将数据转换为适于挖掘的形式；

4)模式挖掘：应用聚类分析、规则推理、神经网络等机器学习相关算法，得出有用的分析信息；

5)解释评估：人工对挖掘结果进行解释和评估，并提炼出新的知识供相关人员使用。

在数据挖掘过程中，尽管需要在前期的数据收集和处理步骤中投入较多的时间和精力，但最为核心的步骤仍然是模式挖掘，特别是其中机器学习算法的选择对于挖掘结果的质量具有重要影响。下面将以频繁模式挖掘、聚类分析以及人工神经网络为例对相关技术进行介绍。

2.1 频繁模式挖掘

频繁模式是指在数据集中出现频率超过一定阈值的对象集合或者规则，而 Apriori 算法 ^[16] 是频繁模式挖掘中最为经典的算法之一，它通过逐层搜索的方式以及连接和剪枝两个主要步骤实现频繁模式的高效获取，被广泛应用于商业、互联网、地球科学等多种领域的数据分析中，是一种十分常用的数据挖掘算法。例如，有 A、B、C、D 四个对象，在某一组数据中对象的组合关系为[ABC， AC， ACD， BCD，BD] ，可以发现 A 和 C 同时出现的频率很高，且出现 A 的地方一定会出现 C，这里的“出现 A 和 C”和“由 A 得到 C” 就可以认为是两种频繁模式。在 Apriori 算法中，这两种频繁模式分别用支持度与置信度的概念进行定量表示，并可以按照事先给定的阈值过滤得到所有频繁模式，进而发掘对象之间的关联规则。例如，Wen 等根据大型公共建筑运维记录的特点，提出了一种基于 Apriori 的数据挖掘算法，并利用该算法对机场的维修报告进行挖掘和分析 ^[17] 。在该研究中，最小支持度被设置为 0.1、最小置信度被设置为 0.5，得到的典型频繁模式有“蹲式马桶+小便池+坐式马桶 = >自动饮水机” ，表明乘客通常喜欢在使用卫生间后喝水，根据这一推断，作者建议在尽可能多的卫生间外设置饮水机，以满足乘客的习惯。

2.2 聚类分析

聚类是指将由多个对象组成的集合划分成一系列子集合的过程，其中每个子集合中的对象属于同一类别，也被称为簇。聚类的结果是将特征相似的对象划分到同一簇中，且不同簇中的对象存在较大的差异，起到类似于人工分组归类的效果。通过聚类分析，研究人员可以更容易地捕捉对象的主要区别、理解数据的分布规律，从而发现数据中的潜在模式。常用的聚类算法有基于距离划分的 K-Means 方法、基于层次的 BIRCH 算法、基于密度的 DBSCAN 方法等。例如，Leng 等通过对盾构机工作时所监测到的 7 种数据进行聚类分析，对地层属性进行分类并绘制地层模型，进一步比对发现与基于地质勘探的地层模型在总体上一致，可用于补充和细化采样钻孔中的地层信息，为隧道施工提供更准确的决策依据 ^[18] 。

2.3 人工神经网络

人工神经网络是通过模拟大脑神经元活动构建出的一类运算模型，它由一系列神经元节点组成，节点与节点连接形成一张有向网络结构。每个神经元节点可以理解为一个函数，它能够接受输入值，并将计算得到的输出值向后传递，这个函数一般是非线性的。与面的聚类不同，神经网络通常属于有监督学习，即需要通过已知输入和期望输出的数据对网络进行训练，从而将神经网络中的权重等参数调整到合适的取值。目前已经出现了许多不同类型的神经网络，如前馈神经网络(FNN) 、循环神经网络(RNN) 、卷积神经网络(CNN) 、长短期记忆网络(LSTM) 、深度信念网络 (DBN)、对抗网络(GAN)等。例如，Peng 等提出了一种基于神经网络的动态路径规划方法，用于大型公共建筑的疏散规划 ^[19] 。该研究利用 BIM 模型生成了大约 4 000 个公共建筑疏散实体，并制定了一个自动疏散分析模型和一种路径生成算法。

工程管理信息技术发展方向

综上可知，关于 BIM 与工程数据组织、处理、挖掘与分析等，已经出现许多相关研究，相应的信息技术也逐渐趋于成熟。但通过梳理近年来 BIM 的研究发现，围绕 BIM 的深化应用、扩展集成与信息知识化等方面仍存在一些瓶颈问题：

1)目前 BIM 应用主要集中在建筑的设计与施工阶段，期间积累的数据最终交付给运维单位，但在运维期间大部分信息并没有被利用起来。此外，关于如何融入使用者行为、对象逻辑关系与规则等，以及实现信息模型的实时反馈与分析，相关技术仍有待研究，这也在一定程度上阻碍了 BIM 的进一步发展。如果能让 BIM 模型随着真实建筑的状态实时变化，实现相应的监控、模拟、分析与预测的功能，将推动 BIM 的深化应用。

2)工程项目通常是独立的，因此 BIM 主要被应用于单体建筑的生命周期之中。随着社会的不断发展，建筑之间的关系、建筑群与环境的作用也愈发受到关注和重视。尽管多尺度 BIM 模型以及模型轻量化等技术为 BIM 技术在大体量建筑中的应用打下了基础，但关于 BIM 技术如何应用于城市尺度的建筑群分析仍需要进一步的探索与研究。

3)BIM 注重信息的收集与交换，在项目的数据库中积累了大量的工程数据，但这些数据存在价值密度低的特点，缺乏经验和知识的积累。尽管前述的数据挖掘手段可以获取到有用信息，但一方面数据挖掘处理的数据通常是具有特定范式的结构化数据，并不适用于占大多数的文本数据；另一方面挖掘得到的模式也需要通过人工解释评估才能够转化为知识，难以进行扩展。如果能够实现从非结构化数据中提取出有用的知识，并利用计算机进行理解和分析，将对行业智能化 ^[20] 产生重大意义。

针对这些瓶颈问题，通过结合信息技术的已有研究成果以及工程领域的一些尝试，得出以下 3 个可能的解决方案，包括工程领域数字孪生、城市尺度信息模型以及工程领域知识图谱，如图 6 所示。其中，数字孪生技术与 BIM 存在较大的相似性，并且扩展了更多的功能；城市尺度信息模型以 BIM 为基础，与此同时还融合了其他的技术；知识图谱为 BIM中所蕴含信息的合理高效利用提供了可行方案。

3.1 工程领域数字孪生

数字孪生(简称 DT) ^[21] 指的是以数字化方式表示的一类虚拟实体，并作为真实物理对象或过程的实时数字对应物。从字面上理解，就是把真实世界的物理实体和人工建立的数字虚拟体作为一对“双胞胎”，而这两者具有几乎相同的外形、状态、行为等关键特征，因此，一方面可以通过数字虚拟体来收集、监测和观察物理实体的历史信息与实时状态，另一方面也可以通过它来进行仿真分析与测试，得到物理实体的响应以及对未来关键过程的预测。数字孪生主要由物理空间、虚拟空间以及两者之间的连接组成，如图 7 所示。物理空间包括物理实体以及它所处的外界环境，涉及到实体产品以及数据的创建、信息的传递以及实体的行为与表现;而虚拟空间则是对物理空间的数字建模，且模型中包含了人们在分析物理实体时关心的所有特征与规则；两者的连接主要指物理空间与虚拟空间之间的信息传递，包括物理空间向虚拟空间传递的实体状态与环境数据、以及虚拟空间得到分析结果之后对物理空间的决策支持。

工程领域数字孪生与 BIM 有许多关键的相似之处，例如都涉及数字模型以及全生命期的概念，但与 BIM 相比，它更加注重对建筑状态的实时或近实时同步，以及对建筑行为的模拟与仿真，可以认为是 BIM 概念的进一步深化。BIM 最初用于解决建筑各参与方之间的“信息孤岛” 问题，更多的被用于建筑物的设计和施工阶段，例如辅助多专业人员的协同建模以及设备人员物资等资源的调配等，以达到节约项目成本和降低项目风险的目的。然而，与数字孪生不同，BIM 并不创建一个可供运行的实时建筑物模型，这也限制了它在建筑运营和维护期间的进一步应用。实际上，BIM 也是工程领域数字孪生不可或缺的组成部分，因为它几乎包含建筑在全生命期需要用到的所有信息，这些将会是数字孪生的重要数据输入。

研究数字孪生的目的是通过历史数据、实时数据以及算法模型等，实现对多领域物理实体全生命期内的模拟、监控、诊断、预测与控制。例如在海洋行业，驾驶者可以通过传感器获取船舶的位置数据并通过舵轮控制船舶的前进方向；又例如在建筑领域，当建筑中突发火灾时，利用火灾探测器实时监测数据，继而分析受影响的区域并模拟得到最佳的逃生路线，最终反馈给受困人员。随着人们生活水平的不断提高，包括智能运维在内的建筑智慧化将成为未来的一个重要发展方向，而数字孪生也将会是实现它们的关键途径。

3.2 城市信息模型

BIM 主要是针对单体建筑信息进行建模，而面对更大尺度的信息管理需求，比如建筑群乃至城市，还需要更大尺度的信息模型。近年来，城市信息模型(CIM) ^[22] 被认为是通过信息化技术管理城市、实现智慧城市 ^[23] 的重要途径。与 BIM 相类似，CIM 也包括信息模型的概念，可以认为是城市尺度下的统一信息库，用来支持建筑、道路、水电、监控等海量信息的集成与管理，从而构建出数字空间中的信息城市综合体，相应的，它也更加强调在城市管理上的应用，包括规划、交通、水利、能源以及环保等众多方面。从组成上来看，CIM 是通过整合多源异构数据而构建的三维数字城市信息模型，主要包括 BIM、地理信息系统(GIS) ^[24] 和物联网(IoT) 3 个组成部分，其中 GIS 和 BIM 分别作为底层基础和中层填充，而实现两者的集成也是构建 CIM 的关键。

BIM 和 GIS 的集成对于 CIM 具有重要的意义，BIM 主要是针对单体建筑信息，而对于建筑群乃至城市来说，建筑之间的关系以及道路等其他构筑物信息也十分重要，而这一部分可以从 GIS 中获取。GIS 可以对地理分布相关数据进行管理和分析，涵盖地理空间模型和地理信息可视化与决策支持的广泛领域。与 BIM 相比，GIS 出现的时间更早，相关技术也更加成熟，BIM 和 GIS 的集成有助于建立跨建筑的数字基础设施，这也是建立 CIM 的重要基础。

BIM 和 GIS 是独立的系统和领域，两者的集成可以通过对某一系统进行扩展或者由第三方系统提取数据实现，需要从系统、数据库管理、理论和方法、分析和产品等多个方面进行。以数据集成为例，将涉及 IFC、CityGML、Shp/GeoJSON、OBJ 等多种数据格式，这些数据的转换与交互可以在 IFC 标准的基础上实现。在集成之后，通常由 BIM 负责表示单体建筑详细信息，包括设施构件的物理和功能组件；GIS 负责描述建筑之间的关系以及道路等其他构筑物的信息，包括建筑和城市环境的空间 3D 模型，如图 8 所示。目前，基于 BIM 和 GIS 的集成已经实现了许多应用，包括预估项目造价、建筑供应链管理、建筑项目记录与管理、建筑废料管理、施工安全管理、辅助机器人定位和导航等。

CIM 有着许多潜在的应用领域，包括城市可持续资源和基础设施管理、城市能源消耗管理和城市环境分析等。例如，Leng 等提出了一个建筑群中风环境和污染物扩散行为的模拟框架，基于 GIS 建立数据管理模块，并利用 BIM 提供建筑信息输入 ^[25] 。该框架可以被集成到 CIM 中，以实现城市尺度下的污染物扩散模拟与仿真结果可视化，为城市的环境保护与医疗卫生等领域提供服务。由于 BIM 与 GIS 的集成系统具较高的可扩展性、灵活性、开放性和协作性，在二者集成的基础上，可以进一步考虑引入时空统计分析和多维 BIM 增强等信息技术，从而提供更准确的动态分析结果，帮助城市管理者做出更加高效的决策。BIM 和 GIS 的集成作为各自优势的结合，在未来也是发展 CIM 的保障。

3.3 工程领域知识图谱

知识图谱的概念源于 2012 年谷歌发布的 Knowledge Graph 项目，这是一种以图结构的形式表示知识的方法，如图 9 所示。知识图谱的基本组成为“实体-关系-实体”或“实体-属性-属性值” 三元组，其中实体是指具体的事物或者概念，例如，实体“鸟巢” 与实体 “北京” 的关系为 “位于”，实体 “鸟巢”具有属性“高度”，对应的属性值为“69 m” 。知识图谱能够将复杂的知识转化为简单的图关系表示，具有极高的价值密度，也能够方便计算机理解和使用。例如，通过知识图谱中“鸟巢-位于-北京”以及“北京-位于-中国” 这两条关系，在给定逻辑下，计算机可以很容易推理出“鸟巢-位于-中国” 这样一条新的关系，从而表现出类似于人对语言文字的理解能力。

随着建筑业的高速发展，工程领域逐渐积累了海量的数据，如学术文献、技术规范和项目记录文档等，这里面也蕴藏了丰富的经验和知识。然而，这些数据一方面多以文本文档的形式存在，在计算机无法理解人类语言的情况下，很难以自动化的方式实现知识的提取；另一方面由于其价值密度低的特点，人工整理的效率也会十分低下，导致极高的处理成本。如果能让计算机从中学习得到关键信息，将极大地促进建筑设计、施工、运维的自动化与智能化。例如，在建筑的设计阶段，如果可以直接提取出规范中包含的构件约束条件作为设计知识，将能够提高设计效率、降低专业门槛，还能够进一步推动建筑设计的合规性，实现自动审查。

知识图谱的构建流程如图 10 所示，包括原始数据获取、知识提取、知识融合与知识存储 4 个主要步骤。知识提取的目的是从原始数据中获取得到“实体-关系-实体” 或“ 实体 -属性 -属性值” 三元组数据，通常包含实体提取、关系抽取以及属性抽取 3 个子过程，即先从原始数据中提取得到所有的实体，然后再进一步抽取出不同实体之间的关系或属性。在经过知识融合之后，这些三元组数据将进一步形成网状的知识图谱，最后存储在图数据库中以供查询和使用。

随着自然语言处理(NLP) 技术的逐渐发展，知识图谱也从早期的人工构建转化为使用自动或半自动的构建方法。例如，有研究采用双向长短期记忆-条件随机场模型进行实体提取，采用深度残差卷积神经网络进行关系抽取，构建了一个建筑机电领域的小型知识图谱，并实现了规范中变压器等实体的约束条件语句的快速获取，以提高 BIM 模型审查的效率 ^[26] 。除了模型图纸的审查之外，也出现了一些利用知识图谱辅助工程安全管理 ^[27] 与事故故障诊断 ^[28] 的相关研究，未来知识图谱的应用方向还有智能搜索、专家问答、安全风险分析以及安全条例分析等。在众多工程项目的 BIM 数据库中已经积累了大量的数据，如何充分利用这些数据并从中积累经验与知识也将会是 BIM 未来要解决的问题之一，而知识图谱相关技术为信息到知识的转化以及知识的应用提供了一种有效的解决方案，领域知识图谱的构建也将推动工程领域的进一步智化发展。

结束语

随着工程领域的不断发展以及 BIM 相关技术在理论与应用层面上的日渐成熟，各类信息技术如何在已有研究基础上取得进一步发展成为行业的关注重点。本文总结了基于 BIM 的工程数据组织与处理、挖掘与分析相关技术手段，包括 IFC 标准、多尺度信息模型、模型轻量化技术以及工程领域数据挖掘方法，并分别调研了相关应用案例。在此基础上，进一步归纳了 BIM 在深化应用、扩展集成以及信息知识化等方面存在的问题，并以工程领域数字孪生、城市信息模型、工程领域知识图谱作为重点解决途径，探讨了 BIM 与工程管理信息技术的未来发展方向，对于工程领域的智能化以及智慧城市的建设具有重要指导意义。