图学学报 ›› 2025, Vol. 46 ›› Issue (5): 960-968.DOI: 10.11996/JG.j.2095-302X.2025050960
        
               		冷烁(
), 王玮(
), 欧家勇, 薛志刚, 宋英龙, 莫斯钧
                  
        
        
        
        
    
收稿日期:2024-12-18
									
				
									
				
											接受日期:2025-03-03
									
				
											出版日期:2025-10-30
									
				
											发布日期:2025-09-10
									
			通讯作者:王玮(1980-),男,高级工程师,学士。主要研究方向为城市轨道交通数字化建造技术。E-mail:wangwei1@gzmtr.com第一作者:冷烁(1996-),男,博士。主要研究方向为数据分析与图像识别在工程建设中的应用。E-mail:lengshuo@gzmtr.com
				
							
        
               		LENG Shuo(
), WANG Wei(
), OU Jiayong, XUE Zhigang, SONG Yinglong, MO Sijun
			  
			
			
			
                
        
    
Received:2024-12-18
									
				
									
				
											Accepted:2025-03-03
									
				
											Published:2025-10-30
									
				
											Online:2025-09-10
									
			First author:LENG Shuo (1996-), Ph.D. His main research interests cover the application of data analysis and image recognition in construction engineering. E-mail:lengshuo@gzmtr.com				
							摘要:
针对施工安全监控过程中,传统视觉模型构建成本高、应用范围窄等问题,提出一种基于大型视觉语言模型(LVLM)的全新解决方案。基于开源预训练LVLM,提出包括文本提示、图像附加信息、图像样本提示等多类适用于施工安全监控任务的提示词策略,实现LVLM对施工监控图像的理解与推理,并设计了基于LVLM的智能监控工作流程与系统架构。研究成果被应用于管理人员离岗识别、危险区域侵入识别、以及违规施工行为识别等多项典型施工安全监控场景。实际数据验证表明,通过合适的提示词策略,LVLM无需数据标注与模型训练,便可实现接近主流深度学习模型的识别准确率,同时具有构建成本低、落地速度快、任务适应灵活等优势,在图像识别与智能监控领域具有应用潜力。
中图分类号:
冷烁, 王玮, 欧家勇, 薛志刚, 宋英龙, 莫斯钧. 基于大型视觉语言模型的施工现场安全监控研究[J]. 图学学报, 2025, 46(5): 960-968.
LENG Shuo, WANG Wei, OU Jiayong, XUE Zhigang, SONG Yinglong, MO Sijun. On-Site construction safety monitoring based on large vision language models[J]. Journal of Graphics, 2025, 46(5): 960-968.
| 研究方法 | 识别模型 | 识别对象 | 数据集规模 | 
|---|---|---|---|
| 文献[5] | YOLO X | 安全帽、反光衣 | 1 083张图片 | 
| 文献[6] | YOLO v8s | 火灾迹象 | 2 286张图片 | 
| 文献[7] | YOLO v6 | 10类大型施工机械 | 3 600张图片 | 
| 文献[8] | Mask R-CNN | 人员入侵警示区行为 | 43 000张图片 | 
| 文献[9] | YOLO v5 | 抽烟、打电话2类违规行为 | 15 368张图片 | 
| 文献[10] | YOLO v3+PoseConv3D | 倚靠护栏等6类违规行为 | 2 132份视频 | 
表1 近年典型的施工安全监控分析研究
Table 1 Typical construction safety monitoring analysis research in recent years
| 研究方法 | 识别模型 | 识别对象 | 数据集规模 | 
|---|---|---|---|
| 文献[5] | YOLO X | 安全帽、反光衣 | 1 083张图片 | 
| 文献[6] | YOLO v8s | 火灾迹象 | 2 286张图片 | 
| 文献[7] | YOLO v6 | 10类大型施工机械 | 3 600张图片 | 
| 文献[8] | Mask R-CNN | 人员入侵警示区行为 | 43 000张图片 | 
| 文献[9] | YOLO v5 | 抽烟、打电话2类违规行为 | 15 368张图片 | 
| 文献[10] | YOLO v3+PoseConv3D | 倚靠护栏等6类违规行为 | 2 132份视频 | 
| 模型 | 参数量 | 性能得分 | 特点与应用场景 | 
|---|---|---|---|
| GPT-4o-20241120[ |  未知 | 72.0 | 线上商用模型,适用于可公开、非敏感数据计算 | 
| Claude 3.5-Sonnet[ |  未知 | 67.9 | |
| Qwen2-VL-72B[ |  734亿 | 67.1 | 开源大型模型,适用于中心侧集中计算场景 | 
| LLaVA-OneVision[ |  730亿 | 68.1 | |
| MiniCPM-V[ |  80亿 | 65.2 | 开源小型模型,适用于端侧边缘计算场景 | 
| Pixtral-12B[ |  130亿 | 61.0 | |
| GLM-4V-9B[ |  90亿 | 59.1 | 
表2 近期主流LVLM的性能与特点
Table 2 Performance and characteristics of recent mainstream LVLMs
| 模型 | 参数量 | 性能得分 | 特点与应用场景 | 
|---|---|---|---|
| GPT-4o-20241120[ |  未知 | 72.0 | 线上商用模型,适用于可公开、非敏感数据计算 | 
| Claude 3.5-Sonnet[ |  未知 | 67.9 | |
| Qwen2-VL-72B[ |  734亿 | 67.1 | 开源大型模型,适用于中心侧集中计算场景 | 
| LLaVA-OneVision[ |  730亿 | 68.1 | |
| MiniCPM-V[ |  80亿 | 65.2 | 开源小型模型,适用于端侧边缘计算场景 | 
| Pixtral-12B[ |  130亿 | 61.0 | |
| GLM-4V-9B[ |  90亿 | 59.1 | 
| 策略 名称  |  识别任务 示例  |  输入图像示例 | 输入文本示例 | 
|---|---|---|---|
| 文本 提示 策略  |  人数 识别  |   ![]() (原始图像直接输入模型)  |  你是一名擅长图像分析的AI助理。 你的任务是从视频监控图像中, 识别图像内的总人数  | 
| 图像 附加 信息 提示 策略  |  危险 区域 侵入 识别  |     ![]() (原始图像) (附加信息后的图像)  |  你是一名擅长图像分析的AI助理。 你的任务是判断是否有人位于图示区域中。 区域在图中以红色边框的多边形表示  | 
| 图像 样本 提示 策略  |  施工 机械 识别  |     ![]() (样本图像) (待判断的图像)  |  你是一名擅长图像分析的AI助理。 图像1为你展示了混凝土搅拌车的示例, 请判断图像2中是否存在混凝土搅拌车  | 
| 格式化 输出 策略  |  配合其他 策略使用  |  - | 请严格按照以下JSON格式输出: {期望的JSON格式}。 不要输出其他内容,不需要对输出结果进行解释  | 
表3 LVLM提示词策略示例
Table 3 Examples of LVLM prompting strategies
| 策略 名称  |  识别任务 示例  |  输入图像示例 | 输入文本示例 | 
|---|---|---|---|
| 文本 提示 策略  |  人数 识别  |   ![]() (原始图像直接输入模型)  |  你是一名擅长图像分析的AI助理。 你的任务是从视频监控图像中, 识别图像内的总人数  | 
| 图像 附加 信息 提示 策略  |  危险 区域 侵入 识别  |     ![]() (原始图像) (附加信息后的图像)  |  你是一名擅长图像分析的AI助理。 你的任务是判断是否有人位于图示区域中。 区域在图中以红色边框的多边形表示  | 
| 图像 样本 提示 策略  |  施工 机械 识别  |     ![]() (样本图像) (待判断的图像)  |  你是一名擅长图像分析的AI助理。 图像1为你展示了混凝土搅拌车的示例, 请判断图像2中是否存在混凝土搅拌车  | 
| 格式化 输出 策略  |  配合其他 策略使用  |  - | 请严格按照以下JSON格式输出: {期望的JSON格式}。 不要输出其他内容,不需要对输出结果进行解释  | 
| 模型 | 精确率/% | 召回率/% | 每秒处理帧数 | 
|---|---|---|---|
| 本文 | 94.2 | 97.5 | 0.83 | 
| 文献[23] | 92.5 | 99.1 | 35.00 | 
| 文献[24] | 95.8 | 98.3 | 41.00 | 
表4 各模型对离岗识别任务的表现
Table 4 Model performance on the off-duty recognition task
| 模型 | 精确率/% | 召回率/% | 每秒处理帧数 | 
|---|---|---|---|
| 本文 | 94.2 | 97.5 | 0.83 | 
| 文献[23] | 92.5 | 99.1 | 35.00 | 
| 文献[24] | 95.8 | 98.3 | 41.00 | 
| 模型 | 精确率/% | 召回率/% | 每秒处理帧数 | 
|---|---|---|---|
| 本文 | 87.8 | 89.0 | 0.81 | 
| 文献[25] | 92.3 | 93.5 | 39.00 | 
表5 各模型对区域侵入任务的表现
Table 5 Model performance on the region intrusion task
| 模型 | 精确率/% | 召回率/% | 每秒处理帧数 | 
|---|---|---|---|
| 本文 | 87.8 | 89.0 | 0.81 | 
| 文献[25] | 92.3 | 93.5 | 39.00 | 
| 性能指标 | 精确率/% | 召回率/% | 每秒处理帧数 | 
|---|---|---|---|
| 使用手机识别 | 93.8 | 94.5 | 0.77 | 
| 睡觉识别 | 80.3 | 95.3 | 
表6 LVLM对行为识别任务的表现
Table 6 Model performance on the behavior recognition task
| 性能指标 | 精确率/% | 召回率/% | 每秒处理帧数 | 
|---|---|---|---|
| 使用手机识别 | 93.8 | 94.5 | 0.77 | 
| 睡觉识别 | 80.3 | 95.3 | 
| [1] | 胡振中, 张建平, 张旭磊. 基于4D施工安全信息模型的建筑施工支撑体系安全分析方法[J]. 工程力学, 2010, 27(12): 192-200. | 
| HU Z Z, ZHANG J P, ZHANG X L. 4D construction safety information model-based safety analysis approach for scaffold system during construction[J]. Engineering Mechanics, 2010, 27(12): 192-200 (in Chinese). | |
| [2] | 朱云, 凌志刚, 张雨强. 机器视觉技术研究进展及展望[J]. 图学学报, 2020, 41(6): 871-890. | 
| ZHU Y, LING Z G, ZHANG Y Q. Research progress and prospect of machine vision technology[J]. Journal of Graphics, 2020, 41(6): 871-890 (in Chinese). | |
| [3] | LU M, ZHANG Y, ZHANG J P, et al. Integration of four-dimensional computer-aided design modeling and three-dimensional animation of operations simulation for visualizing construction of the main stadium for the Beijing 2008 Olympic games[J]. Canadian Journal of Civil Engineering, 2009, 36(3): 473-479. | 
| [4] | 杨晓娇, 于忠, 冮军. 智慧工地中的图像传感技术的应用进展[J]. 四川建筑, 2021, 41(S1): 41-44. | 
| YANG X J, YU Z, GANG J. Application progress of image sensing technology in smart construction sites[J]. Sichuan Architecture, 2021, 41(S1): 41-44 (in Chinese). | |
| [5] | 谢国波, 肖峰, 林志毅, 等. 复杂作业场景下的反光衣和安全帽检测方法[J]. 安全与环境学报, 2024, 24(9): 3513-3521. | 
| XIE G B, XIAO F, LIN Z Y, et al. Method for detecting reflective vests and safety helmets in complex operational environments[J]. Journal of Safety and Environment, 2024, 24(9): 3513-3521 (in Chinese). | |
| [6] |  
											  崔克彬, 耿佳昌. 基于EE-YOLOv8s的多场景火灾迹象检测算法[J]. 图学学报, 2025, 46(1): 13-27. 
											 												 DOI  | 
										
|  
											  CUI K B, GENG J C. A multi-scene fire sign detection algorithm based on EE-YOLOv8s[J]. Journal of Graphics, 2025, 46(1): 13-27 (in Chinese). 
											 												 DOI  | 
										|
| [7] | 郑相波, 姚国栋, 史方圆, 等. 大型施工机械监管系统智能视频分析模型研究[J]. 铁路计算机应用, 2024, 33(4): 23-29. | 
| ZHENG X B, YAO G D, SHI F Y, et al. Intelligent video analysis model for large-scale construction machinery supervision system[J]. Railway Computer Application, 2024, 33(4): 23-29 (in Chinese). | |
| [8] | 赵树煊, 银莉, 苏帅鸣, 等. 基于多尺度特征注意力网络的施工安全预警方法[J]. 中国科学: 技术科学, 2023, 53(7): 1241-1252. | 
| ZHAO S X, YIN L, SU S M, et al. Construction safety monitoring method based on multiscale feature attention network[J]. SCIENTIA SINICA Technologica, 2023, 53(7): 1241-1252 (in Chinese). | |
| [9] | 石文堃. 基于目标检测的工人违规行为识别系统研究[D]. 阜新: 辽宁工程技术大学, 2023. | 
| SHI W K. Research on worker violation recognition system based on object detection[D]. Fuxin: Liaoning Technical University, 2023 (in Chinese). | |
| [10] | 甘文霞, 张宇轩, 耿晶, 等. 改进PoseConv3D模型在建筑工人临边不安全行为识别中的应用[J]. 安全与环境学报, 2024, 24(7): 2712-2720. | 
| GAN W X, ZHANG Y X, GENG J, et al. Application of improved PoseConv3D model in recognition of unsafe behaviors of construction workers near the edge[J]. Journal of Safety and Environment, 2024, 24(7): 2712-2720 (in Chinese). | |
| [11] | 张琦, 张荣梅, 陈彬. 基于深度学习的图像识别技术研究综述[J]. 河北省科学院学报, 2019, 36(3): 28-36. | 
| ZHANG Q, ZHANG R M, CHEN B. Research review of image recognition technology based on deep learning[J]. Journal of the Hebei Academy of Sciences, 2019, 36(3): 28-36 (in Chinese). | |
| [12] |  
											  蒋灿, 郑哲, 梁雄, 等. 大语言模型驱动的交互式建筑设计新范式——基于Rhino7的概念验证[J]. 图学学报, 2024, 45(3): 594-600. 
											 												 DOI  | 
										
|  
											  JIANG C, ZHENG Z, LIANG X, et al. A new interaction paradigm for building design driven by large language model: proof of concept with Rhino7[J]. Journal of Graphics, 2024, 45(3): 594-600 (in Chinese). 
											 												 DOI  | 
										|
| [13] | OpenCompass. OpenCompass multi-modal academic leaderboard[EB/OL]. [2024-12-17]. https://rank.opencompass.org.cn/leaderboard-multimodal. | 
| [14] | OpenAI, ACHIAM J, ADLER S, et al. GPT-4 technical report[EB/OL]. [2025-01-17]. https://arxiv.org/abs/2303.08774. | 
| [15] | ANTHROPIC. The Claude 3 model family: opus, sonnet, haiku[EB/OL]. [2024-12-17]. https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf. | 
| [16] | BAI J Z, BAI S, YANG S S, et al. Qwen-VL: a frontier large vision-language model with versatile abilities[EB/OL]. [2024-12-17]. https://arxiv.org/abs/2308.12966. | 
| [17] | LI B, ZHANG Y H, GUO D, et al. LLaVA-OneVision: easy visual task transfer[EB/OL]. [2024-12-17]. https://arxiv.org/abs/2408.03326. | 
| [18] | YAO Y, YU T Y, ZHANG A, et al. MiniCPM-V:a GPT-4V level MLLM on your phone[EB/OL]. [2024-12-17]. https://arxiv.org/abs/2408.01800. | 
| [19] | AGRAWAL P, ANTONIAK S, HANNA E B, et al. Pixtral 12B[EB/OL]. [2025-01-23]. https://arxiv.org/abs/2410.07073. | 
| [20] | Team GLM. ChatGLM:a family of large language models from GLM-130B to GLM-4 all tools[EB/OL]. [2024-12-17]. https://arxiv.org/abs/2406.12793. | 
| [21] | 金传. 基于视觉语言模型的遥感图像检测算法研究[D]. 杭州: 杭州电子科技大学, 2024. | 
| JIN C. Remote sensing images detection algorithm research based on visual-language model[D]. Hangzhou: Hangzhou Dianzi University, 2024 (in Chinese). | |
| [22] | 陈泳财, 张强, 黄咏秋, 等. CLAML: 视觉语言模型下铁谱图像的自适应元学习[J]. 广东石油化工学院学报, 2024, 34(4): 93-99. | 
| CHEN Y C, ZHANG Q, HUANG Y Q, et al. CLAML: adaptive meta-learning for ferrography images under vision-language models[J]. Journal of Guangdong University of Petrochemical Technology, 2024, 34(4): 93-99 (in Chinese). | |
| [23] | XU X Z, JIANG Y Q, CHEN W H, et al. DAMO-YOLO: a report on real-time object detection design[EB/OL]. [2024-12-17]. https://arxiv.org/abs/2211.15444. | 
| [24] | DAI X Y, CHEN Y P, XIAO B, et al. Dynamic head: unifying object detection heads with attentions[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 7369-7378. | 
| [25] | HUANG X. Smart_Construction:base on YOLOv5 head person helmet detection on construction sites[EB/OL]. [2024- 12-17]. https://github.com/PeterH0323/Smart_Construction. | 
| [26] | WU Z Y, CHEN X K, PAN Z Z, et al. DeepSeek-VL2:mixture-of-experts vision-language models for advanced multimodal understanding[EB/OL]. [2024-12-17]. https://arxiv.org/abs/2412.10302. | 
| [1] | 张帅, 洪翱, 胡恒瑞, 兰名荥, 郗小超. 基于AI动作捕捉技术的视神经脊髓炎康复训练系统交互性研究[J]. 图学学报, 2025, 46(4): 783-792. | 
| [2] | 孙浩, 谢滔, 何龙, 郭文忠, 虞永方, 吴其军, 王建伟, 东辉. 多模态文本视觉大模型机器人地形感知算法研究[J]. 图学学报, 2025, 46(3): 558-567. | 
| [3] | 张天圣, 朱闽峰, 任怡雯, 王琛涵, 张立冬, 张玮, 陈为. BPA-SAM:面向工笔画数据的SAM边界框提示增强方法[J]. 图学学报, 2025, 46(2): 322-331. | 
| [4] | 刘冀辰, 李金星, 吴佳, 张威, 齐宇诺, 周国亮. 大模型技术在电力行业的应用展望[J]. 图学学报, 2024, 45(6): 1132-1144. | 
| [5] | 李琼, 考月英, 张莹, 徐沛. 面向无人机航拍图像的目标检测研究综述[J]. 图学学报, 2024, 45(6): 1145-1164. | 
| [6] | 于晗, 陈治源, 熊熙瑞, 戴原星, 蔡鸿明. 基于检索增强大语言模型的MBSE智能设计方法[J]. 图学学报, 2024, 45(6): 1188-1199. | 
| [7] | 吴沛宸, 袁立宁, 胡皓, 刘钊, 郭放. 基于注意力特征融合的视频异常行为检测[J]. 图学学报, 2024, 45(5): 922-929. | 
| [8] | 王江安, 黄乐, 庞大为, 秦林珍, 梁温茜. 基于自适应聚合循环递归的稠密点云重建网络[J]. 图学学报, 2024, 45(1): 230-239. | 
| [9] | 李泓萱, 张松洋, 任博. 基于多级可逆神经网络的大容量裁剪稳健型图像隐写技术[J]. 图学学报, 2023, 44(6): 1149-1161. | 
| [10] | 毕春艳, 刘越. 基于深度学习的视频人体动作识别综述[J]. 图学学报, 2023, 44(4): 625-639. | 
| [11] | 杨柳, 吴晓群. 基于深度学习的三维形状补全研究综述[J]. 图学学报, 2023, 44(2): 201-215. | 
| [12] | 王江安, 庞大为, 黄 乐, 秦林珍. 基于多尺度特征递归卷积的稠密点云重建网络 [J]. 图学学报, 2022, 43(5): 875-883. | 
| [13] | 梁振宇, 华嘉皓, 陈浩龙, 邓逸川.  
	基于计算机视觉的建筑施工期临时结构损伤识别方法
 [J]. 图学学报, 2022, 43(4): 608-615. | 
																				
| [14] | 熊琛, 陈立斌, 李林泽, 许镇, 赵杨平. 基于计算机视觉与 BIM 的裂缝可视化管理方法[J]. 图学学报, 2022, 43(4): 721-728. | 
| [15] | 高铭, 张荷花, 张庭瑞, 张轩铭. 基于深度学习的公共建筑像素施工图空间识别[J]. 图学学报, 2022, 43(2): 189-196. | 
| 阅读次数 | ||||||
| 
												        	全文 | 
											        	
												        	 | 
													|||||
| 
												        	摘要 | 
												        
															 | 
													|||||