Please wait a minute...
欢迎访问《图学学报》 分享到:

过刊目录

    全选选: 隐藏/显示图片
    封面
    2024年第6期封面
    2024, 45(6): 1. 
    PDF 53     95
    相关文章 | 计量指标
    目次
    2024年第6期目次
    2024, 45(6): 2. 
    PDF 18     31
    相关文章 | 计量指标
    序言
    专题主编序
    2024, 45(6): 3. 
    PDF 12     13
    相关文章 | 计量指标
    “大模型与图学技术及应用”专题
    虚拟现实中的大模型技术研究进展与趋势
    杨浩中, 孔笑宇, 辜睿坤, 汪淼
    2024, 45(6): 1117-1131.  DOI: 10.11996/JG.j.2095-302X.2024061117
    HTML    PDF 222     128

    随着计算机技术的发展,虚拟现实(VR)技术日趋成熟,已在多种应用场景下为用户带来了沉浸式和高质量的体验,成为计算机图形学与人机交互领域的重要研究方向。大模型技术作为近来备受关注的研究热点,吸引了大量学者的关注,并为各个领域的经典问题提供了新的解决方法和思路。然而,目前在VR领域,关于大模型技术应用进展的综述性研究仍然匮乏。为弥补这一研究空白并进一步启发后续工作,本文搜集、整理并归纳了近年来在VR环境中与大模型相关的研究论文,对大模型技术的原理和代表性模型分类概述,并从内容生成和人机交互2个方面详细分析大模型技术的研究进展和应用场景,最后总结探讨了VR环境中使用大模型所面临的困难和挑战,并展望其未来发展趋势。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    大模型技术在电力行业的应用展望
    刘冀辰, 李金星, 吴佳, 张威, 齐宇诺, 周国亮
    2024, 45(6): 1132-1144.  DOI: 10.11996/JG.j.2095-302X.2024061132
    HTML    PDF 144     71

    人工智能(AI)技术已广泛应用于电力行业多个专业领域,正在推动电力行业向智能化、自动化的方向发展。特别是在图学领域,AI大模型的应用已经成为研究热点,其在图像识别、模式识别以及图数据分析等方面展现出巨大潜力。应用大模型解决电力行业的图像识别、自然语言处理、业务内容分析等专业问题,可大幅提升电力行业各业务领域的效率和准确性。以大模型在电力调度、输电、营销等场景的应用展望为主线,首先介绍了人工智能大模型技术的研究背景、发展历程以及技术特征。其次,综述了AI技术在电力调度故障处置、输电无人机巡检、电力营销客户服务等专业的应用现状,分析了目前电力行业研究应用大模型存在的问题与挑战。最后,梳理了大模型技术在电力行业的发展趋势和技术应用分析,并对应用场景进行了展望。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    面向无人机航拍图像的目标检测研究综述
    李琼, 考月英, 张莹, 徐沛
    2024, 45(6): 1145-1164.  DOI: 10.11996/JG.j.2095-302X.2024061145
    HTML    PDF 186     515

    随着无人机和计算机视觉技术的快速发展与深度融合,面向无人机航拍图像的目标检测研究受到越来越多的关注,已广泛应用于精准农业、动物监测、城市管理、应急救援等领域。与普通视角下拍摄的图像相比,无人机航拍图像具有视野更广、目标尺寸显著缩小、视角和尺度灵活多变等特点,无法完全适用普通视角下的目标检测方法。基于此,首先详细回顾了普通视角下目标检测方法的研究进展,包括传统方法、深度学习方法和基于大模型的方法,随后综述了现有目标检测方法针对无人机航拍图像目标检测中的图像质量下降、尺度和视角变化、小目标检测难度大、复杂背景及遮挡、大视场中的不均衡,以及实时性要求高等6大难点问题提出的创新策略和优化方法。此外,归纳总结了无人机航拍图像目标检测数据集,并在2个具有代表性的数据集上对现有方法进行性能分析。最后,根据无人机航拍图像目标检测领域仍存在的问题,展望了未来可能的研究方向,为无人机航拍图像目标检测的发展和应用提供参考。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    大模型引导的高效强化学习方法
    徐沛, 黄凯奇
    2024, 45(6): 1165-1177.  DOI: 10.11996/JG.j.2095-302X.2024061165
    HTML    PDF 83     75

    深度强化学习作为支撑AlphaGo和ChatGPT等突破性工作的关键技术,已成为前沿科学的研究热点。在实际应用上,深度强化学习作为一种重要的智能决策技术,被广泛应用于视觉场景的避障、虚拟场景的优化生成、机器臂控制、数字化设计与制造、工业设计决策等多种规划决策任务。然而,深度强化学习在实际应用中面临样本效率低下的挑战,严重限制了其应用效果。为缓解这一问题,针对现有强化学习探索机制的不足,将大模型技术与多种主流探索技术相结合,提出了一种基于大模型引导的高效探索方法,以提升样本效率。通过利用大模型来指导深度强化学习智能体的探索行为,该方法在多个国际公认的测试环境中显示出显著的性能提升,不仅展示了大模型技术在深度强化学习探索问题中的潜力,也为实际应用中改善样本效率提供了新的解决思路。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    大语言模型驱动的UI评估系统
    陈晓皎, 束云峰, 汪睿涵, 周佳欢, 陈为
    2024, 45(6): 1178-1187.  DOI: 10.11996/JG.j.2095-302X.2024061178
    HTML    PDF 56     54

    用户界面(UI)设计的质量直接影响产品的可用性和用户体验。设计师在UI设计过程中常面临一致性和可访问性问题,这些问题不仅增加了用户的认知负荷,还影响了使用效率。尽管设计师对此有所认识,但目前缺乏全面的知识和工具来进行自动识别和解决这些问题。为此提出了一套全面的UI设计评估准则,涵盖色彩、文本、布局、控件和图标5个关键方面,专门针对UI设计的一致性问题和可访问性问题。基于这套评估准则,提出了针对UI一致性和可访问性评估的提示词模版,以提升大语言模型(LLMs)如GPT-4在UI评估任务中的准确率。此外,开发了基于GPT-4模型的UI评估系统。该UI评估系统能够深入理解UI设计内容,依据评估准则自动检测UI设计问题,并提供针对性改进建议,帮助设计师优化UI设计。实验结果表明,使用提示词模版显著提高了GPT-4模型在UI评估中的准确性。用户研究表明,设计师在设计实践中使用该UI评估系统,可以显著提升UI设计的质量,从而提升产品可用性和用户体验。该系统为设计师提供了一种自动化UI评估工具,为提升UI设计质量提供了新思路。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    基于检索增强大语言模型的MBSE智能设计方法
    于晗, 陈治源, 熊熙瑞, 戴原星, 蔡鸿明
    2024, 45(6): 1188-1199.  DOI: 10.11996/JG.j.2095-302X.2024061188
    HTML    PDF 64     51

    基于模型的系统工程(MBSE)是当今产品数字化设计的重要方法之一。然而由于系统工程极高的专业性和产品极高的复杂关联性,在复杂产品上应用基于模型的系统工程十分困难。针对这一问题,一种基于检索增强大语言模型的智能化设计方法被首次提出。方法首先建立了面向模型对象的多模态向量表示方法,通过检索增强生成技术,引入领域知识和建模规则,引导大模型更准确地生成MBSE模型视图;其次,提出了基于MBSE元素关联的视图优化方法,通过上下文交互结果交叉验证模型准确性;再次,通过大语言模型对建模工具接口调用和对候选零件的选择,实现设计模型和物料树的生成;最后,构建了一个包含24个场景模型的数据集对方法进行验证,实验结果表明该方法具有较高的准确性和可用性。以喷水推进装置为建模对象的案例研究也表明该方法能在保持可用性的基础上有效提升建模效率,对于基于MBSE方法的智能化具有重要意义。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    融合大模型和数字孪生的公共建筑智慧运维系统
    许璟琳, 彭阳, 欧金武, 谈骏杰, 舒江鹏, 余芳强
    2024, 45(6): 1200-1206.  DOI: 10.11996/JG.j.2095-302X.2024061200
    HTML    PDF 57     68

    为解决基于数字孪生的建筑智慧运维面临的系统操作复杂、海量建设文档信息难以查阅、复杂场景决策支持弱等问题,构建了融合大模型和数字孪生的建筑智慧运维系统,创新了基于检索增强生成的海量信息高效检索技术、基于大模型的建筑运维服务高效调用技术、基于群体智能的楼宇智能调适技术等,在3类典型运维场景进行了应用验证,表明融合大模型和数字孪生构建的公共建筑智慧运维系统,有助于提供运维个性化服务、提升用户体验、提供复杂决策支持,实现更便捷、更舒适、更安全、更绿色的公共建筑智慧运维管理。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    机理与数据驱动的物理仿真计算范式及引擎架构
    何小伟, 石剑, 刘树森, 任丽欣, 郭煜中, 蔡勇, 王琥, 朱飞, 汪国平
    2024, 45(6): 1207-1221.  DOI: 10.11996/JG.j.2095-302X.2024061207
    HTML    PDF 30     307

    物理仿真作为现代工业软件的基石,其计算范式可分为机理驱动、数据驱动及混合驱动等模式。面对多样化物理仿真需求,构建一个既能灵活适应各类物理仿真计算范式,又能实现不同计算范式之间高效耦合的通用引擎架构,已成为软件设计与开发领域亟待解决的关键难题与挑战。针对该问题,提出面向多物理仿真计算范式的FNMS架构 Data Field-Node-Module-Scene Graph,其核心在于四层结构的设计:数据域(Data field)、节点(Node)、模块(Module)与场景图(Scene graph)。具体而言,数据域层为仿真过程提供统一的数据管理与访问接口,解决物理仿真计算数据共享的便捷性与高效性;模块层封装各类物理仿真算法,实现算法的模块化与可重用,解决仿真计算、渲染与交互的异步协同问题;节点层通过数据与算法模块的解耦实现算法在不同物理仿真计算范式之间的复用,同时便于实现多物理场耦合过程的交换与共享;而场景图层通过将节点组织成有向无环图,支撑多种物理仿真计算范式的高效耦合计算。通过该四层结构的结合,FNMS架构不仅能提升物理仿真的计算效率与灵活性,更为跨学科、跨领域的物理仿真研究提供了强有力的技术支持。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    基于视觉-文本损失的开放词汇检测大模型对抗样本生成方法
    师皓, 王澍, 韩健鸿, 罗兆亿, 王裕沛
    2024, 45(6): 1222-1230.  DOI: 10.11996/JG.j.2095-302X.2024061222
    HTML    PDF 48     206

    近期,开放词汇检测(OVD)因其在处理未知类别物体识别上的潜力而成为计算机视觉领域的研究焦点。YOLO-World作为该领域的代表性方法,在具有强大实时检测能力的同时,由深度学习网络脆弱性引起的安全问题也不可忽视。基于此背景,提出了一种针对YOLO-World算法的白盒对抗样本生成方法,为识别和量化大模型安全漏洞提供思路。方法以YOLO-World网络反向传播过程中产生的梯度数据作为依据,对预设的扰动进行优化,将优化后的扰动添加至原始样本形成对抗样本。首先利用模型输出中的置信度和边界框信息作为初步优化依据,形成具有一定攻击效果的对抗样本;再加上根据YOLO-World模型中的RepVL-PAN结构设计的视觉-文本融合损失,进一步提升对抗样本对模型的破坏性;最后融入扰动量损失对总扰动量进行约束,形成扰动量有限的对抗样本。通过生成的对抗样本可以根据实际需要实现置信度降低、检测框偏移等攻击目标,实验结果表明,该方法对YOLO-World模型具有显著的破坏能力,经过在LIVS数据集上测试,检测平均精度下降至5%以下。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    基于隐式知识增强的KB-VQA知识检索策略研究
    郑洪岩, 王慧, 刘昊, 张志平, 杨晓娟, 孙涛
    2024, 45(6): 1231-1242.  DOI: 10.11996/JG.j.2095-302X.2024061231
    HTML    PDF 36     31

    基于知识的视觉问答(KB-VQA)不仅需要图像信息和问题信息,还需要从知识源中获取到相关知识才能回答问题。现有方法通常使用检索器从知识库中检索外部知识,或直接从大型模型中得到隐式知识,但依靠仅有的图文信息往往不足以支撑获取相关知识。针对检索阶段的查询和外部知识,提出了一种强化检索策略。在查询端,利用大模型中的隐式知识来增强现有的图像和问题信息,增强后的图文信息可以帮助检索器从知识库中定位到更准确的外部知识。在外部知识端,提出了预模拟交互模块来增强外部知识,该模块为知识向量生成一个新的轻量级向量,通过二者之间预先交互,使得检索器可以提前模拟查询和知识段落的交互,以便更好地捕捉查询和知识段落的语义关系。实验结果表明,改进后的模型仅需检索少量知识便可以在 OK-VQA 数据集上达到61.3%的准确率。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    面向大模型艺术图像生成的提示词工程研究
    王常圣
    2024, 45(6): 1243-1255.  DOI: 10.11996/JG.j.2095-302X.2024061243
    HTML    PDF 122     97

    随着人工智能技术在艺术领域的迅速发展,提示词驱动的艺术图像生成已变得非常流行。然而,提示词生成艺术图像的规律和方法还未被充分研究。该研究通过CLIP模型计算和专家评估对Midjourney模型生成的图像进行定量评价,并结合网络民族志的参与式观察,全面揭示提示词生成艺术图像的规律和方法。研究结果发现,随着版本的提升(Midjourney V2到V5),Midjourney模型在美学质量方面得到显著地提升,突显了艺术家和创作者需要不断学习来适应新版本AI模型的重要性。为此,提出了优化的提示词公式,可快速高效地生成各种风格的高美学质量的图像。AI模型在不同主题中表现出不同的能力,Midjourney模型较为擅长生成油画、水彩水墨和二次元角色等,并在具象与抽象主题中表现得同样出色,而在素描和彩铅风格方面相对较弱。创作者应利用其优势风格进行图像创作。此外,还发现特定版本的优秀提示词组合可以极大提升生成图像的质量,精心设计提示词至关重要,且新版本并不一定比之前的版本更好。提示创作者需探索并积累与版本匹配的优秀提示词。该研究不仅揭示提示词生成艺术图像的规律和方法,也为创作者在AI艺术创作领域提供了理论和实践方面的指导。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    结合Transformer与Kolmogorov Arnold网络的分子扩增时序预测研究
    刘灿锋, 孙浩, 东辉
    2024, 45(6): 1256-1265.  DOI: 10.11996/JG.j.2095-302X.2024061256
    HTML    PDF 46     723

    随着医辽诊断和治疗干预技术的不断进步,医学时间序列数据呈现指数级增长。人工智能(AI),尤其是深度学习在挖掘医学时间序列数据潜在信息方面展现出巨大潜力。为此,首次提出将Transformer与Kolmogorov arnold网络(KAN)相结合的方法,用于核酸扩增实验数据的预测分析。通过实验数据分析,证实模型在准确预测扩增趋势和终点值方面的有效性,终点值误差仅为1.87,R-square系数为0.98,且模型能准确识别不同样本类型的实验数据。进一步地,通过消融实验和超参数调优,深入探究模型各组成部分及其参数对预测性能的影响。最后,在911条临床数据上对10种深度学习模型进行泛化能力测试的结果表明,Transformer-KAN模型在预测准确性和泛化能力上均优于其他模型,不仅为改进大流行病常规诊断技术提供了新视角,还为进一步研究KAN模型及相应基础理论提供了实验佐证。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    基于多模态大模型的高速公路场景交通异常事件分析方法
    吴精乙, 景峻, 贺熠凡, 张世渝, 康运锋, 唐维, 孔德兰, 刘向栋
    2024, 45(6): 1266-1276.  DOI: 10.11996/JG.j.2095-302X.2024061266
    HTML    PDF 132     117

    针对现有交通异常事件检测系统无法深入感知事件的局限性,以及人工审核报警事件成本高的问题,研究了一种结合多模态大模型(MLLM)的高速公路场景交通异常事件分析方法,设计并验证了3种基于MLLM的任务:一是自动生成异常事件的详细工单描述,提升事件的感知深度;二是利用MLLM对报警事件进行复审,减少误报,提高检测准确性;三是基于MLLM生成异常事件视频描述,增强事件的可解释性。实验结果显示,基于MLLM的工单描述方法通过视觉指令调优数据集的构建和模型微调,提升了工单信息的完整性和准确性。报警事件复审方面,MLLM能够有效审核出由图像质量低下、虚警误报和类别错误导致的误报,降低了人工审核成本。此外,基于MLLM的视频描述方法通过事件视频图像的采样与描述,实现了对异常事件的高效分析,提高了事件解释性。尽管开源模型在特定场景下略逊于闭源模型,但两者均展现出对多种误报问题的审核能力,证实了MLLM在异常事件审核中的应用潜力。该研究为智能交通监控系统提供了新的解决方案,提高了异常事件处理的自动化水平和实用性。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    基于人工智能生成内容的产品造型设计与评价方法
    路鹏, 吴凡, 唐建
    2024, 45(6): 1277-1288.  DOI: 10.11996/JG.j.2095-302X.2024061277
    HTML    PDF 89     94

    生成式人工智能(GAI)已然成为产品设计的新质生产力,显著提高了设计效率。然而,目前尚缺乏系统的应用方法以及多类型GAI协同应用的案例。为彰显GAI对产品设计的革新作用,提出基于人工智能生成内容(AIGC)的造型设计和评价方法。首先,应用ChatGPT分析用户的感性需求,将其归纳为造型设计的目标意象。同时,将ChatGPT作为Midjourney的提示词生成器,以生成产品必要的提示词短语。其次,依据目标意象与必要提示词短语,利用Midjourney构建造型参考资料库,并通过感性问卷从中筛选出备选方案。然后,结合灰关联分析(GRA)和层次分析(AHP)评价备选方案,以筛选出最佳造型,并使用Rhino优化人机关系。最后,使用Stable Diffusion生成最佳造型的渲染效果。以摩托车和吸尘器为案例,对该方法进行了论证。研究发现,多类型生成式人工智能协作模式在用户意象需求分析、造型意象转化和造型细节优化方面表现突出,能够革新造型设计流程和提高设计效率。该方法为产品造型设计师提供了基于AIGC的设计方法,并建立了AIGC的量化评价方法。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    图像处理与计算机视觉
    基于密度图多目标追踪的时空数据可视化
    宋思程, 陈辰, 李晨辉, 王长波
    2024, 45(6): 1289-1300.  DOI: 10.11996/JG.j.2095-302X.2024061289
    HTML    PDF 44     33

    时空数据追踪的可视化问题已经受到了广泛的关注,其研究重点在于展示数据的动态细节,并确保轨迹与观测结果的一致性。为此,提出了一种融合深度学习与传统追踪技术的模型,用于执行追踪任务,从而提高可视化的速度和准确度。首先,生成一个高质量的柏林噪声数据集并在该数据集上训练了一个多目标追踪模型。其次,提出了双阶段、多模型的深度学习框架来增强对动态场景的分析深度。最后,为了能够连续地展现详尽的追踪信息,提出了一种可以增强追踪信息的视觉效果结合轨迹和矢量场的可视化解决方案。在不同的案例中展示了该方法的有用性和鲁棒性,并从多个方面进行了量化评估和比较。结果表明该方法可以帮助用户在不同场景中理解多目标追踪信息。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    基于MBI-YOLOv8的煤矸石目标检测算法研究
    李珍峰, 符世琛, 徐乐, 孟博, 张昕, 秦建军
    2024, 45(6): 1301-1312.  DOI: 10.11996/JG.j.2095-302X.2024061301
    HTML    PDF 53     1696

    为在煤矸石分拣领域实现检测性能与资源消耗的平衡,提出一种基于改进YOLOv8的适用于低性能检测平台的高效实时轻量化目标检测算法。首先以YOLOv8n为基础网络架构,引入MobileNetv3替换原有的主干网络,利用其轻量级结构特性降低模型参数量及运算量,提高模型检测速度;其次引入特征增强网络BIFPN模块,通过多尺度特征融合来弥补引入轻量级网络带来的检测精度损失,实现在保证检测精度的情况下完成模型轻量化;最后引入Inner-CIoU边界框回归损失函数平衡不同质量图像的训练结果,提高模型的定位能力,进一步提高检测精度及速度。为验证改进算法的有效性,进行了实验对比分析,将其与YOLOv3-tiny,YOLOv5n,YOLOv7以及YOLOv8n等算法在自建数据集上进行对比。实验结果表明,该算法展现出了最优的综合检测性能,在保证检测精度的前提下,其参数量降低到1 188 725,相较于YOLOv8n减少了60.46%,运算量由原模型的8.1 GFLOPs降低到2.8 GFLOPs,FPS由YOLOv8n的86.02 Hz提升到216.58 Hz。研究表明,该算法是一种高效实时轻量化煤矸石检测算法,综合检测性能有效提高,实现了模型检测性能与计算资源消耗的平衡,在煤矸石检测领域有较大的潜力和优越性。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    基于R-YOLOv7和MIMO-CTFNet的指针式仪表自动读数方法
    李盛涛, 侯立群, 董亚松
    2024, 45(6): 1313-1327.  DOI: 10.11996/JG.j.2095-302X.2024061313
    HTML    PDF 27     31

    针对现有方法中表盘关键信息提取过程繁琐、读数误差较大和相机抖动导致的运动模糊问题,提出了一种基于R-YOLOv7和MIMO-CTFNet的指针式仪表自动读数方法。首先,构建兼顾精度和轻量化的R-YOLOv7算法实现指针式仪表表盘和表盘关键信息检测;然后,设计了MIMO-CTFNet算法以实现运动模糊仪表图像的复原;最后,利用提取的表盘关键信息进行基于小刻度线的角度法读数。实验结果表明改进后的R-YOLOv7在表盘关键信息检测数据集上所需的参数量、FLOPs、ADT和mAP50:95分别为12 M个、60.30 G次、17.04 ms和86.5%;改进后的MIMO-CTFNet算法在采集的运动模糊数据集上的PSNR和SSIM分别达到33.05 dB和0.935 3;该读数方法的读数最大引用误差为0.35%,需要运动模糊处理和无需运动模糊处理的图像读数时间分别为0.561 s和0.128 s,从而验证了该方法的有效性。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    基于YOLOv8的轻量化无人机图像目标检测算法
    闫建红, 冉同霄
    2024, 45(6): 1328-1337.  DOI: 10.11996/JG.j.2095-302X.2024061328
    HTML    PDF 87     74

    针对无人机图像目标像素低、背景复杂、模型部署难等问题,提出一种基于YOLOv8的轻量级多尺度特征融合小目标检测算法。为了降低网络参数量,提高模型检测速度,使用fasternet block替换C2f的bottleneck,构建轻量化特征提取模块FasterC2f;为了增强模型多尺度特征融合能力,设计全新的聚焦扩散特征金字塔结构,使颈部网络每层特征图都聚焦三层特征信息;设计共享卷积检测头,在优化模型参数量的同时,让每个检测头都包含不同尺度特征信息;重构小目标检测网络,采用更大尺度的三层检测头,提高模型对小目标的特征学习能力。在Visdrone数据集上的实验结果表明,与YOLOv8s相比,该模型的精确率、召回率和mAP分别提高了5.1%,5.4%和6.6%,参数量降低了68%,模型文件体积减少了15.3 MB,FPS提高了16%,表明该模型具有检测精度高、检测速度快、模型易部署等优点。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    计算机图形学与虚拟现实
    基于观察质量场的虚拟对象协同操作方法
    栾帅, 吴健, 樊润泽, 王莉莉
    2024, 45(6): 1338-1348.  DOI: 10.11996/JG.j.2095-302X.2024061338
    HTML    PDF 24     16

    在虚拟现实(VR)中,对象操作是关键的交互方式。特别是在协作VR应用中,执行高效且准确地操作是非常重要的。然而,传统的协作操作技术未能充分考虑到与操作相关的对象、目标以及环境动态之间的相互作用,并且未提供有效地指导以帮助用户在操作时选择最佳视点。为了解决这一问题,引入了一种基于观察质量场(OQF)的新型协作操作技术,旨在提高操作的准确性和效率。并根据用户的观察质量分数,引导其选择最合适的视角,以实现更加高效和协调的对象操控。首先介绍OQF的概念及其构建方法,并提出2种策略加速OQF更新过程,随后提出了一种利用OQF的指导来操作物体的协同操作方法。通过在3种不同的虚拟环境:客厅、仓库和管道场景中进行的含36名参与者的用户研究,评估了其操作效率和准确性。结果表明,与传统方法相比,OQF技术显著减少了任务完成时间、位置误差、旋转误差和任务负荷。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    虚拟现实中场景和时间对用户空间方向认知的影响
    任洋甫, 于歌, 傅月瑶, 胥森哲, 何煜, 王巨宏, 张松海
    2024, 45(6): 1349-1363.  DOI: 10.11996/JG.j.2095-302X.2024061349
    HTML    PDF 45     43

    方向感是用户通过观察或漫游场景,根据个人感知建立心理地图,并理解和判断地图信息,产生对方向、角度、距离等信息判断的能力。在心理学和医学等领域,大量研究表明方向感由空间记忆、空间感知、空间想象等多重因素影响。在虚拟环境中,用户同样依赖这种能力判断方向,利用虚拟设备获取场景信息。本研究主要讨论用户如何通过空间记忆、感知与想象等能力在虚拟场景中判断方位。研究定义了用户的方向感度量包括准确率和效率2个方面,其中准确率是用户与目标朝向和位置的角度误差和距离误差,效率是用户判断方向的决策时间和到达目标的移动时间,通过6个实验,旨在探究视觉场景差异对用户方向感的影响。实验结果显示:①视觉信息是虚拟现实(VR)中用户判断方向的重要依据;②在场景结构相似的前提下,较小空间和较多物品的设置能够提升用户的方向感;③在视觉范围不变的前提下,场景风格的变化对用户方向感的影响较小。另外,用户方位判断的准确率还受到决策时间和移动时间的影响,其中移动时间的影响更为显著,而决策时间则影响相对较小。本研究的发现有助于VR场景构建、度量用户方向感、以及优化场景布局和提高用户导航能力。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    基于改进式DDGI的Web3D场景云渲染
    刘畅, 张宇明, 张乾, 欧巧凤, 赵同硕, 陈昊, 石磊
    2024, 45(6): 1364-1374.  DOI: 10.11996/JG.j.2095-302X.2024061364
    HTML    PDF 34     31

    针对Web3D为应用在各类设备上的兼容性而导致的渲染性能不足,无法进行实时全局光照渲染等问题,提出一种页云绘制策略,利用布局优化算法对动态漫反射全局光照(DDGI)技术进行改进,显著增强Web3D环境中的全局光照渲染效率与质量。首先,通过在云服务器上进行细分检测以及布局优化策略自动优化DDGI的布局以适应场景需求;其次,利用页云绘制策略将全局光照计算任务根据设备计算资源进行分摊;最后,将低数据量的全局光照信息传输至Web客户端,在允许用户通过Web界面进行互动,实时调整如视点、模型、光源等场景资源的情况下,在Web客户端实现实时绘制高质量的动态全局光照效果。研究成果证明,该方法提升渲染质量效果显著,为Web3D技术的发展提供了一种有效的渲染优化方案。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    Cloud Sphere: 一种基于渐进式变形自编码的三维模型表征方法
    王宗继, 刘云飞, 陆峰
    2024, 45(6): 1375-1388.  DOI: 10.11996/JG.j.2095-302X.2024061375
    HTML    PDF 28     25

    针对大数据时代三维模型形状多样性激增的挑战,致力于从形状形成过程中发现独特信息,提出了一种基于球表面逐步变形对三维模型的形状进行统一表征的方法。输入任意三维模型,通过逐步变形自编码网络将一个模板球面点云逐步变形拟合该输入形状。通过深度神经网络建模三维模型变形过程,从多阶段变形中挖掘独特的形状特征,避免了任务驱动学习方法对人工标注的依赖。通过显式编码形状生成过程中的变形残差,不仅捕捉了最终形状,还记录了形状的渐进变化过程。在深度神经网络的训练方面,采用了多阶段信息监督的方式,提高了变形重建的精度。与当前技术水平代表方法的对比实验表明,多阶段监督训练方式能够增强变形重建结果的细节精度。丰富的消融实验验证了多阶段监督方式的有效性。变形表征方法适用于模型分类、形状迁移、共编辑等计算机图形学应用,具有泛用性,可为三维模型几何属性自动解析与高效编辑提供底层的数据表征方法支持。

    数据和表 | 参考文献 | 相关文章 | 计量指标
    总目次
    2024年总目次
    2024, 45(6): 1389. 
    PDF 16     14
    相关文章 | 计量指标
    本期样刊
    2024年第6期样刊
    2024, 45(6): 1390. 
    PDF 17     38
    相关文章 | 计量指标