图学学报 ›› 2021, Vol. 42 ›› Issue (3): 398-405.DOI: 10.11996/JG.j.2095-302X.2021030398
摘要: 针对高效解读和智能处理海量图文资料是一项极具挑战并具有实用价值工作,而自动标注精度 又面临依赖训练样本的难题,提出了一种基于数字图文混排书籍以文标图方法,由混排版式识别预处理、领域 图像语义标签构建和大标签空间以文标图算法 3 部分组成。首先,通过提出的混排版式识别离算法,提取数字 图文混排版式中图像、标题及描述文本等内容。然后,基于数字服饰图像语义标签,建立传统文化领域词库 (PatternNet),最后针对领域词库标签空间特点,提出一种改进大标签空间的以文标图算法,并在服饰类图文混 排书籍上进行仿真实验,通过对比其他数据集,验证了该算法的实效性。
中图分类号: