摘要:
以卷积神经网络(CNN)为代表的深度学习技术在图像分类和识别领域表现出了非常优异的性能。
但东巴象形文字未有标准、公开的数据集,无法借鉴或使用已有的深度学习算法。为了快速建立权威、有效的东
巴文字库,分析已出版东巴文档的版面结构,从文档中提取文本行、东巴字成为了当前的首要任务。因此,结合
东巴象形文字文档图像的结构特点,给出了东巴文档图像的文本行自动分割算法。首先利用基于密度和距离的 k均值聚类算法确定了文本行的分类数量和分类标准;然后,通过文字块的二次处理矫正了分割中的错误结果,提
高了算法的准确率。在充分利用东巴字文档结构特征的同时,保留了机器学习模型客观、无主观经验影响的优势。
通过实验表明,该算法可用于东巴文档图像、脱机手写汉字、东巴经的文本行分割,以及文本行中东巴字和汉字
的分割,具有实现简单、准确性高、适应性强的特点,从而为东巴文字库的建立奠定基础。
中图分类号:
康厚良 , 杨玉婷 . 东巴象形文字文档图像的文本行自动分割算法研究[J]. 图学学报, 2022, 43(5): 865-874.
KANG Hou-liang , YANG Yu-ting. Automatic segmentation algorithm for text lines of Dongba hieroglyphs
document image [J]. Journal of Graphics, 2022, 43(5): 865-874.