Journal of Graphics ›› 2025, Vol. 46 ›› Issue (2): 382-392.DOI: 10.11996/JG.j.2095-302X.2025020382
• Computer Graphics and Virtual Reality • Previous Articles Next Articles
LI Jiyuan(), GUAN Zheyu, SONG Haichuan(
), TAN Xin, MA Lizhuang
Received:
2024-07-08
Accepted:
2024-10-08
Online:
2025-04-30
Published:
2025-04-24
Contact:
SONG Haichuan
About author:
First author contact:LI Jiyuan (2004-),undergraduate student. His main research interest covers computer-aided design. E-mail:leehenry1024@qq.com
Supported by:
CLC Number:
LI Jiyuan, GUAN Zheyu, SONG Haichuan, TAN Xin, MA Lizhuang. Human-in-the-loop field-specific logo generation method[J]. Journal of Graphics, 2025, 46(2): 382-392.
Add to citation manager EndNote|Ris|BibTeX
URL: http://www.txxb.com.cn/EN/10.11996/JG.j.2095-302X.2025020382
序号 | 类别 | 数据规模 |
---|---|---|
1 | 生物行业logo | 9 |
2 | 建筑行业logo | 9 |
3 | 科技行业logo | 8 |
4 | 制造行业logo | 8 |
5 | 弱行业化logo | 11 |
总计 | - | 45 |
Table 1 Primitive scale and distribution of data set
序号 | 类别 | 数据规模 |
---|---|---|
1 | 生物行业logo | 9 |
2 | 建筑行业logo | 9 |
3 | 科技行业logo | 8 |
4 | 制造行业logo | 8 |
5 | 弱行业化logo | 11 |
总计 | - | 45 |
序号 | 图片 | 提示词示例 |
---|---|---|
1 | ![]() | 一个标志,由红色、橙色和绿色的圆圈组成,用于一个商业服务行业的公司 |
2 | ![]() | 一个标志,有蓝色的抽象建筑群,用于建筑行业的Construct Connect公司 |
3 | ![]() | 一个标志,有一个红色有质感的红色圆形与粗体字体置于白色的背景上,用于商业服务行业的Airfix公司 |
4 | ![]() | 一个标志,有青色字体和叠放的卡牌,用于电子音像行业的StarCityGames公司 |
Table 2 Examples of primitive picture data set and prompts
序号 | 图片 | 提示词示例 |
---|---|---|
1 | ![]() | 一个标志,由红色、橙色和绿色的圆圈组成,用于一个商业服务行业的公司 |
2 | ![]() | 一个标志,有蓝色的抽象建筑群,用于建筑行业的Construct Connect公司 |
3 | ![]() | 一个标志,有一个红色有质感的红色圆形与粗体字体置于白色的背景上,用于商业服务行业的Airfix公司 |
4 | ![]() | 一个标志,有青色字体和叠放的卡牌,用于电子音像行业的StarCityGames公司 |
构成元素 | 描述 |
---|---|
图标 | * 建筑工具(锤子、扳手) * 设备(起重机、推土机) * 建筑元素(砖块、房屋轮廓、蓝图)* 抽象形状(齿轮、向上箭头) |
颜色 | * 色彩强烈而可靠(蓝色、红色、黑色、橙色、黄色)* 有限的调色(2~3种颜色) |
Table 3 Gemini’s descriptions over logos for construction industry
构成元素 | 描述 |
---|---|
图标 | * 建筑工具(锤子、扳手) * 设备(起重机、推土机) * 建筑元素(砖块、房屋轮廓、蓝图)* 抽象形状(齿轮、向上箭头) |
颜色 | * 色彩强烈而可靠(蓝色、红色、黑色、橙色、黄色)* 有限的调色(2~3种颜色) |
细分行业 | 部分提示词库 |
---|---|
建筑行业 | 卡车、楼房、塔吊、安全帽、建筑、工具…… |
教育行业 | 书籍、学生、朝阳、树苗、文具…… |
餐饮行业 | 厨师、食材、烹饪工具、美食、餐厅装饰…… |
科技行业 | 计算机、程序代码、创新、科研、虚拟…… |
抽象设计 | 色块组合、线条、流线型、组合…… |
具象设计 | 标志性的、联想的、具体的、模仿的…… |
Table 4 Example of prompt lexicon
细分行业 | 部分提示词库 |
---|---|
建筑行业 | 卡车、楼房、塔吊、安全帽、建筑、工具…… |
教育行业 | 书籍、学生、朝阳、树苗、文具…… |
餐饮行业 | 厨师、食材、烹饪工具、美食、餐厅装饰…… |
科技行业 | 计算机、程序代码、创新、科研、虚拟…… |
抽象设计 | 色块组合、线条、流线型、组合…… |
具象设计 | 标志性的、联想的、具体的、模仿的…… |
序号 | 类别 | 数据规模 |
---|---|---|
1 | 建筑行业logo | 40 |
2 | 教育行业logo | 38 |
3 | 科技行业logo | 52 |
4 | 生物行业logo | 43 |
Table 5 Scale of iterative data set
序号 | 类别 | 数据规模 |
---|---|---|
1 | 建筑行业logo | 40 |
2 | 教育行业logo | 38 |
3 | 科技行业logo | 52 |
4 | 生物行业logo | 43 |
序号 | 细分行业 | 图片 | 提示词 |
---|---|---|---|
1 | 建筑行业 | ![]() | 建筑行业一家公司的标志,以深蓝色和橙色的街区、城市天际线和带光环的太阳为特色 |
2 | 教育行业 | ![]() | 一个教育机构的标志,具有丰富多彩的渐变和树木形状的极简主义描绘 |
3 | 科技行业 | ![]() | 一家科技公司的标志,呈冷青色,描绘了一个圆形外壳中类似字母“M”的入口 |
4 | 生物行业 | ![]() | 生物科学行业一家公司的标志,其特征是一只蓝色的鸟栖息在树枝上,摆出一种暗示即将飞行的姿势 |
Table 6 Example of pictures and prompt from iterative data set
序号 | 细分行业 | 图片 | 提示词 |
---|---|---|---|
1 | 建筑行业 | ![]() | 建筑行业一家公司的标志,以深蓝色和橙色的街区、城市天际线和带光环的太阳为特色 |
2 | 教育行业 | ![]() | 一个教育机构的标志,具有丰富多彩的渐变和树木形状的极简主义描绘 |
3 | 科技行业 | ![]() | 一家科技公司的标志,呈冷青色,描绘了一个圆形外壳中类似字母“M”的入口 |
4 | 生物行业 | ![]() | 生物科学行业一家公司的标志,其特征是一只蓝色的鸟栖息在树枝上,摆出一种暗示即将飞行的姿势 |
图像组 | 数据规模 | 数据分布 |
---|---|---|
真实图像 | 150 | 建筑(人造设施)、动物(鸟类,兽类等)、风光(自然景观)各50张 |
logo图像 | 150 | |
总计 | 300 | - |
Table 7 Scale and distribution of data set used for the feasibility validation of evaluating the quality of logo
图像组 | 数据规模 | 数据分布 |
---|---|---|
真实图像 | 150 | 建筑(人造设施)、动物(鸟类,兽类等)、风光(自然景观)各50张 |
logo图像 | 150 | |
总计 | 300 | - |
图像组 | 分类精度/% |
---|---|
真实图像 | 85.33 |
logo图像 | 90.21 |
Table 8 Accuracy verification results of each image group on binary classification
图像组 | 分类精度/% |
---|---|
真实图像 | 85.33 |
logo图像 | 90.21 |
组别 | w | p | w提升/% | p提升/% |
---|---|---|---|---|
A | 0.741 | 0.227 | - | - |
B | 0.853 | 0.247 | 15.1 | 8.8 |
C | 0.994 | 0.264 | 34.1 | 16.3 |
Table 9 The average cosine similarity w within the group and the industry related classification probability p
组别 | w | p | w提升/% | p提升/% |
---|---|---|---|---|
A | 0.741 | 0.227 | - | - |
B | 0.853 | 0.247 | 15.1 | 8.8 |
C | 0.994 | 0.264 | 34.1 | 16.3 |
组别 | w | p | w提升/% | p提升/% |
---|---|---|---|---|
B | 0.499 | 0.268 | - | - |
C | 0.558 | 0.285 | 11.7 | 6.6 |
Table 10 The average cosine similarity w within the group and the industry related classification probability p
组别 | w | p | w提升/% | p提升/% |
---|---|---|---|---|
B | 0.499 | 0.268 | - | - |
C | 0.558 | 0.285 | 11.7 | 6.6 |
项目 | 样本分布 |
---|---|
年龄 | 18岁以下:5人(2.78%) 18~25岁:152人(84.44%) 26~45岁:21人(11.67%) 46岁及以上:2人(1.11%) |
行业背景 | 有设计相关工作或专业背景:30人(16.67%) 非设计相关工作或专业背景:150人(83.3%) |
受教育 水平 | 高中/中专及以下:15人(8.33%) 大专:8人(4.44%) 本科:133人(73.89%) 研究生:24人(13.33%) |
Table 11 Background information of questionnaire volunteers
项目 | 样本分布 |
---|---|
年龄 | 18岁以下:5人(2.78%) 18~25岁:152人(84.44%) 26~45岁:21人(11.67%) 46岁及以上:2人(1.11%) |
行业背景 | 有设计相关工作或专业背景:30人(16.67%) 非设计相关工作或专业背景:150人(83.3%) |
受教育 水平 | 高中/中专及以下:15人(8.33%) 大专:8人(4.44%) 本科:133人(73.89%) 研究生:24人(13.33%) |
组别 | 问卷评价指标(5级5分制) | ||
---|---|---|---|
清晰识别 | 设计独特 | 配色和谐 | |
O组 | 3.76/5.00 | 3.64/5.00 | 2.85/5.00 |
A组 | 3.54/5.00 | 2.33/5.00 | 3.02/5.00 |
B组 | 3.76/5.00 | 3.33/5.00 | 3.18/5.00 |
C组 | 3.98/5.00 | 3.40/5.00 | 3.69/5.00 |
Table 12 Results of the questionnaire on the quality of logo generation
组别 | 问卷评价指标(5级5分制) | ||
---|---|---|---|
清晰识别 | 设计独特 | 配色和谐 | |
O组 | 3.76/5.00 | 3.64/5.00 | 2.85/5.00 |
A组 | 3.54/5.00 | 2.33/5.00 | 3.02/5.00 |
B组 | 3.76/5.00 | 3.33/5.00 | 3.18/5.00 |
C组 | 3.98/5.00 | 3.40/5.00 | 3.69/5.00 |
模型/服务 | 分类为logo图像 | 分类为真实图片 |
---|---|---|
Midjourney | 0.975 715 4 | 0.024 284 5 |
文心一格 | 0.972 257 1 | 0.027 742 8 |
Stable Image Ultra | 0.959 858 1 | 0.040 141 8 |
NIJI-journey | 0.590 430 1 | 0.409 569 9 |
本文方法 | 0.980 027 6 | 0.019 972 3 |
Table 13 Binary classification probabilities of the generated results for each text-to-image model
模型/服务 | 分类为logo图像 | 分类为真实图片 |
---|---|---|
Midjourney | 0.975 715 4 | 0.024 284 5 |
文心一格 | 0.972 257 1 | 0.027 742 8 |
Stable Image Ultra | 0.959 858 1 | 0.040 141 8 |
NIJI-journey | 0.590 430 1 | 0.409 569 9 |
本文方法 | 0.980 027 6 | 0.019 972 3 |
[1] | 刘柏良, 刘玮. 设计文本引导下运用AI进行方案迭代的建筑设计方法初探[J]. 新材料·新装饰, 2023, 5(1): 1-5. |
LIU B L, LIU W. Preliminary exploration of architectural design methods using AI for scheme iteration under the guidance of design texts[J]. New Material New Decoration, 2023, 5(1): 1-5 (in Chinese). | |
[2] | 刘泽润, 尹宇飞, 薛文灏, 等. 基于扩散模型的条件引导图像生成综述[J]. 浙江大学学报(理学版), 2023, 50(6): 651-667. |
LIU Z R, YIN Y F, XUE W H, et al. A review of conditional image generation based on diffusion models[J]. Journal of Zhejiang University (Science Edition), 2023, 50(6): 651-667 (in Chinese). | |
[3] |
王延文, 雷为民, 张伟, 等. 基于生成模型的视频图像重建方法综述[J]. 通信学报, 2022, 43(9): 194-208.
DOI |
WANG Y W, LEI W M, ZHANG W, et al. Survey on video image reconstruction method based on generative model[J]. Journal on Communications, 2022, 43(9): 194-208 (in Chinese).
DOI |
|
[4] | WANG Y X, GONZALEZ-GARCIA A, HERRANZ L, et al. Controlling biases and diversity in diverse image-to-image translation[J]. Computer Vision and Image Understanding, 2021, 202: 103082. |
[5] | 朱丽红. 发展数字经济赋能小微企业高质量发展对策研究[J]. 老字号品牌营销, 2023(20): 151-153. |
ZHU L H. Research on strategies for empowering high quality development of small and micro enterprises through the development of digital economy[J]. China Time-Honored Brand, 2023(20): 151-153 (in Chinese). | |
[6] | 郑赫然. 浅议logo设计的思路及方法[J]. 艺术科技, 2019, 32(9): 178, 186. |
ZHENG H R. Discussion on the ideas and methods of logo design[J]. Art Science and Technology, 2019, 32(9): 178, 186 (in Chinese). | |
[7] | RUIZ N, LI Y Z, JAMPANI V, et al. DreamBooth: fine tuning text-to-image diffusion models for subject-driven generation[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2023: 22500-22510. |
[8] | HA D, DAI A, LE Q V. HyperNetworks[EB/OL]. (2016-12-01) [2024-04-19]. https://arxiv.org/pdf/1609.09106.pdf. |
[9] | 李彬, 王平, 赵思逸. 基于双重注意力机制的图像超分辨重建算法[J]. 图学学报, 2021, 42(2): 206-215. |
LI B, WANG P, ZHAO S Y. Image super-resolution reconstruction based on dual attention mechanism[J]. Journal of Graphics, 2021, 42(2): 206-215 (in Chinese).
DOI |
|
[10] | 任好盼, 王文明, 危德健, 等. 基于高分辨率网络的人体姿态估计方法[J]. 图学学报, 2021, 42(3): 432-438. |
REN H P, WANG W M, WEI D J, et al. Human pose estimation based on high-resolution net[J]. Journal of Graphics, 2021, 42(3): 432-438 (in Chinese).
DOI |
|
[11] | 林晓, 屈时操, 黄伟, 等. 显著区域保留的图像风格迁移算法[J]. 图学学报, 2021, 42(2): 190-197. |
LIN X, QU S C, HUANG W, et al. Style transfer algorithm for salient region preservation[J]. Journal of Graphics, 2021, 42(2): 190-197 (in Chinese). | |
[12] | GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144. |
[13] | 黄凯奇, 赵鑫, 李乔哲, 等. 视觉图灵: 从人机对抗看计算机视觉下一步发展[J]. 图学学报, 2021, 42(3): 339-348. |
HUANG K Q, ZHAO X, LI Q Z, et al. Visual Turing: the next development of computer vision in the view of human- computer gaming[J]. Journal of Graphics, 2021, 42(3): 339-348 (in Chinese). | |
[14] | YEH R A, CHEN C, LIM T Y. Semantic image inpainting with deep generative models[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 5485-5493. |
[15] | BODLA N, HUA G, CHELLAPPA R. Semi-supervised FusedGAN for conditional image generation[C]// The 15th European Conference on Computer Vision. Cham: Springer, 2018: 669-683. |
[16] | CI Y Z, MA X Z, WANG Z H, et al. User-guided deep anime line art colorization with conditional adversarial networks[C]// The 26th ACM International Conference on Multimedia. New York: ACM, 2018: 1536-1544. |
[17] | YEH R A, CHEN C, LIM T Y. Semantic image inpainting with deep generative models[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 5485-5493. |
[18] | IIZUKA S, SIMO-SERRA E, ISHIKAWA H. Globally and locally consistent image completion[J]. ACM Transactions on Graphics, 2017, 36(4): 107. |
[19] | SAGE A, TIMOFTE R, AGUSTSSON E, et al. Logo synthesis and manipulation with clustered generative adversarial networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 5879-5888. |
[20] | SAGE A, AGUSTSSON E, TIMOFTE R, et al. LLD-large logo dataset version 0.1. 2017[EB/OL]. (2017-04-07)[2024-04-19]. https://data.vision.ee.ethz.ch/cvl/lld. |
[21] | MINO A, SPANAKIS G. LoGAN: generating logos with a generative adversarial neural network conditioned on color[C]// The 17th IEEE International Conference on Machine Learning and Applications. New York: IEEE Press, 2018: 965-970. |
[22] | SAGAWA Y, HAGIWARA M. Logo generation with generative adversarial networks conditioned on sentiment terms[J]. Transactions of Japan Society of Kansei Engineering, 2019, 18(3): 215-222. |
[23] | PODELL D, ENGLISH Z, LACEY K, et al. SDXL: improving latent diffusion models for high-resolution image synthesis[EB/OL]. [2024-05-07]. https://dblp.uni-trier.de/db/conf/iclr/iclr2024.html#PodellELBDMPR24. |
[24] | XIAO S S, WANG L W, MA X J, et al. TypeDance: creating semantic typographic logos from image through personalized generation[C]// 2024 CHI Conference on Human Factors in Computing Systems. New York: ACM, 2024: 175. |
[25] | HU E J, SHEN Y L, WALLIS P, et al. LoRA: low-rank adaptation of large language models[EB/OL]. [2024-05-07]. https://dblp.uni-trier.de/db/conf/iclr/iclr2022.html#HuSWALWWC22. |
[26] | VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// The 31st International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2017: 6000-6010. |
[27] | OTANI M, TOGASHI R, SAWAI Y, et al. Toward verifiable and reproducible human evaluation for text-to-image generation[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2023: 14277-14286. |
[28] | RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[EB/OL]. [2024-05-07]. https://dblp.uni-trier.de/db/conf/icml/icml2021.html#RadfordKHRGASAM21. |
[1] | SUN Heyi, LI Yixiao, TIAN Xi, ZHANG Songhai. Image to 3D vase generation technology combining procedural content generation and diffusion models [J]. Journal of Graphics, 2025, 46(2): 332-344. |
[2] | TU Qinghao, LI Yuanqi, LIU Yifan, GUO Jie, GUO Yanwen. Generalization optimization method for text to material texture maps based on diffusion model [J]. Journal of Graphics, 2025, 46(1): 139-149. |
[3] | ZHANG Ji, CUI Wenshuai, ZHANG Ronghua, WANG Wenbin, LI Yaqi. A text-driven 3D scene editing method based on key views [J]. Journal of Graphics, 2024, 45(4): 834-844. |
[4] | WANG Ji, WANG Sen, JIANG Zhi-wen, XIE Zhi-feng, LI Meng-tian. Zero-shot text-driven avatar generation based on depth-conditioned diffusion model [J]. Journal of Graphics, 2023, 44(6): 1218-1226. |
[5] | LI Xiao-rui, XIE Cheng, LI Bin, LIU Qing, HU Jian-long. Cross-modal chat cartoon emoticon image synthesis based on knowledge meta-model [J]. Journal of Graphics, 2021, 42(6): 908-916. |
Viewed | ||||||
Full text |
|
|||||
Abstract |
|
|||||