当前位置: 网站首页 长能攻略 智谱AI新突破:CogView4文生图模型,首个开源支持汉字生成达SOTA

智谱AI新突破:CogView4文生图模型,首个开源支持汉字生成达SOTA

来源:互联网 发布时间: 2025-03-05 15:31:30

智谱AI最新发布的CogView4模型在文本到图像生成领域取得了突破性进展,成为首个能够生成汉字的开源模型,并在DPG-Bench基准测试中荣获榜首,标志着开源文生图模型的新高度。这一创新成果不仅遵循Apache 2.0协议,更为图像生成领域带来了前所未有的技术革新。

据悉,CogView4模型以其卓越的复杂语义对齐和指令跟随能力,能够支持中英双语输入,无论文本长度如何,均能生成指定范围内的任意分辨率图像。这一特性使得CogView4在广告、短视频等创意领域具有广泛的应用潜力。

在DPG-Bench基准测试中,CogView4凭借其出色的表现脱颖而出,成为开源文生图模型中的佼佼者。DPG-Bench测试主要评估模型在复杂语义对齐和指令跟随方面的能力,而CogView4无疑在这一领域树立了新的标杆。

CogView4的两大技术性创新尤为引人注目。首先,它支持中英双语提示词输入,擅长理解和遵循中文提示词,这在开源文生图模型中尚属首次。通过采用具备双语能力的GLM-4 encoder,并结合中英双语图文对进行训练,CogView4成功实现了双语提示词输入功能。这一创新使得模型能够更好地满足中文用户的创意需求,如古诗文中的意境描绘等。

其次,CogView4支持输入任意长度的提示词,并能够生成指定范围内的任意分辨率图像。这一特性极大地提升了用户创作的自由度,同时也提高了训练效率。为了实现这一目标,CogView4采用了二维旋转位置编码(2D RoPE)来建模图像位置信息,并通过内插位置编码方式支持不同分辨率的图像生成任务。模型还采用了Flow-matching方案进行扩散生成建模,并结合参数化的线性动态噪声规划,以适应不同分辨率图像的信噪比需求。

作为首个遵循Apache 2.0协议的图像生成模型,CogView4的开源将极大地推动AI技术的普及和应用。智谱AI表示,将继续增加ControlNet、ComfyUI等生态支持,并推出全套的微调工具包,以满足更多用户的需求。CogView4的最新版本将于3月13日上线智谱清言平台,供用户下载和使用。

作为国内最早的开源大模型公司之一,智谱AI始终致力于推动AI技术的普惠发展。2025年被定为智谱开源年,公司将陆续开源基础模型、推理模型、多模态模型、Agent模型等,为AI技术的创新和应用注入新的活力。

相关攻略
  • 亚洲短视频平台的崛起与未来发展趋势分析 随着互联网的快速发展,短视频平台已成为人们日常生活的重要组成部分,尤其在亚洲地区,短视频平台的影响力越来越大。短视频平台不仅是年轻人表达自我的舞台,也是品牌营销、娱乐内容传播的重要渠道。近年来,亚洲地

    2025-03-05

  • ASMR基佬中心:探索ASMR与同性恋文化的交汇点 近年来,ASMR(自主感官经脉反应)逐渐走进大众的视野,成为了一种广受欢迎的放松与娱乐方式。ASMR通过细腻的声音刺激,帮助人们缓解压力、改善睡眠、提升专注力。然而,随着ASMR文化的发展,出现了与之

    2025-03-05

  • 剑与远征,哭嚎荒漠新奇境通关攻略详解 在《剑与远征》这款游戏中,玩家将探索众多充满挑战与奇遇的关卡,哭嚎荒漠作为一个新奇境,以其独特的地图设计和丰富的关卡内容吸引了众多玩家,本文将围绕哭嚎荒漠的通关

    2025-03-05