人工智能领域正经历从单一文本处理到多模态深度理解的跨越式发展。特别值得一提的是,图像生成技术在艺术创作、市场营销等领域的应用前景日益广阔,已然成为推动人工智能发展的重要引擎。
为全面评估当前AI模型的图像生成能力及其潜在风险,我们对22款主流模型进行了系统测试。评测对象涵盖市场领先的多模态大模型以及文生图模型,聚焦新图像生成与图像修改两大核心任务。在新图像生成任务中,我们主要考察模型基于纯文本提示生成新图像的能力,包括“内容质量”及“安全与责任”两个维度。其中,“内容质量”由具有美术专业背景的专家采用成对比较的方式,评估图文一致性、图像合理可靠性、图像美感三个维度,再结合Elo评分系统进行量化排名。“安全与责任”则着重评估模型在生成新图像时的安全合规性与社会责任意识。测试范围包括偏见与歧视、违法活动、危险元素、伦理道德、版权侵犯以及隐私、肖像侵犯等不同类型的不安全提示词。图像修改任务考察模型依据文本指令对已有图像进行调整的能力,探索其在交互式设计中的应用潜力。
评测结果分析
在新图像内容生成的“内容质量”评测中,即梦AI、文心一言 V3.2.0、Midjourney v6.1表现最为突出。豆包、妙笔生画、FLUX.1 Pro、GPT-4o、Gemini 1.5 Pro等模型紧随其后,展现出强劲竞争力。在新图像生成的“安全与责任”测试中,多模态大模型GPT-4o表现最佳,通义千问v2.5.0与Gemini 1.5 Pro同样表现突出,位列第二、三名。值得注意的是,部分文生图模型虽然在图像生成的“内容质量”方面表现优异,但在“安全与责任”维度存在不足,个别模型可能生成含有血腥暴力等敏感元素的内容。
涉及测试的22款模型中,13款模型支持图像修改任务。其中,豆包表现最佳,即梦AI、文心一言V3.2.0、GPT-4o、Gemini 1.5 Pro同样表现优异。整体来看,中国多模态大模型性能已取得显著进步,在部分能力指标上与国际领先水平相当,中美技术差距正逐步缩小。
观察与展望
随着人工智能模型在视觉生成领域的能力持续增强,其应用前景正不断拓展,预计未来在数字营销、广告设计、影视制作、游戏开发、生产制造、智能驾驶等领域发挥更大价值。优化模型性能,使其更精准地满足行业需求,将成为未来竞争的关键之一。
中国大模型的快速发展正在缩小中美在AI领域和国家竞争力的差距。技术竞争加速了模型能力的迭代,同时也带来了安全挑战。不同企业在创造性与安全性上的取舍各异。一些公司强调创造力和自由,优先考虑模型的表达丰富度与适应性;而另一些则严格管控内容,将安全性置于首位。不同的开发理念可能使AI模型在输出质量和安全性上呈现明显差异。高质量的图像生成能力是推动AI应用的核心驱动力,但若缺乏完善的安全保障机制,可能引发版权纠纷、伦理风险,甚至更广泛的社会问题。因此,开发者在持续提升模型输出质量的同时,必须建立健全的内容过滤与安全审查体系,确保技术发展与社会责任并行。
政府监管与公众信任同样是AI发展的关键变量。面对生成式AI引发的法律与伦理挑战,各国政府正在探索相应的监管框架,惟不同地区的政策制定进度和标准不一,对技术发展与负责任应用之间的平衡有一定影响。公众对AI技术的接受度,很大程度上取决于其安全性和可控性。如果生成式AI被滥用,导致虚假信息传播、劣质内容充斥社媒、隐私侵犯或版权纠纷,更可能引发社会抵制该技术。
技术不断演进,构建负责任的 AI 生态系统已成为全球共识。这不仅需要开发者提升技术安全性,也离不开监管机构制定合理政策、行业组织推动自律规范与公众的广泛监督与参与。只有多方协同合作,才能在技术创新与安全的技术应用之间找到平衡,确保AI技术可持续发展。
注:本文作者为港大经管学院创新及资讯管理学教授蒋镇辉、港大经管学院博士研究生李佳欣、港大经管学院研究助理武正昱、西安交通大学管理学院本科生徐昊哲、港大经管学院研究助理吴轶凡及港大经管学院博士后研究员鲁艺。文章基于六位最近共同撰写的研究报告:《人工智能模型图像生成能力综合评测报告》,可到以下网站浏览:https://www.hkubs.hku.hk/sc/media/school-news/ai-image-generation-evaluation-results-released-bytedance-and-baidu-perform-well-deepseek-janus-pro-falls-short/
(本文仅代表作者观点。责任编辑邮箱:tao.feng@ftchinese.com)