
随着人工智能技术的飞速发展,多模态大模型已成为AI领域的核心驱动力。这些模型以其卓越的性能和广泛的应用潜力,迅速成为科技界的焦点。特别是在2017年Transformer模型提出后,大模型技术不断演进,从单一的文字信息处理扩展至图像、语音等多模态数据,展现出在视频数据分析、多目标识别等生产领域的重要应用价值。然而,如何对这些多模态大模型进行客观、科学的评测,评估特定任务场景下的最优选择,对大模型的研发迭代以及应用落地具有重要意义。
关键词:多模态大模型、评测体系、AI技术、应用场景、评测指标
一、多模态大模型评测体系的重要性与挑战
多模态大模型的评测体系是确保技术健康发展的关键。随着技术的不断演进,多模态大模型已经从单一的文字信息处理扩展至图像、语音等多模态数据,它们在生产生活领域中具有广泛的应用前景。然而,相比于语言类大模型,多模态大模型评测面临评测数据更多样、评测任务更丰富、评测方式更复杂、评测成本更昂贵等挑战。如何应对上述挑战,构建全面、客观的多模态大模型评测体系,成为业界关注的热点问题。
根据中移智库发布的《“弈衡”多模态大模型评测体系白皮书(2024年)》,目前典型的多模态大模型有国外的GPT-4Vision、Gemini,国内的文心一言、讯飞星火、智谱清言等。这些大模型算法各异,在不同的任务场景下各有优劣,如何对这些多模态大模型开展客观、科学的评测,评估特定任务场景下的最优选择,对大模型的研发迭代以及应用落地都具有重要意义。
构建一个科学、客观、公正的评测基线,需要深入剖析图文大模型在多个领域的典型应用,并根据评测的实际需求,精准划分出四大类任务:识别类任务、理解类任务、创作类任务以及推理类任务。这一分类不仅体现了模型功能的多样性,也为后续的评测提供了明确方向。
二、“弈衡”多模态大模型评测体系的构建
“弈衡”多模态大模型评测体系的构建,旨在为图文大模型的技术迭代和应用落地提供参考基准。该体系通过多元化的评测方式,对基础任务与应用任务进行全面评测,从功能性、准确性、可靠性、安全性、交互性和应用性六个维度,全面评估图文大模型的综合能力,覆盖多个关键评测指标。
功能性维度关注图文大模型解决多种任务的能力,包含任务丰富度、多模态能力和支持完备度三类。准确性维度关注图文大模型执行各类任务的性能,需要针对不同类型的任务,选择最合适的评价指标。可靠性维度关注大模型的抗噪声能力,以及对同一问题多次输出结果的一致性。安全性维度考察图文大模型生成结果的毒害性和公平性,包括歧视偏见、内容毒性、违规违法、不适表达和版权隐私五类。交互性维度关注用户使用图文大模型时的交互体验,包括实时性、连续性、丰富性和规范性。应用性维度关注图文大模型产品或系统在现实应用场景中的部署、运维、支撑能力和使用效果。
“弈衡”多模态大模型评测体系的提出,不仅为中国移动工业、政务、金融、交通、安全等十余个行业大模型的全面客观评测提供标准基线,助力中国移动AI+重塑千行百业;另一方面,也可为业界大模型评测提供参考依据,为业界合作伙伴提供一站式大模型评测服务,推动国产大模型产业成熟和落地应用。
三、评测体系的实际应用与未来发展
在实际应用中,多模态大模型的评测体系需要不断迭代优化,以客观全面、公平公正、用户视角为评测基本原则,对图文大模型展开合理测试,更好地促进图文大模型的良性发展。评测体系的发展也需要深入思考,更好地规范大模型良性发展。未来评测技术的研究重点可能聚焦于以下两个方面:一是针对特定业务场景开展评测,确保对大模型进行深度与广度上的全面测试,真实反映其应用能力;二是跟踪技术演进优化评测体系,实时掌握多模态大模型发展现状,及时把握前沿应用场景,进一步拓展评测模态范围,不断更新评测数据,优化评测指标,丰富评价维度,迭代评测工具,衡量模型对新数据、新场景的适应能力,提升模型应用能力与部署的鲁棒性。
总结
多模态大模型评测体系的构建是确保AI技术健康发展的关键。随着技术的不断演进,多模态大模型已经展现出在多个领域的应用潜力。构建一个科学、客观、公正的评测基线,需要深入剖析图文大模型在多个领域的典型应用,并根据评测的实际需求,精准划分出四大类任务。中国移动技术能力评测中心构建的“弈衡”多模态大模型评测体系,为业界提供了一个全面、客观的评测标准,有助于推动国产大模型产业的成熟和落地应用。未来,随着技术的不断发展,评测体系也需要不断迭代优化,以适应新的场景和需求,确保多模态大模型技术的健康发展。