2025年AI行业分析报告：大语言模型如何重塑需求自动追踪技术的未来

本篇文章的部分核心观点、图表及数据，出自AI+研发数字峰会于2025年3月22日发布的报告《2024AI+研发数字峰会：大语言模型时代需求自动追踪技术》，如需获得原文，请前往文末下载。

在数字化转型浪潮中，人工智能技术正以前所未有的速度重塑软件研发领域。2024年AI+研发数字峰会汇集了全球顶尖专家，共同探讨AI驱动下的研发变革，其中南京大学匡宏宇教授关于"大语言模型时代需求自动追踪技术"的演讲尤为引人注目。本文将深度解析需求自动追踪技术的发展历程、当前LLM技术带来的革新机遇，以及未来行业应用前景，为读者呈现这一专业领域的全景视角。

关键词：需求自动追踪、大语言模型、软件可追踪性、研发效能、概念指派、LLM-RAG、DevOps、软件工程、AI驱动开发、数字化峰会

需求自动追踪技术：从军事标准到企业标配的演进之路

需求自动追踪技术并非新生事物，其发展历程可追溯至1968年北约软件工程会议，当时这一概念被提出作为应对"软件危机"的潜在解决方案。真正推动该技术走向标准化应用的转折点，是1991年海湾战争中著名的"爱国者导弹拦截失败事件"。技术分析显示，这次导致28名士兵丧生的悲剧源于长期运行时累积的时钟浮点计算误差。令人震惊的是，在袭击发生后的24小时内，制造商雷神公司就发布了修正软件，这一快速响应很大程度上得益于系统内部完善的需求追踪机制。正如IEEE Software 1994年文章所言："You cannot manage what you cannot trace"（无法追踪即无法管理），这一事件直接促使需求可追踪性在90年代成为软件开发规范。

表：需求追踪技术发展里程碑

时期	关键事件	影响范围
1968-1980s	北约会议概念提出，军用标准制定	仅限于国防系统
1990s	爱国者导弹事件后成为行业规范	扩展至航空、医疗等安全关键领域
2000s	敏捷开发推动轻量化追踪需求	开始进入商业软件开发
2010s	自动化追踪技术研究兴起	大型科技公司内部应用
2020s	LLM技术带来突破性进展	向中小企业普及

现代软件工程的复杂性使得需求追踪的价值愈发凸显。南京大学团队的研究表明，在需求到代码可追踪性支持下，软件维护任务的正确率可提高60%，效率提升20%。典型案例包括某著名支付软件的安卓APP"瘦身"项目，通过动态监控锁定冗余功能；以及某IoT公司的安卓OS社区被迫封闭事件，凸显了缺乏系统功能追踪导致的"碎片化"困境。这些案例共同验证了一个行业共识：在代码复杂度呈指数级增长的今天，需求追踪已从军事和关键系统领域的强制要求，转变为提升企业研发效能的必备能力。

LLM技术：破解需求追踪"语义鸿沟"的新钥匙

需求追踪的核心挑战在于"概念指派"问题——如何将基于自然语言的人脑概念与基于数理逻辑的代码元素准确关联。传统方法主要依赖信息检索(IR)和机器学习(ML)技术，但面临语义理解有限、人工成本高等瓶颈。大语言模型的出现为解决这一根本问题提供了全新思路。LLM的独特优势在于其能够理解不同抽象层级的软件制品语义，这正是跨越"语义鸿沟"的关键。

表：不同时期自动追踪技术对比

技术类型	代表方法	优势	局限性	典型准确率
信息检索	VSM,BM25	直观可解释	语义理解弱	40-70% MAP
传统ML	特征工程+分类器	可利用先验知识	依赖标注数据	50-75% MAP
深度学习	BERT,Transformer	上下文理解强	计算资源需求高	65-80% MAP
LLM	GPT,Claude	多轮交互能力	"幻觉"问题	70-90% MAP(特定场景)

峰会分享的最新实验数据显示，LLM在需求追踪任务中展现出独特价值。一项基于GPT-3.5的安全需求追踪研究实现了100%的精确率；在跨语言项目中，采用共识词对增强的AVIATE方法使中英需求追踪的MAP提升11.2%。这些突破性进展主要得益于LLM的三大特性：处理多语言混合制品的能力、通过Prompt工程实现的灵活交互方式，以及基于海量预训练获得的领域知识迁移能力。特别值得注意的是，在GitHub上12.7%的提交日志使用非英语（中文占28.6%）的现实中，LLM提供的多语言无缝对接能力具有特殊价值。

当前LLM应用仍面临"幻觉"、结果不一致等挑战。匡宏宇教授团队发现，不同Prompt设计会导致结果显著差异，简单的"Is (1) related to (2)"提问方式效果有限，而更复杂的链式思考(Chain-of-Thought)Prompt可将平均准确率提升8.7%。这提示我们，LLM在需求追踪中的最佳应用模式可能是"人在环路"(Human-in-the-Loop)的混合增强智能，而非完全自动化。正如峰会强调的观点："大模型的不确定性是其能力的源泉，我们需要学会与之'共舞'"。

未来展望：需求追踪如何赋能AI时代的BizDevOps实践

随着LLM技术持续演进，需求自动追踪正迎来其"黄金时代"。峰会描绘的未来图景显示，这一技术将沿着三个方向深度变革软件开发：首先是开发数据资产化，通过需求追踪建立的全链路关联网络，使代码、文档、测试用例等离散制品转化为可被大模型理解的结构化知识；其次是专用领域模型构建，企业在项目历史数据基础上训练垂直领域LLM，实现从通用能力到项目专属智能的跃迁；最后是开发流程再造，需求追踪支持的持续反馈将推动传统DevOps向更智能的BizDevOps进化。

南京大学团队提出的LLM-RAG(检索增强生成)架构颇具前瞻性。该方案将传统检索方法与LLM生成能力相结合，在实验系统中使VSM检索的MAP从70.7%提升至79.4%。更值得关注的是他们正在探索的"持续演进对话式追踪工具"，通过BERT提示模板融合开发过程特性，在Issue分类任务中使Recall@1提升13.2%-215.7%。这些创新不仅解决了当下痛点，更为AI时代的软件工程教育指明方向——未来的开发者培养需更强调系统思维和需求理解能力，而非仅仅关注编码技能。

行业实践也验证了这一趋势。国内头部企业如阿里、腾讯、网易等已在开源项目中广泛应用跨语言追踪技术；金融科技、智能电网等领域的合作项目则致力于将学术成果转化为工业级解决方案。《开发运维一体化成熟度模型》国家标准的制定，更为需求追踪技术的规模化应用提供了规范框架。可以预见，随着LLM技术平民化，曾经仅存在于军事和关键系统的需求追踪能力，将成为广大中小企业提升研发效能的"标配工具"，最终实现"开发效率持续提升→释放业务创新能量"的良性循环。

相关FAQs

什么是需求可追踪性？为什么它对软件开发如此重要？

需求可追踪性是指软件系统中各类制品（如需求文档、设计模型、源代码、测试用例等）之间基于系统功能建立的显式关联关系。这种关联网络能够回答与系统开发相关的各类问题，如"这个需求对应哪些代码实现"或"修改这段代码会影响哪些功能"。其重要性体现在三方面：对开发者而言，可快速理解代码与任务的关联，研究表明开发者阅读代码与编写代码的时间比超过10:1；对项目管理者，是治理复杂代码资产的关键工具；对组织整体，则是实现开发数据资产化、应用AI技术的基础。典型案例显示，具备良好需求追踪的系统，维护任务正确率可提高60%，效率提升20%。

大语言模型(LLM)如何改进传统需求自动追踪技术？

LLM从三个维度改进了传统技术：1)语义理解能力，通过海量预训练获得的语言理解能力，能更好跨越需求文本与代码间的"语义鸿沟"；2)多语言处理，直接处理中英混合的软件制品，避免翻译引入的信息损失，在中文占28.6%的非英语GitHub提交中特别有价值；3)交互灵活性，通过多轮Prompt工程逐步精确追踪需求，实验显示优化Prompt可使准确率提升8.7%。当前最有效的应用模式是LLM与传统检索方法结合，如LLM-RAG架构将VSM检索的MAP从70.7%提升至79.4%。

企业如何开始应用需求自动追踪技术？需要哪些准备工作？

企业可采用渐进式路径：1)从小规模试点开始，选择1-2个典型项目应用开源追踪工具；2)积累标注数据，收集开发者确认的正确追踪关系作为训练集，这是构建专用模型的基础；3)建立数据资产目录，对代码、文档、测试用例等制品进行标准化描述；4)选择合适技术路线，根据团队规模选择：中小企业可从LLM+Prompt工程入手，大型团队可考虑训练领域专用模型。关键成功因素包括：高层支持、开发者培训、与现有工具链集成。值得注意的是，国内企业实践表明，即使是代码以英文为主的项目，中文文档与注释的普遍存在也使跨语言追踪技术成为刚需。

需求自动追踪技术的准确性如何？是否存在验证方法？

当前技术水平下，完全自动化方案的准确率因方法和场景而异：传统检索方法(MAP 40-70%)，机器学习(50-75%)，深度学习(65-80%)，LLM在特定场景可达90%。验证需结合三方面：1)自动化指标如MAP(平均准确率)、AUC等；2)人工审核抽样检查关键追踪链路；3)实际效用评估通过A/B测试比较采用追踪技术前后的维护效率。值得注意的是，100%自动化可能并非最优选择，研究显示"人在环路"的半自动模式(开发者仅需验证5-10%关键节点)能在成本与质量间取得最佳平衡。南京大学团队的CLUSTER方法证明，结合少量用户反馈可使检索精度显著提升。