DeepSeek优化价量因子提升选股能力超10%

用DeepSeek优化价量因子
本篇文章的部分核心观点、图表及数据,出自信达证券于2025年3月24日发布的报告《用DeepSeek优化价量因子》,如需获得原文,请前往文末下载。

在金融科技与量化投资深度融合的今天,人工智能技术正以前所未有的速度重塑传统金融研究的方法论。作为国内领先的综合性券商,信达证券一直走在金融科技创新的前沿,其研发中心近期发布的《深度学习揭秘系列之三:用DeepSeek优化价量因子》研究报告,展示了大型语言模型在量化因子工程中的突破性应用。本文将深入剖析信达证券如何借助DeepSeek这一先进AI技术,实现对传统价量因子的优化与创新,并取得显著的投资绩效提升。

一、信达证券:金融科技赋能的行业先锋

信达证券成立于2007年,是中国信达资产管理股份有限公司控股的全国性综合类证券公司。经过十余年的发展,公司已形成覆盖证券经纪、投资银行、资产管理、研究咨询等全方位的业务体系,并在金融科技领域持续投入,建立了强大的研发能力。公司研发中心近年来在量化投资领域频频发力,其"深度学习揭秘"系列研究报告已成为业内关注的重要参考。

2025年3月,信达证券金融工程团队发布的最新研究报告显示,通过引入DeepSeek大语言模型,团队成功构建了"优化-验证-再迭代"的因子研究新范式。这一创新方法不仅显著提升了传统Alpha158价量因子的预测能力,更开创性地实现了从零生成有效因子的突破。研究结果显示,优化后的因子组合在中证800指数增强策略中实现了年化超额收益7.92%,较原始因子组合提升近1个百分点,信息比率从1.63提升至1.89。

信达证券这一研究成果的重要意义在于,它打破了传统量化研究中人工设计因子的局限性,通过AI模型的自我学习和迭代优化,发现了人力难以察觉的市场规律。这种方法论的创新不仅提升了投资绩效,更为整个行业提供了可复制的技术路径。随着AI技术在金融领域的深入应用,信达证券凭借其前瞻性的布局和扎实的研究能力,正逐步确立在智能量化投资领域的领先地位。

二、DeepSeek优化价量因子的方法论突破

信达证券研究团队在报告中详细阐述了基于DeepSeek的因子优化框架,这一创新方法论的核心在于将大语言模型的自然语言处理能力与量化研究的专业需求相结合。研究以Qlib集成的Alpha158价量因子为基础,该因子集涵盖日内、波动、价格、成交量及量价相关性五大类共158个因子,是业内广泛使用的标准化因子库。

表:Alpha158因子分类及示例

因子类别 数量 典型因子示例 计算逻辑
日内因子 13个 HIGH0 最高价除以收盘价
波动因子 5个 std20 过去20天收盘价标准差除以收盘价
价因子 100个 ma20 20日简单移动平均线除以收盘价
量因子 30个 vma20 20日成交量移动平均除以当日成交量
量价相关性因子 10个 corr20 价格变化率与成交量变化率的20日相关性

研究团队设计了精细的Prompt Engineering流程与DeepSeek进行交互。初始prompt明确将AI定位为"资深量化选股因子专家",并提供可用变量、算子代码以及严格的约束条件。优化过程中采用多轮迭代策略:对每个因子至少进行3次深度优化,若RankIC均值达到原始因子的1.5倍则终止优化;否则最多尝试5次后输出最佳结果。这一流程既保证了优化的充分性,又避免了过度拟合。

研究结果显示,DeepSeek对多数因子实现了显著提升。在测试的29个窗口期因子中,22个因子的RankIC均值获得提升,其中15个提升幅度超过1.2倍,10个超过1.5倍。ICIR指标同样表现优异,23个因子实现提升,14个提升超过1.2倍,10个超过1.5倍。尤为值得注意的是,优化后的因子在不同时间窗口(5/10/20/30/60日)下均保持稳定的提升态势,证明了AI优化结果的普适性。

以波动率因子std20为例,DeepSeek通过三次关键改进实现了质的飞跃:第一次引入平均真实波幅(ATR)概念,RankIC均值从4.03%提升至6.18%;第二次增加成交量加权机制和EMA双重平滑,RankIC进一步提升至7.8%;第三次创新性地加入四维波动极值捕捉和方向敏感系数,虽然RankIC略降至7.01%,但ICIR从原始的0.31跃升至0.79,年化多空收益从7.33%大幅提升至51.10%。这一案例充分展示了AI在因子优化中的多维思考能力。

三、从因子优化到因子生成的范式革命

信达证券研究并未止步于既有因子的优化,更进一步探索了从零生成新因子的可能性。初始尝试让DeepSeek独立生成因子,经过20次迭代后效果仍不理想,最佳因子的ICIR仅0.59,未达0.8的目标。这一结果表明,完全从零开始生成有效因子存在较大挑战。

研究团队随后调整策略,将Alpha158原始因子及优化后的成功案例作为先验知识输入模型,结果取得突破性进展。在有限测试中,DeepSeek成功生成5个ICIR超过0.8的新因子,且与样例因子的相关性大多低于50%,实现了真正的增量创新。

表:DeepSeek生成的新因子表现

因子序号 因子表达式关键特征 RankIC均值 ICIR 与样例因子平均相关性
因子1 量价协同增强效应 6.74% 0.83 21.85%
因子2 量价共振强度维度 6.56% 0.82 13.39%
因子3 价格收益率与成交量突破结合 5.17% 0.65 14.77%
因子4 标准化价格与成交量变化交互 5.38% 0.64 17.13%
因子5 多维波动冲击指标 8.76% 0.87 15.94%

第一个成功因子通过"上涨日量价动量-下跌日量价惩罚"的双向驱动逻辑,捕捉量价协同增强效应;第二个因子则聚焦量价共振强度,通过价格收益率与成交量突破EMA方向的交互,构建纯净动量信号。这些因子不仅逻辑清晰,而且与现有因子库的相关性低,为组合优化提供了真正的增量信息。

将原始因子、优化因子与新生成因子通过Lasso模型合成后,复合因子在全A股票范围内的RankIC均值达到11.41%,较原始因子组合的10.6%显著提升。落实到中证800指增组合,复合因子月频RankIC均值从9.01%提升至10%,ICIR从0.93提升至1.01,年化超额收益从7.05%提升至7.92%,信息比率从1.63提升至1.89。这一系列提升验证了DeepSeek在因子工程中的实际价值。

信达证券的这一研究开创了基于大语言模型的因子研究新范式,其意义不仅在于短期绩效的提升,更在于提供了一种可持续的因子迭代机制。随着AI技术的不断进步,这种"人类设计框架+AI优化创新"的协作模式有望释放更大的潜力,推动量化投资进入智能化新阶段。

常见问题解答(FAQs)

Q1: 信达证券使用的Alpha158因子库包含哪些类型的因子?

A1: Alpha158因子库包含五大类因子:13个日内因子(如最高价除以收盘价)、5个波动因子(如20日收盘价标准差)、100个价因子(如移动平均线)、30个量因子(如成交量移动平均)和10个量价相关性因子(如价格与成交量变化的相关性)。这些因子考虑了5/10/20/30/60日等不同窗口期,共计158个因子。

Q2: DeepSeek优化后的因子在不同时间窗口下的表现如何?

A2: 测试显示优化后的因子在不同时间窗口(5/10/20/30/60日)下均保持稳定的提升态势。以std20因子为例,原始因子在5/10/20/30/60日窗口下的RankIC均值分别为5.55%/5.19%/4.03%/3.42%/2.33%,而优化后提升至8.43%/8.37%/7.79%/7.23%/5.95%,证明AI优化的因子具有跨周期普适性。

Q3: 从零生成因子与基于案例生成因子的效果有何差异?

A3: 从零生成因子效果较差,20次迭代后最佳因子的ICIR仅0.59;而基于Alpha158成功案例生成因子效果显著提升,在有限测试中就获得了5个ICIR超过0.8的因子。这表明在因子生成任务中,为AI提供优质先验知识至关重要。

Q4: 复合因子在中证800指增组合中的实际表现如何?

A4: 复合因子在中证800指增组合中表现优异:月频RankIC均值从9.01%提升至10%,ICIR从0.93提升至1.01,年化超额收益从7.05%提升至7.92%,信息比率从1.63提升至1.89。这证明优化和新增因子带来了实质性的绩效提升。

Q5: 这项研究的主要风险是什么?

A5: 研究的主要风险在于结论基于历史数据,当市场环境发生结构性变化时,模型可能失效。此外,AI生成的因子逻辑复杂度较高,可能增加过拟合风险,需要持续监控其样本外表现。

相关深度报告

用DeepSeek优化价量因子

用DeepSeek优化价量因子

报告介绍:本报告由信达证券于2025年3月24日发布,共38页,本报告包含了关于DeepSeek,机器学习的详细内容,欢迎下载PDF完整版。