证券研究报告
金工研究/深度研究
2017 年08 月17 日
林晓明执业证书编号:S0570516010001 人工智能选股之朴素贝叶斯模型
研究员 0755-82080134
linxiaoming@ 华泰人工智能系列之四
陈烨 010-56793927
本报告对朴素贝叶斯模型及线性判别分析、二次判别分析进行系统测试
联系人 chenye@
“生成模型”是机器学习中监督学习方法的一类。与“判别模型”学习决
相关研究
策函数和条件概率不同,生成模型主要学习的是联合概率分布𝑃(𝑋, 𝑌)。本
1《金工: 基于 DDM 模型的板块轮动探索》文中,我们从朴素贝叶斯算法入手,分析比较了几种常见的生成模型(包
括线性判别分析和二次判别分析)应用于多因子选股的异同,希望对本领
2《金工: 人工智能选股之支持向量机模型》域的投资者产生有实用意义的参考价值。
3《金工: 华泰价值选股之相对市盈率港股模朴素贝叶斯模型构建细节:月频滚动训练,结合基于时间序列的交叉验证
朴素贝叶斯模型的构建包括特征和标签提取、特征预处理、训练集合成和
型》
滚动训练等步骤。我们的模型设置为月频换仓,在每个月月底重新训练并
交叉验证一次。我们采用了一种基于时间序列的交叉验证方法,其核心思
想在于,交叉验证集中的样本在时间序列上始终位于训练集样本之后,验
证时不会用到未来信息。交叉验证结果显示,训练期越长、模型预测效果
越好。最终在每个月底可以产生对全部个股下期上涨概率的预测值,然后
根据正确率、AUC 等指标以及策略回测结果对模型进行评价。
朴素贝叶斯在指数成份内选股效果较好,线性判别分析全 A 选股效果较好
对于沪深 300 成份股内选股的行业中性策略(每个行业选 5 只个股),朴
素贝叶斯、线性判别分析和二次判别分析的年化超额收益率分别为 %、
%、%,信息比率为 、、。对于中证 500 成份股内
选股的行业中性策略,三种方法年化超额收益率分别为 %、%、
%,信息比率为 、、。对于全 A 选股的行业中性策略,
三种方法相对于中证 500 的年化超额收益率分别为 %、%、%,
信息比率为 、、。总体而言,朴素贝叶斯在沪深 300 和中证
500 成份内选股表现较优,线性判别分析全 A 选股表现较好。
线性判别分析法的分类效果最佳,其在某种意义下等价于线性回归
经过对比,我们发现线性判别分析法的测试集正确率、AUC 普遍优于其它
算法。通过简单的计算,我们发现股票的特征因子之间存在着相关性,且
对于不同类别的股票这种相关性几乎一致,线性判别分析的假设最符合实
际情况。在二分类问题中,线性判别分析在某种意义上等价于线性回归,
所以这进一步证明了线性回归在多因子选股体系中的优异性。同时,我们
发现虽然高斯朴素贝叶斯的假设在实践中不合理,但其依旧表现出了良好
的分类效果,并且是稳健的,常见的改进方法对结果影响并不大。
风险提示:通过朴素贝叶斯、LDA、QDA 模型构建选股策略是历史经验的
总结,存在失效的可能。
谨请参阅尾页重要声明及华泰证券股票和行业评级标准 1
金工研究/深度研究| 2017 年 08 月 17 日
正文目录
本文研究导读.................................................................................................................... 4
朴素贝叶斯模型及其拓展.................................................................................................. 5
朴素贝叶斯模型介绍.................................................................................................. 5
贝叶斯公式的思想............................................................................................. 5
“朴素”的假设...........
华泰人工智能系列之四:人工智能选股之朴素贝叶斯模型 来自淘豆网m.daumloan.com转载请标明出处.