注册 投稿
经济金融网 中国经济学教育科研网 中国经济学年会 EFN通讯社

傅刚: 机器学习在金融中的作用

10月29日,2016北京大学全球金融论坛暨北京大学金融校友联合会年会在北京大学汇丰商学院召开。河东资产首席投资官傅刚受邀在分论坛发表题为《机器学习在金融中的作用》的演讲,本文内容根据演讲实录整理而成。

大家好!

今天会议题目的安排非常有意思,方总(方健,厚泽投资董事长) 讲的是政策分析,秦总(秦逸飞,中信鼎峰基金执行董事)讲的是宏观分析,徐总(徐可,大智慧股份有限公司董事总经理)提到了一个新技术在金融领域中的应用。资产管理有风险回报的基本概念,中国的政策风险和回报是高于宏观的。

对我们做二级市场投资的来讲,虽然我们也可以讨论政策风险和宏观风险,但是在某种程度上,这是一个外部的、不可控的变量,我今天主要讨论可以控制的部分。   现在,河东资产90%的国内业务是二级市场上的量化股票投资。一说到股票的量化投资,大家会有一些先入为主的印象,认为是绝对收益。其实“量化”这个概念很复杂。在2006、2007年的时候,河东投资就进入量化投资领域,体会到10年以来量化投资技术本身飞速的发展。

20世纪80年代,一周一次已经属于高频交易了,而现在已经到了秒级,甚至在一些更高频的数据下,我们要对时间都要打一个GPS的标注。

七八年前,我们的建模还是由金融系的教授牵头,用SAS等统计软件来进行回测,可能二三十天完成一次测试。但是时至今日,我们更多的是利用了C++开展大规模数据的计算,几个小时就会有结果。

这几年,“机器学习”是一个新的热词,本质上是一种新的数据处理和统计的方法,对二级市场的股票投资也有直接的影响。今天我想借这个机会,分享一下机器学习在股票投资中的实际案例。

案例一:多因子模型——新基准系列   

在股票领域,多因子模型已经成为主流了。在美国、日本等成熟的市场,90%的资金都是沿着这个方向在做。    多因子模型起源于Eugene F. Fama和Kenneth R. French提出的著名三因子模型,这三个因子可以解释市场上绝大部分的回报。中国目前还处在早期阶段,但是也可以看到这个趋势。
\

每一年,都有几个表现优秀的基金经理冒出来,有各式各样的主题投资,比如具有互联网、新经济特点的。我们看到的各式各样的因子在起作用。比如2015年,A股市场是小盘股跑赢。如果在A股的市场上去买最小的市值的几只股票,可能会超过99%的基金经理。到了2016年,做价值投资的基金经理表现得很好,但2015年做价值投资的基金经理的表现就不太乐观。现在的多因子模型已经发展到了一个很复杂的阶段了,有价值、质量、情绪(投资者情绪)和动量等等。很多做量化的基金经理都使用这个框架,然后发现自己的因子。

现在,这一套方法框架2在海外已经获得了非常充分的应用,大家经常听到一些指数投资,聪明指数等等,也是基于这个框架。
\
这是我们在国内做的所谓稳健的版本,名字叫“新基准20”。新基准20是什么意思?他的目标波动率是20%,去年股灾期间的最大回撤是15%。 这是一个偏向大盘股比较稳健的多因子模型。

在过去10年里,新基准20的年化回报能达到30%,有90%的股票是和指数成分股重叠的。这是我们用传统方法做得比较稳健的版本。
\

上图是激进的版本——“新基准50”,在这个版本里,我们放大了各式各样的风险。

1、它和指数成分股的重叠只有10%;

2、这是一个周度换仓的模型;

3、它的目标波动率会放大到50%。

在2008年的时候,它的回撤超过了50%。

传统的多因子模型在A股的市场上目前有很好的效果,但用这样的模型,在未来的10年里是不是就可以获得150倍以上的回报?显然是不可能的。为什么?里面有两层原因:

首先,做任何量化投资模型的时候,都有一个重要的考量,即投资规模。

大家都知道,巴菲特是全世界投资领域的大师,长期年化回报有20%左右,过去的10年应该是低于20%的,但是他的水平还是远远地高过我们。为什么?因为他管理的是几百亿美金,甚至是上千亿美金。在新基准20的组合里里有90%是中小盘的股票,大家可以想象的到,单只股票投资的规模应该很难超过2000万。如果以2000万为限,这里面有100只股票,可能就是10-20亿的规模,是这个模型管理的极限。对于一个大的机构投资人来讲,这样的规模是非常小的。

其次,只要是量化投资,本质上是可复制的,不是只有我们在投资。市场上也会有很多其他类似的基金经理,他们可能有自己的模型,但是大家都投资同一种因子或者是说风险的因素。虽然去年这个模型的回报超过了了200%,今年年初至今大概有30%,它是有效的,但是可以预期未来它的回报会越来越低。

美国可能用了20-30年的时间普及这种投资理念,我估计五年之后,这个理念就会完全被中国投资界的主流接受了。

作为行业里做量化投资的团队,我们要考虑一些新的东西,包括使用新的方法和数据。下面讲一讲如何用机器学习来进一步提高多因子模型的回报,让它更加动态化。

传统的多因子模型是一种自上而下的分层的结构,有一个总体的目标,下面分了几类的因子,每一个类别下面又有各种子因子。我们做得的是给因子配置权重,再根据每个因子给股票打分,再把分数加总在一起,对这些股票进行排名。每周或每月更新一次之后,找出分数最高的100只到200只股票,进行统一的买入。

显然这种方式的好处很容易理解。我是北大光华管理学院毕业的文科生,也能够非常清楚地理解内在的逻辑,用Excel表格就能够对这种股票的打分进行很好的管理。但显然这种方法并不是最优的,里面有大量的不够动态和有待优化的地方。
\

这是使用了机器学习的新模型。这些因子之间并不是完全独立的,而是互相产生作用的。所以,我们做的事情是建立一个网络,每一个点都是不同的因子。现在放了30多个因子进去,然后通过机器的学习,找出每一个因子相互之间的关系,以及到最后的结果,最下面这个点是各股未来的回报。把这个模型的架构从一个层次的架构变成一个网络的架构。类似的想法我们十多年前已经讨论过了,从理论的角度来讲,做这件事情会很有意义,但是实际操作的时候非常难,所以一定要有好的工具去进行这些复杂的计算。研究因子和股票关系的同时,也研究因子互相之间的关系,这是第一步。

其次,传统的多因子模型对每只股票都是这么多因子,互相之间的权重是一致的。而新的模型针对每一只股票都不一样。
\

图上的蓝线是计算机预测出来的每一只个股预期收益的水平,黑点是实际的回报,旁边上下的蓝色的虚线是置信区间,针对每一只个股都有比较精准的预测。
\

上图是选出这只股票之后每一天的回报,可以看到预测的alpha在一个月内都非常显著。
\

做出来之后的初步结果比较令人满意,这是里面不同的版本,还在不停地迭代。可以看到,使用了金融机器学习的方法之后,结果与最初显示的传统因子模型稳健版本的结果是相当的,还没有超越它。但是我们对这个项目的前景非常乐观。

为什么作为一个新的模型,在目前阶段,还只是让它在指数成分里选股?我们充分地相信,如果把这个模型放到整个市场里,回报率就会进一步地提升。

其次,一些关键的因子还没有放进去,比如说分析师预测。还有一些大数据没有放进去,如果放进去,相信回报也会有一个显著的提升。

我们现在面临一个挑战——机器学习对计算能力要求超过了我们原来的预期。为了做这个项目,我们专门买了60多万的服务器,本来以为足够了,结果跑到现在这个阶段,负载已经80%了,我们本来是想把2000多只股票放进去,但是现在似乎要改进算法或者通过云服务才可以做到。
\

前面展示的这张网络图上只有编码,没有定义,我们在建模的过程中,实际上是把所有的因子进行了变异处理,研究员看到的所有因子都是处理过的,完全不知道代表什么。可以说,这个结果要比我们的预期好很多。

下一步,用机器学习的方法来建模有跨代的优势,我们想挑战目前做不到的任务。

比如,因子择时。择时的概念很容易说,比如市场好的时候去买强势股,市场不好的买价值股。但是建模的时候,实际上很难对每个因子进行择时,我说现在应该买小盘股还是价值股,说容易,做很难。所以海内外都有大量的研究,对因子去进行择时。到目前为止,我还没有看到当中有一个特别好的结果。

我们非常希望用机器学习的方法,能够把市场整体的估值水平和趋势,甚至是GDP之类的宏观数据放在模型内部,去看有什么样的影响。

再说说非传统数据,现在的大数据有社交媒体里的数据,我们也采购了这样的数据。但社交媒体的数据历史太短了,我们现在采购到的质量比较好的、靠谱的数据大概只有三年左右的历史。

一般建模起码是10年到20年的数据,有的数据从80年代开始就有了,跨越了几个牛熊周期。如果数据只有三年的历史,例如13年到15年整体而言是非常强的牛市,拿牛市的环境下的数据来做建模基础的话,很可能是不准确的。

所以我们采购的大数据,并没有应用到实际投资策略当中,目前只是研究。有些很有意思的发现,其实每个人都可以做.比如大家去东方财富网的股吧找每一只股票的帖子数,没有帖子的公司大概有一半,其实这就代表了个股的热度和冷度。没有帖子的股票平均回报更高。

案例二:智能投顾——股小量
\

1.股小量是谁?

这个智能投顾的名字叫“股小量”,大家上网搜索、在360的APP里都可以下载,是一个独立的团队做的,我们的参与团队很有意思,给它做了人性化的定义,股小量是一个男孩,他的风格贱贱的,一开始会跟人说黄色笑话。大家说要改,不能太贱。股小量是专注于股市的智能投顾,50%关注在股票上,40%关注在基金上,10%关注在其他投资领域,基于对话流提供决策支持服务。

2.股小量能做什么?

问题1:90%的投资者有投资焦虑症

A股市场里有一个特点,主要的投资人还是以散户为主,散户的第一特性是过度交易, 90%的投资者有投资焦虑症,由于股价的无效波动,导致投资人不停交易和频繁关注行情。行情扑朔迷离,用户出现无助感,在微博、微信、QQ等各种在线社群寻找“专家”。过多的信息输入,让用户决策困难,更加焦躁不安。市场一跌就害怕了,就想跑;市场稍微好一点就想杀进去,需要有一个人和他沟通。现在这个沟通工作是由各家证券公司大量的第一线服务人员来完成。

在证券公司的分行,有大户室、中户室、小户室,投资人坐在一起聊股票、打乒乓球等,实际上就是在寻找一种心理安慰。而股小量是能够释放一些投资人情绪上的焦虑,给予用户依靠感。
\

股小量可以帮你查询与股票相关的信息和新闻。很多炒股软件也有这样的功能,但是股小量是通过语言的环境来实现这样的功能。

问题2:投资者决策效率和准确率低

很多时候,投资人对自己的投资是需要一些指导的。由于信息量大,导致投资者感觉迷茫,选择性障碍症普遍出现,决策效率低。普通投资者缺少投资技巧,缺少基本面和技术面分析知识,决策准确率低。大部分的投资人其实不知道自己是赚还是赔,而股小量能够提供专业上的精准决策支持。
基于知识图谱技术和语义识别,股小量能够回答诸如“这股怎么样”、“什么时候卖”、“还能不能持有”、“这几个股哪个更好”、“怎么解套”等90%的常见问题。同时,股小量保持平均70%的预警成功率,能精准预测变盘拐点,准确识别机会和风险。

问题3:投资者缺少交易技巧

投资者经常面对选对股,仍然亏损的现状,这是投资者缺少足够交易技巧造成的。选股和交易本身并不是一个概念。其实,即便选错股,如果有好的交易技巧,仍然可以实现盈利。因为股价的波动带来的波峰波谷之间的落差,就是盈利的空间。所以,交易技巧关注的是:只要有波动,就有潜在利润。而股小量能自动量化交易辅助用户,基于独有算法,根据用户交易风格(包含:未知/普通、激进、稳健、保守)来提供有针对性的交易指导建议。用户添加自选股之后,机器人将帮助用户寻找买卖机会,并通过APP或短信提示用户买卖金额、数量和价位。

股小量能接入一些外部团队量化的策略和选股的方法,对投资人提供专业服务。

3. 股小量的核心技术

股小量前台的东西还是比较直接的,更多的像是一个直播的聊天机器人,集中70%、80%的精力在股票投资领域,背后还是技术的支持。
\

⑴自然语义

中文相对来说是比较复杂的语言,所以现在并不是完全靠机器学习来做,也会加一部分人工的指导。做机器学习的时候,把专家的输入和人工智能结合在一起,在技术还没有发展到一定水平的阶段下,可以大大提高效率。

⑵知识矩阵

把客户的问题结合起来,将现有的数据结构化。

⑶市场情绪分析

与客户沟通的时候,股小量一方面是回答问题,另一方面也是输入者,客户问的问题、语义的环境也是一种收集的概念。用户达到一定规模之后,能够使用这种带有情绪和热度的数据,反过来对个股的走势进行更精准的判断。

目前,股小量和证券公司(已经敲定一家)合作,会把系统接入到客户的APP当中,这样客户的量级就会有一个比较快速的增长。

毕马威预测,到了2030年,传统的银行就不会存在了。无论是现在投资者到柜台需要回答的问题,还是一些比较人性化的问题,聊天机器人回答不了的用直播就可以了,大家就不需要再去银行分行了。股小量这样的聊天机器人取代的是传统券商的一线人员,以后客户的绝大部分问题都可以在APP里面直接被回答,回答的质量会比普通的一线人员更高。

结语

在投资领域,尤其是二级市场的投资领域,与其它领域相比,计算机化的程度并不高,。我们现在还是一些比较粗浅的尝试,但如果未来的计算机,尤其是一些新的技术和新的计算能力进入这个领域,行业就会发生翻天覆地的变化。

我们现在正处在这个变化的前夜,每个人都在用传统的量化方法往前奔跑,但未来5年、10年之后,很难继续维持这样的方式。我相信在未来的某一天,你会突然发现,海外的被动投资、量化投资等理念会被大量地接受,成为主流。如果发生的时候,作为从业人员,我们都要想一下可以做一些什么。

我今天的分享就到这里,谢谢大家!
 
( 作者:傅刚,河东资产首席投资官。编辑:郭倩。本文内容由经济金融网编辑根据演讲实录整理而成,经本人确定发布。如需转载,请联系授权,并标明出处。)

文章评论
关注我们

快速入口
回到顶部
深圳网站建设