基于『成交数据』的股票联动研究
量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体股票研究。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,曾荣获AMMA优秀品牌力、优秀洞察力大奖,连续4年被腾讯云+社区评选为“年度最佳作者”。
标题:Co-trading networks for modeling dynamic interdependency structures and estimating high-dimensional covariances in US equity markets
作者:Yutong Lu股票研究,Gesine Reinert,Mihai Cucuringu
标题:Co-trading networks for modeling dynamic interdependency structures and estimating high-dimensional covariances in US equity markets
作者:Yutong Lu股票研究,Gesine Reinert,Mihai Cucuringu
受市场各参与方及资金流动等相互作用,不同股票之间往往会表现出价格联动或共振的现象股票研究。随着市场高频交易参与度的增加,这种共振的现象愈发明显。本文中,作者使用高频的成交数据来研究股票间共同成交(文中称为co-trading,即一只股票发生成交的极短时间内,另一只股票也发生成交)的现象,构建了co-trading network来对股票市场复杂的联动进行建模。
通过对co-trading network的分析与建模股票研究,作者主要有以下发现:
对股票进行基于co-trading network的聚类,聚类的结果与传统行业分类有较高重合度股票研究。但同时也包含了传统行业分类所不具有的信息,即同一聚类中有很多不属于同一行业的股票。
在2017-2019年期间,日度co-trading network中,不同行业的股票更加频繁的被聚在一起,说明不同行业股票之间的联动在逐步增加股票研究。
通过对co-trading network时序数据的分析,可以将市场清晰的分为三个阶段(regime)股票研究。
Co-trading矩阵与收益率协方差矩阵存在显著的关联性,说明共同成交能够显著解释股价的联动股票研究。
基于co-trading network改进的协方差矩阵,应用在组合优化中能够显著提高组合的夏普比率股票研究。
对股票进行基于co-trading network的聚类,聚类的结果与传统行业分类有较高重合度股票研究。但同时也包含了传统行业分类所不具有的信息,即同一聚类中有很多不属于同一行业的股票。
在2017-2019年期间,日度co-trading network中,不同行业的股票更加频繁的被聚在一起,说明不同行业股票之间的联动在逐步增加股票研究。
展开全文
通过对co-trading network时序数据的分析,可以将市场清晰的分为三个阶段(regime)股票研究。
Co-trading矩阵与收益率协方差矩阵存在显著的关联性,说明共同成交能够显著解释股价的联动股票研究。
基于co-trading network改进的协方差矩阵,应用在组合优化中能够显著提高组合的夏普比率股票研究。
如何使用高频数据来度量两个股票共同成交股票研究?
首先解释下什么是共同成交(co-trading),如上图所示,不同的点表示不同时间产生的成交股票研究。以成交 为例,把当前成交单前后 时间内(如500毫秒)发生的成交作为共同成交。那么图中 和 为 的共同成交。而 因为离 发生的时间超过了 ,所以不是。
我们可以统计两个股票在一段时间内发生共同成交的笔数股票研究,从而衡量它们共同成交的程度(co-trading score),文中给出以下公式:
看着有些复杂,实则很好理解股票研究。假设有两个股票i和j,我们使用它们最近一个交易日的所有成交单数据,那么:
分子的第一项表示股票i的所有成交单中,是股票j所有成交单的共同成交单的笔数股票研究。
分子的第二项表示股票j的所有成交单中,是股票i所有成交单的共同成交单的笔数股票研究。
分母表示股票i与股票j当日成交单笔数的开方乘积股票研究。
分子的第一项表示股票i的所有成交单中,是股票j所有成交单的共同成交单的笔数股票研究。
分子的第二项表示股票j的所有成交单中,是股票i所有成交单的共同成交单的笔数股票研究。
分母表示股票i与股票j当日成交单笔数的开方乘积股票研究。
同样以上图为例股票研究,假设蓝色点表示股票i,红色点表示股票j,那么它们的co-trading score计算如下:
1、站在股票i的角度, 属于 的共同成交, 不是股票i任何成交单的共同成交;分子第一项为1股票研究。
2、站在股票j的角度, 属于 的共同成交, 不是股票j任何成交单的共同成交;分子第二项为1股票研究。
3、分母为
如何构建共同成交网络(co-trading network)股票研究?
对股票池中,任意两个股票按找上述的方法计算co-trading score,就可以构建co-trading network股票研究。我们用co-trading score构成的矩阵表示这个网络,该矩阵有以下特点:
所有元素的值都大于0股票研究,
且是一个对称的矩阵股票研究。
计算出日度的矩阵,更长时间,如5日的矩阵可以用过去5个日度矩阵的均值表示股票研究。
所有元素的值都大于0股票研究,
且是一个对称的矩阵股票研究。
计算出日度的矩阵,更长时间,如5日的矩阵可以用过去5个日度矩阵的均值表示股票研究。
本文使用2017年至2019年,标普500成分股的成交数据进行实证分析,其中计算co-trading的时间间隔delta选用500毫秒股票研究。如下图,为使用全部样本数据构建的co-trading network。

以下是该网络中股票研究,使用eigenvector centrality作为影响力度量指标,排名前十的公司:

如果把所有股票的影响力(特征向量中心度股票研究,eigenvector centrality)根据GICS一级行业分类进行加总,我们可以看出信息技术、金融和通信服务行业的影响力最大:

如果把股票之间的co-trading score按照行业计算均值,可以构建如下行业间的关联图,其中变的宽度表示行业间共同成交的强弱股票研究。例如房地产和金融行业的共同成交的程度比其与其他行业更加明显。

对Co-trading network进行聚类分析
使用普聚类方法对co-trading network进行聚类分析,其中聚类簇群的数量是可以自定义的股票研究。
如下图,分别使用2017至2019年每年1月份的数据,构建了三个co-trading network,并在每个网络中选取了权重排名前1%的边股票研究。可以发现,在过去的3年中,行业间的co-trading越来越多。而如金融,地产及能源行业,它们行业内的co-trading反而越来越弱。这说明,co-trading随着时间的变化还是非常大的,对co-trading network进行时序的分析也尤为重要。

如果把每天的co-trading network使用上述方法取类为20个簇群,我们可以计算过取3年中任意两天聚类结果的相似度(对于两种聚类的相似度,作者参考Hubert和Arabie 1985,使用Adjusted Rand Index),并绘制以下热度图股票研究。可以看出,沿着热度图左上至右下方向夜色越来越深,而且按颜色深浅可以明显分为三个区域,说明市场存在3个不同的regime。

对以上热力图进行普聚类股票研究,过去三年,每天所属簇群的结果如下:

Co-trading network与收益率协方差矩阵的关系
对股票收益率协方差矩阵与co-trading network(下式C)及股票行业分类(下式S股票研究,作为控制变量)进行回归分析:
使用quadratic assignment procedure (QAP)方法进行回归,结果如下,可以看出co-trading network与协方差矩阵之间的关系显著为正股票研究。

co-trading network是否能提高组合表现股票研究?
对于一个线性因子模型:
协方差可以用以下等式表示:
参考Ait-Sahalia和Xiu (2017)股票研究,上式右边两项可以由特征值及特征向量进行估计:
其中第二项表示股票的特质收益矩阵,参考Ait-Sahalia和Xiu (2017),为了提高协方差估计的稳健性,可以对特质收益矩阵进行过滤,仅保留在某一分类方法下属于同一聚类的元素值股票研究。作者分别使用了基于GICS的固定分类及基于co-trading network的时变聚类法。使用基于前一交易日5分钟数据计算的协方差矩阵作为对于下一交易日的协方差估计,并测试全局最小方差组合的收益。以下是两个分类方法的对比,可以明显看出基于co-trading聚类作为分类的方法明显优于GICS,策略的表现更加稳健,夏普比率更高:

参考文献
Lu, Yutong and Reinert, Gesine and Cucuringu, Mihai, Co-trading networks for modeling dynamic interdependency structures and estimating high-dimensional covariances in US equity markets (February 18, 2023).
Yacine Ait-Sahalia and Dacheng Xiu. "Using principal component analysis to estimate a high dimensional factor model with high-frequency data". In: Journal of Econometrics201.2 (2017), pp. 384–399.
David Dekker, David Krackhardt, and Tom AB Snijders. "Sensitivity of MRQAP tests to collinearity and autocorrelation conditions". In: Psychometrika 72.4 (2007), pp. 563–581.









评论