基于『成交数据』的股票联动研究

Connor 币安交易所 2023-03-21 209 0

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体股票研究。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，曾荣获AMMA优秀品牌力、优秀洞察力大奖，连续4年被腾讯云+社区评选为“年度最佳作者”。

标题：Co-trading networks for modeling dynamic interdependency structures and estimating high-dimensional covariances in US equity markets

作者：Yutong Lu股票研究，Gesine Reinert，Mihai Cucuringu

标题：Co-trading networks for modeling dynamic interdependency structures and estimating high-dimensional covariances in US equity markets

作者：Yutong Lu股票研究，Gesine Reinert，Mihai Cucuringu

受市场各参与方及资金流动等相互作用，不同股票之间往往会表现出价格联动或共振的现象股票研究。随着市场高频交易参与度的增加，这种共振的现象愈发明显。本文中，作者使用高频的成交数据来研究股票间共同成交（文中称为co-trading，即一只股票发生成交的极短时间内，另一只股票也发生成交）的现象，构建了co-trading network来对股票市场复杂的联动进行建模。

通过对co-trading network的分析与建模股票研究，作者主要有以下发现：

对股票进行基于co-trading network的聚类，聚类的结果与传统行业分类有较高重合度股票研究。但同时也包含了传统行业分类所不具有的信息，即同一聚类中有很多不属于同一行业的股票。

在2017-2019年期间，日度co-trading network中，不同行业的股票更加频繁的被聚在一起，说明不同行业股票之间的联动在逐步增加股票研究。

通过对co-trading network时序数据的分析，可以将市场清晰的分为三个阶段（regime）股票研究。

Co-trading矩阵与收益率协方差矩阵存在显著的关联性，说明共同成交能够显著解释股价的联动股票研究。

基于co-trading network改进的协方差矩阵，应用在组合优化中能够显著提高组合的夏普比率股票研究。

在2017-2019年期间，日度co-trading network中，不同行业的股票更加频繁的被聚在一起，说明不同行业股票之间的联动在逐步增加股票研究。

展开全文

通过对co-trading network时序数据的分析，可以将市场清晰的分为三个阶段（regime）股票研究。

Co-trading矩阵与收益率协方差矩阵存在显著的关联性，说明共同成交能够显著解释股价的联动股票研究。

基于co-trading network改进的协方差矩阵，应用在组合优化中能够显著提高组合的夏普比率股票研究。

如何使用高频数据来度量两个股票共同成交股票研究？

首先解释下什么是共同成交（co-trading），如上图所示，不同的点表示不同时间产生的成交股票研究。以成交为例，把当前成交单前后时间内（如500毫秒）发生的成交作为共同成交。那么图中和为的共同成交。而因为离发生的时间超过了，所以不是。

我们可以统计两个股票在一段时间内发生共同成交的笔数股票研究，从而衡量它们共同成交的程度（co-trading score），文中给出以下公式：

看着有些复杂，实则很好理解股票研究。假设有两个股票i和j，我们使用它们最近一个交易日的所有成交单数据，那么：

分子的第一项表示股票i的所有成交单中，是股票j所有成交单的共同成交单的笔数股票研究。

分子的第二项表示股票j的所有成交单中，是股票i所有成交单的共同成交单的笔数股票研究。

分母表示股票i与股票j当日成交单笔数的开方乘积股票研究。

分子的第一项表示股票i的所有成交单中，是股票j所有成交单的共同成交单的笔数股票研究。

分子的第二项表示股票j的所有成交单中，是股票i所有成交单的共同成交单的笔数股票研究。

分母表示股票i与股票j当日成交单笔数的开方乘积股票研究。

同样以上图为例股票研究，假设蓝色点表示股票i，红色点表示股票j，那么它们的co-trading score计算如下：

1、站在股票i的角度，属于的共同成交，不是股票i任何成交单的共同成交；分子第一项为1股票研究。

2、站在股票j的角度，属于的共同成交，不是股票j任何成交单的共同成交；分子第二项为1股票研究。

3、分母为

如何构建共同成交网络（co-trading network）股票研究？

对股票池中，任意两个股票按找上述的方法计算co-trading score，就可以构建co-trading network股票研究。我们用co-trading score构成的矩阵表示这个网络，该矩阵有以下特点：

所有元素的值都大于0股票研究，

且是一个对称的矩阵股票研究。

计算出日度的矩阵，更长时间，如5日的矩阵可以用过去5个日度矩阵的均值表示股票研究。

所有元素的值都大于0股票研究，

且是一个对称的矩阵股票研究。

计算出日度的矩阵，更长时间，如5日的矩阵可以用过去5个日度矩阵的均值表示股票研究。

本文使用2017年至2019年，标普500成分股的成交数据进行实证分析，其中计算co-trading的时间间隔delta选用500毫秒股票研究。如下图，为使用全部样本数据构建的co-trading network。

基于『成交数据』的股票联动研究

以下是该网络中股票研究，使用eigenvector centrality作为影响力度量指标，排名前十的公司：

基于『成交数据』的股票联动研究

如果把所有股票的影响力（特征向量中心度股票研究，eigenvector centrality）根据GICS一级行业分类进行加总，我们可以看出信息技术、金融和通信服务行业的影响力最大：

基于『成交数据』的股票联动研究

如果把股票之间的co-trading score按照行业计算均值，可以构建如下行业间的关联图，其中变的宽度表示行业间共同成交的强弱股票研究。例如房地产和金融行业的共同成交的程度比其与其他行业更加明显。

基于『成交数据』的股票联动研究

对Co-trading network进行聚类分析

使用普聚类方法对co-trading network进行聚类分析，其中聚类簇群的数量是可以自定义的股票研究。

如下图，分别使用2017至2019年每年1月份的数据，构建了三个co-trading network，并在每个网络中选取了权重排名前1%的边股票研究。可以发现，在过去的3年中，行业间的co-trading越来越多。而如金融，地产及能源行业，它们行业内的co-trading反而越来越弱。这说明，co-trading随着时间的变化还是非常大的，对co-trading network进行时序的分析也尤为重要。

基于『成交数据』的股票联动研究

如果把每天的co-trading network使用上述方法取类为20个簇群，我们可以计算过取3年中任意两天聚类结果的相似度（对于两种聚类的相似度，作者参考Hubert和Arabie 1985，使用Adjusted Rand Index），并绘制以下热度图股票研究。可以看出，沿着热度图左上至右下方向夜色越来越深，而且按颜色深浅可以明显分为三个区域，说明市场存在3个不同的regime。

基于『成交数据』的股票联动研究

对以上热力图进行普聚类股票研究，过去三年，每天所属簇群的结果如下：

基于『成交数据』的股票联动研究

Co-trading network与收益率协方差矩阵的关系

对股票收益率协方差矩阵与co-trading network（下式C）及股票行业分类（下式S股票研究，作为控制变量）进行回归分析：

使用quadratic assignment procedure (QAP)方法进行回归，结果如下，可以看出co-trading network与协方差矩阵之间的关系显著为正股票研究。

基于『成交数据』的股票联动研究

co-trading network是否能提高组合表现股票研究？

对于一个线性因子模型：

协方差可以用以下等式表示：

参考Ait-Sahalia和Xiu (2017)股票研究，上式右边两项可以由特征值及特征向量进行估计：

其中第二项表示股票的特质收益矩阵，参考Ait-Sahalia和Xiu (2017)，为了提高协方差估计的稳健性，可以对特质收益矩阵进行过滤，仅保留在某一分类方法下属于同一聚类的元素值股票研究。作者分别使用了基于GICS的固定分类及基于co-trading network的时变聚类法。使用基于前一交易日5分钟数据计算的协方差矩阵作为对于下一交易日的协方差估计，并测试全局最小方差组合的收益。以下是两个分类方法的对比，可以明显看出基于co-trading聚类作为分类的方法明显优于GICS，策略的表现更加稳健，夏普比率更高：

基于『成交数据』的股票联动研究

参考文献

Lu, Yutong and Reinert, Gesine and Cucuringu, Mihai, Co-trading networks for modeling dynamic interdependency structures and estimating high-dimensional covariances in US equity markets (February 18, 2023).

Yacine Ait-Sahalia and Dacheng Xiu. "Using principal component analysis to estimate a high dimensional factor model with high-frequency data". In: Journal of Econometrics201.2 (2017), pp. 384–399.

David Dekker, David Krackhardt, and Tom AB Snijders. "Sensitivity of MRQAP tests to collinearity and autocorrelation conditions". In: Psychometrika 72.4 (2007), pp. 563–581.