股票相关及趋势预测

　案例1 “深发展”和“四川长虹”两只股票的相关分析及趋势预测一、案例简介股市的走势是所有股票投资者关注的问题,同时股市走势还是经济走势的“晴雨表”。怎样选择一种简易而有效的方法对股票市场的大盘指数和个股行情走势进行预测,是众多股民普遍关注并急待解决的问题。本案例以“深发展”和“四川长虹”两只股票为例进行相关分析,观察二者之间变化的密切程度,然后分析是否可以依据某一只股票的价格变动来预测另一只股票的价格变动。在此基础之上,又以“深证指数”和“深发展”、“上证指数”和“四川长虹”从 1994 年 12 月 29 日到 1998 年 3 月 13 日期间的日收盘价格指数和日收盘价为原始数据, 试图通过几种方法的对比寻找一种较为简单而有效的方法,以此对股市的走势进行预测。本案例采用典型的个股“深发展”,指的是深圳特区6 家城市信用社通过股份制改造组建而成的深圳发展银行。该银行于1987 年5 月向社会公开发行股票, 同年12 月8 日开业,1991 年4 月3 日在深圳证券交易所上市。另一个典型个股“四川长虹”即四川长虹电器股份有限公司。该公司属于电子行业,成立于1988 年7 月8 日,1994 年3 月11 日在上海政权交易所上市交易。在两者的发展历程中,业绩均连年增长较快,发展的潜力都很大,都对股市具有一定影响力,各自在大盘中占有较大权重,扮演着“领头羊”的角色。因此我们选择这两只股票进行观察和分析,目的是想研究能否用这两只权重较大的个股的行情变化预测市场指数的走势,以及预测的准确度如何。变量名及含义分别为(见表3-1):表3-1变量名含义X1“深发展”日收盘价X2“四川长虹”日收盘价X3“深证指数”日收盘指数X4“上证指数”日收盘指数X51995-1998 年每年1 月份自第一个星期一开始的20 个交易日“深发展”收盘价组成的新序列三、本案例的教学目的1.熟悉股市数据的结构及其统计特征,把统计的基本分析和预测方法运用于股市数据的分析和预测之中;掌握统计分析和预测方法在股市分析中的特殊性。五、参考答案对于案例中讨论的问题,可作多种解释和分析,以下答案可供参考:(一) 对“深发展”和“四川长虹”两种股票进行相关分析?1 .将数据盘中的数据文件读入到TSP 软件中去。因为我们一共有780 个交易日的数据可以先建立一个有780 个样本的新文件,然后输入以下命令: READ DATA1.TXT X1 X2 X3 X4 即可将数据调入。2.利用散点图观察变量间的关系,命令如下:SCAT X1 X 2 所的结果如下 (图3-1):可见二者具有较明显的相关性。可以作进一步的相关分析。?3.在TSP 软件下,利用“COVA”作X1 与X 2 的相关分析,得出二者的相关系数为0.838(前600 个有效样本),观察两只股票的时间-价格图,二者的变化趋势的确是基本一致的。见图3-2。4.趋势值的剔除。为了判断这两只股票之间究竟是因果关系还是共变关系, 可以先将趋势值剔除后再观察二者的关系,如果相关系数仍然很高,则为因果关系,否则为共变关系。我们用5 次移动平均值作为趋势值,并假设其为加性,剔除趋势后,再做二者的相关分析,则相关系数降为-0.0221。具体可用“GENR”等命令:SMPL GENRGENRGENRGENR5 640?A=[ X1 + X1 (-1)+ X1 (-2)+ X1 (-3)+ X1 (-4)]/5A1 = X 1 - A?B=[ X2 + X2 (-1)+ X2 (-2)+ X2 (-3)+ X2 (-4)]/5B=X -B 12COV AB11GRAPH A B 11序列名均值方差最大值最小值A1094182837.6399990-6.8860000B1051444016.2039990-18.354000协方差相关系数A1 , A100000000A,B11-0.0314817-0.0221064B,B1120000000这里A 与B 分别是剔除趋势后“深发展”和“四川长虹”的收盘价。所得结果见表3-2 及图3-3。?表3-2 剔除趋势值后X1和X2的相关分析日起:6-17-1998/时间:23:44 样本范围:5~640 样本观察值个数:636可见,二者的相关是由于数据的动态趋势造成的数字相关,并非是本质的相关联系。虽然在趋势上呈现出一支波动的现象(见图3-2),但这只能说明二者对政策或其他可能的因素做出的反映基本一致,并不代表二者之间一定存在必然的联系。但是,毕竟两只股票在特定情况下对市场的反应是较为一致的,因此通过一只股票来预测另一只股票的走势并非不切实际。需要注意的事,因为二者不是必然的因果联系,因此分析者要严密注视两只股票动向保持一致的前提条件是否有所改变。对这些前提条件或者说是基础条件的分析与检测是很复杂的,我们可以简单地通过检测二者的相关系数是否维持较高水平不变或者是呈上升趋势来实现这一目的。一旦二者的相关系数值呈现下降的趋势,那么通过其中之一来预测另一只股票的走势将不再可行。(二) 预测分析的方法与步骤首先做变量间的散点图,以便从中获得如何进行下一步分析的启发。SCAT X3 X1 所得结果如下(见图3-4):从图3-4 中我们可以看出,“深发展”与“深证指数”之间呈现较强的相关性,个股与大盘的变化方向与幅度基本一致,据此我们可以进行进一步的相关分析,来判断它们之间具体的相关程度。1.相关分析。命令分别如下: COVA X3 X1所得结果如下(见表3-3): 表3-3日期:6-17-1998/ 时间:23:49 样本范围:1~640 样本观察个数:640X1 和X3 的相关分析序列名均值方差最大值最小值X115.1694698.894063848.9000005.9100000X3228280496026.8900930.05000协方差相关系数X1,X178.9807711.0000000X1,X311682.5140.9201071X3 ,91.0000000相关分析的结果证实了我们前一步分析所作出的结论“深发展”和“深证指数”的相关系数高达0.92。由于“深发展”的流通量在“深圳证券”交易所的总流通两中占的份额较大,可能导致它对大盘的带动作用,正如相关分析的结果所显示的那样。无论引起高度相关的原因是什么,这样显著的相关关系都可以作为我们下一步预测分析的依据和基础。2.预测分析。对于这一问题,可有多种不同的数据分析方法,方法不同,结果也不会完全一致。以下建议方法可供参考(使用TSP)软件:(1)移动平均法?移动平均法是以移动平均数作为预测值的方法。移动平均数是根据预测事件各时期的实际值,确定移动周期,分期平均、滚动前进所计算的平均数。这一方法着重于用近期数值进行预测,因此更接近于实际。我们认为用此法对本例预测最为有效(见图3-5)。不过这种方法也只适用于对较稳定事件作滚动预测。具体操作命令如下:SMPL 600 780?GENR X1 Y=[ X1 (-1)+ X1 (-2)+ X1 (-3)+ X1 (-4)+ X1 (-5)]/5PLOT X1 X1 Y?其中: X1 Y 代表移动平均预测值。(2)指数平滑平均数法指数平滑平均数法是从移动平均数发展形成的一种指数加权移动平均数。它利用本期预测值和实际资料,以平滑系数α为加权因子来计算指数平滑平均数。指数平滑平均数预测,就是以次平滑平均数为下期的预测值。α是一个经验数据, 本例中分别选α=0.999 和α=0.594 进行一次、二次指数平滑预测,预测期为760~780。本例中,二次指数平滑预测值与实际值比较接近。当然这也取决于对参数α的选取。具体操作命令如下: 一次指数平滑: SMPL 600 700SMOOTH X XS 11其中:X S代表指数平滑预测值。1所的结果为(见表3-4):?表3-4 X1 的一次指数平滑日期:6-18-1998/时间:2:12 样本范围:600~760 样本观察值个数:161 指数平滑方法:一次指数平滑法原始序列名:X 预测序列名:X S 11参数ALPHA 剩余平方和均方根误差?End of period levels:MEAN0.999 195.9917 1.103331 22.89995SMPL 600 780PLOT X XS 11输出结果为(见图3-6):二次指数平滑:SMPL 600 760SMOOTH X XS 11所得结果为(见表3-5): 表3-5X1 的二次指数平滑日期:6-18-1998/时间:2:12 样本范围:600~760 样本观察值个数:161 指数平滑方法:二次指数平滑法原始序列名:X 预测序列名:X S 11参数ALPHA 剩余平方和均方根误差?End of period levels:MEANTREND0.999 195.9917 1.103331 22.89995 -0.103117SMPL 600 760SMOOTH X XS 11输出结果为(见图3-7):(3)ARIMA(M,N)模型法。ARIMA(M,N)模型在动态形式下,一个影响系统的扰动项被牢记一定时期, 从而影响后继行为。正是系统的这种动态性,引起了时间数列中的依存关系。本案例通过ARIMA(1,1)回归后,发现t 检验不显著,因此仅须AR(1)即可(其F 检验值也有显著提高)。ARIMA(1,1)回归的步骤如下: SMPL 600 760LS X1 C AR(1) MA(1) 回归结果为(见表3—6):表3—6 X1 的ARIMA(1,1)模型LS// 因变量是X1日期:6—18—1998/ 时间:2:13 样本范围:600~760样本观察值个数:161?Convergence achieved after 3 iterations变量系数回归系数标准差t—检验值2—TAILSIGC 24.107999 3.3776278 7.1375534 0.000MA(1) 0.0771266 0.0810520 0.9515691 0.341 AR(1) 0.9731460 0.0154832 62.851775 0.000判定系数0.963110 调整后的判定系0.962643被解释变量平均值被解释的变量方差残差平方和F—检验值26.78776 5.272199164.0621 2062.520回归标准差D.W 检验值对数似然值1.019003 1.999564 -229.9658SMPL 600 780 FORCST X1FPLOT X1 X1F?其中: X1F 代表ARIMA(1,1)预测值。预测结果为(见图3—8):图3—8 X1 的ARIMA(1,1)模型预测图形AR(1)回归的步骤如下:SMPL 600 760LS X1 C AR(1) 回归结果为(见表3—7):表3—7?LS// 因变量是X1X1 的AR (1)模型时间:2:14日期:6—18—1998/ 样本范围:600~760 样本观察值个数:161?Convergence achieved after 1 iterations变量系数回归系数标准差t—检验值2—TAILSIGC 23.805217 3.3142162 7.1827594 0.000AR(1) 0.9759617 0.0151929 62.238304 0.000判定系数0.962899 调整后的判定系0.962665被解释变量平均值被解释的变量方差残差平方和F—检验值26.78776 5.272199 165560回归标准差D.W 检验值对数似然值1.018704 1.835901 -230.4264SMPL 600 780 FORCST X1FPLOTX XF 111其中, X F 代表AR (1)预测值。11预测结果为见图3—9 和表3—7:图3—9 X1 的AR (1)模型预测图形通过对以上三种预测方法的图形比较,发现X Y 即五日移动平均法比1 ARIMA(1,1)和AR(1)方法对本案的预测更为有效。(4)通过图形分析和比较,利用“深证指数”与“深发展”的高度相关关系回归后,在通过“深发展”的预测值对总指数进行预测(见表3—7、图3—10)比利用X 3 的AR(1) (见表3—8、图3—11)预测更为接近实际。具体操作命令如下:SMPL 600 760LS X C XY 31回归结果为(见表3—8): 表3—8LS// 因变量是X 3日期:6—18—1998/ 样本范围:600~760 样本观察值个数:161X 和X Y 的回归分析31时间:2:15变量系数回归系数标准差t—检验值2—TAILSIGC 3477.4775 83.536289 41.628345 0.000X Y 33.578059 3.0372218 11.05518 0.000 1判定系数0.434615 调整后的判定系数0.431059被解释变量平均值被解释的变量方差残差平方和F—检验值4384.083 267.8453 6489811122.2245回归标准差D.W 检验值对数似然值202.0307 0.189598 -1082.098SMPL 600 780 FORCST X 3 FFPLOT X3 X3FF?其中: X 3 FF 代表利用深发展的预测值对深证指数所作出的预测值。预测结果为(见图3—10):图3—10 利用“深发展”预测值对深证指数的预测通过图形我们可以看出,预测值序列X 3 FF 虽然未能够很好地拟合出“深证指数”的走势,但对基本大势的把握还是比较准确的。当然,这一模型还是比较粗糙的,只能作为学生进行分析的参考答案,对模型的选择和优化等方面的工作还学药学生在课内及课下时间进行更灵活、更深入的分析和讨论。应当指出的是,回归方程的D.W 检验值并不理想。因此回归方程可能存在自相关现象。自相关对最小二乘法的影响主要在于它会扩大t 检验值和F 检验值, 从而使我们盲目接受回归方程。解决的办法主要有广义最小二乘法、循环查找法和灰色查找法,也可以用TSP 软件中的ARIMA 模型功能来进行分析。(三)对“趋势相关”问题应做出的说明实际上,“深发展”和“四川长虹”两只股票同其大盘走势的相关也是一种“趋势相关”,即在进行趋势剔除后,它们之间的相关系数将会大幅度降低。观察图3—11 和图3—12 我们会发现,散点图证明它们之间的相关程度很低:虽然以上二者之间并不存在因果关系性质的相关关系,或者是并未被我们现有的方法解释出来,但利用它们之间的共变关系,或者说是趋势相关关系,我们可以尝试进行回归分析,并同过预测值和实际值的比较来验证这一思路是否正确。事实证明这一思路在一定程度上还是可行的。

　 (四)对移动平均期的讨论本案例中采用“深发展”日收盘价的五日移动平均值对“深证指数”的走势进行预测,为什么只采用五日移动平均而不采用其他的移动平均时期?经过以下的分析我们可以看到,无日移动平均恰好与股市中普遍存在的周期现象相吻合, 它比其他移动平均期更贴切的体现了股市中的规律。例如:我们采用1995-1997 年每年1 月份各周走势进行分析,发现在1 个月内存在第一周高到第三周低, 第四周又有所回升的趋势,通过它和1998 年每周走势进行对比分析,可见存在着这样的变动规律(具体操作可参考《统计学原理》教科书)。再如采用1995-1998 年4 年中每年1 月份从第一个星期一期的20 个交易日为观察对象,通过图形对比可以看出利用前20 个数据或80 个数据,均能发现一定的规律,说明周内各交易日的变动的确存在一定的波动规律(具体操作可参考《统计学原理》教科书)。因此,应该作五期(5 日)移动平均。因为每周的五个交易日存在着一定的变动规律,是一个小周期。以其周期长度进行五项移动平均,可以消除一些极端值对预测的影响,从而揭示出股价的短期运行趋势。(五)关于α值的讨论α值是一个经验数据,它的大小体现了不同时期数值在预测中所起的不同作用。α取值大,表明近期数值倾向性变动的影响大,适应新水平灵敏;α取值小, 表明近期数值倾向性变动的影响小,越趋平滑,越能反映趋势。一般的取值规律: 若重视近期数值的作用,可取大值;若重视平滑趋势,可取小值;有时也可取0.5。在预测中可选几个α进行计算,然后进行筛选,取其最适宜的指数平滑平均数为预测值。由 ARIMA(1,1)可知,Φ1=0.973,非常接近于 1,而θ1=0.0771,提示适合于指数平滑,且平滑常数α=1-θ1=0.9229,本案例的α值是TSP 软件自动生成的,与0.9229 非常接近。根据散点图提供的信息,本案例又进行了二次指数平滑,跟踪效果更佳。

　 (六)对原始数据的进一步利用我们对两只股票的收盘价及其大盘指数的分析并不仅限于以上提到的方法, 实际上可以用很多不同的思路和解决办法。例如,可以利用本案例的原始数据计算两只股票的日收益率和两种指数的日收益率,研究它们之间的关系,从而得出一些有益的结论。比如,我们计算“深发展”的日收益率和“深证指数”日收益率之间的相关系数,就会发现它仅为0.0711 与两个变量剔除趋势之后的相关系数相差不大。这是否可以说明收益率能够更好地反映出股票市场中各股和大盘之间、各股和各股之间的关系呢?希望学生在进行分析时开拓思路,不要局限于教材中所介绍的犯法和理论,进行多种尝试性的分析与研究。

推荐访问:黄热病疫情相关股票趋势预测股票