你写这玩意有啥用?哦,有一个用处是告诉你,你应该先对成交量做log变换,然后再建模。
注意:你这个是一个统计学问题(确切的说是一个时间序列的回归问题),不是概率论的问题。
不应该也不需要用概率论来证明,而是应该用时间序列的方法去验证。
随便给一些可能的方向:
1. 仅仅对上证指数建模,显然数据量太少(一天一条,一共也就上千条),模型稍微复杂一点就会出问题。
你可以考虑对每个股票的数据做这个研究,数据量立马扩大3000倍,可以使用更复杂的模型,比如可以用一个小型的深度学习网络。然后将模型应用到指数,或者将指数看成是其成份股的合成。
2. 显然,A股的日历效应是很强的,比如星期一的成交量和星期五的成交量,大概率不太一样。
因此你应该将星期之类的日历因素考虑进去
3. 此外,大盘是高开还是低开,是上涨还是下跌,是高波动率还是低波动率,诸如此类的特征对成交量显然是有影响的。
【 在 hulili 的大作中提到: 】
: 综合多方面研究结论和市场实际数据特征来看,上证指数的日成交金额更普遍近似服从对数正态分布,而非正态分布,仅有极特殊的短期情况出现过符合正态分布的检测结果,不具备普适性,具体分析如下:
: 仅个别短期特殊样本曾呈现正态分布特征:只有在股市发展早期、数据样本极短的情况下出现过例外。比如有研究对 1997 年上半年上证指数日成交金额做检验,发现在显著性水平 0.1 的条件下,这段时间的日成交金额看似服从正态分布。但当时 A 股市场规模极小、交易制度不成熟,参与主体也较为单一,这样的短期数据结论无法推广到整个市场周期中。
: 多数研究与市场特征支撑对数正态分布结论
: ...................
--
FROM 223.166.244.*