更新時間:2022-04-20 20:50:08作者:佚名
2.理解數(shù)據(jù)
此數(shù)據(jù)集中包括三個CSV文件:
.csv是道瓊斯工業(yè)平均指數(shù)(DJIA)股票數(shù)據(jù):7個字段,1990行。包含Date(日期),Open(開盤價),High(最高價),Low(最低價),Close(收盤價),(成交量)和Adj Close(調(diào)整后的收盤價)。(范圍:2008-08-08至2016-07-01)
.csv是新聞數(shù)據(jù):27個字段,1990行。包含Date(日期),Label(標簽)和Top1-Top25(當日的頭25條新聞)。(范圍:2008-08-08至2016-07-01)
.csv:2個字段,73609行。包含Date(日期),News(新聞),所有新聞都根據(jù)它們的熱度從上到下排名,每個日期有25行。(范圍:2008-06-08至2016-07-01)
3.數(shù)據(jù)清洗
數(shù)據(jù)清洗的主要步驟如下:
選擇子集,列重命名,刪除重復值,缺失值處理,一致化處理,數(shù)據(jù)排序,異常值處理
先將后綴為.csv的文件保存為后綴為.xlsx的文件。
檢查數(shù)據(jù)集,發(fā)現(xiàn)沒有重復列,沒有缺失值,同一列的數(shù)據(jù)類型統(tǒng)一,日期格式統(tǒng)一。將三個數(shù)據(jù)表都按時間升序排列。排序后的數(shù)據(jù)集前幾行部分數(shù)據(jù)如下:
4.數(shù)據(jù)建模
對.xlsx表中的Adj Close做描述統(tǒng)計分析,得到如下數(shù)據(jù):
平均Adj Close是13463.03,標準差為3144.007,因為是8年的數(shù)據(jù),波動比較大,需要再做更細致的分析以探索股票數(shù)據(jù)。
對.xlsx表中的Date和Label列,做數(shù)據(jù)透視表,統(tǒng)計每年的漲和跌的天數(shù),結(jié)果如下:
“1”表示DJIA Adj Close值上升或保持不變,“0”表示下降。可以看出每年上漲和下跌的天數(shù)比較均衡。
在.xlsx表中增加一列“漲跌幅”,計算過程如下:
漲跌幅的結(jié)果以百分號表示:
通過函數(shù)對漲跌幅進行分組:
然后通過數(shù)據(jù)透視表統(tǒng)計漲跌幅分組情況:
發(fā)現(xiàn)大部分情況下都是在-3%~3%的漲跌范圍內(nèi),即分組標簽為小漲和小跌的那兩類,占96.73%(44.42% 52.31%)。漲跌幅度在3%~5%范圍內(nèi)的少數(shù),漲跌幅度大于5%的極少數(shù)。通過對“漲跌幅”進行篩選,發(fā)現(xiàn)有兩個超過10%的數(shù)據(jù)(飆升),是2008/10/13的漲11.0803%和2008/10/28的漲10.8779%。
查看.xlsx表和.xlsx表中2008/10/13和2008/10/28當天以及前面幾天的新聞數(shù)據(jù),再通過上網(wǎng)搜索,分析原因,簡單總結(jié)如下。
2022-04-20 20:43
2022-04-20 20:29