更新時間:2022-04-20 20:50:08作者:佚名
2.理解數據
此數據集中包括三個CSV文件:
.csv是道瓊斯工業平均指數(DJIA)股票數據:7個字段,1990行。包含Date(日期),Open(開盤價),High(最高價),Low(最低價),Close(收盤價),(成交量)和Adj Close(調整后的收盤價)。(范圍:2008-08-08至2016-07-01)
.csv是新聞數據:27個字段,1990行。包含Date(日期),Label(標簽)和Top1-Top25(當日的頭25條新聞)。(范圍:2008-08-08至2016-07-01)
.csv:2個字段,73609行。包含Date(日期),News(新聞),所有新聞都根據它們的熱度從上到下排名,每個日期有25行。(范圍:2008-06-08至2016-07-01)
3.數據清洗
數據清洗的主要步驟如下:
選擇子集,列重命名,刪除重復值,缺失值處理,一致化處理,數據排序,異常值處理
先將后綴為.csv的文件保存為后綴為.xlsx的文件。
檢查數據集,發現沒有重復列,沒有缺失值,同一列的數據類型統一,日期格式統一。將三個數據表都按時間升序排列。排序后的數據集前幾行部分數據如下:
4.數據建模
對.xlsx表中的Adj Close做描述統計分析,得到如下數據:
平均Adj Close是13463.03,標準差為3144.007,因為是8年的數據,波動比較大,需要再做更細致的分析以探索股票數據。
對.xlsx表中的Date和Label列,做數據透視表,統計每年的漲和跌的天數,結果如下:
“1”表示DJIA Adj Close值上升或保持不變,“0”表示下降??梢钥闯雒磕晟蠞q和下跌的天數比較均衡。
在.xlsx表中增加一列“漲跌幅”,計算過程如下:
漲跌幅的結果以百分號表示:
通過函數對漲跌幅進行分組:
然后通過數據透視表統計漲跌幅分組情況:
發現大部分情況下都是在-3%~3%的漲跌范圍內,即分組標簽為小漲和小跌的那兩類,占96.73%(44.42% 52.31%)。漲跌幅度在3%~5%范圍內的少數,漲跌幅度大于5%的極少數。通過對“漲跌幅”進行篩選,發現有兩個超過10%的數據(飆升),是2008/10/13的漲11.0803%和2008/10/28的漲10.8779%。
查看.xlsx表和.xlsx表中2008/10/13和2008/10/28當天以及前面幾天的新聞數據,再通過上網搜索,分析原因,簡單總結如下。