更新時(shí)間:2022-04-20 20:50:08作者:佚名
2.理解數(shù)據(jù)
此數(shù)據(jù)集中包括三個(gè)CSV文件:
.csv是道瓊斯工業(yè)平均指數(shù)(DJIA)股票數(shù)據(jù):7個(gè)字段,1990行。包含Date(日期),Open(開盤價(jià)),High(最高價(jià)),Low(最低價(jià)),Close(收盤價(jià)),(成交量)和Adj Close(調(diào)整后的收盤價(jià))。(范圍:2008-08-08至2016-07-01)
.csv是新聞數(shù)據(jù):27個(gè)字段,1990行。包含Date(日期),Label(標(biāo)簽)和Top1-Top25(當(dāng)日的頭25條新聞)。(范圍:2008-08-08至2016-07-01)
.csv:2個(gè)字段,73609行。包含Date(日期),News(新聞),所有新聞都根據(jù)它們的熱度從上到下排名,每個(gè)日期有25行。(范圍:2008-06-08至2016-07-01)
3.數(shù)據(jù)清洗
數(shù)據(jù)清洗的主要步驟如下:
選擇子集,列重命名,刪除重復(fù)值,缺失值處理,一致化處理,數(shù)據(jù)排序,異常值處理
先將后綴為.csv的文件保存為后綴為.xlsx的文件。
檢查數(shù)據(jù)集,發(fā)現(xiàn)沒有重復(fù)列,沒有缺失值,同一列的數(shù)據(jù)類型統(tǒng)一,日期格式統(tǒng)一。將三個(gè)數(shù)據(jù)表都按時(shí)間升序排列。排序后的數(shù)據(jù)集前幾行部分?jǐn)?shù)據(jù)如下:
4.數(shù)據(jù)建模
對(duì).xlsx表中的Adj Close做描述統(tǒng)計(jì)分析,得到如下數(shù)據(jù):
平均Adj Close是13463.03,標(biāo)準(zhǔn)差為3144.007,因?yàn)槭?年的數(shù)據(jù),波動(dòng)比較大,需要再做更細(xì)致的分析以探索股票數(shù)據(jù)。
對(duì).xlsx表中的Date和Label列,做數(shù)據(jù)透視表,統(tǒng)計(jì)每年的漲和跌的天數(shù),結(jié)果如下:
“1”表示DJIA Adj Close值上升或保持不變,“0”表示下降??梢钥闯雒磕晟蠞q和下跌的天數(shù)比較均衡。
在.xlsx表中增加一列“漲跌幅”,計(jì)算過(guò)程如下:
漲跌幅的結(jié)果以百分號(hào)表示:
通過(guò)函數(shù)對(duì)漲跌幅進(jìn)行分組:
然后通過(guò)數(shù)據(jù)透視表統(tǒng)計(jì)漲跌幅分組情況:
發(fā)現(xiàn)大部分情況下都是在-3%~3%的漲跌范圍內(nèi),即分組標(biāo)簽為小漲和小跌的那兩類,占96.73%(44.42% 52.31%)。漲跌幅度在3%~5%范圍內(nèi)的少數(shù),漲跌幅度大于5%的極少數(shù)。通過(guò)對(duì)“漲跌幅”進(jìn)行篩選,發(fā)現(xiàn)有兩個(gè)超過(guò)10%的數(shù)據(jù)(飆升),是2008/10/13的漲11.0803%和2008/10/28的漲10.8779%。
查看.xlsx表和.xlsx表中2008/10/13和2008/10/28當(dāng)天以及前面幾天的新聞數(shù)據(jù),再通過(guò)上網(wǎng)搜索,分析原因,簡(jiǎn)單總結(jié)如下。
2022-04-20 20:43
2022-04-20 20:29