更新時間:2022-02-18 08:28:24作者:佚名
21世紀什么最貴?葛優在《天下無賊》里告訴我們,答案是人才,但他沒想到的是,短短八年后的2012年,奧巴馬向全世界宣布,數據才是新時代下最有價值的存在,對數據的占有和控制甚至將成為陸權、海權、空權之外的另一種國家核心資產,“數據是未來的新石油”。
與不可再生的石油不同,海量的數據仍在每天以驚人的速率增長,而在之江實驗室網絡空間大搜索研究中心研究員安靜斌看來,在可見的未來,數據將繼續以指數型的趨勢實現爆炸式的增長,“我們以后會有量子計算、有5G、6G的信息基礎設施、有各種各樣的可穿戴設施和物聯網,這些都是可以看到的未來,它們所帶來的龐大數據量是現在遠遠不能比的。”
如何從海量且依舊在爆炸增長的數據中,挖掘出更多能夠轉化為實際效益的“黃金”,這實際上就是人們口中的“大數據”、安靜斌所稱的“數據科學”所希望探索的重要課題,而對于普通人而言,這些經過分析、轉化之后的數據信息,最終如同逐漸匯聚的涓涓細流,潛移默化中影響我們生活的方方面面。
聯通孤島
“數據科學的誕生,實際上是數據量暴增的必然結果,也就是我們所說的量變產生質變,而隨著大數據時代的到來,除了海量性之外,數據也產生了新的特性,包括多元性、易構性、稀疏性。”從一個計算機專業畢業的博士開始,經歷了從數據庫時期到大數據時代的轉變,安靜斌與數據打了20余年的交道,他深刻感知著這些變化的軌跡。
安靜斌回憶,在信息化時代的初期,數據其實十分簡單,政府部門、企業部門對內部員工的信息登記和管理,構成了最早的數據,“簡單來說,就是把員工的姓名、身份證號碼、聯系方式這些數據,和建檔案一樣,以文件的形式一個個保存起來,但是沒有相應的工具,檢索起來很麻煩,需要一個一個打開去查找。”
其后,伴隨著互聯網的普及,數據量開始增加,為了方便快速檢索、提高數據的管理效率,出現了數據庫的技術,安靜斌介紹,作為信息管理系統最底層的一個核心技術,數據庫有著很強的目標性,“這數據庫中,每一個字段的含義是非常確切的,而且數據都是有用的。”
以一個銀行的數據系統為例,在最早的銀行數據管理系統中,用戶的賬戶余額是最核心的數據,也就是說,銀行除了保存用戶的身份信息數據,實時更新用戶的賬戶余額數據之外,對于用戶的轉賬、收入、支出等等業務都不會記錄。
而到了大數據時代,銀行會把用戶賬戶上的轉賬、業務、資金流轉等數據保存下來。
在這樣的情況下,數據的價值不再像原本那樣集中,但海量的數據中,隱藏著用戶的消費習慣、收入支出水平、潛在的業務辦理可能等等信息,例如,一個經常在轉入余額后短時間內就完成消費的賬戶,可能就是推廣貸款業務的潛在客戶。“這些海量的數據就像是沙子,數據科學現在要做的,就是利用我們現在信息系統的高處理能力,在里面淘金。”