“大數據”如此熱門,真正的源頭在哪里?
近些年來,“大數據(Big
Data)”已成為一個受全世界關注的熱門詞匯,在科研、電信、金融、教育、醫(yī)療、軍事、電子商務甚至國家及政府機構的決策時都離不開大數據技術的身影,幾乎人類發(fā)展的所有領域都有大數據技術的應用,甚至有人宣告:人類已經被大數據浪潮席卷而進入了大數據時代。
其實,“大數據”并不是很新的概念,早在好幾十年前,從事粒子物理實驗研究的科學家就已經面臨了如何處理實驗中所獲得的海量數據的問題,可那時大多數人還根本不知道大數據是什么。真正的大數據并不僅是數據量大,而是一個包含了數據的獲取、傳輸、存儲、分析等綜合性的最前沿技術。最早擁有這種全面應對技術的正是粒子物理實驗領域。以這個視角看,真正的大數據之源應屬于科學基礎研究前沿的粒子物理實驗。
先需要說明一下數字的進位制,這與后面要說到的數據格式相關。
進位制是人們?yōu)榱擞嫈岛瓦\算而約定的記數方式。多位數中,數字的位置不同表示的數值是不同的。約定一個基數n,只要滿了n就進一位,這就是n進位制,簡稱n進制。
從古至今,人類使用過的計數進制五花八門,以下列出的是最主要的幾種:
60進制:古巴比倫人的計數采用60進制,每小時60分鐘,每分鐘60秒,以及將圓周分為360度角,每度為60分,每分為60秒,這些都是巴比倫人最早提出的。中國古歷法使用的“干支”紀年也屬于60進制,將10個“天干”(甲、乙、丙、丁、戊、己、庚、辛、壬、癸)與12個“地支”(子、丑、寅、卯、辰、巳、午、未、申、酉、戌、亥)按順序排列組合可列出60個不同的年份。
20進制:古代瑪雅人計數時20以下用5進制,20以上用20進制。
16進制:中國舊時稱重使用的是1斤=16兩。
12進制:公元年月是12進制。古人由觀察天象認識了天、月、年,以及氣候冷暖的變化周期。因一年中月亮有12次盈虧,由此對應將一年分為12個月,這就是最初的12進制。
10進制:很可能是因為人有10個手指,用手指數數最方便,10進制就成了人類最自然的計數方式,很多民族的文字中都有10個數字。目前使用最廣泛的10進制阿拉伯數字0-9其實是古印度人發(fā)明的,后經阿拉伯人傳到了全世界,被稱為阿拉伯數字。中國早在商代就采用十進制(一、二、三、四、五、六、七、八、九、十、百、千、萬)。
2進制:只用0和1兩個基本數字,逢2進位。大部分歷史資料中將2進制的發(fā)明與18世紀德國的數理哲學大師萊布尼茲(G. W. Leibniz)聯(lián)系在一起,也有資料介紹英國數學家哈里奧特(T. Harriot)17世紀初就提出過這種計數法。萊布尼茲沒能見到前人的論述,他一直以為這是自己的獨創(chuàng)。但萊布尼茨的確是大力提倡2進制的第一人,他在自己的論文中詳細說明了2進制的算術原理,還給出了加、減、乘、除四則運算的規(guī)則。只是在那個年代,這套2進制理論就像個數字游戲,并沒有發(fā)現它有什么實用的價值。
除了上述的幾種進制還有8進制、7進制等等。
2.數據的挑戰(zhàn)
社會的發(fā)展使人們面臨了數據的挑戰(zhàn)。
1880年,美國政府部門進行了全國人口普查,沒想到耗時約8年才完成了所有數據的匯總,但此時很多滯后的數據都已經失去了價值,因為政府確定稅收分攤以及國會代表人數等,都需以人口普查的數據為基礎。美國政府每10年就進行一次人口普查,由于人口的不斷增長,預計匯總1890年進行的人口普查數據將要花費13年。
幸虧美國的一位統(tǒng)計學家霍爾瑞斯(H. Hollerith)發(fā)明了利用穿孔卡片收集及整理數據的制表機,這大大加快了匯總人口普查數據的速度,使原本需要10多年才能處理完的數據僅用了1年就處理完畢。這可以算作自動處理數據的開端,只不過霍爾瑞斯的這種方法需要每個人填寫一張可制成穿孔卡片的表格然后再進行統(tǒng)計,不僅過程比較麻煩,成本也比較高。當所獲的數據用已有的數據處理工具難以應付之時——這就像要被數據所淹沒——迫切地需要數據處理的新技術。


美國人口調查局使用霍爾瑞斯發(fā)明的制表機匯總數據(圖片來自網絡)
那時,雖然人們已經遇到了大量數據的挑戰(zhàn),但這并不能算是大數據的源頭,因為在那個年代,人們處理大量數據的能力實在太弱了。
3.技術基礎
20世紀40年代,初級的計算機已有人發(fā)明了。計算機的運行要靠電流,對每個電路節(jié)點而言,電流通過的狀態(tài)只有通電和斷電兩種狀態(tài),而計算機的信息存儲一般采用磁帶、磁盤,對每個記錄點來說只有磁化和未磁化兩種狀態(tài),正因如此,多年前認為沒有什么實用價值的2進制運算模式很自然地被應用在計算機上了,計算機運行時1表示通電,0表示斷電,存儲信息時1表示磁化,0表示未磁化。
20世紀70年代后期,個人電腦開始正式進入商業(yè)市場,只是僅有計算機而沒有網絡仍然對付不了大量的數據。
1980年,美國思想家、未來學家托夫勒(A. Toffler)在他所撰寫的《第三次浪潮》中預言:大數據將成為“第三次浪潮的華彩樂章”。
全球性的計算機網絡體系——因特網于80年代基本形成,而真正為全世界信息交流和傳播帶來革命性變化的萬維網(Web)則于1990年12月在歐洲核子研究中心(CERN)誕生。
這里還有個關鍵的問題:1993年4月30日,CERN正式決定將Web軟件放到因特網的公共領域,并宣布Web軟件可對任何人開放,不收取任何費用。CERN和Web的發(fā)明人伯納斯-李(Tim Berners-Lee)放棄了為Web技術申請專利,這對因特網在全世界的推廣起了極為重要的作用。此后,Web的應用遠遠超出了最初的設想。
設想一下,如果沒有二進制等數學基礎、沒有計算機、沒有存儲設備、沒有因特網在全世界的廣泛應用,根本談不上如何應對大數據的挑戰(zhàn),正因為有了這些關鍵技術的基礎,人們處理大量數據的能力才得以大大提高。
4.“大數據”之源
2008年9月,《自然》雜志推出一個“大數據”封面專欄,“大數據”此時已受到了關注。
而“大數據”真正成為互聯(lián)網技術的熱門詞匯大約是在2009年之后。據媒體資料的介紹,世界著名的管理咨詢公司麥肯錫公司2011年5月發(fā)布了一份題為“大數據:競爭、創(chuàng)新和生產力的下一個前沿”的報告。該報告認為,所謂大數據是指“規(guī)模已經超出典型數據庫軟件所能獲取、存儲、管理和分析能力之外的數據集”,報告提出了對大數據進行收集和分析的設想,并對大數據會產生的影響、所需關鍵技術以及應用領域等進行了較詳盡的分析。




《自然》雜志2008年9月的“大數據”封面專欄(上)、麥肯錫公司2011年5月發(fā)布的“大數據”報告(下)(圖片來自網絡)
世界上任何東西的“大”與“小”都是相對的,大數據也是一個相對術語,設置某個具體的數據量標準作為大數據的“門檻”,即數據量超過多少字節(jié)就算大數據(參考知識鏈接)并不科學。大數據應是一個動態(tài)的、能夠隨著數據規(guī)模和處理能力增長而不斷變化的概念。真正的大數據也并不僅是指所獲數據的量大,而是包含了數據的獲取、傳輸、存儲、分析等綜合性的最前沿技術。數據也并不總是量越大越有價值,沒有價值的大量數據只會造成數據傳輸、存儲方面的過重負擔,對數據的準確分析產生負面的影響。


5.粒子物理實驗
那么粒子物理實驗與大數據有何關系呢?
粒子物理實驗主要研究構成宇宙中所有物質的基本粒子,以及使這些物質聚集在一起的基本作用力。粒子物理實驗研究除了可通過接收宇宙射線進行,主要是通過粒子加速器將某種粒子加速至很高能量后與其他粒子相碰撞,然后由各種類型的粒子探測器記錄下粒子碰撞產生的各種事例(包括事例發(fā)生的位置、能量、時間等等數據信息)。這些數據記錄到磁帶、磁盤等存儲設備中并提供給科學家們分析研究。
最早使用的粒子探測器有云室、氣泡室、流光室等,屬于記錄粒子徑跡類型。這些粒子實驗所獲的事例圖像直接保留在照相底片上,通過掃描測量儀將信息數字化后成為原始數據。之后,陸續(xù)發(fā)展了多絲正比室、漂移室、閃爍計數器等多種電子學型的粒子探測器。
20世紀70年代后,隨著超大型粒子物理實驗裝置的建設以及電子學、計算機技術的快速發(fā)展,數據的傳輸、存儲、分析等方面的技術也有了質的飛躍,粒子物理實驗所獲的原始數據量的規(guī)模越來越大,不得不設定各種條件初步篩選后再存入存儲設備。這些數據要通過科學家分析后實現重構,再現各類粒子的物理性質(如能量、電荷、磁矩等)還原事例中的物理過程,經模擬計算便可了解探測器里到底發(fā)生了什么。
1989年3月,CERN建造的大型正負電子對撞機LEP開始運行,正負電子分別被加速至每秒圍繞周長27公里的加速器真空管道運轉11000周(接近光速)。LEP上有四個大型粒子探測裝置:ALEPH、DELPHI、L3和OPAL,探測器獲得原始數據的速率為1MB/秒,每年的總數據量達0.2-0.3TB(1TB相當于50000棵樹制成紙張上打印的信息量),這在當時已屬空前,屬于真正的大數據了。
到了2008年,CERN在原LEP的隧道中建成了能量更高的大型強子對撞機LHC(拆除了LEP的全部磁鐵和設備)。LHC上建有ATLAS、ALICE、CMS和LHCb等規(guī)模更大的粒子探測器。LHC每25納秒就可發(fā)生一次質子對撞,各類探測器獲得的數據達1PB/秒。如此大的數據量實際上無法完全記錄下來,只能通過特殊的方法進行過濾后將那些科學家們可能感興趣的數據存儲在特殊的存儲設備上。近年來,過濾后每年的數據量竟達60PB(每保存1PB的數據就需要約22.3萬張DVD盤的容量),這數據量已大到令人瞠目結舌。


大型強子對撞機LHC鳥瞰及探測器位置示意圖(圖片來自網絡)


緊湊型μ子螺旋型磁譜儀(CMS)結構示意圖(21米×15米×15米)(圖片來自網絡)


超環(huán)面探測譜儀(ATLAS)結構示意圖(46米×25米×25米)(圖片來自網絡)
粒子物理實驗所獲得的海量數據經過各種手段的分解、處理,最終以約100MB/秒的速率寫入存儲設備。CERN的計算機中心負責將這些數據通過高速網絡分配給歐洲、北美、日本等國的區(qū)域中心,后者再將任務作進一步分解。提供給世界各相關研究機構的數據量約為1MB/秒,這樣,物理學家們就可以很方便地進行分析研究了。


CERN計算機中心的自動磁帶存儲庫(2008年),磁帶用來存儲LHC的實驗數據,機械臂用于在存儲架和驅動器間運送磁帶,磁帶的調用完全自動化(圖片來自網絡)
由此可見,在一般人認為的“大數據”成為互聯(lián)網技術熱門詞匯(約2009年)之前,粒子物理實驗研究早已與“大數據”打了多年交道,真正的“大數據”之源在哪里應該毫無懸念了。
6.結語
粒子物理、宇宙天文學、人體基因等最前沿的基礎研究都離不開大數據,隨著信息技術的飛速發(fā)展和應用,大數據近些年來已深深滲入了社會的發(fā)展及人類的日常生活。網格計算、云計算、物聯(lián)網、車聯(lián)網、社交網、移動互聯(lián)網、GPS定位、電子商務、醫(yī)學影像、安全監(jiān)控、金融、電信、人工智能等技術的發(fā)展都基于大數據并且更瘋狂地產生著大數據,大數據就如大海的浪潮一浪高過一浪,勢不可擋。
而科學家們面臨的則是更嚴峻的挑戰(zhàn):需要處理的數據量更加龐大,數據類型更加多樣,需要更快的數據傳輸及處理速度,需要容量更大而體積更小的存儲介質,需要更智能的數據分析工具,這些需求又進一步推動了相關高新技術的發(fā)展。
浪潮自有源頭,在幾乎人人都被大數據浪潮席卷的時代,不能忘記粒子物理實驗研究在大數據的獲取、傳輸、存儲、分析等最前沿技術領域打下的基礎與巨大的貢獻。真正的“大數據”源頭來自基礎研究最前沿的粒子物理實驗研究。
(來源:高能物理研究所)