大數據:發展現狀與未來趨勢
來源:中國電子政務網 更新時間:2019-11-05


中國特色社會主義進入新時代,實現中華民族偉大復興的中國夢開啟新征程。黨中央決定實施國家大數據戰略,吹響了加快發展數字經濟、建設數字中國的號角。習近平總書記在十九屆中共中央政治局第二次集體學習時的重要講話中指出:“大數據是信息化發展的新階段”,并做出了“推動大數據技術產業創新發展、構建以數據為關鍵要素的數字經濟、運用大數據提升國家治理現代化水平、運用大數據促進保障和改善民生、切實保障國家數據安全”的戰略部署,為我國構筑大數據時代國家綜合競爭新優勢指明了方向!

今天,我擬回顧大數據的發端、發展和現狀,研判大數據的未來趨勢,簡述我國大數據發展的態勢,并匯報我對信息化新階段和數字經濟的認識,以及對我國發展大數據的若干思考和建議。

一、大數據的發端與發展

從文明之初的“結繩記事”,到文字發明后的“文以載道”,再到近現代科學的“數據建模”,數據一直伴隨著人類社會的發展變遷,承載了人類基于數據和信息認識世界的努力和取得的巨大進步。然而,直到以電子計算機為代表的現代信息技術出現后,為數據處理提供了自動的方法和手段,人類掌握數據、處理數據的能力才實現了質的躍升。信息技術及其在經濟社會發展方方面面的應用(即信息化),推動數據(信息)成為繼物質、能源之后的又一種重要戰略資源。

“大數據”作為一種概念和思潮由計算領域發端,之后逐漸延伸到科學和商業領域。大多數學者認為,“大數據”這一概念最早公開出現于1998年,美國高性能計算公司SGI的首席科學家約翰.馬西(JohnMashey)在一個國際會議報告中指出:隨著數據量的快速增長,必將出現數據難理解、難獲取、難處理和難組織等四個難題,并用“BigData(大數據)”來描述這一挑戰,在計算領域引發思考。2007年,數據庫領域的先驅人物吉姆.格雷(JimGray)指出大數據將成為人類觸摸、理解和逼近現實復雜系統的有效途徑,并認為在實驗觀測、理論推導和計算仿真等三種科學研究范式后,將迎來第四范式——“數據探索”,后來同行學者將其總結為“數據密集型科學發現”,開啟了從科研視角審視大數據的熱潮。2012年,牛津大學教授維克托.邁爾-舍恩伯格(ViktorMayer-Schnberger)在其暢銷著作《大數據時代(BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink)》中指出,數據分析將從“隨機采樣”、“精確求解”和“強調因果”的傳統模式演變為大數據時代的“全體數據”、“近似求解”和“只看關聯不問因果”的新模式,從而引發商業應用領域對大數據方法的廣泛思考與探討。

大數據于2012、2013年達到其宣傳高潮,2014年后概念體系逐漸成形,對其認知亦趨于理性。大數據相關技術、產品、應用和標準不斷發展,逐漸形成了包括數據資源與API、開源平臺與工具、數據基礎設施、數據分析、數據應用等板塊構成的大數據生態系統,并持續發展和不斷完善,其發展熱點呈現了從技術向應用、再向治理的逐漸遷移。經過多年來的發展和沉淀,人們對大數據已經形成基本共識:大數據現象源于互聯網及其延伸所帶來的無處不在的信息技術應用以及信息技術的不斷低成本化。大數據泛指無法在可容忍的時間內用傳統信息技術和軟硬件工具對其進行獲取、管理和處理的巨量數據集合,具有海量性、多樣性、時效性及可變性等特征,需要可伸縮的計算體系結構以支持其存儲、處理和分析。

大數據的價值本質上體現為:提供了一種人類認識復雜系統的新思維和新手段。就理論上而言,在足夠小的時間和空間尺度上,對現實世界數字化,可以構造一個現實世界的數字虛擬映像,這個映像承載了現實世界的運行規律。在擁有充足的計算能力和高效的數據分析方法的前提下,對這個數字虛擬映像的深度分析,將有可能理解和發現現實復雜系統的運行行為、狀態和規律。應該說大數據為人類提供了全新的思維方式和探知客觀規律、改造自然和社會的新手段,這也是大數據引發經濟社會變革最根本性的原因。

二、大數據的現狀與趨勢

全球范圍內,研究發展大數據技術、運用大數據推動經濟發展、完善社會治理、提升政府服務和監管能力正成為趨勢。下面將從應用、治理和技術三個方面對當前大數據的現狀與趨勢進行梳理。

一是已有眾多成功的大數據應用,但就其效果和深度而言,當前大數據應用尚處于初級階段,根據大數據分析預測未來、指導實踐的深層次應用將成為發展重點。

按照數據開發應用深入程度的不同,可將眾多的大數據應用分為三個層次。第一層,描述性分析應用,是指從大數據中總結、抽取相關的信息和知識,幫助人們分析發生了什么,并呈現事物的發展歷程。如美國的DOMO公司從其企業客戶的各個信息系統中抽取、整合數據,再以統計圖表等可視化形式,將數據蘊含的信息推送給不同崗位的業務人員和管理者,幫助其更好地了解企業現狀,進而做出判斷和決策。第二層,預測性分析應用,是指從大數據中分析事物之間的關聯關系、發展模式等,并據此對事物發展的趨勢進行預測。如微軟公司紐約研究院研究員DavidRothschild通過收集和分析賭博市場、好萊塢證券交易所、社交媒體用戶發布的帖子等大量公開數據,建立預測模型,對多屆奧斯卡獎項的歸屬進行預測。2014和2015年,均準確預測了奧斯卡共24個獎項中的21個,準確率達87.5%。第三層,指導性分析應用,是指在前兩個層次的基礎上,分析不同決策將導致的后果,并對決策進行指導和優化。如無人駕駛汽車分析高精度地圖數據和海量的激光雷達、攝像頭等傳感器的實時感知數據,對車輛不同駕駛行為的后果進行預判,并據此指導車輛的自動駕駛。

當前,在大數據應用的實踐中,描述性、預測性分析應用多,決策指導性等更深層次分析應用偏少。一般而言,人們做出決策的流程通常包括:認知現狀、預測未來和選擇策略這三個基本步驟。這些步驟也對應了上述大數據分析應用的三個不同類型。不同類型的應用意味著人類和計算機在決策流程中不同的分工和協作。例如:第一層次的描述性分析中,計算機僅負責將與現狀相關的信息和知識展現給人類專家,而對未來態勢的判斷及對最優策略的選擇仍然由人類專家完成。應用層次越深,計算機承擔的任務越多、越復雜,效率提升也越大,價值也越大。然而,隨著研究應用的不斷深入,人們逐漸意識到前期在大數據分析應用中大放異彩的深度神經網絡尚存在基礎理論不完善、模型不具可解釋性、魯棒性較差等問題。因此,雖然應用層次最深的決策指導性應用,當前已在人機博弈等非關鍵性領域取得較好應用效果,但是,在自動駕駛、政府決策、軍事指揮、醫療健康等應用價值更高,且與人類生命、財產、發展和安全緊密關聯的領域,要真正獲得有效應用,仍面臨一系列待解決的重大基礎理論和核心技術挑戰。在此之前,人們還不敢、也不能放手將更多的任務交由計算機大數據分析系統來完成。這也意味著,雖然已有很多成功的大數據應用案例,但還遠未達到我們的預期,大數據應用仍處于初級階段。未來,隨著應用領域的拓展、技術的提升、數據共享開放機制的完善,以及產業生態的成熟,具有更大潛在價值的預測性和指導性應用將是發展的重點。

二是大數據治理體系遠未形成,特別是隱私保護、數據安全與數據共享利用效率之間尚存在明顯矛盾,成為制約大數據發展的重要短板,各界已經意識到構建大數據治理體系的重要意義,相關的研究與實踐將持續加強。

隨著大數據作為戰略資源的地位日益凸顯,人們越來越強烈地意識到制約大數據發展最大的短板之一就是:數據治理體系遠未形成,如數據資產地位的確立尚未達成共識,數據的確權、流通和管控面臨多重挑戰;數據壁壘廣泛存在,阻礙了數據的共享和開放;法律法規發展滯后,導致大數據應用存在安全與隱私風險;等等。如此種種因素,制約了數據資源中所蘊含價值的挖掘與轉化。

其中,隱私、安全與共享利用之間的矛盾問題尤為凸顯。一方面,數據共享開放的需求十分迫切。近年來人工智能應用取得的重要進展,主要源于對海量、高質量數據資源的分析和挖掘。而對于單一組織機構而言,往往靠自身的積累難以聚集足夠的高質量數據。另外,大數據應用的威力,在很多情況下源于對多源數據的綜合融合和深度分析,從而獲得從不同角度觀察、認知事物的全方位視圖。而單個系統、組織的數據往往僅包含事物某個片面、局部的信息,因此,只有通過共享開放和數據跨域流通才能建立信息完整的數據集。

然而,另一方面,數據的無序流通與共享,又可能導致隱私保護和數據安全方面的重大風險,必須對其加以規范和限制。例如,鑒于互聯網公司頻發的、由于對個人數據的不正當使用而導致的隱私安全問題,歐盟制定了“史上最嚴格的”數據安全管理法規《通用數據保護條例》(GeneralDataProtectionRegulation,GDPR),并于2018年5月25日正式生效。《條例》生效后,Facebook和谷歌等互聯網企業即被指控強迫用戶同意共享個人數據而面臨巨額罰款,并被推上輿論的風口浪尖。2020年1月1日,被稱為美國“最嚴厲、最全面的個人隱私保護法案”——《加利福利亞消費者隱私法案》(CCPA)將正式生效。CCPA規定了新的消費者權利,旨在加強消費者隱私權和數據安全保護,涉及企業收集的個人信息的訪問、刪除和共享,企業負有保護個人信息的責任,消費者控制并擁有其個人信息,這是美國目前最具典型意義的州隱私立法,提高了美國保護隱私的標準。在這種情況下,過去利用互聯網平臺中心化搜集用戶數據,實現平臺化的精準營銷的這一典型互聯網商業模式將面臨重大挑戰。

我國在個人信息保護方面也開展了較長時間的工作,針對互聯網環境下的個人信息保護,制定了《全國人民代表大會常務委員會關于加強網絡信息保護的決定》《電信和互聯網用戶個人信息保護規定》《全國人民代表大會常務委員會關于維護互聯網安全的決定》和《消費者權益保護法》等相關法律文件。特別是2016年11月7日,全國人大常委會通過的《中華人民共和國網絡安全法》中明確了對個人信息收集、使用及保護的要求,并規定了個人對其個人信息進行更正或刪除的權利。2019年,中央網信辦發布了《數據安全管理辦法(征求意見稿)》,向社會公開征求意見,明確了個人信息和重要數據的收集、處理、使用和安全監督管理的相關標準和規范。相信這些法律法規將在促進數據的合規使用、保障個人隱私和數據安全等方面發揮不可或缺的重要作用。然而,從體系化、確保一致性、避免碎片化考慮,制訂專門的數據安全法、個人信息保護法是必要的。

另一方面,我們也應看到,這些法律法規也將在客觀上不可避免地增加數據流通的成本、降低數據綜合利用的效率。如何兼顧發展和安全,平衡效率和風險,在保障安全的前提下,不因噎廢食,不對大數據價值的挖掘利用造成過分的負面影響,是當前全世界在數據治理中面臨的共同課題。

近年來,圍繞大數據治理這一主題及其相關問題,國際上已有不少成功的實踐和研究探索工作,諸如在國家層面推出的促進數據共享開放、保障數據安全和保護公民隱私的相關政策和法規,針對企業機構的數據管理能力評估和改善,面向數據質量保證的方法與技術,促進數據互操作的技術規范和標準等。然而,考察當前的研究和實踐,仍存在三個方面的主要問題。

一是大數據治理概念的使用相對“狹義”,研究和實踐大都以企業組織為對象,僅從個體組織的角度考慮大數據治理的相關問題,這與大數據跨界流動的迫切需求存在矛盾,限制了大數據價值的發揮。二是現有研究實踐對大數據治理內涵的理解尚未形成共識,不同研究者從流程設計、信息治理和數據管理應用等不同視角,給出了大數據治理的不同定義,共識的形成尚有待時日!三是大數據治理相關的研究實踐多條線索并行,關聯性、完整性和一致性不足。諸如,國家層面的政策法規和法律制定等較少被納入大數據治理的視角;數據作為一種資產的地位仍未通過法律法規予以確立,難以進行有效的管理和應用;大數據管理已有不少可用技術與產品,但還缺乏完善的多層級管理體制和高效管理機制;如何有機結合技術與標準,建立良好的大數據共享與開放環境仍需要進一步探索。缺少系統化設計,僅僅在已有的相關體系上進行擴展和延伸,可能會導致數據治理的“碎片化”和一致性缺失等等。

當前,各界已經普遍認識到了大數據治理的重要意義,大數據治理體系建設已經成為大數據發展重點,但仍處在發展的雛形階段,推進大數據治理體系建設將是未來較長一段時間內需要持續努力的方向。

三是數據規模高速增長,現有技術體系難以滿足大數據應用的需求,大數據理論與技術遠未成熟,未來信息技術體系將需要顛覆式創新和變革。

近年來,數據規模呈幾何級數高速成長。據國際信息技術咨詢企業國際數據公司(IDC)的報告,2020年全球數據存儲量將達到44ZB(1021),到2030年將達到2500ZB。當前,需要處理的數據量已經大大超過處理能力的上限,從而導致大量數據因無法或來不及處理,而處于未被利用、價值不明的狀態,這些數據被稱為“暗數據”。據國際商業機器公司(IBM)的研究報告估計,大多數企業僅對其所有數據的1%進行了分析應用。

近年來,大數據獲取、存儲、管理、處理、分析等相關的技術已有顯著進展,但是大數據技術體系尚不完善,大數據基礎理論的研究仍處于萌芽期。首先,大數據定義雖已達成初步共識,但許多本質問題仍存在爭議,例如:數據驅動與規則驅動的對立統一、“關聯”與“因果”的辯證關系、“全數據”的時空相對性、分析模型的可解釋性與魯棒性等;其次,針對特定數據集和特定問題域已有不少專用解決方案,是否有可能形成“通用”或“領域通用”的統一技術體系,仍有待未來的技術發展給出答案;其三,應用超前于理論和技術發展,數據分析的結論往往缺乏堅實的理論基礎,對這些結論的使用仍需保持謹慎態度。

推演信息技術的未來發展趨勢,較長時期內仍將保持漸進式發展態勢,隨技術發展帶來的數據處理能力的提升將遠遠落后于按指數增長模式快速遞增的數據體量,數據處理能力與數據資源規模之間的“剪刀差”將隨時間持續擴大,大數據現象將長期存在。在此背景下,大數據現象倒逼技術變革,將使得信息技術體系進行一次重構,這也帶來了顛覆式發展的機遇。例如,計算機體系結構以數據為中心的宏觀走向和存算一體的微觀走向,軟件定義方法論的廣泛采用,云邊端融合的新型計算模式等;網絡通信向寬帶、移動、泛在發展,海量數據的快速傳輸和匯聚帶來的網絡的Pb/s級帶寬需求,千億級設備聯網帶來的Gb/s級高密度泛在移動接入需求;大數據的時空復雜度亟需在表示、組織、處理和分析等方面的基礎性原理性突破,高性能、高時效、高吞吐等極端化需求呼喚基礎器件的創新和變革;軟硬件開源開放趨勢導致產業發展生態的重構;等等。

三、大數據與數字經濟

大數據是信息技術發展的必然產物,更是信息化進程的新階段,其發展推動了數字經濟的形成與繁榮。信息化已經歷了兩次高速發展的浪潮,始于上世紀80年代,隨個人計算機大規模普及應用所帶來的以單機應用為主要特征的數字化(信息化1.0),及始于上世紀90年代中期,隨互聯網大規模商用進程所推動的以聯網應用為主要特征的網絡化(信息化2.0)。當前,我們正在進入以數據的深度挖掘和融合應用為主要特征的智能化階段(信息化3.0)。在“人機物”三元融合的大背景下,以“萬物均需互聯、一切皆可編程”為目標,數字化、網絡化和智能化呈融合發展新態勢。

在信息化發展歷程中,數字化、網絡化和智能化是三條并行不悖的主線。數字化奠定基礎,實現數據資源的獲取和積累;網絡化構建平臺,促進數據資源的流通和匯聚;智能化展現能力,通過多源數據的融合分析呈現信息應用的類人智能,幫助人類更好地認知復雜事物和解決問題。

信息化新階段開啟的另一個重要表征是信息技術開始從助力經濟發展的輔助工具向引領經濟發展的核心引擎轉變,進而催生一種新的經濟范式—“數字經濟”。數字經濟是指以數字化知識和信息為關鍵生產要素、以現代信息網絡為重要載體、以信息通信技術的有效使用為效率提升和經濟結構優化的重要推動力的一系列經濟活動,是以新一代信息技術和產業為依托,繼農業經濟、工業經濟之后的新經濟形態。從構成上看,農業經濟屬單層結構,以農業為主,配合以其他行業,以人力、畜力和自然力為動力,使用手工工具,以家庭為單位自給自足,社會分工不明顯,行業間相對獨立;工業經濟是兩層結構,即提供能源動力和行業制造設備的裝備制造產業,以及工業化后的各行各業,并形成分工合作的工業體系。數字經濟則可分為三個層次:提供核心動能的信息技術及其裝備產業、深度信息化的各行各業以及跨行業數據融合應用的數據增值產業。當前,數字經濟正處于成型展開期,將進入信息技術引領經濟發展的爆發期、黃金期!

從另一個視角來看,如果說過去20多年,互聯網高速發展引發了一場社會經濟的“革命”,深刻地改變了人類社會,現在可以看到,互聯網革命的上半場已經結束。上半場的主要特征是“2C”(面向最終用戶),主戰場是面向個人提供社交、購物、教育、娛樂等服務,可稱為“消費互聯網”。而互聯網革命的下半場正在開啟,其主要特征將是“2B”(面向組織機構),重點在于促進供給側的深刻變革,互聯網應用將面向各行業,特別是制造業,以優化資源配置、提質增效為目標,構建以工業物聯為基礎和工業大數據為要素的工業互聯網。作為互聯網發展的新領域,工業互聯網是新一代信息技術與生產技術深度融合的產物,它通過人、機、物的深度互聯,全要素、全產業鏈、全價值鏈的全面鏈接,推動形成新的工業生產制造和服務體系。當前,新一輪工業革命正在拉開帷幕,在全球范圍內不斷顛覆傳統制造模式、生產組織方式和產業形態,而我國正處于由數量和規模擴張向質量和效益提升轉變的關鍵期,需要抓住歷史機遇期,促進新舊動能轉換,形成競爭新優勢。我國是制造大國和互聯網大國,推動工業互聯網創新發展具備豐富的應用場景、廣闊的市場空間和巨大的推進動力。

數字經濟未來發展呈現如下趨勢:一是以互聯網為核心的新一代信息技術正逐步演化為人類社會經濟活動的基礎設施,并將對原有的物理基礎設施完成深度信息化改造和軟件定義,在其支撐下,人類極大地突破了溝通和協作的時空約束,推動平臺經濟、共享經濟等新經濟模式快速發展。以平臺經濟中的零售平臺為例,百貨大樓在前互聯網時代對促進零售業發展起到了重要作用。而從上世紀九十年代中后期開始,伴隨互聯網的普及,電子商務平臺逐漸興起。與要求供需方必須在同一時空達成交易的百貨大樓不同,電子商務平臺依托互聯網,將遍布全球各個角落的消費者、供貨方連接在一起,并聚合物流、支付、信用管理等配套服務,突破了時空約束,大幅減少了中間環節,降低了交易成本,提高了交易效率。按阿里研究院的報告,過去十年間,中國電子商務規模增長了10倍,并呈加速發展趨勢。二是各行業工業互聯網的構建將促進各種業態圍繞信息化主線深度協作、融合,在完成自身提升變革的同時,不斷催生新的業態,并使一些傳統業態走向消亡。如隨著無人駕駛汽車技術的成熟和應用,傳統出租車業態將可能面臨消亡。其他很多重復性的、對創新創意要求不高的傳統行業也將退出歷史舞臺。2017年10月,《紐約客》雜志報道了劍橋大學兩名研究者對未來365種職業被信息技術淘汰的可能性分析,其中電話推銷員、打字員、會計等職業高居榜首。三是在信息化理念和政務大數據的支撐下,政府的綜合管理服務能力和政務服務的便捷性持續提升,公眾積極參與社會治理,形成共策共商共治的良好生態。四是信息技術體系將完成蛻變升華式的重構,釋放出遠超當前的技術能力,從而使蘊含在大數據中的巨大價值得以充分釋放,帶來數字經濟的爆發式增長。

四、我國大數據發展的態勢

黨的十八屆五中全會將大數據上升為國家戰略。回顧過去幾年的發展,我國大數據發展可總結為:“進步長足,基礎漸厚;喧囂已逝,理性回歸;成果豐碩,短板仍在;勢頭強勁,前景光明”。

作為人口大國和制造大國,我國數據產生能力巨大,大數據資源極為豐富。隨著數字中國建設的推進,各行業的數據資源采集、應用能力不斷提升,將會導致更快更多的數據積累。預計到2020年,我國數據總量有望達到8000EB(1018),占全球數據總量的21%,將成為名列前茅的數據資源大國和全球數據中心。

我國互聯網大數據領域發展態勢良好,市場化程度較高,一些互聯網公司建成了具有國際領先水平的大數據存儲與處理平臺,并在移動支付、網絡征信、電子商務等應用領域取得國際先進甚至領先的重要進展。然而,大數據與實體經濟融合還遠不夠,行業大數據應用的廣度和深度明顯不足,生態系統亟待形成和發展。

隨著政務信息化的不斷發展,各級政府積累了大量與公眾生產生活息息相關的信息系統和數據,并成為最具價值數據的保有者。如何盤活這些數據,更好地支撐政府決策和便民服務,進而引領促進大數據事業發展,是事關全局的關鍵。2015年9月,國務院發布《促進大數據發展行動綱要》,其中重要任務之一就是“加快政府數據開放共享,推動資源整合,提升治理能力”,并明確了時間節點,2017年跨部門數據資源共享共用格局基本形成;2018年建成政府主導的數據共享開放平臺,打通政府部門、企事業單位間的數據壁壘,并在部分領域開展應用試點;2020年實現政府數據集的普遍開放。隨后,國務院和國務院辦公廳又陸續印發了系列文件,推進政務信息資源共享管理、政務信息系統整合共享、互聯網+政務服務試點、政務服務一網一門一次改革等,推進跨層級、跨地域、跨系統、跨部門、跨業務的政務信息系統整合、互聯、協同和數據共享,用政務大數據支撐“放管服”改革落地,建設數字政府和智慧政府。目前,我國政務領域的數據開放共享已取得了重要進展和明顯效果。例如:浙江省推出的“最多跑一次”改革,是推進供給側結構性改革、落實“放管服”改革、優化營商環境的重要舉措。以衢州市不動產交易為例,通過設立綜合窗口再造業務流程,群眾由原來跑國土、住建、稅務3個窗口8次提交3套材料,變為只跑綜合窗口1個窗口1次提交1套材料,效率大幅提高。據有關統計,截至2019年上半年,我國已有82個省級、副省級和地級政府上線了數據開放平臺,涉及41.93%的省級行政區、66.67%的副省級城市和18.55%的地級城市。

我國已經具備加快技術創新的良好基礎。在科研投入方面,前期通過國家科技計劃在大規模集群計算、服務器、處理器芯片、基礎軟件等方面系統性部署了研發任務,成績斐然。“十三五”期間在國家重點研發計劃中實施了“云計算和大數據”重點專項。當前科技創新2030大數據重大項目正在緊鑼密鼓地籌劃、部署中。我國在大數據內存計算、協處理芯片、分析方法等方面突破了一些關鍵技術,特別是打破“信息孤島”的數據互操作技術和互聯網大數據應用技術已處于國際領先水平;在大數據存儲、處理方面,研發了一些重要產品,有效地支撐了大數據應用;國內互聯網公司推出的大數據平臺和服務,處理能力躋身世界前列。

國家大數據戰略實施以來,地方政府紛紛響應聯動、積極謀劃布局。國家發改委組織建設11個國家大數據工程實驗室,為大數據領域相關技術創新提供支撐和服務。發改委、工信部、中央網信辦聯合批復貴州、上海、京津冀、珠三角等8個綜合試驗區,正在加快建設。各地方政府紛紛出臺促進大數據發展的指導政策、發展方案、專項政策和規章制度等,使大數據發展呈蓬勃之勢。

然而,我們也必須清醒地認識到我國在大數據方面仍存在一系列亟待補上的短板。

一是大數據治理體系尚待構建。首先,法律法規滯后。目前,我國尚無真正意義上的數據管理法規,只在少數相關法律條文中有涉及到數據管理、數據安全等規范的內容,難以滿足快速增長的數據管理需求。其次,共享開放程度低。推動數據資源共享開放,將有利于打通不同部門和系統的壁壘,促進數據流轉,形成覆蓋全面的大數據資源,為大數據分析應用奠定基礎。我國政府機構和公共部門已經掌握巨大的數據資源,但存在“不愿”、“不敢”和“不會”共享開放的問題。例如:在“最多跑一次”改革中,由于技術人員缺乏,政務業務流程優化不足,涉及部門多、鏈條長,長期以來多頭管理、各自為政等問題,導致很多地區、鄉鎮的綜合性窗口難建立、數據難流動、業務系統難協調。同時,由于辦事流程不規范,網上辦事大廳指南五花八門,以至于同一個縣市辦理同一項事件,需要的材料、需要集成的數據在各鄉鎮的政務審批系統里卻各有不同,造成群眾不能一次性獲得準確的相關信息而需要“跑多次”。當前,我國的政務數據共享開放進程,相對于《行動綱要》明確的時間節點,已明顯落后,且數據質量堪憂。不少地方的政務數據開放平臺,仍然存在標準不統一、數據不完整、不好用甚至不可用等問題。政務數據共享開放意義重大,仍需要堅持不懈地持續推進。此外,在數據共享與開放的實施過程中,各地還存在片面強調數據物理集中的“一刀切”現象,對已有信息化建設投資保護不足,造成新的浪費。第三,安全隱患增多。近年來,數據安全和隱私數據泄露事件頻發,凸顯大數據發展面臨的嚴峻挑戰。在大數據環境下,數據在采集、存儲、跨境跨系統流轉、利用、交易和銷毀等環節的全生命周期過程中,所有權與管理權分離,真假難辨,多系統、多環節的信息隱性留存,導致數據跨境跨系統流轉追蹤難、控制難,數據確權和可信銷毀也更加困難。

二是核心技術薄弱。基礎理論與核心技術的落后導致我國信息技術長期存在“空心化”和“低端化”問題,大數據時代需避免此問題在新一輪發展中再次出現。近年來,我國在大數據應用領域取得較大進展,但是基礎理論、核心器件和算法、軟件等層面,較之美國等技術發達國家仍明顯落后。在大數據管理、處理系統與工具方面,我國主要依賴國外開源社區的開源軟件,然而,由于我國對國際開源社區的影響力較弱,導致對大數據技術生態缺乏自主可控能力,成為制約我國大數據產業發展和國際化運營的重大隱患。

三是融合應用有待深化。我國大數據與實體經濟融合不夠深入,主要問題表現在:基礎設施配置不到位,數據采集難度大;缺乏有效引導與支撐,實體經濟數字化轉型緩慢;缺乏自主可控的數據互聯共享平臺等。當前,工業互聯網成為互聯網發展的新領域,然而仍存在不少問題:政府熱、企業冷,政府時有“項目式”、“運動式”推進,而企業由于沒看到直接、快捷的好處,接受度低;設備設施的數字化率和聯網率偏低;大多數大企業仍然傾向打造難以與外部系統交互數據的封閉系統,而眾多中小企業數字化轉型的動力和能力嚴重不足;國外廠商的設備在我國具有壟斷地位,這些企業紛紛推出相應的工業互聯網平臺,搶占工業領域的大數據基礎服務市場。

五、若干思考和建議

最后,我想基于自己在大數據領域的研究實踐,匯報若干思考和建議。一家之見,僅供參考。

(一)大力發展行業大數據應用

當前,我國互聯網領域的大數據應用市場化程度高、發展較好,但行業應用廣度和深度明顯不足,生態系統亟待形成和發展。事實上,與實體經濟緊密結合的行業大數據應用蘊含了更加巨大的發展潛力和價值。以制造業為例,麥肯錫研究報告稱:制造企業在利用大數據技術后,其生產成本能夠降低10%—15%。而大數據技術對制造業的影響遠非成本這一個方面。利用源于產品生命周期中市場、設計、制造、服務、再利用等各個環節數據,制造業企業可以更加精細、個性化地了解客戶需求;建立更加精益化、柔性化、智能化的生產系統;創造包括銷售產品、服務、價值等多樣的商業模式;并實現從應激式到預防式的工業系統運轉管理模式的轉變。制造業是國民經濟不可或缺的一環,也是一個國家競爭力背后的強大力量支撐。我國制造業位居世界第一,卻大而不強。企業創新能力不足,高端和高價值產品欠缺,在國際產業分工中處于中低端,大力推動制造業大數據應用的發展,對產業升級轉型至關重要。

當前,我國不同行業領域正在積極推進數字化轉型、網絡化重構、智能化提升,推動行業大數據應用,也是推進數字中國建設的重要途徑和基礎。

(二)建立系統全面的大數據治理體系

大數據是數字經濟的關鍵要素,強大的信息技術產業和全面深度信息化賦能的傳統行業無疑是數字經濟的基礎!大數據治理須從營造大數據產業發展環境的視角予以全面、系統化考慮!

我以為,在一國之范圍內,大數據治理體系建設涉及國家、行業和組織三個層次,至少包含數據的資產地位確立、管理體制機制、共享與開放、安全與隱私保護等四方面內容,需要從制度法規、標準規范、應用實踐和支撐技術等視角多管齊下,提供支撐。

在國家層次,重點是要在法律法規層面明確數據的資產地位,奠定數據確權、流通、交易和保護的基礎,制定促進數據共享開放的政策法規和標準規范,促進政務數據和行業數據的融合應用,并且出臺數據安全與隱私保護的法律法規,保障國家、組織和個人的數據安全。在行業層次,重點是要在國家相關法律法規框架下,充分考慮本行業中企業的共同利益與長效發展,建立規范行業數據管理的組織機構和數據管控制度,制定行業內數據共享與開放的規則和技術規范,促進行業內數據的共享交換和融合應用。在組織層次,重點是要提升企業對數據全生命期的管理能力,促進企業內部和企業間的數據流通,提升數據變現能力,保障企業自身的數據安全及客戶的數據安全和隱私信息。

在數據治理體系建設中,數據共享開放是大數據資源建設的前提,在現階段重要性尤其突出。在平衡數據共享開放和隱私保護、數據安全的關系時,我以為,還是需要強調應用先行、安全并重的原則。數據共享開放不應被孤立看待,可能需要綜合考慮數據的使用場合及數據主體的權益。如,數據集中管理可能帶來保管上的安全問題,然而數據融合才能產生價值,一定程度的集中是趨勢所在,也更利于建立更強大可靠的保護機制;多源數據的融合可能導致信息泄露,然而在確知風險前,是否需要因其“可能性”而拒絕技術的應用?數據脫敏仍然可能存在隱私泄露的風險,是否允許個體在知情前提下“用隱私換方便”、“用隱私換治療換健康”?是否允許使用符合當前“標準”、但無法確保未來一定不出現信息泄露的脫敏方法,并對相關應用予以免責?當然,加強兼顧隱私保護、數據安全和數據流動利用的新技術研發,也非常必要。當前,如安全多方計算、同態加密、聯邦學習等技術研發,希望允許擁有數據的各方在不向其他組織或個人公開數據中所含敏感信息的情況下,實現數據的融合利用。雖然這些技術尚處于發展的初級階段,但因其廣闊的應用前景而受到普遍關注。

另外,打破信息孤島、盤活數據存量是當前一項緊迫的任務,而在此過程中,不宜過分強調物理集中,而應將邏輯互聯作為打通信息“孤島”的手段,邏輯互聯先行,物理集中跟進。在數據共享體系建設中,需要在一定層級上構建物理分散、邏輯統一、管控可信、標準一致的政務信息資源共享交換體系,在不改變現有信息系統與數據資源的所有權及管理格局的前提下,明晰責權利,即:數據應用部門提需求、數據擁有部門做響應、交換平臺管理部門保流轉。同時,集約化的政務云建設正成為政府、企業建設新的信息系統的首選方案,如何在新一輪建設熱潮中,從規劃、立項審批、建設、審計等環節以及方案指導、標準規范和技術支持等方面給予全方位保障,盡可能避免新“孤島”的產生,也是一項重大挑戰。

(三)以開源為基礎構建自主可控的大數據產業生態

在大數據時代,軟件開源和硬件開放已成為不可逆的趨勢,掌控開源生態,已成為國際產業競爭的焦點。建議采用“參與融入、蓄勢引領”的開源推進策略,一方面鼓勵我國企業積極“參與融入”國際成熟的開源社區,爭取話語權;另一方面,也要在建設基于中文的開源社區方面加大投入,匯聚國內軟硬件資源和開源人才,打造自主可控開源生態,在學習實踐中逐漸成長壯大,伺機實現引領發展。中文開源社區的建設,需要國家在開源相關政策法規和開源基金會制度建立方面給予支持。此外,在開源背景下,對“自主可控”的內涵定義也有待更新,不一定強調硬件設計和軟件代碼的所有權,更多應體現在對硬件設計方案和軟件代碼的理解、掌握、改進及應用能力。

(四)積極推動國際合作并籌劃布局跨國數據共享機制

2018年11月17日,習近平總書記在APEC工商領導人峰會上發表主旨演講指出“經濟全球化是人類社會發展必經之路”,“各國都是全球合作鏈條中的一環”。在數字經濟快速發展的時代背景下,我國應該積極推動在大數據技術和應用方面的國際合作,建立跨國數據共享機制,與其他國家一起分享數字經濟的紅利,同時也使我國獲得更多發展機遇和更大發展空間,積極促進數字經濟下人類利益共同體和命運共同體的構建。當前,我國正在積極推動“一帶一路”合作發展。各國在合作的各個領域都將產生大量的數據。建議積極推進跨國的大數據治理合作,在保障數據安全的前提下,促進數據跨境流動,從而形成圍繞國家合作各個領域的大數據資源,為數字經濟領域的國際合作奠定堅實的基礎。“一帶一路”沿線大都屬發展中國家,無論技術還是經濟水平較之發達國家都有明顯差距。而數字經濟這一新經濟形態的成型發展將帶給包括中國在內的各發展中國家經濟轉型發展的歷史性機遇期。經濟后發國家有機會在新經濟的全球壟斷性格局形成之前,與發達國家站在同一起跑線上,并且由于沒有“路徑依賴”所帶來的歷史包袱,也有可能在新一輪的競爭中占有優勢。

(五)未雨綢繆,防范大數據發展可能帶來的新風險

大數據發展可能導致一系列新的風險。例如,數據壟斷可能導致數據“黑洞”現象。一些企業憑借先發展起來的行業優勢,不斷獲取行業數據,但卻“有收無放”,呈現出數據壟斷的趨勢。這種數據壟斷不僅不利于行業的健康發展,而且有可能對國家安全帶來沖擊和影響。又如,數據和算法可能導致人們對其過分“依賴”及社會“被割裂”等倫理問題。大數據分析算法根據各種數據推測用戶的偏好并推薦內容,在帶來便利的同時,也導致人們只看到自己“希望看到的”信息,從而使人群被割裂為多個相互之間難以溝通、理解的群體,其可能引發的社會問題將是難以“亡羊補牢”的。

需要看到,以互聯網為代表的新一代信息技術所帶來的這場社會經濟“革命”,在廣度、深度和速度上都將是空前的,也會是遠遠超出我們從工業社會獲得的常識和認知、遠遠超出我們的預期的,適應信息社會的個體素質的養成、滿足未來各種新興業態就業需求的合格勞動者的培養,將是我們面臨的巨大挑戰!唯有全民提升對大數據的正確認知,具備用大數據思維認識和解決問題的基本素質和能力,才有可能積極防范大數據帶來的新風險;唯有加快培養適應未來需求的合格人才,才有可能在數字經濟時代形成國家的綜合競爭力。

我的匯報結束,謝謝大家!

(主講人系中國人民解放軍軍事科學院副院長)

名詞解釋:

API:應用編程接口(ApplicationProgrammingInterface)的首字母縮寫,是指某軟件系統或平臺為其他應用軟件系統提供的一組函數,通過調用這些函數,其他應用軟件系統可以使用此軟件系統或平臺的部分功能或訪問某些數據。

開源平臺:“開源”是開放源代碼的簡稱,開源平臺是指支持開源社區活動,管理開放源代碼,向所有開源社區參與者提供相關服務的軟件平臺(平臺基于互聯網構建并通過互聯網通過服務)。任何人都可以獲得開源軟件的源代碼并加以修改,并在某個預先約定的開源協議限制范圍內發布修改后的新版本。結合上下文,這里的開源平臺是指提供大數據管理、處理、分析等方面能力的開源軟件的軟件平臺。

可伸縮的計算體系結構:可伸縮英文為scalable,指一個計算系統的能力和性能隨應用負載的增加,通過極少的改動或配置甚至只是簡單的硬件資源增加,而保持線性增長的能力,是表征計算系統處理能力的一個重要的設計指標。可伸縮的計算體系結構是計算系統體系結構設計追求的重要指標,軟件定義、虛擬化、資源池化等方法和技術常用于可伸縮性的實現。

魯棒性:魯棒是英文Robust的音譯,也就是健壯的意思,因此魯棒性也被翻譯為健壯性。魯棒性一般用于描述一個系統在異常或極端情況下仍然可以工作的能力。結合上下文,這里談及的大數據分析模型的魯棒性是指在數據存在錯誤、噪音、缺失,甚至在惡意數據攻擊等異常情況下,模型仍然能得到較為準確結論的能力。

數據互操作:數據互操作是指不同信息系統之間可以通過網絡連接對彼此的數據進行訪問,包括對其他系統數據的讀取與寫入。數據互操作是實現數據共享的基礎。

“全數據”:“全數據”也稱“全量數據”,是與“采樣數據”相對的概念。傳統的數據分析受限于數據采集、存儲、處理的成本,一般都僅對問題相關的所有數據進行局部采樣,并基于采樣獲得的部分數據進行分析,得出結論,結論的準確性與采樣方法以及對被采樣數據的統計假設密切相關。而大數據時代,人們開始提出“全數據”的概念,即,并不采樣,而是將與問題相關的所有數據全部輸入到分析模型中分析。這種方法避免了因采樣而可能帶來的誤差,但是也增加了計算成本。

云邊端融合:云是指云計算中心,邊是指邊緣計算設備,端是指終端設備。以智能家居為例,智能電視、冰箱、空調等直接與用戶交互的設備是“端”,通過互聯網連接的異地的云計算平臺是“云”,而安裝在每個家庭的智能家居中控服務器是“邊”。云計算中心具有強大的計算存儲能力,一般用于復雜的數據計算處理;終端設備距離最終用戶較近,對用戶的操作響應快,一般負責與用戶進行交互;邊緣計算設備介于“云”和“端”之間,負責對端所采集的數據做本地化處理,同時將需要更強大計算能力支持的任務和數據發往云計算中心處理,并將“云”返回的結果提供給端設備。云邊端融合是一種“云”、“邊”、“端”不同計算設備各司其職,密切協同且優勢互補的新型計算模式。

寬帶、移動、泛在的網絡通信:“寬帶”是指通信速率高,海量大數據的高速傳輸需求推動骨干網絡向Pb/s發展;“移動”是指移動通信;“泛在”是指無所不在。寬帶、移動、泛在通信是指:未來大量移動終端和物聯網設備通過無所不在的接入網絡接入主干網并通過高速主干網絡進行通信。

安全多方計算:安全多方計算是為解決在保護隱私信息以及沒有可信第三方的前提下,一組互不信任的參與方之間的協同計算問題而提出的理論框架。安全多方計算能夠同時確保輸入的隱私性和計算的正確性,在無可信第三方的前提下通過數學理論保證參與計算的各方成員輸入信息不暴露,且同時能夠獲得準確的運算結果。此項技術的研究尚處于初級階段。

同態加密:同態加密是一種密碼學技術,其核心在于保證:對經過同態加密的數據進行處理(如:運行某種數據分析算法)后得到輸出,將這一輸出進行解密,其結果與用同一方法(即上述數據分析算法)處理未加密的原始數據得到的輸出結果一致。同態加密技術使得數據擁有者可以將數據加密后交給第三方處理,從第三方獲得處理結果后,對此結果進行解密便可獲得所期望的結果。如此一來,數據擁有者就不必擔心因將原始數據交給第三方而存在的隱私泄露風險,同時又能獲得第三方提供的數據分析服務。此項技術的研究尚處于初級階段。

聯邦學習:聯邦機器學習是一個多組織協同的機器學習框架,使得一個組織在不共享原始數據的情況下,可以利用其他組織數據中所蘊含的信息和知識,建立協同的機器學習模型。此模型比各組織僅利用本組織內部數據而訓練的機器學習模型有更高的性能。此項技術的研究尚處于初級階段。

ZB、EB、Pb/s、Gb/s:在計算機領域,一個二進制位稱為一個比特,一般用小寫b表示;而8個二進制位稱一個字節,用大寫B表示。簡言之:1B=8b。計算數據量或數據所需存儲空間大小時,習慣用字節為單位(用B表示)。1KB=1024B,1MB=1024KB,1GB=1024MB(通常簡記為109),1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB。1EB約等于10億GB,而1ZB約等于1萬億GB。假設一首長為3分鐘的歌曲錄制成MP3文件(44K/320kbps音質),大小約為8MB,那么1ZB的數據存儲空間可存儲MP3格式歌曲140萬億多首,如果全部聽一遍,需要8億多年。計算網絡傳輸速率時習慣上用比特每秒為單位(用b/s表示)。1Pb/S和1Gb/S分別代表1秒鐘傳輸的數據是1P(1000萬億)個比特和1G(10億)個比特。網絡速率1Gb/S(此處是小寫b)的情況下,下載一個2GB(此處是大寫B)的電影,需要16秒;而網絡速率1Pb/S的情況下,僅需要0.016毫秒。



任选七胆拖