當今社會,數據量正在以爆炸方式迅猛增長,數據表示形式千變萬化,標志著我們已經進入了大數據時代。云計算、三網融合、物聯網、移動互聯網的出現,更加催生了大數據時代的產生。維基百科對大數據的定義是: 數據增長如此之快,以至于難以使用現有的數據庫管理工具進行快速的數據獲取、存儲、搜索、共享、分析和可視化等操作,這些數據量是如此之大,已經不是以傳統的 GB 和 TB 為單位來衡量,而是以 PB( 1PB =1024TB) 、EB ( 1EB = 1024PB) ,甚至是以 ZB ( 1ZB =1024EB) 、YB( 1YB = 1024ZB) 為計量單位,所以稱之為大數據。有調查指出,如今大規模的企業系統包括由上千臺服務器所構成的完整數據中心。使用大數據日益成為企業超越競爭對手的有力武器。企業通過快速獲取、分析由供應商和客戶產生的大量有關產品和服務的數據,可以更有針對性地提升消費者所關心的產品質量和服務質量,制定出更加符合市場和客戶需求的產品和服務策略,從而獲取更多的市場份額,增強企業的競爭實力。然而,對于大數據時代下的企業來說,其所需存儲、處理的數據量驚人,數據來源和數據結構繁多復雜,為大數據的分析和應用帶來很多挑戰。企業要想充分發揮大數據所賦予的機遇和優勢,前提是必須擁有可靠、準確、及時的高質量的數據,只有從高質量的大規模數據中提取隱含的、有用的信息,企業才能做出更加精準、更加符合市場和客戶需求的決策,否則大數據的優勢將化為泡影。為此,企業需要更加注重大數據時代下的數據質量及其重要性。
一、大數據時代產生的必然
大數據是云計算技術的延伸,更是社會進步和發展的必然結果,大數據時代的到來引領了未來 IT 技術發展的戰略走向。在信息和網絡技術飛速發展的今天,越來越多的企業業務及社會活動實現了數字化,特別是隨著數據生成的自動化及數據生成速度的加快,數據量也隨之快速增長。同時,隨著存儲設備、內存、處理器等電腦元件成本的穩定下降,使得之前較昂貴的大規模數據存儲和處理變得十分經濟,也使得大數據的存在成為可能。有調查顯示,企業信息系統中擁有數萬億字節的客戶信息、供應商信息以及業務運營信息,數據已經成為業務活動的副產品。全球最大的零售商沃爾瑪公司,每天通過分布在世界各地的6000 多家商店向全球客戶銷售超過 2.67 億件的商品,分析交易數據的數據倉庫系統規模已經達到 4PB,并且仍在不斷擴大。傳感器數據也是大數據的主要來源之一。在物聯網時代,成萬上億計的網絡傳感器嵌入在數量不斷增長的智能電表、移動電話、汽車等物理設備中,不斷感知、生成并傳輸超大規模的有關地理位置、振動、溫度、濕度等新型數據,其中 2010 年的移動電話使用量已經超過 40 億,傳感器的應用數量每年正在以 30%的速度增長。此外,全球數據存儲量也呈現飛速增長趨勢。2008 年全球數據量僅為0.49ZB; 在金融危機籠罩下的 2009 年,數據量也較2008 年增長了 63% ,達到 0.8ZB; 2010 年增至 1.2ZB;2011 年高達 1.82ZB; 2012 年則達到 2.7ZB,相比于2011 年的數據量增長了 48% 。若以如此快的速度增長,2015 年的全球數據量將會升至 8ZB,到 2020 年則高達 35.2ZB,是 2015 年數據量的 44 倍之多。
此外,移動互聯網、三網融合、Web 2.0 技術和電子商務技術的飛速發展,也促進了大數據時代的產生和發展。人們可以通過智能機、便攜機、個人電腦等終端設備,隨時隨地瀏覽網頁,上傳或下載、發布或共享圖片、視頻、音頻文本等多種媒體格式的文件,其中每秒鐘高清視頻所含的數據容量是單頁文本格式數據容量的 2000 倍,大量的多媒體內容在指數增長的數據量中發揮著重要的作用。在以 Web 2.0 為技術支撐的社交網站中,大量網絡用戶的點擊量、瀏覽痕跡、日志、照片、視頻、音頻等多媒體信息都會被記錄下來,隨著時間的推移,如此龐大、復雜的數據為跟蹤用戶、分析用戶喜好等提供了基礎,從而使社交網站可以有針對性地開發、投放滿足用戶需求的各種應用、廣告及商品。同樣,網上書店則通過存儲顧客的搜索路徑、瀏覽記錄、購買記錄等大量數據,分析顧客的購買傾向,設計算法來預測顧客感興趣的書籍類型。
通過上述典型的大數據的例子可以發現,數字化已經成為社會發展的必然趨勢。與生產過程必須依賴硬件設備和人力資本一樣,企業的業務活動、創新、成長也越來越離不開大量數據的支持。也就是說,企業的任何一項業務活動都與大量的數據緊密相聯,而我們每一個人都是數據的產生者,數據量與日俱增,數據結構繁雜多變,數據產生速度非常之快,我們已經進入了大數據的時代。
二、大數據的特點
數據無所不在,充斥于社會中的每一個部門、每一個經濟體、每一個組織、每一個 IT 技術的使用者,數據的海量生產、共享和應用已經成為必然。之所以被稱為大數據,是因為它具有傳統數據所不具備的獨特特點( 見表 1) 。
首先,數據量龐大。數據量大是大數據的首要特點之一,大數據時代的數據量是以 PB、EB、ZB 為存儲單位的。據麥肯錫全球研究院( MGI) 估計,2010 年,企業的磁盤中存儲了超過 7EB 字節的新數據; 用戶在個人 PC 機和筆記本等設備上的新數據存儲量也超過了 6EB 字節。另有一份報告顯示,沃爾瑪公司每小時能夠從顧客交易信息中收集超過 2. 5PB 字節的數據。截至 2012 年,社會上每天會產生 2. 5EB 量的數據,這個數據量是過去每 40 個月所產生數據量的兩倍。社會與企業被如此龐大的數據量所包圍,這也正是大數據時代下企業的重大變化之一,即用數據來表示企業的各種業務活動。
第二,數據增長、變化速度快。這既是大數據時代的特點,同時也是企業處理大數據所面臨的難題與挑戰。大數據環境下,數據產生、存儲和變化的速率十分驚人。目前因特網上每秒鐘產生的數據量比 20 年前整個因特網所存儲的數據量還要巨大,可見大數據產生速度之快。然而,數據量飛速增長的同時,對數據處理速度也提出了更高的要求。在這個用數據說話、競爭異常激烈的時代,數據產生速率甚至比數據產生數量要重要得多,事先擁有了數據,就意味著事先擁有了市場話語權,能夠讓企業率先做出符合企業和消費者需求的戰略決策,使得企業更加敏捷,從而先于競爭對手快速占領市場,增強企業的競爭實力。如果企業不能快速、有效地處理如此龐大的數據量,就會被快速增長的數據量所淹沒,喪失了大數據的價值。
第三,數據的多樣性。多樣性也是大數據的重要特點之一。大數據以多種多樣的形式涌現,如來自于傳感器的各種類型數據、移動電話的 GPS 定位數據、社交網絡中的語音、圖像、視頻、日志文件等等,并且隨著大數據時代的發展,新的數據來源與數據形式也會不斷出現。在如此多樣化的數據結構中,可獲得的數據常常是非結構化的,因此,傳統的結構化數據庫已經很難存儲并處理多樣性的大數據。但是在如此大量、繁雜的信息中卻存在著值得人們去挖掘的潛在有用信息,這也正是大數據多樣性價值的重要體現。
三、大數據環境下數據質量的重要性及挑戰
大數據并不僅僅指其數據量之大,更代表著其潛在的數據價值之大。有研究證明,有效地管理、使用大數據能夠給企業提供更多增強企業生產能力和競爭能力的機會,能夠給企業帶來巨大的潛在商業價值。例如在制造領域,嵌入在產品中的傳感器所傳輸的大數據為企業開發新型的售后服務項目、開發下一代新產品提供了堅實的數據基礎。又如在醫療領域,通過分析患者的臨床和行為數據,可以更深入地理解患者的病癥,進一步為不同的患者人群提供最適合他們的護理規劃等等。
大數據是企業決策的基礎,但是單純的數據量的積累不會對企業產生任何益處,只有建立適當的分析模型,并運用相應的技術手段,對大量的數據進行有效地深加工,發現隱含在大量數據中的信息并加以利用,進而指導企業做出相關決策,才能將大數據的真正效用發揮到極致。如果說云計算為海量分布的數據提供了存儲、訪問的平臺,那么如何在這個平臺上實時挖掘數據價值,使其為個人、組織和國家服務,將是云計算必然的發展方向,更是大數據技術的關鍵核心議題。然而要想充分發揮大數據給企業帶來的優勢,實現大數據的價值增值,挑戰卻是巨大的。高質量的數據是大數據發揮效能的前提和基礎,強大、高端的數據分析技術是大數據發揮效能的重要手段。對大數據進行有效分析的前提是必須要保證數據的質量,專業的數據分析工具只有在高質量的大數據環境中才能提取出隱含的、準確的、有用的信息,企業基于這些高質量分析結果所做出的各項決策才不至于偏離正常軌道; 否則,即使數據分析工具再先進,在充滿“垃圾”的大數據環境中也只能提取出毫無意義的“垃圾”信息。因此數據質量在大數據環境下顯得尤其重要。
然而,在大數據時代下,企業要想保證大數據的高質量卻并非易事,很小的、容易被忽視的數據質量問題在大數據環境下會被不斷放大,甚至引發不可恢復的數據質量災難。因此,如何保證大數據的數據質量,以及如何有效地挖掘隱藏在大數據中的信息,成為企業日益關心的問題。以制造企業為例,企業可以從大量的客戶、產品和銷售信息中獲得更多有價值的信息,進而制定滿足消費者需求的銷售策略。然而這些信息的獲取和提煉都必須以高質量的數據為前提,如果數據質量低下,必然會影響提取出的信息的質量,甚至是錯誤的、無效的信息。因此在大數據環境下,對數據質量的要求更加苛刻。
總之,由于大數據具有復雜、多樣、多變等特點,在大數據時代下,數據質量很難保證。下文重點從流程、技術和管理三方面來分析大數據環境下保證大數據質量的挑戰及重要性。
(一) 流程視角
從流程的角度,也即從數據生命周期角度來看,可以將數據生產過程分為數據收集、數據存儲和數據使用三個階段,三個階段對保證大數據質量分別提出了不同的挑戰。
首先在數據收集方面,大數據的多樣性決定了數據來源的復雜性。大數據的數據來源眾多,數據結構隨著數據來源的不同而各異,企業要想保證從多個數據源獲取的結構復雜的大數據的質量并有效地對數據進行整合,是一項異常艱巨的任務。來自于大量不同數據源的數據之間存在著沖突、不一致或相互矛盾的現象,在數據量較小的情形下,通過編寫簡單的匹配程序,甚至是人工查找,即可實現多數據源中不一致數據的檢測和定位,然而這種方法在大數據情形下卻顯得力不從心。在數據獲取階段保證數據定義的一致性、元數據定義的統一性及數據質量是大數據為中國甚至全世界企業提出的挑戰。另外,由于大數據的變化速度較快,有些數據的“有效期”非常之短,如果企業沒有實時地收集所需的數據,有可能收集到的就是“過期的”、無效的數據,在一定程度上會影響大數據的質量。數據收集階段是整個數據生命周期的開始,這個階段的數據質量對后續階段的數據質量起著直接的決定性的影響。因此,企業應該重視源頭上的大數據質量問題,為大數據的分析和應用提供高質量的數據基礎。
其次在數據存儲階段,由于大數據的多樣性,單一的數據結構( 如關系型數據庫中的二維表結構) 已經遠遠不能滿足大數據存儲的需要,企業應該使用專門的數據庫技術和專用的數據存儲設備進行大數據的存儲,保證數據存儲的有效性。據調查,目前國內大部分企業的業務運營數據仍以結構化數據為主,相應地主要采用傳統的數據存儲架構,如采用關系型數據庫進行數據的存儲,對于非結構化數據,則是先將其轉化為結構化數據后再進行存儲、處理及分析。這種數據存儲處理方式不僅無法應對大數據數量龐大、數據結構復雜、變化速度快等特點,而且一旦轉化方式不當,將會直接影響到數據的完整性、有效性與準確性等。而北京市科學技術委員會委員陳力工曾指出這種結構化的數據只占到互聯網整體流動數據的 10%,剩余 90%都為視頻、圖片、音頻等非結構化的數據,這就對傳統數據存儲架構的可靠性及有效性構成了挑戰。數據存儲是實現高水平數據質量的基本保障,如果數據不能被一致、完整、有效的存儲,數據質量將無從談起。因此,企業要想充分挖掘大數據的核心價值,首先必須完成傳統的結構化數據存儲處理方式向同時兼具結構化與非結構化數據存儲處理方式的轉變,不斷完善大數據環境下企業數據庫的建設,為保證大數據質量提供基礎保障。
同時,企業數據庫管理員( Database Administrator,DBA) 應該根據大數據結構的要求和特點合理地設計數據存儲和使用規則,以方便對數據的快速讀取。如果數據存儲不合理,不僅會浪費系統的存儲空間,而且還會給后期的數據使用帶來極大的不便,甚至會產生錯誤、無效的數據,難以保證數據質量。此外,DBA 在設計相應規則時,還要考慮諸多罕見的情況,因為在傳統數據量較少的情況下沒有考慮到的情形在大數據情況下卻有可能會發生。如果沒有考慮特殊或罕見情況,或考慮得不夠全面,將會給大數據的數據質量帶來嚴重的影響,甚至是危機。
最后,在數據使用階段,數據價值的發揮在于對數據的有效分析和應用,大數據涉及的使用人員眾多,很多時候是同步地、不斷地對數據進行提取、分析、更新和使用,任何一個環節出現問題,都將嚴重影響企業系統中的大數據質量,影響最終決策的準確性。舉例來說,由于大數據規模龐大、變化速度快,對數據的處理速度要求較高,如果數據處理不及時,有些變化速度快的數據就失去了其最有價值的階段,有些“過期”的數據甚至與實際數據不符,企業根據這些“過期”的無效數據所做出的決策必然也是無效的,甚至是錯誤的。從這個角度來講,數據及時性也是大數據質量的一個重要方面,如果企業不能快速地進行數據分析,不能從數據中及時地提取出有用的信息,就將會喪失預先占領市場的先機。
( 二) 技術視角
本文的技術視角主要是指從數據庫技術、數據質量檢測識別技術、數據分析技術的角度來研究保證大數據質量的挑戰及其重要性。大數據及其相關分析技術的應用能夠為企業提供更加準確的預測信息、更好的決策基礎以及更精準的干預政策,然而如果大數據的數據質量不高,所有這些優勢都將化為泡影。
在數據規模較小的情況下,關系型數據庫就能滿足企業數據存儲的需要,一般企業信息系統數據庫中的記錄通常會達到幾千條或上萬條,規模稍大的企業,其數據記錄能達到幾十萬條,在這種情況下,檢測數據庫中錯誤、缺失、無效、延遲的數據非常容易,幾分鐘甚至幾秒鐘就能完成對所有記錄的掃描和檢測。然而在大數據時代,企業的數據量不僅巨大,而且數據結構種類繁多,不僅僅有簡單的、結構化的數據,更多的則是復雜的、非結構化的數據,而且數據之間的關系較為復雜,若要識別、檢測大數據中錯誤、缺失、無效、延遲的數據,往往需要遍歷數百萬甚至數億條記錄或語句,傳統的技術和方法常常需要幾小時甚至幾天的時間才能完成對所有數據的掃描與檢測,因此,從這個角度來講,大數據環境為數據質量的監測和管理帶來了巨大的挑戰。這種情況下,傳統的數據庫技術、數據挖掘工具和數據清洗技術在處理速度和分析能力上已經無法應對大數據時代所帶來的挑戰,處理小規模數據質量問題的檢測工具已經不能勝任大數據環境下數據質量問題的檢測和識別任務,這就要求企業應根據實際業務的需要,在配備高端的數據存儲設備的同時,開發、設計或引進先進的、智能化的、專業的大數據分析技術和方法,以實現大數據中數據質量問題的檢測與識別,以及對大數據的整合、分析、可視化等操作,充分地提取、挖掘大數據潛在的應用價值。
大數據是 IT 領域又一次新的技術變革,國際數據公司( International Data Corporation,IDC) 指出,在大數據潮流中,新的數據類型與新的數據分析技術的缺失將是阻礙企業成為其行業領導者的重要方面。然而,由于大數據熱潮在國內剛剛掀起,諸多企業仍然采用的是傳統的關系型數據庫數據處理方式及適用于小規模數據的數據分析和數據挖掘技術,對先進的大數據存儲處理技術和分析工具仍處于學習和了解階段。另外,國內對于大數據相關技術的開發多關注于數據分布式存儲及并行計算方面,能夠滿足大數據特點及要求的數據質量檢測和清洗的智能化工具十分稀缺。這些都為保障大數據質量、充分發揮數據質量在推動大數據應用有效性方面的重要作用提出了挑戰。
( 三) 管理視角
管理視角主要探討企業高層管理者、專業管理和技術分析人員對保證大數據質量的重要性。
首先,大數據的管理需要企業高層管理者的重視和支持。只有得到了企業高層管理者的高度重視,一系列跟大數據有關的應用及發展規劃才能有望得到推動,保證大數據質量的各項規章制度才能得到順利的貫徹和落實。如果企業高層管理者缺乏大數據意識以及對大數據價值的正確理解,通常會給大數據管理帶來阻礙。缺少高層管理者的支持,企業對大數據管理、分析和應用的重視程度就會有所降低,大數據的質量就無法得到全面、有效的保證,從而將會大大弱化大數據價值的發揮,不利于企業競爭能力的提升。因此,企業應該在高層管理的領導和帶領下,加強大數據質量意識,建立完善的數據質量保證制度。然而,大數據在中國仍然處于“初級發展階段”,遠未達到系統化使用大數據技術對數據進行深度分析和挖掘的程度,還沒有充分體會到大數據分析及應用給企業帶來的巨大商業價值,因此企業高管對大數據的認識還沒有真正提升到企業發展的戰略高度,大數據的質量也因此并沒有得到充分地重視,這在很大程度上阻礙了大數據在國內企業的發展。
其次,專業數據管理人員的配備是保證大數據質量不可或缺的部分。由于大數據本身的復雜性增加了大數據管理的難度,既懂得數據分析技術,同時又諳熟企業各項業務的新型復合型管理人員是當下企業應用大數據方案最急需的人才,而首席數據官( Chief Data Officer,CDO) 就是這類人才的典型代表。CDO 是有效管理企業大數據、保證大數據質量的中堅力量。企業要想充分運用大數據方案,任命 CDO 來專門負責大數據所有權管理、定義元數據標準、制定并實施大數據管理決策等一系列活動是十分必要的。一份針對全球500 家企業的調查結果顯示,指定高層管理人員專門負責數據管理的 50 家企業的績效要遠遠高于其他企業的績效。因此,大數據環境下,需要 CDO 這樣的新型管理人才,根據企業的業務需求選擇合適的數據庫以及數據抽取、轉換和分析等工具,進行相關的數據挖掘、數據處理和分析,并根據分析結果對企業未來的業務規劃和發展戰略提供相應的建議和意見。然而,對于國內傳統的中小型企業來說,其擁有的數據規模較小,數據復雜程度較低,利用數據挖掘技術探究潛在市場機遇的情況并不多,因此它們對大數據的認識明顯不足,不會意識到建立 CDO 職位的必要性和重要性。即使是在擁有大數據規模的大中型企業,它們的數據管理和分析部門通常處于分散、被動、輔助的地位,沒有得到企業的充分高度重視,也同樣沒有把建立CDO 提升到企業戰略的高度,沒有意識到大數據環境下 CDO 對企業的重要作用,很多時候只是在企業內部設立了首席信息官( Chief Information Officer,CIO) 一職來肩負最基本的數據管理職責。但是由于 CIO 是技術行家,缺乏全面、專業地對企業業務數據進行分析、整理和挖掘的能力,最終將會導致企業漸漸失去大數據所賦予的競爭優勢。另外,CDO 的門檻很高,既要對企業各項業務的運作流程十分熟悉,又要懂得IT、數據分析、數據挖掘等技術的應用,同時還要具備極強的數據分析能力,集這些技能于一身的人才在國內非常稀少,這種大數據應用需求高漲與 CDO 人才缺失之間的矛盾將成為國內大數據應用面臨的最大挑戰之一。
CDO 的缺失是國內數據管理方式落后的直接體現,而落后的數據管理方式是影響大數據應用、阻礙大數據質量提升的重要因素之一。傳統的數據管理方式已經遠遠不能滿足大數據環境下數據質量的要求。以往大部分企業在運營過程中均由業務部門負責掌管數據,IT 部門負責信息技術的應用,這種分離式的運營管理方式容易造成業務人員不了解分析不同數據所需的不同 IT 工具,而 IT 人員在運用 IT 技術分析數據時不了解數據本身的內涵,甚至會做出錯誤的數據解釋,影響了企業決策的準確性和有效性。為此,企業應該對組織架構體系及其資源配置進行重組,讓數據管理與分析部門處于企業的上游位置,而設立 CDO 便是企業重組的成功標志之一。大數據環境下,同時還應配備專業、高端的數據庫設計和開發人員、程序員、數學和統計學家,在全面保證大數據質量的同時,充分挖掘大數據潛在的商業價值。
此外,在大數據生產過程的任何一個環節,企業都應該配備相應的專業數據管理人員,通過熟悉掌握數據的產生流程進行數據質量的監測和控制,例如在數據獲取階段,應指定專門人員負責記錄定義并記錄元數據,以便于數據的解釋,保證企業全體人員對數據的一致、正確理解,保證大數據源頭的質量。
四、結語
像互聯網、云計算以及物聯網等技術一樣,大數據時代的到來勢必會再次讓信息技術領域煥然一新。大數據時代下,每個個體都是數據的產生者,企業的任何一項業務活動都可以用數據來表示,如何保證大數據的質量,如何建模、提取并利用隱藏在大數據中的信息以提升企業信息系統績效、提升企業決策能力,成為擺在業界和學術界面前的重大難題。管理大數據如同管理企業員工一樣,員工人數越多,管理起來越復雜,大數據管理也是如此。在數據量小、數據結構簡單、數據來源少的情形下,數據管理相對簡單,數據質量也相對容易保證; 但是在數據量大、變化速度快、結構復雜、來源眾多的大數據情形下,保證數據質量并非易事。再加上國內大部分企業的大數據及數據質量重要性意識還較淡薄,大數據方案的建設及應用在我國尚不成熟,企業的數據存儲分析技術、數據管理方案等各項配套設施和制度還不完善,可見保證大數據的質量任重而道遠。因此,從數據收集、數據存儲到數據使用,企業必須制定詳細、縝密的數據質量管理制度,在數據庫設計時要考慮大數據在各個方面可能發生的種種意外情形,利用專門的數據提取和分析工具,任命專業的數據管理人才加強對大數據的管理,提高員工的數據質量意識,以保證大數據的數據質量,從而挖掘出更多準確、有效、有價值的信息。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.hanmeixuan.com/
本文標題:大數據時代下數據質量的挑戰
本文網址:http://www.hanmeixuan.com/html/support/11121816028.html