分析論文:雲計算環境下大數據

1大數據處理流程

分析論文:雲計算環境下大數據

基本的大數據的處理流程可以分成數據採集、數據處理與集成、數據分析和數據解釋4個階段。首先獲取數據源的數據,因爲在數據源端的數據包含各種各樣的結構,需要使用某種方法將其進行預處理,使數據成爲某種可以用一種算法分析的統一數據格式,接着需要找到這種數據分析的算法,將預處理過的數據進行算法特定的分析,並將分析的結果用可視化等手段呈現至用戶端。

1.1數據採集

大數據的採集是整個流程的基礎,隨着互聯網技術和應用的發展以及各種終端設備的普及,使得數據的生產者範圍越來越大,數據的產量也越來越多,數據之間的關聯也越來越複雜,這也是大數據中“大”的體現,所以需要提高數據採集速度和精度要求。

1.2數據處理與集成

數據的處理與集成主要是對前一步採集到的大量數據進行適當的預處理,包括格式化、去噪以及進一步集成存儲。因爲數據採集步驟採集到的數據各種各樣,其數據結構也並不統一,不利於之後的數據分析,而且,一些數據屬於無效數據,需要去除,否則會影響數據分析的精度和可靠性,所以,需要將數據統一格式並且去除無效數據。通常會設計一些過濾器來完成這一任務。

1.3數據分析

在完成了數據的採集和處理後,需要對數據進行分析,因爲在進行數據分析後才能體現所有大數據的重要價值。數據分析的對象是上一步數據的處理與集成後的統一格式數據,需要根據所需數據的應用需求和價值體現方向對這些原始樣本數據進一步地處理和分析。現有的數據分析通常指採用數據倉庫和數據挖掘工具對集中存儲的數據進行分析,數據分析服務與傳統數據分析的差別在於其面向的對象不是數據,而是數據服務。

1.4數據解釋

數據解釋是對大數據分析結果的解釋與展現,在數據處理流程中,數據結果的解釋步驟是大數據分析的`用戶直接面對成果的步驟,傳統的數據顯示方式是用文本形式體現的,但是,隨着數據量的加大,其分析結果也更復雜,傳統的數據顯示方法已經不足以滿足數據分析結果輸出的需求,因此,數據分析企業會引入“數據可視化技術”作爲數據解釋方式。通過可視化結果分析,可以形象地向用戶展示數據分析結果。

2雲計算與大數據分析的關係

雲計算是基於互聯網的相關服務的增加、使用和交付模式,通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源,是一種按使用量付費的模式。這種模式提供可用的、便捷的、按需的網絡訪問,進入可配置的計算資源共享池(資源包括網絡、服務器、存儲、應用軟件、服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。目前,國內外已經有不少成熟的雲計算的應用服務。數據分析是整個大數據處理流程裏最核心的部分。數據分析是以數據的價值分析爲目的的活動,而基於大數據的數據分析通常表現爲對已獲取的海量數據的分析,其數據來源可能是企業數據也可能是企業數據與互聯網數據的融合。從目前的趨勢來看,雲計算是大數據的IT基礎,是大數據分析的支撐平臺,不斷增長的數據量需要性能更高的數據分析平臺承載。所以,雲計算技術的不斷髮展可以爲大數據分析提供更爲靈活、迅速的部署方案,使得大數據分析的結果更加精確。另一方面,雲計算的出現爲大數據分析提供了擴展性更強,使用成本更低的存儲資源和計算資源,使得中小企業也可以通過雲計算來實現屬於自己的大數據分析產品。大數據技術本身也是雲計算技術的一種延伸。大數據技術涵蓋了從數據的海量存儲、處理到應用多方面的技術,包括海量分佈式文件系統、並行計算框架、數據庫、實時流數據處理以及智能分析技術,如模式識別、自然語言理解、應用知識庫等等。但是,大數據分析要走向雲計算還要賴於數據通信帶寬的提高和雲資源的建設,需要確保原始數據能遷移到雲環境以及資源池可以隨需彈性擴展。

3基於雲計算環境的Hadoop

爲了給大數據處理分析提供一個性能更高、可靠性更好的平臺,研究者基於MapReduce開發了一個基於雲計算環境的開源平臺Hadoop。Hadoop是一個以MapReduce算法爲分佈式計算框架,包括分佈式文件系統(HDFS)、分佈式數據庫(Hbase、Cassandra)等功能模塊在內的完整生態系統,已經成爲當前最流行的大數據處理平臺,並被廣泛認可和開發應用。基於Hadoop,用戶可編寫處理海量數據的分佈式並行程序,並將其運行於由成百上千個節點組成的大規模計算機集羣上。

4實例分析

本節以電信運營商爲例,說明在雲計算環境中基於Hadoop的大數據分析給大數據用戶帶來的價值。當前傳統語音和短信業務量下滑,智能終端快速增長,移動互聯網業務發展迅速,大數據分析可以爲運營商帶來新的機會,幫助運營商更好地轉型。本文數據分析樣本來自於某運營商的個人語音和數據業務清單,通過Hadoop2.6.0在Ubuntu12.04系統中模擬了一個大數據分析平臺來處理獲得的樣本。希望通過對樣本數據的分析與挖掘,掌握樣本本身的一些信息。以上分析只是一些很基本的簡單分析,實際上樣本數據中所蘊含的價值要遠遠大於本文體現的。以上舉例意在說明基於雲計算的大數據分析可以在數據分析上體現出良好的性能,爲企業帶來更豐富更有效率的信息提取、分類,並從中獲益。

5結束語

基於雲計算的大數據分析已經成爲解決大數據問題的主要手段,雲計算環境中的大數據分析平臺部署需要綜合考慮硬件、網絡、軟件等各方面的集成,使大數據的海量信息積累體現價值,顯示雲計算的性能優勢,而沒有云計算技術的支撐也不能進行高效和準確的大數據處理分析。最後本文通過一個例子來分析了基於雲計算的大數據分析給企業帶來的價值,由此可見,大數據需要雲計算技術的深入挖掘,同時也促進了雲計算技術的不斷髮展。