我國大數據分析工具的研究情況探析論文

2016年流行一個術語叫做數據主義,數據主義認爲整個世界由數據流構成,數據每天以指數級增長,電話、飛機、網購、出行都是一個新的數據。數據將會有越來越重要的作用,同時人的地位慢慢開始下降。未來人的價值取決於對數據流的分析解讀能力,因此分析技術在未來變得越來越重要。

我國大數據分析工具的研究情況探析論文

數據和人之間將通過算法連接,所以我們推出一個新的概念叫算法經濟或算法革命。傳統的算法很多,如最早的數學算法,後來的天文算法,現在的統計學開啓的算法,但都不能滿足機器學算法。追求更智能化正改變着人類的進程,數據離開了算法就沒有太多的意義。

到了新時代,我們發現很多是不規則的非結構化數據,更重要的是希望通過機器做一些事情,這對算法提出了新的要求。人工智能主要包括以生物爲基礎的生物智能和以算法爲基礎的機器智能。而機器智能的核心是數據智能,這完全取決於算法。

大數據分析的工具是怎麼發展的?第一代是基於關係型數據庫的分析,在這方面中國人比較落後,因此我們推出了馬克威關係型數據庫的分析軟件,現在已經有很多用戶了。

而到了大數據時代,關係型數據庫不能滿足大量數據分析的需求,所以出現一個新的算法-分佈式的算法,要調用分佈式存儲的數據進行分析,就需要分佈式的算法體系,到目前爲止,算法體系只有一個開源,是簡單的9個算法,而且對計算結果不敢負責,另外是馬克威分佈式算法軟件-馬克威雲挖掘軟件。

這一點上我們已把傳統的關係型數據庫拋在後面。我們和阿里巴巴合作開發該軟件,在阿里雲測試3000臺服務器,一張表176億條記錄,68個變量,體積大概是3.4T.這張表是指淘寶的零售表,我們計算的結果是36秒,這意味着可以做很多的分析。這是真正用了大數據算法,不是停留在理論。

馬克威是完全基於分佈式架構來重新編寫,是真正的分佈式軟件,其理念是實現從數據找算法變成算法找數據,通過算法逐步計算,然後將結果累計起來。

就在剛剛完成了分佈式不久,Spark RDD用Scala語言編寫的分佈式內存數據處理應用,馬克威把分佈式算法變成分佈式內存計算,把我們的算法和Sp a rk對接。這意味着當下算法的發展已到了比較新的生態-分佈式內存生態,既可以處理大量數據,同時可以快速解決問題。

還有一個發展趨勢,未來是人工智能的時代,人工智能說到底拼的還是算法模型。因此,天律公司正在研製基於硬件技術的嵌入式芯片。

機器智能就是機器學習算法,大部分還是在軟件中運行,其速度跟不上工業設備的需求。因此我們採用FPGA技術,把算法做成極速嵌入式的裝置,可以滿足人機一體化的需求。目前FPGA是最快的技術,且有很多機器設備在用。我們取得了一些初步成果,第一個應用是上海期貨,而期貨高頻交易是因爲大家需要更快地看到行情。

我們推出中國第一個算法交易平臺,這裏有一個理念-套裝軟件衰落,算法模型興起。現在我們將所有的算法重新編寫,編成大量小的模型,部署在雲端算法的'交易平臺上。我們的理念是第一代互聯網門戶,如新浪、搜狐、網易;第二代互聯網交易平臺,如阿里巴巴、京東、1號店;第三代算法平臺,即知識產品、智慧產品在互聯網的交易。我們正在緊鑼密鼓測試我們的平臺,希望我們的算法能夠爲社會各領域服務,由現在的B2B變成B2C或C2B,允許別人把他們的算法模型拿到我們的平臺交易,這是我們開創的新商業模式。

15年以來,我們專注的一件事情就是算法。我們有算法大全、應用模型大全、算法學院,還有集權的文檔,併網羅全世界難找到的開源算法。我們將免費的算法知識都彙集到一個平臺上,要讓所有的中國人一想到分析和算法,就上馬克威算法平臺。

天律公司於2001年成立,是中國第一家真正做大數據分析化軟件的公司,我們現在是國家統計局“大數據與統計建模”的指定廠家,以及全國大學生統計建模競賽(SUCM)的指定參賽軟件,國家火炬計劃項目、中國商務智能領軍品牌,國家統計局、海關總署、商務部、環保部、水利部、國家質檢總局、上海世博會,阿里巴巴等互聯網公司,以及一些大型企業和高校都是我們的客戶。

我們有五大產品,馬克威雲挖掘,馬克威分析系統、馬克威決策支持平臺、馬克威算法交易平臺、馬克威硬件極速交易系統。這些系統得到很多金融界朋友的認可。