了解最新公司動態及行業資訊
數據庫性能優化、云時代的數據庫、NoSQL技術進步、大數據云服務、數據分析與挖掘、機器學習……不同于“曇花一現”的技術分享會,盛拓組織的2017年會議媒體與IT168 2018中國數據庫技術大會()大會第二天依舊干貨滿滿。
12日上午的數據分析與挖掘專場迎來了技術嘉賓——聯想大數據研發經理張成松。他從零開始體驗了聯想大數據平臺的發展。一路上,他踩過很多坑,過很多河。明天,張成松將為我們帶來題為《 Spark to MPP - Large-scale -Class Rooms》的演講。
▲聯想大數據研發經理張成松
隨著業務急劇下滑,數據越來越多,很多企業經常會面臨這樣的困擾:數據查詢和數據分析越來越慢,運行半小時往往出不來;沒有了,維護成本和費用越來越高; T+1數據處理太慢,很難知道下一秒的業務是否有問題;不僅是傳統的商業數據,智能、可穿戴設備數據、非結構化數據也越來越多。
在這種情況下,傳統的企業級數據庫機房勢必會向大數據平臺轉變。張成松覺得,在這個轉型過程中,需要解決三個問題。一是傳統數據應用問題,涉及歷史數據遷移、與傳統數據庫機房和應用工具的無縫集成、對原有業務處理邏輯的適配、數據支持等。 CRUD,支持存儲過程;二是大數據預估,涉及PB級數據預估、結構化與非結構化數據存儲、應用、大數據場景數據分析、大數據環境下的數據修復;第三個是實時數據處理問題,涉及實時數據采集、流技術、實時估計、交互、多維數據分析探索。
張成松表示,企業級大數據實施平臺分為三類,一類是兩套框架MPP+,數據獨立存儲,集群間數據同步,缺點是資源浪費;系統,數據獨立存儲,具體接入服務,可按需選擇估算引擎;三是一套/框架it技術支持,既支持大數據估計,也支持傳統的數據庫機房。導出歷史數據后it技術支持,同意保存數據。
張成松現場分享了他們在上的相關操作:
張成松表示,實現數據CRUD操作,支持存儲過程、游標、函數、變量等邏輯,只是Spark架構中實現MPP功能的第一步。為了提高執行效率和性能,還需要從不同層面對引擎進行優化。
聯想的大數據企業級分析平臺最初是為了支持其手機業務而設計的。經過6年的持續投入和300余名研發人員,聯想在上海、成都、香港擁有3個研發中心,擁有200余名大數據開發人員。工程師,60多位大數據平臺運維工程師。目前聯想總數據容量12PB,總數據10PB,日新增數據30TB,日處理數據4.3PB。
此外,聯想大數據企業級分析平臺由數據采集與轉換套件、大數據估算平臺、數據能力開放平臺、業務分析套件、數據資產管理平臺和系統運營平臺六大部分組成維度監控中心。
,