了解最新公司動態及行業資訊
it技術員會所以高深技術總結一下吧。高手參加時提高很大。1:是一個大數據倉庫和數據管理系統,以提供平臺及其開發的各種應用開發框架hdfs為核心。在此框架下,所有數據都會存儲在類似hdfs中的文件系統里,并且定期(年月日次)進行調度分析。
hdfs可以相當于一個小型數據庫,所有數據可以合并,并且可以按數據顆粒度,將數據按時間段分組。如redis、solr、、,、db2等,還有物聯網,互聯網,生物醫藥,影像分析這樣的業務應用,都會用到。分組,顆粒度,按顆粒度分配數據,分配數據通過分組,再按數據集分組,再組合,存儲在顆粒度上一些磁盤,內存這樣的計算資源計算資源,通過平臺里的文件系統加載,平臺用來調度執行計算。
為了解決生產環境計算力不足問題,將一些信息存儲在hdfs上,調度計算的時候也調用hdfs上存儲的這些計算資源。2:隨著應用規模的不斷增大,的實際并發量也跟著大量增長it技術員,在這個過程中,計算壓力也隨之增大,計算壓力如何管理,應該如何管理都需要知道。后面講3:虛擬機,大量應用的運行需要文件系統,讀寫了hdfs和文件系統實時數據。
虛擬機可以管理和復制hdfs的數據,對hdfs和文件系統起管理作用。目前來看,用虛擬機管理hdfs文件系統實際挺方便的,又有it技術員,中間數據處理不需要,也不需要實時數據,所以用虛擬機管理hdfs,中間數據交互使用虛擬機。4:其他的相關的設置問題也要知道,比如在某個數據集上結果存儲時需要幾個虛擬機,各虛擬機在什么時候啟動,虛擬機和各虛擬機使用場景差異,虛擬機不能隨時建立連接等。
5:還需要知道hdfs的存儲結構,虛擬機可以存一些應用的數據,但是hdfs數據很多,比如運行時,數據已經連接到文件系統,但是把運行時應用存在hdfs文件系統不容易。因此,hdfs可以存在文件系統和文件系統里,也可以存在一個獨立的hdfs文件系統里,這里主要區別是一個是文件系統,一個是文件系統。6:寫入設備相關的控制(io相關和內存相關)和讀取設備相關的控制(讀寫設備相關)。