將數據作為企業的商業資產進行應用和管理的一套管理機制,消除數據的不一致性,建立規范的數據應用標準,提高組織的數據質量,實現數據廣泛共享,并能夠將數據作為組織的寶貴資產應用于業務、管理、戰略決策中,發揮數據資產的商業價值。包括元數據管理、主數據管理、數據質量、數據剖析、數據分析、數據集成、數據字典、數據庫管理、監控與報告等。

sj

平臺提供集群的基礎存儲架構和運算框架,數據的導入和導出等。包括的開源組件如下。

  • Zookeeper:各種Hadoop服務的依賴組件,用來實現高可用、狀態監控和元數據存放等功能。在CM部署時需要依賴于集群各自的Zookeeper。
  • HDFS:分布式文件系統,Hadoop平臺的數據存放基礎。用來存放結構化和非結構化數據,HBase的基礎文件格式(HFile)。
  • YARN:分布式調度引擎,Hadoop平臺基本計算服務,原生支持具備Mapreduce計算框架。用來實際執行多種任務,例如SQL分析、ETL作業、導入導出和索引建立等。
  • Spark:分布式內存計算引擎,提供高性能的計算服務。