平臺(tái)涵蓋海量數(shù)據(jù)的采集、存儲(chǔ)、計(jì)算、分析挖掘、應(yīng)用建模的需要,滿(mǎn)足高可用性、高擴(kuò)展性、高可靠性要求。
基于開(kāi)源技術(shù)的成熟大數(shù)據(jù)平臺(tái),包含以Hadoop為主的大數(shù)據(jù)生態(tài)基礎(chǔ)引擎。平臺(tái)涵蓋海量數(shù)據(jù)的采集、存儲(chǔ)、計(jì)算、分析挖掘、應(yīng)用建模的需要,滿(mǎn)足高可用性、高擴(kuò)展性、高可靠性要求。終端用戶(hù)可通過(guò)豐富的平臺(tái)接口,完成各行業(yè)大規(guī)模數(shù)據(jù)的挖掘分析與應(yīng)用對(duì)接管理。
數(shù)據(jù)匯集支持多種格式的數(shù)據(jù)采集,并能在數(shù)據(jù)采集過(guò)程中對(duì)數(shù)據(jù)進(jìn)行持續(xù)化的預(yù)處理。通過(guò)對(duì)多種采集作業(yè)提供統(tǒng)一的操作與管控能力,讓數(shù)據(jù)的采集過(guò)程可視、可管、可控。
數(shù)據(jù)處理算法庫(kù)提供大量的基于批處理、內(nèi)存、流式計(jì)算的算法模型,這些算法模型有一些是大數(shù)據(jù)平臺(tái)內(nèi)置的通用性算法模型,也支持用戶(hù)自定義上傳算法包,數(shù)據(jù)處理算法庫(kù)的主要作用是為大數(shù)據(jù)平臺(tái)提供數(shù)據(jù)分析和挖掘的能力。用戶(hù)根據(jù)所需選擇合適的算法,或者基于自己定義的算法包,新建計(jì)算作業(yè),由作業(yè)管理中的資源管理系統(tǒng)來(lái)分配和調(diào)度計(jì)算資源環(huán)境,在環(huán)境中加載算法庫(kù)完成數(shù)據(jù)計(jì)算和處理。除此外,數(shù)據(jù)處理算法庫(kù)還包括數(shù)據(jù)抽取算法、數(shù)據(jù)檢索算法等其他計(jì)算框架的算法。
大數(shù)據(jù)平臺(tái)體現(xiàn)兩種能力,即Hadoop即服務(wù)和數(shù)據(jù)即服務(wù)。
Hadoop即服務(wù)主要表現(xiàn)在:
以資源管理為核心,進(jìn)行資源分配和調(diào)度,并根據(jù)分配的資源來(lái)承載預(yù)定的存儲(chǔ)框架和計(jì)算框架,來(lái)體現(xiàn)存儲(chǔ)框架、計(jì)算框架按需分配,按需使用,按需計(jì)量;
存儲(chǔ)框架和計(jì)算框架可在線(xiàn)裝卸,靈活的擴(kuò)充Hadoop能力,并對(duì)外提供Hadoop組件服務(wù)。
數(shù)據(jù)即服務(wù)主要表現(xiàn)在:
大數(shù)據(jù)平臺(tái)匯集各個(gè)數(shù)據(jù)源,并將匯集的數(shù)據(jù)對(duì)外提供服務(wù);
大數(shù)據(jù)平臺(tái)集成通用的數(shù)據(jù)模型算法,可以根據(jù)這些數(shù)據(jù)模型來(lái)進(jìn)行初步的數(shù)據(jù)清洗、數(shù)據(jù)分析挖掘,并將處理后的數(shù)據(jù)開(kāi)放出去,對(duì)外提供服務(wù);
大數(shù)據(jù)平臺(tái)可以插入用戶(hù)自定義的數(shù)據(jù)模型,并根據(jù)用戶(hù)自定義的數(shù)據(jù)模型進(jìn)行分析處理,并將處理結(jié)果數(shù)據(jù)開(kāi)放出去,對(duì)外提供服務(wù)。
?大數(shù)據(jù)平臺(tái)一方面要匯集多個(gè)數(shù)據(jù)源的數(shù)據(jù),另一方面要將平臺(tái)的數(shù)據(jù)和計(jì)算能力以標(biāo)準(zhǔn)化的API接口開(kāi)放出去,應(yīng)用系統(tǒng)可以基于這些接口來(lái)快速開(kāi)發(fā)應(yīng)用和支撐應(yīng)用的運(yùn)行。
在大數(shù)據(jù)平臺(tái)服務(wù)器安裝BSS-Data大數(shù)據(jù)平臺(tái)套件,包括大數(shù)據(jù)管理平臺(tái)、Hadoop組件等。通過(guò)Web管理界面,實(shí)現(xiàn)向服務(wù)器節(jié)點(diǎn)添加各類(lèi)Hadoop服務(wù)組件,如HDFS,HBase,Solr,Spark等,提供分布式計(jì)算與存儲(chǔ)能力;安裝分布式資源管理框架YARN,實(shí)現(xiàn)對(duì)集群資源的管理和任務(wù)的調(diào)度監(jiān)控;安裝分布式海量數(shù)據(jù)采集、聚合和傳輸系統(tǒng)Flume,實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的采集。大數(shù)據(jù)平臺(tái)提供的組件包括:HDFS、Mapreduce、Hbase、Hive、Hue、Solr、Sqoop、Spark、Oozie、Zookeeper、Flume等,在實(shí)際使用的情況下可根據(jù)業(yè)務(wù)需要進(jìn)行選擇性安裝。
數(shù)據(jù)匯集支持多種格式的數(shù)據(jù)采集,并能在數(shù)據(jù)采集過(guò)程中對(duì)數(shù)據(jù)進(jìn)行持續(xù)化的預(yù)處理。通過(guò)對(duì)多種采集作業(yè)提供統(tǒng)一的操作與管控能力,讓數(shù)據(jù)的采集過(guò)程可視、可管、可控。
數(shù)據(jù)處理算法庫(kù)提供大量的基于批處理、內(nèi)存、流式計(jì)算的算法模型,這些算法模型有一些是大數(shù)據(jù)平臺(tái)內(nèi)置的通用性算法模型,也支持用戶(hù)自定義上傳算法包,數(shù)據(jù)處理算法庫(kù)的主要作用是為大數(shù)據(jù)平臺(tái)提供數(shù)據(jù)分析和挖掘的能力。用戶(hù)根據(jù)所需選擇合適的算法,或者基于自己定義的算法包,新建計(jì)算作業(yè),由作業(yè)管理中的資源管理系統(tǒng)來(lái)分配和調(diào)度計(jì)算資源環(huán)境,在環(huán)境中加載算法庫(kù)完成數(shù)據(jù)計(jì)算和處理。除此外,數(shù)據(jù)處理算法庫(kù)還包括數(shù)據(jù)抽取算法、數(shù)據(jù)檢索算法等其他計(jì)算框架的算法。
大數(shù)據(jù)平臺(tái)體現(xiàn)兩種能力,即Hadoop即服務(wù)和數(shù)據(jù)即服務(wù)。
Hadoop即服務(wù)主要表現(xiàn)在:
以資源管理為核心,進(jìn)行資源分配和調(diào)度,并根據(jù)分配的資源來(lái)承載預(yù)定的存儲(chǔ)框架和計(jì)算框架,來(lái)體現(xiàn)存儲(chǔ)框架、計(jì)算框架按需分配,按需使用,按需計(jì)量;
存儲(chǔ)框架和計(jì)算框架可在線(xiàn)裝卸,靈活的擴(kuò)充Hadoop能力,并對(duì)外提供Hadoop組件服務(wù)。
數(shù)據(jù)即服務(wù)主要表現(xiàn)在:
大數(shù)據(jù)平臺(tái)匯集各個(gè)數(shù)據(jù)源,并將匯集的數(shù)據(jù)對(duì)外提供服務(wù);
大數(shù)據(jù)平臺(tái)集成通用的數(shù)據(jù)模型算法,可以根據(jù)這些數(shù)據(jù)模型來(lái)進(jìn)行初步的數(shù)據(jù)清洗、數(shù)據(jù)分析挖掘,并將處理后的數(shù)據(jù)開(kāi)放出去,對(duì)外提供服務(wù);
大數(shù)據(jù)平臺(tái)可以插入用戶(hù)自定義的數(shù)據(jù)模型,并根據(jù)用戶(hù)自定義的數(shù)據(jù)模型進(jìn)行分析處理,并將處理結(jié)果數(shù)據(jù)開(kāi)放出去,對(duì)外提供服務(wù)。
?大數(shù)據(jù)平臺(tái)一方面要匯集多個(gè)數(shù)據(jù)源的數(shù)據(jù),另一方面要將平臺(tái)的數(shù)據(jù)和計(jì)算能力以標(biāo)準(zhǔn)化的API接口開(kāi)放出去,應(yīng)用系統(tǒng)可以基于這些接口來(lái)快速開(kāi)發(fā)應(yīng)用和支撐應(yīng)用的運(yùn)行。
數(shù)據(jù)處理算法庫(kù)提供大量的基于批處理、內(nèi)存、流式計(jì)算的算法模型,這些算法模型有一些是大數(shù)據(jù)平臺(tái)內(nèi)置的通用性算法模型,也支持用戶(hù)自定義上傳算法包,數(shù)據(jù)處理算法庫(kù)的主要作用是為大數(shù)據(jù)平臺(tái)提供數(shù)據(jù)分析和挖掘的能力。用戶(hù)根據(jù)所需選擇合適的算法,或者基于自己定義的算法包,新建計(jì)算作業(yè),由作業(yè)管理中的資源管理系統(tǒng)來(lái)分配和調(diào)度計(jì)算資源環(huán)境,在環(huán)境中加載算法庫(kù)完成數(shù)據(jù)計(jì)算和處理。除此外,數(shù)據(jù)處理算法庫(kù)還包括數(shù)據(jù)抽取算法、數(shù)據(jù)檢索算法等其他計(jì)算框架的算法。
數(shù)據(jù)匯集支持多種格式的數(shù)據(jù)采集,并能在數(shù)據(jù)采集過(guò)程中對(duì)數(shù)據(jù)進(jìn)行持續(xù)化的預(yù)處理。通過(guò)對(duì)多種采集作業(yè)提供統(tǒng)一的操作與管控能力,讓數(shù)據(jù)的采集過(guò)程可視、可管、可控。
數(shù)據(jù)處理算法庫(kù)提供大量的基于批處理、內(nèi)存、流式計(jì)算的算法模型,這些算法模型有一些是大數(shù)據(jù)平臺(tái)內(nèi)置的通用性算法模型,也支持用戶(hù)自定義上傳算法包,數(shù)據(jù)處理算法庫(kù)的主要作用是為大數(shù)據(jù)平臺(tái)提供數(shù)據(jù)分析和挖掘的能力。用戶(hù)根據(jù)所需選擇合適的算法,或者基于自己定義的算法包,新建計(jì)算作業(yè),由作業(yè)管理中的資源管理系統(tǒng)來(lái)分配和調(diào)度計(jì)算資源環(huán)境,在環(huán)境中加載算法庫(kù)完成數(shù)據(jù)計(jì)算和處理。除此外,數(shù)據(jù)處理算法庫(kù)還包括數(shù)據(jù)抽取算法、數(shù)據(jù)檢索算法等其他計(jì)算框架的算法。
大數(shù)據(jù)平臺(tái)體現(xiàn)兩種能力,即Hadoop即服務(wù)和數(shù)據(jù)即服務(wù)。
Hadoop即服務(wù)主要表現(xiàn)在:
以資源管理為核心,進(jìn)行資源分配和調(diào)度,并根據(jù)分配的資源來(lái)承載預(yù)定的存儲(chǔ)框架和計(jì)算框架,來(lái)體現(xiàn)存儲(chǔ)框架、計(jì)算框架按需分配,按需使用,按需計(jì)量;
存儲(chǔ)框架和計(jì)算框架可在線(xiàn)裝卸,靈活的擴(kuò)充Hadoop能力,并對(duì)外提供Hadoop組件服務(wù)。
數(shù)據(jù)即服務(wù)主要表現(xiàn)在:
大數(shù)據(jù)平臺(tái)匯集各個(gè)數(shù)據(jù)源,并將匯集的數(shù)據(jù)對(duì)外提供服務(wù);
大數(shù)據(jù)平臺(tái)集成通用的數(shù)據(jù)模型算法,可以根據(jù)這些數(shù)據(jù)模型來(lái)進(jìn)行初步的數(shù)據(jù)清洗、數(shù)據(jù)分析挖掘,并將處理后的數(shù)據(jù)開(kāi)放出去,對(duì)外提供服務(wù);
大數(shù)據(jù)平臺(tái)可以插入用戶(hù)自定義的數(shù)據(jù)模型,并根據(jù)用戶(hù)自定義的數(shù)據(jù)模型進(jìn)行分析處理,并將處理結(jié)果數(shù)據(jù)開(kāi)放出去,對(duì)外提供服務(wù)。
?大數(shù)據(jù)平臺(tái)一方面要匯集多個(gè)數(shù)據(jù)源的數(shù)據(jù),另一方面要將平臺(tái)的數(shù)據(jù)和計(jì)算能力以標(biāo)準(zhǔn)化的API接口開(kāi)放出去,應(yīng)用系統(tǒng)可以基于這些接口來(lái)快速開(kāi)發(fā)應(yīng)用和支撐應(yīng)用的運(yùn)行。
數(shù)據(jù)處理算法庫(kù)提供大量的基于批處理、內(nèi)存、流式計(jì)算的算法模型,這些算法模型有一些是大數(shù)據(jù)平臺(tái)內(nèi)置的通用性算法模型,也支持用戶(hù)自定義上傳算法包,數(shù)據(jù)處理算法庫(kù)的主要作用是為大數(shù)據(jù)平臺(tái)提供數(shù)據(jù)分析和挖掘的能力。用戶(hù)根據(jù)所需選擇合適的算法,或者基于自己定義的算法包,新建計(jì)算作業(yè),由作業(yè)管理中的資源管理系統(tǒng)來(lái)分配和調(diào)度計(jì)算資源環(huán)境,在環(huán)境中加載算法庫(kù)完成數(shù)據(jù)計(jì)算和處理。除此外,數(shù)據(jù)處理算法庫(kù)還包括數(shù)據(jù)抽取算法、數(shù)據(jù)檢索算法等其他計(jì)算框架的算法。
大數(shù)據(jù)平臺(tái)支持的抽取工具包括Kettle、Sqoop、Flume、等。其中Kettle用于抽取各業(yè)務(wù)系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù),Sqoop用于抽取結(jié)構(gòu)化數(shù)據(jù)到Hadoop平臺(tái),F(xiàn)lume用于抽取非結(jié)構(gòu)化數(shù)據(jù)到Hadoop平臺(tái)。根據(jù)選擇的數(shù)據(jù)源的類(lèi)型,平臺(tái)自動(dòng)為數(shù)據(jù)源分配不同的抽取工具進(jìn)行抽取,最大化對(duì)數(shù)據(jù)源的抽取效率。
支持定制化的數(shù)據(jù)抽取,實(shí)現(xiàn)對(duì)數(shù)據(jù)源的靈活管理。在抽取之前,大數(shù)據(jù)平臺(tái)支持配置抽取數(shù)據(jù)源的哪些數(shù)據(jù),并提供資源目錄展示數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息以方便選擇。
平臺(tái)的數(shù)據(jù)抽取可根據(jù)預(yù)定的數(shù)據(jù)匯集策略,對(duì)不同數(shù)據(jù)源的數(shù)據(jù)類(lèi)型進(jìn)行分別匯集,分別存儲(chǔ),也可以根據(jù)數(shù)據(jù)量大小、運(yùn)算要求通過(guò)數(shù)據(jù)直連或數(shù)據(jù)服務(wù)總線(xiàn)接入。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù),平臺(tái)使用HDFS進(jìn)行存儲(chǔ);對(duì)于結(jié)構(gòu)化數(shù)據(jù),平臺(tái)使用具有結(jié)構(gòu)化特征的HBase進(jìn)行存儲(chǔ)。
平臺(tái)的統(tǒng)一監(jiān)控體系對(duì)數(shù)據(jù)匯聚的全流程進(jìn)行監(jiān)控,包括數(shù)據(jù)源狀態(tài)的監(jiān)控、數(shù)據(jù)抽取任務(wù)的執(zhí)行狀態(tài)、數(shù)據(jù)抽取作業(yè)的資源占用情況、數(shù)據(jù)存儲(chǔ)的完整性等。
大數(shù)據(jù)平臺(tái)支持的抽取工具包括Kettle、Sqoop、Flume、等。其中Kettle用于抽取各業(yè)務(wù)系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù),Sqoop用于抽取結(jié)構(gòu)化數(shù)據(jù)到Hadoop平臺(tái),F(xiàn)lume用于抽取非結(jié)構(gòu)化數(shù)據(jù)到Hadoop平臺(tái)。根據(jù)選擇的數(shù)據(jù)源的類(lèi)型,平臺(tái)自動(dòng)為數(shù)據(jù)源分配不同的抽取工具進(jìn)行抽取,最大化對(duì)數(shù)據(jù)源的抽取效率。
支持定制化的數(shù)據(jù)抽取,實(shí)現(xiàn)對(duì)數(shù)據(jù)源的靈活管理。在抽取之前,大數(shù)據(jù)平臺(tái)支持配置抽取數(shù)據(jù)源的哪些數(shù)據(jù),并提供資源目錄展示數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息以方便選擇。
平臺(tái)的數(shù)據(jù)抽取可根據(jù)預(yù)定的數(shù)據(jù)匯集策略,對(duì)不同數(shù)據(jù)源的數(shù)據(jù)類(lèi)型進(jìn)行分別匯集,分別存儲(chǔ),也可以根據(jù)數(shù)據(jù)量大小、運(yùn)算要求通過(guò)數(shù)據(jù)直連或數(shù)據(jù)服務(wù)總線(xiàn)接入。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù),平臺(tái)使用HDFS進(jìn)行存儲(chǔ);對(duì)于結(jié)構(gòu)化數(shù)據(jù),平臺(tái)使用具有結(jié)構(gòu)化特征的HBase進(jìn)行存儲(chǔ)。
平臺(tái)的統(tǒng)一監(jiān)控體系對(duì)數(shù)據(jù)匯聚的全流程進(jìn)行監(jiān)控,包括數(shù)據(jù)源狀態(tài)的監(jiān)控、數(shù)據(jù)抽取任務(wù)的執(zhí)行狀態(tài)、數(shù)據(jù)抽取作業(yè)的資源占用情況、數(shù)據(jù)存儲(chǔ)的完整性等。
大數(shù)據(jù)平臺(tái)支持的抽取工具包括Kettle、Sqoop、Flume、等。其中Kettle用于抽取各業(yè)務(wù)系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù),Sqoop用于抽取結(jié)構(gòu)化數(shù)據(jù)到Hadoop平臺(tái),F(xiàn)lume用于抽取非結(jié)構(gòu)化數(shù)據(jù)到Hadoop平臺(tái)。根據(jù)選擇的數(shù)據(jù)源的類(lèi)型,平臺(tái)自動(dòng)為數(shù)據(jù)源分配不同的抽取工具進(jìn)行抽取,最大化對(duì)數(shù)據(jù)源的抽取效率。
支持定制化的數(shù)據(jù)抽取,實(shí)現(xiàn)對(duì)數(shù)據(jù)源的靈活管理。在抽取之前,大數(shù)據(jù)平臺(tái)支持配置抽取數(shù)據(jù)源的哪些數(shù)據(jù),并提供資源目錄展示數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)信息以方便選擇。
平臺(tái)的數(shù)據(jù)抽取可根據(jù)預(yù)定的數(shù)據(jù)匯集策略,對(duì)不同數(shù)據(jù)源的數(shù)據(jù)類(lèi)型進(jìn)行分別匯集,分別存儲(chǔ),也可以根據(jù)數(shù)據(jù)量大小、運(yùn)算要求通過(guò)數(shù)據(jù)直連或數(shù)據(jù)服務(wù)總線(xiàn)接入。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù),平臺(tái)使用HDFS進(jìn)行存儲(chǔ);對(duì)于結(jié)構(gòu)化數(shù)據(jù),平臺(tái)使用具有結(jié)構(gòu)化特征的HBase進(jìn)行存儲(chǔ)。
平臺(tái)的統(tǒng)一監(jiān)控體系對(duì)數(shù)據(jù)匯聚的全流程進(jìn)行監(jiān)控,包括數(shù)據(jù)源狀態(tài)的監(jiān)控、數(shù)據(jù)抽取任務(wù)的執(zhí)行狀態(tài)、數(shù)據(jù)抽取作業(yè)的資源占用情況、數(shù)據(jù)存儲(chǔ)的完整性等。