大数据综合分析平台解决方案
大数据综合分析平台概述
芝诺大数据基于Apache Hadoop框架开发了大数据综合平台Zeno Data Matrix(ZDM),提供一站式大数据开发环境和工具,包括数据存储、分布式计算、分析挖掘及数据可视化的整套支持,从而大大降低企业部署、应用大数据的时间及人力成本,帮助企业建立一站式的数据存储和计算平台。
用户可以在ZDM一站式大数据综合平台上采集、存储、分析、挖掘海量数据及其内在价值,完成整个数据流的相关工作。此外,用户也可以基于该大数据管理平台,开发上层应用,比如,数据可视化、电子商务个性化推荐系统、用户画像标签体系等,通过对数据的深度挖掘和整合分析,有效实现业务提升与创新,创造数据价值。
下图为ZDM平台包含的Hadoop生态组件:
大数据综合分析平台特色
- 安装方便
- 功能完备
- 性能保障
- 使用方便
安装方便
友好的图形化安装界面,使用户可在1小时内,零基础搭建基于Hadoop/Spark的大数据存储、分析、监控及可视化平台。确保安装100%成功。
功能完备
提供一站式大数据开发环境和工具,解决从数据源采集/清洗/存储/分析/挖掘/机器学习到数据流处理/可视化/集群监控等问题。 Stream分布式实时流处理引擎提供强大的流计算能力,可支持复杂的实时处理逻辑,满足企业实时告警、风险控制、在线统计和挖掘等应用需求
性能保障
计算速度比传统关系型数据库快50-100倍。例如,一个集群包括13个Spark节点,每个256G内存的服务器,1个计算任务30秒以内处理200M数据,处理过程包括数据入库、逻辑计算、结果展现。同时,系统可线性扩充存储容量或提高处理性能,只需要简单地向集群中增加机器,无需停机。
使用方便
图形化的数据分析和挖掘界面,令使用者不用理会Hadoop底层技术,只需专注于自身业务逻辑。
基于Hadoop的ZDM分布式存储与计算的优点
- 高可扩展性
- 成本效益
- 灵活性更好
- 处理速度更快
- 容错能力更强
高可扩展性
Hadoop是一个高度可扩展的存储平台,可以存储和分发横跨数百个并行操作的廉价的服务器数据集群。不同于传统的关系型数据库系统不能扩展到处理大量的数据,Hadoop是能给企业提供涉及成百上千TB的数据节点上运行的应用程序。
成本效益
Hadoop还为企业用户提供了极具成本效益的存储解决方案。传统关系型数据库管理系统并不符合海量数据的处理器,不符合企业的成本效益。许多公司过去不得不假设哪些数据最优价值,根据这些有价值的数据设定分类,如果保存所有的数据,那么成本就会过高。Hadoop的架构则不同,其被设计为一个向外扩展的架构,可以经济的存储所有公司的数据供以后使用,节省的费用是非常惊人的。
灵活性更好
Hadoop能够使企业访问新的数据源,并可以分析不同类型的数据,从这些数据中产生价值,这意味着企业可以利用Hadoop的灵活性从社交媒体、电子邮件或点击流量等数据源获得宝贵的商业价值。
处理速度更快
Hadoop拥有独特的存储方式,用于数据处理的工具通常在与数据相同的服务器上,从而导致能够更快的处理器数据。如果处理大量的非结构化数据,Hadoop能够在几分钟内处理TB级的数据,而不是像以前都需要以小时为单位。
容错能力更强
Hadoop的一个关键优势就是它的容错能力,Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。。当数据被发送到一个单独的节点,该数据也被复制到集群的其它节点上,这意味着在故障情况下,存在另外的副本可供使用。
ZDM平台安装界面截图的
ZDM平台登陆界面
用户名密码登陆后,可以看到如下的首页。
系统管理界面
在系统管理界面中,“用户管理”和“角色管理”中,可以定义角色(管理员、操作员等)、添加用户、修改用户密码等。此外,在“资源管理”页面中,可以为每一个用户指定允许安装的组件或者模块。
组件安装界面
在“组件安装”界面中,具有以下功能:基础信息配置(主机名映射)、Hadoop组件安装、Spark组件安装、数据挖掘工具安装、集群监控及HUE安装。以下逐一进行介绍。
基础信息配置
基础信息配置,也即主机名映射,在初次安装Hadoop集群前需要配置各服务器的IP地址与主机名的映射。点击“配置”按钮后,系统会在后台完成以下配置。
- 修改各服务器的主机名,完成映射。
- 完成各服务器之间的SSH互信。
- 完成各服务器java JDK环境配置。
Hadoop基础组件
在Hadoop基础组件页面,可以点击各个Hadoop基础组件的图标,完成相应组件的安装及配置。
说明:由于组件之间有相互依赖关系,因此,如果某个组件的前序依赖组件没有安装,系统会提示用户安装前序依赖组件。
Spark基础组件安装
在Spark基础组件页面,可以点击Spark基础组件的图标,完成Spark集群(包括,Spark SQL,Spark Streaming,MlLib,GraphX)的安装及配置。
数据挖掘工具安装
在数据挖掘工具安装页面,可以点击各个数据挖掘工具的图标,完成相应工具的安装及配置。
集群监控及HUE
在集群监控及HUE安装页面,可以点击相应的图标,完成Ganglia及HUE的安装及配置。
基础应用模块
在上述Hadoop集群及相关的组件安装配置完成后,在基础应用模块,可以是用Rstudio,以及查看Ganglia、HDFS、YARN的监控页面。
Rstudio
登陆后可以看到如下Rstudio的页面。(用户名:hadoop,密码:hadoop)
Ganglia监控页面
HDFS监控页面
YARN监控页面
定制应用模块
该模块使用系统自带的数据,展示了大数据可视化的三个应用效果。