1.实验目的

l 掌握大数据相关服务的购买及基础配置

l 掌握使用Flume采集数据

l 掌握Flink SQL代码的编写

l 掌握使用DLV进行数据可视化

l 掌握实时流数据的处理流程

2.实验平台与服务

l MRS (MapReduce Service)

MapReduce服务是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群。

l DLI (Data Lake Insight)

数据湖探索是完全兼容Apache Spark、Apache Flink、openLooKeng(基于Apache Presto)生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。

l RDS (Relational Database Service)

华为云关系型数据库是一种基于云计算平台的即开即用、稳定可靠、弹性伸缩、便捷管理的在线关系型数据库服务,支持单机和主备部署模式,支持MySQL、PostgreSQL、SQL Server等主流的关系型数据库引擎。

l CDM (Cloud Data Migration)

云数据迁移是提供同构/异构数据源之间批量数据迁移服务,帮助客户实现数据自由流动。

l DLV (Data Lake Visualization)

数据可视化是一站式数据可视化开发平台,提供丰富多样的2D、3D可视化组件,采用拖拽式自由布局,旨在帮助用户快速定制和应用属于自己的数据大屏。

3.实验步骤与结果

3.1.大数据相关服务的购买与基本配置

3.1.1.申请弹性公网ip

img

img

3.1.2.开通MapReduce服务

img

img

img

img

3.1.3.开通云数据库服务RDS

img

img

img

img

3.1.4.开通数据湖探索服务

img

img

配置跨源链接

img

img

img

3.1.5.开通数据迁移服务CDM

img

img

3.1.6.开通数据可视化服务DLV

img

3.2.大数据实时数据分析开发实战

3.2.1.Python脚本生成测试数据

(1)执行Python命令,测试生成100条数据

img

img

(2)使用more命令查看生成的数据。

img

3.2.2.配置Kafka

(1)创建topic

img

(2)查看topic信息

img

3.2.3.安装Flume客户端

(1)进入到MRS Manager界面

img

下载完成后会有弹出框提示下载到哪一台服务器上(这台机器就是master节点),路径就是/tmp/MRS-client。

img

(2)校验下载的客户端文件包

img

(3)安装Flume运行环境

img

3.2.4.配置Flume采集数据

img

3.2.5.MySQL中准备结果表和维度数据表

(1)新建数据库

img

img

(2)执行SQL

img

img

(3)创建数据表

img

3.2.6.使用DLI中的Flink作业进行数据分析

(1)编辑SQL并进行语义校验

img

(2)输入kafka_bootstrap_servers地址,测试连通性

img

(3)查看作业运行详情

img

img

(3)验证数据分析

img

3.2.7.DLV数据可视化

(1)展示销售额排行前5的门店信息

img

(2)定时执行数据生成脚本

img

img

img

4.实验总结

(1)实验完成情况

实验完成率:100%。

(2)出现的问题与解决方案

问题1:查找Zookeeper的IP时,Zookeeper的ip有三个,不知道要用哪个。

img

解决:使用两个node-master里面的其中一个IP即可

问题1:对于linux命令不太熟悉。

解决:查找“菜鸟教程”或者命令行下直接在命令末尾“- - h”查看帮助。

问题2:Putty没有显示菜单键,无法duplicate session

解决:重新开启一个Putty,登录相同IP