拓源讲堂(八) | 大数据技术介绍与应用(实践篇)###
“拓源讲堂”第八讲来了!本期内容的主题是“大数据技术介绍与应用(实践篇)”。诸多对此感兴趣的同事通过线上视频/线下讲堂方式集结,认真学习。
随着互联网的发展和云时代的到来,大数据成为了很多人关注的方面。之前拓源讲堂第五讲为大家简单介绍过大数据技术的内容,那这次我们就继续带大家一同探索大数据技术的魅力吧!
课程分为三个部分展开介绍——
08
大数据技术介绍与应用
实践篇
o Hadoop技术体系
下图是比较经典的Hadoop技术体系,一些老技术已经被新的技术所取代。
数据湖是融合了大数据及数仓概念的新概念,各厂商对数据湖的定义都有些差异,但整体来说还是大数据 数仓。
阿里定义:数据湖是统一存储池,可对接多种数据输入方式,您可以存储任意规模的结构化、半结构化、非结构化数据。数据湖可无缝对接多种计算分析平台,根据业务场景不同,可以选择相应的计算引擎对数据湖中存储的数据进行数据处理与分析,从而打破孤岛,挖掘业务价值。
主要功能特点:
-
统一的数据存储,存放原始的数据。
-
支持任意结构的数据存储,包括结构化、半结构化、非结构化。
-
支持多种计算分析,适用多种应用场景。
-
支持任意规模的数据存储与计算能力。
-
目标都是为了更好,更快的发现数据价值。
o 大数据应用案例
1)运价魔方大数据系统
一款航空运价数据产品,通过实时的全市场数据和丰富的历史数据,帮助航空公司分析历史的运价走势、把握当前的运价动态、预测未来的运价趋势,实现横向的竞争对手监控分析及纵向的代理人监控分析,为航空公司整体的收益管理和产品设计提供数据支撑和决策依据。
2)航司运行大数据中心
o 业务需求及痛点:
-
现在拥有大量的数据资源,这些数据有较大的业务价值
-
分别存储在各自的系统中,数据孤岛化情况严重,得不到充分利用
-
数据资源的综合利用工作由于缺乏必要技术手段,数据化分析进程推进缓慢,大数据价值无法得到体现
-
数据口径未标准化,数据质量未经全局检验
o 解决方案:
-
建立数据中心,以存储大数据
-
对数据及模型标准化管理
-
采用恒拓大数据平台,对系统数据进行采集、存储、计算及应用
-
通过恒拓大数据平台,提供数据服务,为应用系统提供大数据辅助
o 数据中心
o 数据中心架构
o 大数据应用实践
本次实践采用:Hadoop Hive Presto SuperSet,包括大数据(Hadoop)、数据库(Hive)、SQL 聚合运算(Presto/Trino)、报表(SuperSet)等作演示,展示从大数据存储到大数据运算到大数据应用等功能。下面架构采用单节点构架,相对简单明了:
1)Presto简介
PrestoDB 是 Facebook 推出的一个大数据的分布式 SQL 查询引擎。可对从数 G 到数 P 的大数据进行交互式的查询,查询的速度达到商业数据仓库的级别。除了性能出色外,还可以跨不同(类型)的数据库进行基于 SQL 的聚合运算。其创始团队出走后,创立 Trino。
2)SuperSet简介
Superset是一款由Airbnb开源的,托管在 Apache 的现代化的企业级BI(商业智能)Web应用程序,通过创建和分享dashboard,为数据分析提供了轻量级的数据查询和可视化方案。
自带SQLite数据库并支持连接Hive、Impala、MySql、Oracle等几乎所有主流的数据源;支持和弦图、事件流图、热力图、视图表等及其它常规的可视化展示图表;支持可控的数据展示,能自定义展示字段、数据源等;支持权限控制,以满足不同使用人员对数据和数据库的权限要求;同时内含SQL查询面板模块、具有较美观友好的操作界面等。
安装 Hadoop Hive Presto
安装 SuperSet
举例说明
通过 SuperSet 查询数据并展示——
1. 在 SuperSet 中创建 Presto 数据库;
2. 添加 Dataset;
3. 创建查询统计并添加 Dashboard;
4. 导出统计图表。
大数据相关技术复杂的产品的本身技术而不是使用过程,在操作上多数都会提供 SQL 或类似 SQL 的语法。在学习环境上如果通过 Docker 进行搭建使用,那也是非常容易的。
大数据在企业的应用,需要考虑的事情有很多:
-
Hadoop 集群,多节点的部署,NameNode 的高可用及备份;
-
Hive/Presto/SuperSet 节点的集群/多节点部署;
-
集群的状态及监控管理;
-
基础设施的建设/支持,Docker/K8S,IaaS 等。
以上就是本期“大数据技术介绍与应用(实践篇)”的所有内容,希望通过本期内容的分享,能够帮助大家对大数据技术有更深入的了解与认识。
之后,“拓源讲堂”依旧继续推进2022年技术分享交流计划,按照技术热点及公司技术产品进展为大家实时更新更多技术分享。
课程除了通过线下讲堂/线上视频课堂的方式进行培训,还会不定期通过「恒拓开源」与「恒赢智航」的微信公众号发表技术文章,欢迎大家关注实时动态,并参与进分享学习的大军,一起用领先的技术推动行业进步!
拓 源 讲 堂
2022年度技术交流分享计划
序号 |
分享 题目 |
内容 梗概 |
课程回顾 |
1 |
微服务架构相关技术介绍 |
微服务架构漫谈,微服务架构及相关的技术介绍,技术中台发展方向 | |
2 |
容器化技术介绍与应用-Docker |
普及 Docker 相关的基础知识及应用场景,Docker 的安装使用等线上实践教学 | |
3 |
容器化技术介绍与应用-K8S |
容器化技术的高级课程,介绍 K8S 原理及安装使用等实践教学,介绍 K8S 相关的技术 |
跳转 |
4 |
信创基础知识入门 |
了解信创是什么;我们为什么需要推行信创;信创有哪些相关的相术 |
跳转 |
5 |
大数据技术介绍与应用1 |
介绍目前大数据相关的技术,为初识大数据技术的人员提供入门基础 |
跳转 |
6 |
区块链技术介绍 |
带大家了解区块链,区块链技术介绍、产品及应用场景 |
跳转 |
7 |
低代码平台应用 |
什么是LCNC,低代码平台技术介绍、行业适用场景 |
跳转 |
8 |
介绍大数据技术介绍与应用2 |
深入介绍大数据的实用技术,如 Hadoop 的安装使用等及应用场景案例等,为实践大数据项目提供经验参考 |
本期 图文 |
9 |
AI技术介绍与应用1 |
了解 AI 技术,语音/图像/人脸识别/机器学习 |
待开展 |
10 |
AI技术介绍与应用2 |
AI 技术的应用,语音/图像/人脸识别/机器学习 |
待开展 |
11 |
信创技术介绍与应用 |
介绍项目如何做到信创兼容,信创技术在项目中的应用 |
待开展 |
12 |
BI技术介绍与应用1 |
介绍目前的 BI 技术及产品,为初识BI技术的人员提供入门基础 (非 BI 理论介绍) |
待开展 |
13 |
BI技术介绍与应用2 |
深入介绍BI 技术的应用,如 Presto,SuperSet 等应用实践 |
待开展 |
14 |
前端技术介绍与应用 |
漫谈前端技术,除了 VUE、React,还有哪些好用的前端技术及 UI 框架 |
待开展 |
15 |
新兴语言介绍 |
除了 Java、.Net 等常见的编程语言,还有哪些新兴编程语言是有比较前景的,希望通过本次学习能让大家扩充编程技能提升自身价值 |
待开展 |
16 |
规则与决策技术介绍 |
介绍规则与决策技术,我们在项目方案过程可以借鉴哪些规则引擎产品的实施经验 |
待开展 |
17 |
Serverless介绍 |
Serverless这个技术随着微服务出现在人们的视野,这里介绍Serverless有哪些相关技术,如何实现Serverless |
待开展 |
18 |
其他技术介绍与应用 |
聊聊我们都可能接触的技术 |
待开展 |
拓源讲堂
问渠那得清如许
为有源头活水来
“拓源讲堂”是为进一步完善公司人才培养机制,充分激活人才活力,使公司发展与员工成长同频共振而建立的培训计划。希望通过对不同主题内容的分享和探讨,公司广大的技术、业务及管理人员能够拥有更多的学习机会,交流渠道和展示平台,提升技术水平,加强各专业能力。真正助力每一位恒拓人在勤于学习、勇于创新、乐于分享的路上一路前行,苦练内功,不断精进,成就卓越。
,