三分钟快速搭建流式处理应用!简单实用的分布式大数据处理框架,特点是零基础操作,支持批处理和流式处理。
软件架构
项目目前由core、xmlbuilder、JSONbuilder、Spark1、spark2、flink1和client七个模块组成。
- core模块封装了各个部分的抽象组件。
- xmlbuilder和jsonbuilder模块是以xml或json解析为执行配置来源的读取模块。
- spark1、spark2和flink1模块为大数据引擎模块,目前spark1模块开发比较完整,是基于spark1.6版本。
- client模块是客户端调用模块。
Magnet提供统一的配置接口,只需要配置一次就可以在任何引擎上处理大数据,真正做到“ 一次编写,到处执行 ”的效果。项目具备优秀的可扩展性,设计良好的接口可以兼容任何大数据引擎。架构图中蓝色部分为框架的核心模块,非蓝色部分均为可扩展模块。你可以扩展配置文件的格式,可以是xml配置、json配置或自定义格式;你也可以扩展大数据处理引擎,Spark、Flink、Hive、Kafka或MapReduce;你也可以扩展各种标签组件;你还可以扩展每个标签组件的包装wrapper,用于处理每个标签组件的前置和后置操作。
使用说明文档获取方式:关注转发之后私信回复【源码】即可免费获取
- 介绍
- 快速入门
- 配置文件结构
- 使用IDEA打包项目
- 在yarn上运行Magnet
- parameter参数标签
- fragment碎片标签
- datasource数据源标签
datasource数据源概述读取复杂JSON数据
- workflow工作流标签
SQL标签filter标签distinct标签output标签valueMappers标签splitFieldToRows标签stringCuts标签addFields标签addSequence标签rownum标签
- 开发指南
框架结构介绍扩展新处理引擎扩展新标签
项目源码获取方式:关注转发之后私信回复【源码】即可免费获取
,