本节课的内容包含两个大块,第一块是RapidMiner软件的介绍以及它在大数据处理中的优势。第二部分是软件的安装教程,眼过千遍不如手过一遍,我希望大家在自己的电脑上装好软件,跟我一起学习大数据。

数据挖掘常用知识(非编程数据挖掘工具RapidMiner简介及安装)(1)

为什么选择RapidMiner?目前有很多可视化的大数据建模软件,比如数据分析领域著名的IBM SPSS Modeler,以及阿里云研发的在线大数据处理平台Dataworks等。一个很简单的理由就是“贵”。IBM SPSS Modeler软件单机订阅价2338美元/年。

数据挖掘常用知识(非编程数据挖掘工具RapidMiner简介及安装)(2)

图1.IBM SPSS Modeler软件订阅定价

对于普通的数据挖掘需求而言,基本不用处理上GB的数据(图像挖掘除外);同时很多用户也可能并不是专门从事大数据处理行业的,在这种情况下显然没有必要为了数据挖掘而花费上千美金。但RapidMiner软件正好解决了这个痛点,RapidMiner软件是半开源的,与付费版相比免费版的样本数为10000个。没错,是1万个,对于非专业的数据处理公司而言,这个样本量已经完全够用了。当然,如果你是学生的话,你可以申请学术版的软件,学术版软件数据量不受限,使用时间为1年。到期后,如果你依旧符合学术版要求,可以再次申请学术版软件。

那RapidMiner软件到底强不强大呢?我从数据工具评价的网站上找到一张图片:

数据挖掘常用知识(非编程数据挖掘工具RapidMiner简介及安装)(3)

图2.2015年最流行的大数据挖掘工具

可以看到,RapidMiner是仅次于R语言的大数据挖掘工具。要知道,R语言是一种编程环境,其本身的用户量就大。Python的比例与RapidMiner相近,但更逊一筹,可见在数据挖掘领域RapidMiner的认可度还是很高的。


RapidMIner的优势


可视化工作流设计面板

如绘制思维导图一般,我们可以使用拖拽的方法快速建立预测模型。软件含有丰富的算法,包含1500多种机器学习算法和函数库,可为任何案例构建最佳模型。最新版软件包含常见数据挖掘案例的处理模板,如客户流失分析,预测性维护,欺诈检测,时间序列分析等等。

数据挖掘常用知识(非编程数据挖掘工具RapidMiner简介及安装)(4)

图3.图形化数据建模界面

丰富的数据接口

RapidMiner软件支持超多类型的数据格式,自带的数据前处理工具Turbo Prep让你解决数据清洗的烦恼。同时,无论你身在何处,都可以连接到您的企业数据仓库,数据池,云存储。软件具有多种数据库链接驱动,可连接至MySQL、Oracle、ODBC、Microsoft SQL Server、HSQLDB等数据库。

数据挖掘常用知识(非编程数据挖掘工具RapidMiner简介及安装)(5)

图4.数据前处理模块Turbo Prep

数据挖掘常用知识(非编程数据挖掘工具RapidMiner简介及安装)(6)

图5.创建云链接

数据挖掘常用知识(非编程数据挖掘工具RapidMiner简介及安装)(7)

图6.创建数据库链接

便捷的可视化探索数据工具

评估数据的健康状况,完整性和质量。软件可以通过散点图,直方图,折线图,平行坐标,箱形图等手段直观探索数据,了解其趋势和分布。此外,软件可自动识别并修复常见的数据质量问题,包括缺失值和异常值。借助RapidMiner我们可以使用强大的统计概述和30多种交互式可视化来探索数据。

数据挖掘常用知识(非编程数据挖掘工具RapidMiner简介及安装)(8)

图7.软件包含30多种可视化方案

集成多种机器学习算法

无需编写代码即可创建强大的机器学习模型。软件算字库包含数百种有监督及无监督的机器学习算法,可以实施各种ML技术,包括回归,聚类,时间序列,文本分析和深度学习。此外,通过详细的参数设置面板可以手动调节模型参数,使得模型更加可控同时也可以提高模型精度。

数据挖掘常用知识(非编程数据挖掘工具RapidMiner简介及安装)(9)

图8.Deep learning算子参数设置面板

数据挖掘常用知识(非编程数据挖掘工具RapidMiner简介及安装)(10)

图9.关联矩阵

数据挖掘常用知识(非编程数据挖掘工具RapidMiner简介及安装)(11)

图10.决策树分类模型

模型验证

一个模型的好坏,并不能仅看训练模型时给出的结果。为了避免模型在实际应用中发生偏离,RapidMiner通过独特的方法消除过度拟合,提高模型的泛化能力。只需单击鼠标即可添加模型验证(如交叉验证)到模型中。

数据挖掘常用知识(非编程数据挖掘工具RapidMiner简介及安装)(12)

图11.分类模型的ROC曲线

高度开放与强拓展性

使用R和Python代码和库来扩展RapidMiner的应用领域。通过Github上的RapidMiner Python库将RapidMiner与Python集成,通过RapidMiner Marketplace下载RapidMiner拓展包,可以和其他数据建模工具如R、Weka等集成。

数据挖掘常用知识(非编程数据挖掘工具RapidMiner简介及安装)(13)

图12.丰富的第三方拓展库


软件安装


  1. 前往软件软件下载网址:https://rapidminer.com/get-started/

数据挖掘常用知识(非编程数据挖掘工具RapidMiner简介及安装)(14)

图13.下载页面截图

(这里的30天是指在这段时间内,你可以不受10000行的限制)

2.选择合适的版本下载(下载速度比较慢,大家耐心点)

数据挖掘常用知识(非编程数据挖掘工具RapidMiner简介及安装)(15)

图14.软件可在各类平台使用

3.注册账户(免费的,只有注册账户才能安装,学生可以用edu结尾的邮箱注册,获取教育版软件)

数据挖掘常用知识(非编程数据挖掘工具RapidMiner简介及安装)(16)

图15.账号注册界面

4.安装过程可自定义也可默认安装,视个人情况来定

数据挖掘常用知识(非编程数据挖掘工具RapidMiner简介及安装)(17)

图16.软件主界面

参考资料来源及相关链接:

http://www.rapidminerchina.com/zh_CN/

https://github.com/rapidminer/python-rapidminer

https://marketplace.rapidminer.com/UpdateServer/faces/index.xhtml

https://community.rapidminer.com/

小编感言:很开心第一篇文章能受到大家的认可,喜欢本教程的可以多多转发,下节课将讲解RapidMiner软件的基本操作。

,