大数据的识别认知能力怎么样(大数据认知)(1)

什么是大数据?

大数据风靡全世界是因为在美国的一个调研故事:据数据分析发现,在一个超市里,顾客在购买纸尿裤的时候会购买啤酒,最后超市把这两样东西摆放在一起之后,销售量大增。因为据调查发现,购买纸尿裤的人大多数是家里的奶爸,给孩子买纸尿裤的时候也会给自己买点啤酒。所以看似两个不相关的事物,通过大数据的分析,能够得出令人匪夷所思的结论。

其实大数据就是把你要观察的对象,数据化。原来看的是实物,只能通过人脑去思考。现在全变成数字,可以直接交给计算机处理,计算机通过对这些大量的数据进行分析之后,往往会得出一些意想不到的结论。

实际上大数据这个词的出现最早是在6几年的时候,刚出现的时候叫做“大数据问题”,而不是大数据技术”。为什么叫大数据问题呢,因为当时美国登月之后,太空上出现很多卫星,每天有海量的数据传回地球,但当时计算机的处理能力对这么大的数据量处理不了,几秒钟的数据要处理几天,越积累越多,难以做到实时的处理。所以当时就把这个问题称之为“大数据问题”。后来就开始出现怎么解决这个问题的技术,再发展到后来又发现大数据并不是个累赘,而是可以从中发掘出很多有用的资源,现在的“大数据技术”就是怎么把数据的资源挖把出来。

现在的数据跟原来的数据最大的区别在于,以前的数据都是结构化的数据,像表格等等。现在的大数据是多模式的数据,包括数字,图像声音等等,并且数据是实时海量的产生。所以计算机在处理这些数据的时候,首先要做的工作就是数据的采集,以及怎么去存储,怎么去清洗,怎么去分析。

比方说,大数据分析现在有两个途径,第一个就是人工去看,把大数据进行可视化的处理,打比方说把一些词汇出现的比率用字号大小来区分,形成一个词板,让人可以直接看到并进行分析。第二种,就是所谓的人工智能、机器学习,不是把数据展现出来让人看,而是直接用电脑对数据进行分析处理。

大数据技术刚开始应用最多的是在谷歌,百度这种企业。搜素引擎的工作原理,就是用“爬虫技术”到全世界各个网站上去爬数据,“爬虫”就是用电脑的程序模拟人在浏览网站时的动作,把得到的数据全部存储下来。这么多的网页产生的海量数据,就需要大数据技术去分析。

后来谷歌针对自己搜索浏览器数据处理的问题,进行了特别多数据存储、硬盘管理、CPU的管理,以及操作系统处理技术的研究,最终研究出来的一项大数据处理技术,就是现在的Hadoop技术。但是因为 hadoop主要的功能是数据的存储,并不能完成实时的处理,所以后来的行业内又先后出现了 Spark,storm等各项技术。

大数据的识别认知能力怎么样(大数据认知)(2)

大数据应用场景

其实我们的生活中根多地方已经用到了大数据。举几个例子:

1、料音、快手、今日头条等短视频、咨询类App应用,我们在使用这些产品的时候,会发现这些应用越来越“懂我”,我喜欢看什么样的内容,就越能看到什么样的内容。比如抖音,我今天刷到一个动物类的搞笑视频,我看完了然后点赞了,接下来会更多的推送一些类似的视频给我。而且只要你在这类视频上停留的时间过长,即使你不点赞,也会给你推送更多的此类的视频。可以说正是依赖于这些大数据的采集、过滤、挖掘、分析才能让这些应用做出这些“懂我们”的行为。

2、“智慧”交通。如果大家平时留意的话会发现城市中的红绿灯的时间都是会变化的。比如经过大数据的统计分析发现某个街道一到周末或者节假日就会变得异常拥堵,那么可能在这个时候就会动态调节红绿灯的时长,来调节疏通以及避免这种拥堵的产生。

另外一个和出行交通有关的就是我们平常都在用的滴滴打车、百度地图、高德地图等,我们每次出行的信息,包括地点、时间、方式等等都会作为大数据的一部分,这些企业会使用这些数据对我们每个人进行画像构建,随着数据的越来越多,这个画像会越来越接近。直到能够准确定位出你是什么样收入水平、有什么样的喜好、有什么样的消费观、有什么样的交际关系等等,这样就可以精准的进行广告投放。

大数据技术种类

大数据技术很多,比如: Hadoop、 Spark、Python、数据库、Hive、ELK、 Scala、Flink...

Hadoop:大数据平台的鼻祖,第一代大数据计算引擎。主要思想是通过增加计算机的数量提高计算能力,将单机运算以低成本的方式扩容到多机运算。我们一般称为 Hadoop生态圈,圈子里有很多小伙伴儿(称之为:组件):HDFS(分布式文件存储系统),MR( MapReduce计算框架),Hive(数据仓库分析工具)、Yarn( Hadoop生态圈中负责资源管理和作业调度的组件),另外需要强调的是: Hadoop是一个Java框架,所以学习大数据,还是需要有一定的Java基础的。

Spark:第二代大数据计算引擎。相比 Hadoop计算速度有了极大提升,目前应用最为广泛,但仍需要其他数据存储系统支持,比如 Hadoop的文件系统。

Flink:第三代大数据计算引擎。为实时计算(流式计算)而生,真正意义上的实时计算,现由阿里主导开发,未来将会 PK Spark。广泛应用于要求低延迟的数据处理场景:與情监控、互联网金融、点击流日志处理等。

Python:“人生苦短,我用 python",非常简单的一种编程语言,极大的降低了编程门槛,己成为全球大中小学编程入门课程的首选教学语言,更是人工智能领域首选的编程语言。在大数据领域,Python也同样可以胜任,比如使用Python进行数据的爬取操作等等。

数据库:数据库和我们生活中存放杂物的储物间仓库性质一样,区别只是存放的东西不同,杂物间存放实体的物件,而数据库里存放的是数据。数据是按照一定的数据结构(比如:我们平时做的 excel表格就是一个标准的结构化数据)来组织、存储的,我们可以通过数据库提供的多种方式(如SQL)来管理操作数据库里的数据。

Hive:Hive为传统的数据库开发人员提供了一种大数据平台开发的途径。或者说对于不精通编程的开发人员提供了一种大数据开发的工具,只需了解SQL语言即可,Hive底层可以将SQL代码转换成 Hadoop应用程序。

ELK:ELK是三个工具的简写( Elasticsearch、 Logstash, Kibana),即数据检索、数据导入与数据展示三个工具。是一个近似实时的搜索平台,可快速处理大数据,其中核心是数据检索模块( Elasticsearch),利用它可以快速搭建专业级的海量数据全文检索(查找)系统,并提供数据统计(聚合分析)能力,在很大程度上弥补 Hadoop在文件快速检索效率上的不足。

Scala:是一种开发语言,源自于Java,现在被广泛应用的 Spark计算引擎便是由 Scala 编写完成,并且在 Spark开发过程中通常也推荐使用 Scala编码。

大数据与云计算、人工智能的关系:

云计算:就是通过大量在云端的计算资源进行计算。比如单个的某个用户或者一个小公司,我想要进行一个“相当复杂”的计算处理,这个时候我的服务器配置不够用,但是让我去购置大量的服务器硬件成本又太高不划算,那我就可以使用“云”端别人提供的资源来进行计算,我只需要“按需付费”即可。

人工智能:简单来说就是让机器变得好像人类一样,使机器能够胜任一些通常需要人类智能才能完成的复杂工作。

云计算和人工智能都需要大数据作为基础。打个通俗的比喻:云计算就好像是奶瓶,人工智能就好像是一个“宝宝”,而大数据就好比是奶粉。人工智能需要大量的机器训练,这些训练的基础是海量的数据。云计算也一样,只有是海量数据的计算处理才会复杂到需要专业的硬件资源,否则的话云计算就没有市场存在的价值了。

目前行业内有以下大数据相关的工作岗位:

大数据开发工程师;大数据分析工程师;大数据算法工程师:大数据挖掘工程师;大数据运

工程师:大数据测试工程师;大数据架构师等...

,