大数据的目标是使多个流程自动化以帮助我们寻找更大的价值。大数据已成为预测未来模式的最令人鼓舞和最成功的创新之一。
介绍
大数据是指庞大而复杂的数据集合,以至于传统数据库工具难以管理。大数据被认为是信息技术(IT)领域的未来基础。当今的组织依赖于数据大小,这就是为什么他们对大数据分析的兴趣日益增加的原因。大数据的关键是组织数据以供快速参考,以从摘要和索引中获取源。Amazon AWS在Lustre上使用DDN,Microsoft在Lustre上使用Cray。Google使用FUSE或自己的存储设备[1] [2] [3] 。
大数据知识可以帮助制定正确的计划或策略,并使大家为行业战做好准备。但是,与所有其他不同领域一样,如果大家是新手,则必须面对一些挑战。
理解
通常,许多组织忽视了将大数据作为市场上的新技术来了解其优缺点。他们也无法理解大数据对其业务组织的重要性。如果没有任何合理的信息,他们会有不同的观点,例如对于项目可能是危险的,或者可能是昂贵的甚至更多。
你需要进行适当的研究以了解大数据的优势,劣势。在不理解深刻的概念之前,切勿接受或拒绝任何技术。要查看不同级别的大数据确认,你必须完成参加研讨会和各种大数据活动。你还可以联系当前正在使用该技术并从中获得收益或利益的盟友。大数据是给定的,它是人工智能深度学习培训的要求。要进行深度学习培训,您需要尽可能多的数据,深度学习的部分目的是找到您可能看不到的模式。如果您不进行深度学习,则需要通过其他算法来处理数据,并设法跟上信息的步伐。大数据不是实时完成的。
概念
应该建立数据结构以更好地管理大数据。数据结构允许对大型数据集进行有效的管理和索引。数据结构通常指结构化或非结构化数据[7]。
结构化的
- 定义:数据通常位于关系数据库管理系统(RDBMS)中。
- 示例:包含名称,电话号码,地址,社会保险号以及客户数据中可以包含的任何项目的表述数据。
- 数据库:所需的关系数据库的“结构化查询语言”(SQL)。
非结构化
- 定义:不属于结构化数据的所有内容。
- 示例:文本文件,电子邮件,社交媒体,网站,文本消息,电话,位置数据,媒体文件,图像和感官数据,仅举几例。
- 数据库:这种类型的最常见数据库是“不仅SQL(NoSQL)”。
根据大数据的定义和准则,大数据的属性缩写为“ 5V”,即体积,品种,速度,价值和准确性。请记住,这是一个不断发展的领域[8] [9]。
基本定义基于三个V:品种,体积和速度。
- 多样性:数据的多种形式–多样性是指来自许多来源的多种数据类型。
- 卷:数据的规模或大小–卷是所生成的数据量。
- 速度:分析移动数据或流数据–速度是指数据生成的速度和处理速度。
大数据的重要性是可衡量的,可靠的数据所增加的价值。大数据的现代版本仍然遵循非常大的复杂数据的定义,但最近已扩展为包括V的值和准确性。
- 价值:理解数据的好处。
- 准确性:数据的不确定性–准确性指的是数据的质量–是否准确可靠?
大数据的不断发展意味着其主要概念一直在发展。随着我们进一步定义未来大数据的含义,我们目前的理解还将超越5V。V的一些可能添加如下:
- 有效性–更具体地指数据的准确性和准确性。
- 漏洞–与网络安全风险有关。
- 波动率–指数据变得无关紧要和无效的速度。
- 可视化–代表了我们查看大数据的多种方式。
安全
大数据涉及将数据与业务组织的各个部门进行集成。许多组织认为,当它们与各种第三方软件共享信息以使数据对组织的其他部门可见时,大数据可能会构成威胁。大数据始终提供大量的后端分散数据存储,不同平台在本地不支持该存储。第三方软件只能看到数据,但是他们可以访问数据以供使用。
在引入新技术并以多种方式使用大数据的同时,大数据的安全性和机密性也被认为是一个问题。大数据涉及各种安全和隐私问题。(BDS)大数据安全性的主要问题是保护和验证数据。
由于大数据量大,速度快和多样性大,因此对于常规安全模型而言,处理此类大数据具有挑战性。这种范例给必须适应大数据范围的安全专业人员带来了挑战。下表列出了对大数据的常见威胁:
云
大数据是组织可以在其中保存大量数据的数据仓库。在许多情况下,大数据是基于云的存储空间。大数据始终准备处理,清理,处理和执行数据上的各种活动。当今的商业组织拥有大量数据,并且将它们作为大数据保存在云中。
大数据不是云。大数据是大型,快速且多样化的数据。云是具有解决方案的一种工具。有效地正确设置内部房屋计算的是内部云,内部数据只能由您直接允许其访问的人员访问。对云中真正敏感的数据(例如,AWS,Azure等)的安全性存在重大担忧,外国政府,其他公司及其承包商都可能访问您的数据,而您的控制权有限[12] 。
组织面临的另一个挑战是大数据中数据存储的成本。大多数公司认为,与传统的数据存储方法相比,大数据将花费更多的成本。但这仅是一个神话。费用将取决于您的需求或要求。内部设置需要硬件,软件,维护和最熟练的人员来设置和维护内部云。云提供商在成本,规模,托管和速度两方面都可以利用规模效率。
用例范例
组织会很快迷失在市场上可用的各种大数据技术中。在为企业组织或项目选择一种时,各种类型的大数据技术可能会使组织感到困惑。如果您尝试使用不完全或部分知识来探索海洋,那么您将永远无法清晰地了解您对应用程序或技术的期望。例如,诸如Google BigQuery和Apache Hadoop之类的大数据工具可能是用于开发自己的分析工具的有用平台。第三方基于云的应用程序还提供日志分析服务。
大数据本身没有价值。但是,它具有巨大的潜力。大数据被用于现代生活的各个方面。我们在所有内容中使用信息。由于现在可以轻松访问和共享信息,因此每个人都应了解自己与大数据的联系。通过查看人员和流程如何影响组织的整体工作流程,大数据可用于解决与效率相关的问题[13] [14] [15] [16] [17]。
- 闭路电视:各国政府正在使用摄像头监视来控制人口,追踪恐怖主义并通过面部识别来抓获罪犯。它还有助于了解交通方式,以使道路更安全或使交通更高效。相机数据甚至可以帮助您了解访问控制的位置,例如读卡器,以使其更加安全。这个领域是无限的,并将在未来以新的方式继续塑造和影响安全性。
- 电话:我们每天在电话中使用大数据。你将车停在某个位置或地图知道您的住所地址的通知是工作中大数据分析的示例。这只是移动设备塑造大数据和网络安全的众多方式之一。
- 网络异常:组织网络上已记录的数据量已经达到了这样的程度:没有大数据,就不可能检测到攻击者。这就是为什么安全信息和事件管理系统(SIEM)已成为几乎任何中型企业网络体系结构中的标准组件的原因。这些工具允许对大型数据集进行高级关联。在工程方面,这些系统最终受到它们处理大数据问题的方式的限制。如果他们无法处理记录的海量数据,则安全利益可能会受到限制。许多网络安全专业人员在数据到达SIEM之前就进行了与网络安全相关的大数据分析,因为网络上有如此多的数据,即使使用大数据也几乎无法处理。
- 入侵检测:大数据架构正在取代传统的IDS系统,原因是海量数据,高吞吐量要求以及需要尽可能接近实时地进行了解。入侵检测是大数据在应用中相对较新的领域,并且刚刚开始进行大量研究。现在有大量关于此主题的白皮书,特别是在减少“误报”方面。如果当前的假设正确,那么我们将可以相信安全事件是一种威胁,并消除分析师当前面临的假阳性疲劳。
- 物联网(IoT):物联网设备无处不在,产生巨大的数据足迹,但它们具有最少的存储或日志记录功能。由于这些设备与其他系统互连,因此它们可以报告大量数据,大数据可以以有价值的方式处理这些非结构化数据。这些数据可能使我们能够在佩戴者识别出智能手表之前发现其健康问题(我们已经看到了这种情况),从而知道设备何时需要在其破裂前进行维修(例如制造中的振动监控系统),从而了解效率低下的问题。在此过程中,或预测某人何时走上商店以准备在收银机上购买什么。具有大数据的物联网的应用是无限的,并且可能会重塑我们的生活。
- 合规性:大数据和风险评分正在重塑合规性。在许多行业中,您必须满足政府对合规性的特定要求,大数据允许组织定义其合规性级别来定义风险评分。甚至有一些工具可以使某人上载完整的网络图,然后这些工具会得出风险评分。这与合规性所需的所有其他数据进行汇总,以定义对风险的更准确了解,以确保组织可以满足其合规性要求。在许多情况下,此类大数据分析可提供更好的风险评分,从而带来更安全的环境。风险评分对业界来说非常重要,因为它可以保护攻击者的网络和数据。
结论
大数据被认为是信息技术领域未来的基础。大数据的目标是使多个流程自动化以帮助寻找价值。大数据已成为预测未来模式的最令人鼓舞和最成功的创新之一。建议大家尽可能进行适当的研究和探索技术。
参考文献:
[1] https://aws.amazon.com/big-data/what-is-big-data/
[2] https://www.oracle.com/big-data/what-is-big-data.html
[3] https://aws.amazon.com/fsx/lustre/
,