事业单位考试公共基础知识是什么之什么是大数据,有何意义
随着对大数据的不断研究大数据的概念也呈现多样化的趋势,难以给出一个明确的定义从本质上来看、大数据不仅意味着数据的大容量,还体现了一些区别手“海量数据”和“非常大的数据”的特点目前许多文献对大数据进行了定义主要有以下三种定义形式
1.性定义
2011年IDC公司(国际数据公司)的报告中对大数据进行了定义:“大数据技术描述了一个技术和体系的新时代,被设计于从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值”这个定义刻了大数据的4个显特点,即容(Volume)、多样(Variety)、速度( Velocity)和价值(Value),即“4V”.
容量:大容量的数据不断地由百万个设备及应用中产生2012年的每天产生的数据大约为2.5EB12013年数据总量约为4.4ZB并且每两年翻一番;2015年,数字总量数据增长到大约8ZB.预计到2020年数据的总量将达到40ZB.
速度:数据是以快速的方式生成的,应该迅速处理以提取有用的信息和相关的内涵例如沃尔玛公司每天中的每小时产生的用户交易数据超过2.5B
多样性:大数据由分布多源以多种数据格式产生、例如视频、文、评论、标志等大数据集结构化与非结构化、公共或私有、本地或远方、共享或私密、完整或非完整等数据构成
2.比较定义
2011年, McKinsey公司的研究报告中将大数据定义为“超过了典型数据库软件工具捕获、存储、管理和分析数据能力的数据集”。这种定义是一种主观定义,没有描述与大数据关的任何度量机制,但从时间和跨领域的角度来看、该定义中包含了一种发展的观点说明了什么样的数据集才能被认为是大数据
3.体系定义
美国国家标准与技术研究院(NIST)则认为“大数据是指数据的容量、数据的获取速度或者数据的示限制了使用传统关系方法对数据的分析处理能力、需要使用水平扩展的机制以提高处理效率”此外,人数据可进一步细分为大数据科学和大数据架.大数据科学是指涵盖大数据获取、调节和评估技术的研究;大数据框架则是指在计算单元集群间解决大数据问题的分布式处理和分析的软件库及算法。一个或多个大数据框架的实例化即为大数据基础设施。