这篇是月小升的翻译文章
人们一致的认识是大数据需要被定义特别的属性,大多数大数据圈子里,人们说4V volume 数量,variety 种类,velocity 速度,veracity 精确度 (你会考虑第一个V value 价格)
VOLUME
使数据“大”的主要特征是巨大的信息量。关注最小存储单元是没有意义的,因为信息总量每年都呈指数增长。2010年,汤森路透(Thomson Reuters)在其年度报告中估计,它认为世界“充斥着超过800艾字节的数据,而且还在不断增长”。
同年,生产数据存储设备的硬件公司EMC认为,该数据接近900艾字节,并将以每年50%的速度增长。没有人真正知道产生了多少新数据,但是可以被收集的信息量是巨大的。
VARIETY 种类
随着越来越多的信息数字化,多样性是技术上最有趣的发展之一。传统数据类型(结构化数据)包括银行报表中的数据,如日期、金额和时间。这些东西非常适合关系数据库。
结构化数据的非结构化数据,比如Twitter feed,音频文件,MRI图像,网页,网络日志——任何可以捕获和存储,但没有一个元模型(一组规则框架概念或想法,它定义了一个类的信息和如何表达),巧妙地定义它。
非结构化数据是大数据的一个基本概念。理解非结构化数据的最佳方法是将其与结构化数据进行比较。将结构化数据看作是在一组规则中定义良好的数据。例如,货币永远是数字,并且至少有两个小数点;名称表示为文本;日期遵循一个特定的模式。
另一方面,对于非结构化数据,则没有规则。一幅图片,一段录音,一条推特——它们都可以是不同的,但都可以表达基于人类理解的想法和想法。大数据的目标之一是利用技术来获取这些非结构化数据并使计算机理解他得意义。
大数据的定义取决于数据能否在满足特定业务需求的时间内被消化、处理和检查。对于一个公司或系统,大数据可能是50TB;另一方面,可能是10PB。
VERACITY 真实性
真实性是指数据的可信度。管理者能否依赖数据具有代表性这一事实?每个优秀的管理者都知道,所有收集到的数据都存在固有的差异。
VELOCITY 速度
速度是需要处理的传入数据的频率。想想每天每分钟有多少短信、Facebook状态更新或信用卡刷卡被发送到某个电信运营商,你就会很清楚速度。像Amazon Web Services Kinesis这样的流媒体应用程序就是处理数据速度的应用程序的一个例子。
VALUE 价值
对于一些人来说,这似乎是显而易见的痛苦,但一个真正的目标对于这4V的融合是至关重要的。你从分析中获得的见解会创造出一条新的产品线、一个交叉销售的机会,还是一种成本削减措施?或者你的数据分析会导致发现一个关键的因果效应,从而治愈一种疾病?
java-er.com的月小升认为如果你无法找到大数据的价值,那么就无法正确的使用大数据,任何大数据项目的最终目标都应该是为进行所有分析的公司创造某种价值。否则,你只是为了技术而执行一些技术任务。
月小升翻译原文 https://www.dummies.com/careers/find-a-job/the-4-vs-of-big-data/