标签归档:大数据

什么是大数据举例说明

目录 1.大数据的定义 2.大数据特点 3.大数据关联技术 4.大数据误区 5.经典的大数据案例 大数据的定义 什么是“大数据”,目前并没有统一的定义。 大数据,指的是所涉及的数据量规模巨大到无法通过主流的工具,在合理的时间内撷取、管理、处理、并整理成为人们所能解读的信息 “。 大,多大算大,月小升觉得所谓得大都是相对的,如果mysql还放得下(本人拙劣的观点超过于2000万条,mysql基本该被NOSQL替代),估计还不够大。 大数据特点 大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 1.大批量 数据充满了企业,动不动超过TB,PB级别 2. 高速度 数据的时间是越近期的数据,越有意义,而且数据被不断的累积和比较,今年的比较去年的,这个月的比较上个月的,今天的比较昨天得 这个小时比较上个小时,取决于你的系统的效率要求。可以想象一下淘宝的数据,下一秒你访问的记录,会被上一秒的其他用户影响么? 3. 多样化 文本,视频流,图片加载时间,客户访问时间,日程,用户点击流,这种数据看起来凌乱不堪的数据,构成了大数据。思考一下,如果要做用户画像需要多少种数据,客户的性别,年龄,来访次数,停留页面,购物行为流…… 我的 java-er.com 被百度的统计抓了很多数据,也会构成百度的大数据 4.变异性 不同得人对数据的解读不同,所以对数据的要求也不同,数据最终需要被各种组合来进行解读。 5.真实 假数据有毛用 大数据关联技术 1.数据存放 2.数据清洗 3.数据处理 4.数据输出 大数据误区 1.我存得多,所以我牛 无限制的备份,并不能带来什么额外的好处。备份不过为了防止数据丢失,重复数据也没啥好处。所以在数据清洗阶段,重复的数据会被洗掉 2. 我数据很多,而且不重复 数据必须被使用,就如被学以致用的知识,才会有用,被使用的大数据才有用户。比如说,我记录了某客户在你网站上四次翻页的时间间隔:1秒,5秒,27秒,3秒,却忘记标注这时间到底代表了什么,这些数据是信息(非重复性),却不可破译,因此不可能成为智慧。 … 继续阅读

发表在 高并发与大数据 | 标签为 | 留下评论