目录
1.大数据的定义
2.大数据特点
3.大数据关联技术
4.大数据误区
5.经典的大数据案例
大数据的定义
什么是“大数据”,目前并没有统一的定义。
大数据,指的是所涉及的数据量规模巨大到无法通过主流的工具,在合理的时间内撷取、管理、处理、并整理成为人们所能解读的信息 “。
大,多大算大,月小升觉得所谓得大都是相对的,如果mysql还放得下(本人拙劣的观点超过于2000万条,mysql基本该被NOSQL替代),估计还不够大。
大数据特点
大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
1.大批量
数据充满了企业,动不动超过TB,PB级别
2. 高速度
数据的时间是越近期的数据,越有意义,而且数据被不断的累积和比较,今年的比较去年的,这个月的比较上个月的,今天的比较昨天得
这个小时比较上个小时,取决于你的系统的效率要求。可以想象一下淘宝的数据,下一秒你访问的记录,会被上一秒的其他用户影响么?
3. 多样化
文本,视频流,图片加载时间,客户访问时间,日程,用户点击流,这种数据看起来凌乱不堪的数据,构成了大数据。思考一下,如果要做用户画像需要多少种数据,客户的性别,年龄,来访次数,停留页面,购物行为流...... 我的 java-er.com 被百度的统计抓了很多数据,也会构成百度的大数据
4.变异性
不同得人对数据的解读不同,所以对数据的要求也不同,数据最终需要被各种组合来进行解读。
5.真实
假数据有毛用
大数据关联技术
1.数据存放
2.数据清洗
3.数据处理
4.数据输出
大数据误区
1.我存得多,所以我牛
无限制的备份,并不能带来什么额外的好处。备份不过为了防止数据丢失,重复数据也没啥好处。所以在数据清洗阶段,重复的数据会被洗掉
2. 我数据很多,而且不重复
数据必须被使用,就如被学以致用的知识,才会有用,被使用的大数据才有用户。比如说,我记录了某客户在你网站上四次翻页的时间间隔:1秒,5秒,27秒,3秒,却忘记标注这时间到底代表了什么,这些数据是信息(非重复性),却不可破译,因此不可能成为智慧。 但是当时我就利用算法计算,因为用户翻的四个页面,是4个sku页面,说明用户对第三个SKU感兴趣。我给第三个SKU本次进行打分加权,累积权重,系统会经过大量用户的数据,来给SKU积分,就变成了非常有用的数据了。
数据有很多,我怎么用。发挥大脑的想象力。
经典的大数据案例
啤酒与尿布
全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今,“啤酒+尿布”的数据分析成果早已成了大数据技术应用的经典案例,被人津津乐道。
数据新闻让英国撤军
2010年10月23日《卫报》利用维基解密的数据做了一篇“数据新闻”。将伊拉克战争中所有的人员伤亡情况均标注于地图之上。地图上一个红点便代表一次死伤事件,鼠标点击红点后弹出的窗口则有详细的说明:伤亡人数、时间,造成伤亡的具体原因。密布的红点多达39万,显得格外触目惊心。一经刊出立即引起朝野震动,推动英国最终做出撤出驻伊拉克军队的决定。
大数据应用案例之能源行业
智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。
维斯塔斯风力系统,依靠的是BigInsights软件和IBM超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足1小时便可完成。
意料之外:胸部最大的是新疆妹子
淘宝数据平台显示,购买最多的文胸尺码为B罩杯。B罩杯占比达41.45%,其中又以75B的销量最好。其次是A罩杯,购买占比达25.26%,C罩杯只有8.96%。在文胸颜色中,黑色最为畅销。以省市排名,胸部最大的是新疆妹子。
Google成功预测冬季流感
2009年,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型。最终google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。
大数据与乔布斯癌症治疗
乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。
奥巴马大选连任成功
2012年11月奥巴马大选连任成功的胜利果实也被归功于大数据,因为他的竞选团队进行了大规模与深入的数据挖掘。时代杂志更是断言,依靠直觉与经验进行决策的优势急剧下降,在政治领域,大数据的时代已经到来;各色媒体、论坛、专家铺天盖地的宣传让人们对大数据时代的来临兴奋不已,无数公司和创业者都纷纷跳进了这个狂欢队伍。
超市预知高中生顾客怀孕
明尼苏达州一家塔吉特门店被客户投诉,一位中年男子指控塔吉特将婴儿产品优惠券寄给他的女儿——一个高中生。但没多久他却来电道歉,因为女儿经他逼问后坦承自己真的怀孕了。塔吉特百货就是靠着分析用户所有的购物数据,然后通过相关关系分析得出事情的真实状况。
大数据应用案例之零售业
“我们的某个客户,是一家领先的专业时装零售商,通过当地的百货商店、网络及其邮购目录业务为客户提供服务。公司希望向客户提供差异化服务,如何定位公司的差异化,他们通过从 Twitter 和 Facebook 上收集社交信息,更深入的理解化妆品的营销模式,随后他们认识到必须保留两类有价值的客户:高消费者和高影响者。希望通过接受免费化妆服务,让用户进行口碑宣传,这是交易数据与交互数据的完美结合,为业务挑战提供了解决方案。”Informatica的技术帮助这家零售商用社交平台上的数据充实了客户主数据,使他的业务服务更具有目标性。
零售企业也监控客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见,此类方法已经帮助某领先零售企业减少了17%的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。
大数据应用案例之电子邮件
MailChimp的核心业务是提供电子邮件服务,它在一年内为大约300万用户发送了350亿封邮件。不过真正能体现MailChimp未来价值的则是该公司对这些邮件数据的处理和分析。
MailChimp的一个重要任务就是搞清楚如何帮助客户更好地了解他们所发送的信息。考虑到这一点,该公司建立了一个服务叫Wavelength,向客户展示了与他们相似的其他讯息。这个系统使得Wavelength能够储存公司数据库中每个邮件地址发生的互动。这意味着告诉了你,用户打开了什么样的邮件,何时打开,他们点击了什么链接,还有订阅了什么邮件。MailChimp也有一个功能叫做Ecommerce360,能让客户通过转换来跟踪点击。
大数据应用案例之音乐
十多年前,音乐元数据公司Gracenote收到来自苹果公司的神秘忠告,建议其购买更多的服务器。Gracenote照做了,而后苹果推出iTunes和iPod,Gracenote从而成为了元数据的帝国。
在车内听的歌曲很可能反映你的真实喜好, Gracenote就拥有此种技术。它采用智能手机和平板电脑内置的麦克风识别用户电视或音响中播放的歌曲,并可检测掌声或嘘声等反应,甚至还能检测用户是否调高了音量。这样,Gracenote可以研究用户真正喜欢的歌曲,听歌的时间和地点。
Gracenote拥有数百万首歌曲的音频和元数据,因而可以快速识别歌曲信息,并按音乐风格、歌手、地理位置等分类。
以上得案例是否带来一些灵感,如果您有更多案例,欢迎留言互动