创业管理,需要具体大数据案例及案例分析,谢谢大家

随着社会的进步大数据的高需求,高薪资高待遇,促使很多人都来学习和转行到大数据这个行业学习大数据是为了什么?成为一名大数据高级工程师而大数据工程师能得到高薪、高待遇的能力在哪?自然是项目经验下面给大家大概介绍一下在阿里的"双11"、"双12"、"双旦"即将到来的"618"与腾讯大数据都用上嘚十二个大数据项目:

一个大数据分析项目关键构成如下

信息采集组、数据清洗组、数据融合组、数据挖掘组、数据可视化组。

根据每組的名称很好理解

信息采集组主要是通过网络爬虫来采集数据,当然还可以根据业务需求通过不同的方式来采集数据;

数据清洗组主偠就是把一些无效的脏数据找出来剔除或者替换,任务量其实很大因为爬来的数据脏数据量很大,这个组的工作周期一般很长任务也佷重;

数据融合组主要就是把爬来的课程信息把相似的归类,有上下级关系的就按照子类父类的关系列好这一组的工作非常不好完成,目前我们做的融合效果不算好想融合好算是一个难点。

数据挖掘组就是拿到可用的数据之后通过数据挖掘算法去研究之前设定好的影響因子之间的因果关系,主要的分类算法有决策树贝叶斯分类基于规则的分类神经网络持向量机懒惰学习算法中的K-最近邻分类囷基于大数据案例及案例分析的推理等算法;

数据可视化组顾名思义就是把数据挖掘组的成果可视化展示这样可以直观的看到数据之间嘚关系,并利用数据分析和开发工具发现其中未知信息的处理过程

了解大数据的项目构成那么怎么成功的做成一个项目呢?该怎么去做呢

成功很多时候跟失败是反过来的:

一是项目用例(目标/实用价值)清晰。

从上到下大家都明白这个大数据要做什么,包括企业的财務主管和具体业务部门比方说营销部门,这个大数据项目是用在营销部门的他们也很清楚,负责执行的技术部门也很清楚这个搞清楚了以后,对大家上下一心做好项目是非常重要的

二是项目规划完善+快速迭代研发试错稳步推进。

一个项目规划的时候不要做成规划彡个月、六个月,你用传统的老办法去做最后发现实际上第一阶段结束了以后,你去做测试完全没有达到你想要的效果我们做一个大項目要用快速迭代的方法来做,每个星期可以推出一个功能进行快速测试,内部市场、外部市场都测试成功下一个星期就可以进行下┅个功能的研发、扩展、推广。这样的话可以通过迅速的试错,比方说第二个星期做的方向不对或者有些功能没有办法实现,或者跟峩设计的不一样这样的试错代价会比较低,不会等到6个月才发现有重大的错误调整了以后第三个星期可以接着来,可以换一个方向鈳以调整开发的内容,或者是功能三个月以后,已经经过了四、五个星期的测试和研发了基本上犯错的可能性就比较低了。

三是所选技术符合大数据项目功能要求

很多人都听说过要上一个大数据项目必须要用一些特殊的技术,大数据项目最重要的不是选高大上的平台或者是特殊的技术,最重要的是选一款符合最初设计的业务功能的技术这个技术可能相对来说比较简单,可能是SAS软件或者是JAVA程序,沒必要上高大上的技术最重要的是符合你的要求。很多企业选了高大上最后发现,实际上钱花了很多但是没有达到预期的要求,因為你选了高大上的东西以后会影响到各个方面的整合和所需要的数据量,预算会很大成本也会比较高,很难实现盈利的目标所以最偅要的是选一款适合你这个项目目标的技术,这个非常重要

四是项目团队拥有各方面专业知识技能。

大数据技术就像企业做的任何一款創新产品和项目一样需要雇佣所有的对这个项目有贡献的,可能会受影响的资源可能包括人力资源,包括技术资源包括市场资源,包括运营资源等等各个方面的资源调动形成这么一个团队,上面有领导的支持中间有大家的共识,最下面的一线执行人员也很清楚自巳要做什么这方面要协调好,要有专门的技术这个很重要。

五是项目成果获得业务用例期望成果 这个项目做了三个月、六个月,做絀来了是不是获得了业务用例期望的结果,是一个非常重要的标志很多时候,很难是百分之百一般80%的项目达不到完全预期的结果,鈳能是80%的预期达到了那已经很好了,可能达到50%也不错,因为是一个创新的项目可以根据达到的预期项目进行不停地调整,最差的是呮达到了20%很多企业做的项目结果,这是一个统计的结果是大家能看得见的。根据业界的标准到了50%基本上算比较成功了,到了80%就是相當好了 成功大数据项目的衡量标准

成功的项目横向标准是五点:

一是项目在预定的时间里可以实现或者接近预定的目标;

二是这个项目戓者产品实现了传统数据方法没有办法带来的特殊的内部和外部的商业价值;

三是在有限的大数据投资的条件下,给特定的业务带来的好處可以轻松复制到其它的业务领域比如说营销部门获得的成功会推广到产品的研发部门,或者是推广到业务运营部门这样会花很小的玳价,但是做了更多的事儿

四是受益的业务部门可以运用大数据工具进行高效便捷的工作,这其实是最直接了当的因为本来我们要做┅款大数据的产品,或者是服务项目就是为了提高运营效率和工作效率

五是通过这个项目实施企业获得了新的商业模式和成长点,这个昰最重要的从战略的角度讲,这个大数据产品和项目成功实现了企业转型和升级

成功大数据项目的路线图

成功大数据的路线图分为六步:

第一步:确定对企业业务有重大影响的大数据用例和创新方向。

第二步:我们要制定基于大数据项目的详尽的产品服务创新规划

第彡步:要详细了解大数据项目所需要的业务功能要求和选择与之相匹配的技术。

第四步:就大数据项目带来的商业利益在企业内部达成共識

第五步:我们要选择容易实现的目标入手,快速迭代研发、试错、稳步推进也就是说不要刚开始就要搞高大上、大而全的项目,因為失败的几率几乎是百分之百非常容易失败,因为预算太大选的工具太复杂,调动的资源很多很难一下子实现所有的目标,所以通瑺我们从一个晓得目标容易实现的目标开始,这样可以鼓励士气错误犯在研发的初期,而不是在中期和最后这个最重要。

第六步:莋大数据项目和产品一定要挖掘和实现大数据能给我们带来的特殊价值这是其它的方法或者是其它类的数据做不到的,只有实现了这种特殊的价值我们才能实现业务所需要的具体功能,不管是扩展市场的份额或者是更精准的了解你的客户需求,还是说你要增加边际利潤率或者是提高产品上市的速度,缩短研发周期这些都是大数据可以做的。另外就是跨界创新传统企业可以通过大数据这个纽带跟其他企业的业务结合起来。

下面我就给大家介绍一下十二个各个领域都包含的项目案列

以下项目小编都有搭建与设计视频有一定大数据基础与工作经验的朋友是可以根据视频内容完成整个项目的搭建的。非常的实用!需要视频的朋友加入小编的java与大数据交流圈子找群主獲取视频学习这些项目的搭建。下面就来给大家介绍一下这十二个项目主要的内容与领域的权重值:

1离线数据处理:项目内容为通过对網站访问日志的采集和清洗,结合数据库中的结构化用户数据统计并展示网站的PV、UV情况,以对网站的运行情况进行监控通过此项目,囙顾并串联前面讲述的离线数据处理相关技术如:FIune、Sqoop、Hive、Spark等,了解和掌握PB级数据离线处理的一般过程和架构

2,流式数据处理:项目内嫆为通过对数据库交易数据修改的实时同步监控网站实时交易情况,以提高网站交易情况监控的时效性降低网站运行的风险。 通过此項目回顾并串联前面讲述的实时数据处理相关技术,如:kafka、Spark、Streaning和HBase等了解和掌握实时数据处理的一般过程和架构。

3推荐系统:项目内嫆,基于公开数据库的商品推荐某大型互金公司产品推荐系统剖析, 通过对公司实际推荐项目的剖析和根据真实数据搭建推荐系统的实操演练了解推荐系统的一般架构和常用算法。

4搜索系统:项目内容,通过网站爬虫爬取网站数据然后基于KlastlcSeard和Klbana搭建一个完整的搜索系統。

5系统运行情况仪表盘: 通过对网站访问日志的采集和清洗,结合数据库中的结构化用户数据统计并展示网站的PV,UV情况以对网站嘚运行情况进行监控。通过此项目回顾并串联前面讲述的离线数据处理相关技术,如FlumeSqoop,HiveSpark等,掌握PB级数据离线处理的一般过程和架构

6, 实时交易监控系统 : 过对数据库交易数据修改的实时同步监控网站实时交易情况,以提高网站交易情况监控的时效性降低网站运荇的风险。通过此项目回顾并串联前面讲述的实时数据处理相关技术,如KafkaSpark Streaming和HBase等,掌握实时数据处理的一般过程和架构

7,推荐系统理論与实战: 讲解推荐系统的相关背景常用算法及通用架构;基于公开数据集从零构建一个电影推荐系统。通过对公司实际推荐项目的剖析和根据真实数据搭建推荐系统的实操演练了解推荐系统的一般架构和常用算法

8,数据仓库搭建理论与实战: 讲解数据仓库搭建的方法論常用建模理论;以互金公司数据仓库搭建场景作为切入,实例演示数据仓库搭建过程及技术架构

9,分布式业务监控系统: 讲解业务監控系统需求背景基于大数据的技术方案;通过实例代码搭建完整的业务监控系统

11,信贷需求预测系统: 以京东信贷需求预测竞赛为背景实例讲解数据挖掘项目中如何设计特征,模型基础建模以及调参等。

12用户画像系统 : 讲解用户画像系统的需求背景,基于大数据技术的解决方案;通过实例代码演示用户画像系统的搭建

做好一个项目需要花掉好多时间去做,我希望大家在努力工作的同时也要注意洎己的身体身体是革命的本钱,也祝愿每个奋斗的人身体健康事业有成,希望大家多多关注吧需要具体了解项目内容的可以加入交鋶圈来找群主获取即可。

}

 对于企业来说100条理论确实不如┅个成功的标杆有实践意义,本文的主旨就是寻找“正在做”大数据的49个样本

本文力图从企业运营和管理的角度,梳理出发掘大数据价徝的一般规律:一是以数据驱动的决策主要通过提高预测概率,来提高决策成功率;二是以数据驱动的流程主要是形成营销闭环战略,提高销售漏斗的转化率;三是以数据驱动的产品在产品设计阶段,强调个性化;在产品运营阶段则强调迭代式创新。

上篇 天然大数据公司嘚各种套餐

从谷歌、亚马逊、Facebook、LinkedIn到阿里、百度、腾讯,都因其拥有大量的用户注册和运营信息成为天然的大数据公司。而像IBM、Oracle、EMC、惠普这类大型技术公司纷纷投身大数据通过整合大数据的信息和应用,给其他公司提供“硬件软件 数据”的整体解决方案我们关注的重點是大数据的价值,第一类公司首当其冲

下面就是这些天然大数据公司的挖掘价值的典型大数据案例及案例分析。

在这里我还是要推荐丅我自己建的大数据学习交流qq裙: 裙 里都是学大数据开发的,如果你正在学习大数据 小编欢迎你加入,大家都是软件开发党不定期汾享干货(只有大数据开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程欢迎进阶中和进想深入大数据的小夥伴。

01 亚马逊的“信息公司”

如果全球哪家公司从大数据发掘出了最大价值截至目前,答案可能非亚马逊莫属亚马逊也要处理海量数據,这些交易数据的直接价值更大作为一家“信息公司”,亚马逊不仅从每个用户的购买行为中获得信息还将每个用户在其网站上的所有行为都记录下来:页面停留时间、用户是否查看评论、每个搜索的关键词、浏览的商品等等。这种对数据价值的高度敏感和重视以忣强大的挖掘能力,使得亚马逊早已远远超出了它的传统运营方式

Vogels在CeBIT上关于大数据的演讲,向与会者描述了亚马逊在大数据时代的商业藍图长期以来,亚马逊一直通过大数据分析尝试定位客户和和获取客户反馈。“在此过程中你会发现数据越大,结果越好为什么囿的企业在商业上不断犯错?那是因为他们没有足够的数据对运营和决策提供支持,”Vogels说“一旦进入大数据的世界,企业的手中将握有无限可能”从支撑新兴技术企业的基础设施到消费内容的移动设备,亚马逊的触角已触及到更为广阔的领域

亚马逊推荐:亚马逊的各个業务环节都离不开“数据驱动”的身影。在亚马逊上买过东西的朋友可能对它的推荐功能都很熟悉“买过X商品的人,也同时买过Y商品”嘚推荐功能看上去很简单却非常有效,同时这些精准推荐结果的得出过程也非常复杂

亚马逊预测:用户需求预测是通过历史数据来预測用户未来的需求。对于书、手机、家电这些东西——亚马逊内部叫硬需求的产品你可以认为是“标品”——预测是比较准的,甚至可鉯预测到相关产品属性的需求但是对于服装这样软需求产品,亚马逊干了十多年都没有办法预测得很好因为这类东西受到的干扰因素呔多了,比如:用户的对颜色款式的喜好穿上去合不合身,爱人朋友喜不喜欢…… 这类东西太易变买得人多反而会卖不好,所以需要哽为复杂的预测模型

亚马逊测试:你会认为亚马逊网站上的某段页面文字只是碰巧出现的吗?其实,亚马逊会在网站上持续不断地测试新嘚设计方案从而找出转化率最高的方案。整个网站的布局、字体大小、颜色、按钮以及其他所有的设计其实都是在多次审慎测试后的朂优结果。

亚马逊记录:亚马逊的移动应用让用户有一个流畅的无处不在的体验的同时也通过收集手机上的数据深入地了解了每个用户嘚喜好信息;更值得一提的是Kindle Fire,内嵌的Silk浏览器可以将用户的行为数据一一记录下来

以数据为导向的方法并不仅限于以上领域,亚马逊的企業文化就是冷冰冰的数据导向型文化对于亚马逊来说,大数据意味着大销售量数据显示出什么是有效的、什么是无效的,新的商业投資项目必须要有数据的支撑对数据的长期专注让亚马逊能够以更低的售价提供更好的服务。

如果说有一家科技公司准确定义了“大数据”概念的话那一定是谷歌。根据搜索研究公司comScore的数据仅2012年3月一个月的时间,谷歌处理的搜索词条数量就高达122亿条谷歌的体量和规模,使它拥有比其他大多数企业更多的应用大数据的途径

谷歌搜索引擎本身的设计,就旨在让它能够无缝链接成千上万的服务器如果出現更多的处理或存储需要,抑或某台服务器崩溃谷歌的工程师们只要再添加更多的服务器就能轻松搞定。将所有这些数据集合在一起所帶来的结果是:企业不仅从最好的技术中获益同样还可以从最好的信息中获益。下面选择谷歌公司的其中三个亮点

谷歌意图:谷歌不僅存储了搜索结果中出现的网络连接,还会储存用户搜索关键词的行为它能够精准地记录下人们进行搜索行为的时间、内容和方式,坐擁人们在谷歌网站进行搜索及经过其网络时所产生的大量机器数据这些数据能够让谷歌优化广告排序,并将搜索流量转化为盈利模式穀歌不仅能追踪人们的搜索行为,而且还能够预测出搜索者下一步将要做什么用户所输入的每一个搜索请求,都会让谷歌知道他在寻找什么所有人类行为都会在互联网上留下痕迹路径,谷歌占领了一个绝佳的点位来捕捉和分析该路径换言之,谷歌能在你意识到自己要找什么之前预测出你的意图这种抓取、存储并对海量人机数据进行分析,然后据此进行预测的能力就是数据驱动的产品。

谷歌分析:穀歌在搜索之外还有更多获取数据的途径企业安装“谷歌分析”之类的产品来追踪访问者在其站点的足迹,而谷歌也可获得这些数据網站还使用“谷歌广告联盟”,将来自谷歌广告客户网的广告展示在其站点因此,谷歌不仅可以洞察自己网站上广告的展示效果同样還可以对其他广告发布站点的展示效果一览无余。

谷歌趋势:既然搜索本身是网民的“意图数据库”当然可以根据某一专题搜索量的涨跌,预测下一步的走势谷歌趋势可以预测旅游、地产、汽车的销售。此类预测最著名的就是谷歌流感趋势跟踪全球范围的流感等病疫傳播,依据网民搜索分析全球范围内流感等病疫的传播状况。

早在2006年eBay就成立了大数据分析平台。为了准确分析用户的购物行为eBay定义叻超过500种类型的数据,对顾客的行为进行跟踪分析eBay分析平台高级总监Oliver Ratzesberger说:“在这个平台上,可以将结构化数据和非结构化数据结合在一起通过分析促进eBay的业务创新和利润增长。”

eBay行为分析:在早期eBay网页上的每一个功能的更改,通常由对该功能非常了解的产品经理决定判断的依据主要是产品经理的个人经验。而通过对用户行为数据的分析网页上任何功能的修改都交由用户去决定。“每当有一个不错嘚创意或者点子我们都会在网站上选定一定范围的用户进行测试。通过对这些用户的行为分析来看这个创意是否带来了预期的效果。”

eBay广告分析:更显著的变化反映在广告费上eBay对互联网广告的投入一直很大,通过购买一些网页搜索的关键字将潜在客户引入eBay网站。为叻对这些关键字广告的投入产出进行衡量eBay建立了一个完全封闭式的优

04 塔吉特的“数据关联挖掘”

利用先进的统计方法,商家可以通过用戶的购买历史记录分析来建立模型预测未来的购买行为,进而设计促销活动和个性服务避免用户流失到其他竞争对手那边美国第三大零售商塔吉特,通过分析所有女性客户购买记录可以“猜出”哪些是孕妇。其发现女性客户会在怀孕四个月左右大量购买无香味乳液。由此挖掘出25项与怀孕高度相关的商品制作“怀孕预测”指数。推算出预产期后就能抢先一步,将孕妇装、婴儿床等折扣券寄给客户塔吉特还创建了一套购买女性行为在怀孕期间产生变化的模型,不仅如此如果用户从它们的店铺中购买了婴儿用品,它们在接下来的幾年中会根据婴儿的生长周期定期给这些顾客推送相关产品使这些客户形成长期的忠诚度。

05 中国移动的数据化运营

通过大数据分析中國移动能够对企业运营的全业务进行针对性的监控、预警、跟踪。大数据系统可以在第一时间自动捕捉市场变化再以最快捷的方式推送給指定负责人,使他在最短时间内获知市场行情

客户流失预警:一个客户使用最新款的诺基亚手机,每月准时缴费、平均一年致电客服3佽使用WEP和彩信业务。如果按照传统的数据分析可能这是一位客户满意度非常高、流失概率非常低的客户。事实上当搜集了包括微博、社交网络等新型来源的客户数据之后,这位客户的真实情况可能是这样的:客户在国外购买的这款手机手机中的部分功能在国内无法使用,在某个固定地点手机经常断线彩信无法使用——他的使用体验极差,正在面临流失风险这就是中国移动一个大数据分析的应用場景。通过全面获取业务信息可能颠覆常规分析思路下做出的结论,打破传统数据源的边界注重社交媒体等新型数据来源,通过各种渠道获取尽可能多的客户反馈信息并从这些数据中挖掘更多的价值。

数据增值应用:对运营商来说数据分析在政府服务市场上前景巨夶。运营商也可以在交通、应对突发灾害、维稳等工作中使大数据技术发挥更大的作用运营商处在一个数据交换中心的地位,在掌握用戶行为方面具有先天的优势作为信息技术的又一次变革,大数据的出现正在给技术进步和社会发展带来全新的方向而谁掌握了这一方姠,谁就可能成功对于运营商来说,在数据处理分析上需要转型的不仅是技巧和法律问题,更需要转变思维方式以商业化角度思考夶数据营销。

Twitter兴趣聚类:通过过滤用户归属地、发推位置和相关关键词Twitter建立了一系列定制化的客户数据流。比如通过过滤电影片名、位置和情绪标签,你可以知道洛杉矶、纽约和伦敦等城市最受欢迎的电影是哪些而根据用户发布的个人行为描述,你甚至能搜索到那些茬加拿大滑雪的日本游客从这个视角看,Twitter的兴趣图谱的效率优于Facebook的社交图谱Twitter的用户数据所能产生的潜在价值同样令人惊叹。在社交媒體网站正在收集越来越多的数据的形势下它们或许能找到更好的方式来利用这些数据盈利,并使其取代广告成为自身提高收入的主要方式这些社交网站真正的价值可能在于数据本身。相信在不久的将来如果寻找到既能充分利用用户数据,又可合理规避对用户隐私的威脅社交数据所蕴藏的巨大能量将会彻底被开启。

Twitter情绪分析:Twitter自己并不经营每一款数据产品但它把数据授权给了像DataSift这样的数据服务公司,很多公司利用Twitter社交数据做出了各种让人吃惊的应用,从社交监测到医疗应用甚至可以去追踪流感疫情爆发,社交媒体监测平台DataSift还创慥了一款金融数据产品华尔街“德温特资本市场”公司首席执行官保罗·霍廷每天的工作之一,就是利用电脑程序分析全球3.4亿微博账户嘚留言,进而判断民众情绪再以“1”到“50”进行打分。根据打分结果霍廷再决定如何处理手中数以百万美元计的股票。霍廷的判断原則很简单:如果所有人似乎都高兴那就买入;如果大家的焦虑情绪上升,那就抛售一些媒体公司会把观众收视率数据打包到产品里,再轉卖给频道制作人和内容创造者

精确的数据一旦与社交媒体数据相结合,对未来的预测会非常准

07 特易购的精准定向

聪明的商家通过用戶的购买历史记录分析来建立模型,为他们量身预测未来的购物清单进而设计促销活动和个性服务,让他们源源不断地为之买单特易購是全球利润第二大的零售商,这家英国超级市场巨人从用户行为分析中获得了巨大的利益从其会员卡的用户购买记录中,特易购可以叻解一个用户是什么“类别”的客人如速食者、单身、有上学孩子的家庭等等。这样的分类可以为提供很大的市场回报比如,通过邮件或信件寄给用户的促销可以变得十分个性化店内的促销也可以根据周围人群的喜好、消费的时段来更加有针对性,从而提高货品的流通这样的做法为特易购获得了丰厚的回报,仅在市场宣传一项就能帮助特易购每年节省3.5亿英镑的费用。

Tesco的优惠券:特易购每季会为顾愙量身定做6张优惠券其中4张是客户经常购买的货品,而另外2张则是根据该客户以往的消费行为数据分析极有可能在未来会购买的产品。仅在1999年特易购就送出了14.5万份面向不同的细分客户群的购物指南杂志和优惠券组合。更妙的是这样的低价无损公司整体的盈利水平。通过追踪这些短期优惠券的回笼率了解到客户在所有门店的消费情况,特易购还可以精确地计算出投资回报发放优惠券吸引顾客其实巳经是很老套的做法了,而且许多的促销活动实际只是来掠夺公司未来的销售额然而,依赖于扎实的数据分析来定向发放优惠券的特易購却可以维持每年超过1亿英镑的销售额增长。

特易购同样有会员数据库通过已有的数据,就能找到那些对价格敏感的客户然后在公司可以接受的最低成本水平上,为这类顾客倾向购买的商品确定一个最低价这样的好处一是吸引了这部分顾客,二是不必在其他商品上浪费钱降价促销

特易购的精准运营:这家连锁超市在其数据仓库中收集了700万部冰箱的数据。通过对这些数据的分析进行更全面的监控並进行主动的维修以降低整体能耗。

Facebook是社交网络巨擎但是在挖掘大数据价值方面,好像办法不多值得一提的就是好友推荐。Facebook使用大数據来追踪用户在其网络的行为通过识别你在它的网络中的好友,从而给出新的好友推荐建议用户拥有越多的好友,他们与Facebook之间的黏度僦越高更多的好友意味着用户会分享更多照片、发布更多状态更新、玩更多的游戏。

LinkedIn网站使用大数据在求职者和招聘职位之间建立关联有了LinkedIn,猎头们再也不用向潜在的受聘者打陌生电话来碰运气而可以通过简单的搜索找出潜在受聘者并联系他们。与此相似求职者也鈳以通过联系网站上其他人,自然而然地将自己推销给潜在的雇主有两个例子能够生动呈现LinkedIn的数据价值:几年前,LinkedIn忽然发现近期雷曼兄弚的来访者多了起来当时并没引起重视,过了不久雷曼兄弟宣布倒闭;而在谷歌宣布退出中国的前一个月,在LinkedIn发现了一些平时很少见的穀歌产品经理在线这也是相同的道理。如果LinkedIn针对性地分析某家上

10 沃尔玛的数据基因

早在1969年沃尔玛就开始使用计算机来跟踪存货1974年就将其分销中心与各家商场运用计算机进行库存控制。1983年沃尔玛所有门店都开始采用条形码扫描系统。1987年沃尔玛完成了公司内部的卫星系統的安装,该系统使得总部分销中心和各个商场之间可以实现实时,双向的数据和声音传输采用这些在当时还是小众和超前的信息技術来搜集运营数据为沃尔玛最近20年的崛起打下了坚实的地基,从而发现了“啤酒与尿布”关联

如今,沃尔玛拥有着全世界最大的数据仓庫在数据仓库中存储着沃尔玛数千家连锁店在65周内每一笔销售的详细记录,这使得业务人员可以通过分析购买行为更加了解他们的客户通过这些数据,业务员可以分析顾客的购买行为从而供应最佳的销售服务。沃尔玛一直致力于改善自身的数据收集技术从条形码扫描,到安装卫星系统实现双向数据传输整个公司都充满了数据基因。2012年4月沃尔玛又收购了一家研究网络社交基因的公司Kosmix,在数据基因嘚基础上又增加了社交基因。

11 阿里小贷和聚石塔

虽然阿里系的余额宝如日中天但其实阿里小贷才真正体现出了大数据的价值。早在2010年阿里就已经建立了“淘宝小贷”通过对贷款客户下游订单、上游供应商、经营信用等全方位的评估,就可以在没有见面情况下给客户放款,这当然是对阿里平台上大数据的挖掘数据来源于“聚石塔”——一个大型的数据分享平台,它通过共享阿里巴巴旗下各个子公司嘚数据资源来创造商业价值这款产品就是大数据团队把淘宝交易流程各个环节的数据整合互联,然后基于商业理解对信息进行分类储存囷分析加工并与决策行为连接起来所产生的效果。

12 西尔斯的数据大集成

在过去美国零售巨头西尔斯控股公司,需要八周时间才能制定絀个性化的销售方案但往往做出来的时候,它已不再是最佳方案痛定思痛,决定整合其专售的三个品牌——Sears、Craftsman、Lands'End的客户、产品以及销售数据使用群集收集来自不同品牌的数据,并在群集上直接分析数据而不是像以前那样先存入数据仓库,避免了浪费时间——先把来洎各处的数据合并之后再做分析这种调整让公司的推销方案更快、更精准,可以从海量信息中挖掘价值但是价值巨大,困难也巨大:這些数据需要超大规模分析且分散在不同品牌的数据库与数据仓库中,不仅数量庞大而且支离破碎

西尔斯的困境,在传统企业中非常普遍这些企业家一直想不通,既然互联网零售商亚马逊可以推荐阅读书目、推荐电影、推荐可供购买的产品为什么他们所在的企业却莋不到类似的事情。西尔斯公司首席技术官菲里·谢利(Phil Shelley)说:如果要制定一系列复杂推荐方案质量更高需要更及时、更细致、更个性化的數据,传统企业的IT架构根本不能完成这些任务需要痛下决心,才能完成转型

中篇 轻公司数据创业狂欢

在这次“数据盛宴”中,是否只囿大公司的狂欢?并非如此从事大数据产业的轻公司将无处不在。新兴的创业公司通过出售数据和服务更有针对性地提供单个解决方案紦大数据商业化、商品化,才是更加值得我们关注的模式这将带来继门户网站、搜索引擎、社交媒体之后的新一波创业浪潮和产业革命,并会对传统的咨询公司产生强烈冲击

PredPol公司通过与洛杉矶和圣克鲁斯的警方以及一群研究人员合作,基于地震预测算法的变体和犯罪数據来预测犯罪发生的几率可以精确到500平方英尺的范围内。在洛杉矶运用该算法的地区盗窃罪和暴力犯罪分布下降了33%和21%。

Tipp24 AG针对欧洲博彩業构建的下注和预测平台该公司用KXEN软件来分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动这項举措减少了90%的预测模型构建时间。SAP公司正在试图收购KXEN“SAP想通过这次收购来扭转其长久以来在预测分析方面的劣势”。

交通的参与者多種多样是大数据最能发挥价值的领域。交通流量数据公司Inrix依靠分析历史和实时路况数据能给出及时的路况报告,以帮助司机避开正在堵车的路段并且帮他们提前规划好行程。汽车制造商、移动应用开发者、运输企业以及各类互联网企业都需要Inrix的路况报告奥迪、福特、日产、微软等巨头都是Inrix的客户。

16 潘吉瓦的时尚预测

消费者追寻意见领袖的生活方式潘吉瓦公司就是用数据分析来预测流行趋势,以此為基础甚至撬动全球贸易比如,它们通过41次追踪《暮光之城》的徽章、袜子的运输情况分析在这部电影中主角的服饰对流行趋势有多夶影响率,并将分析结果告知用户建议他们对自己的行动做出恰当的调整。

17 潘多拉的音乐推荐

美国在线音乐网站潘多拉特别聘请一些音樂专家让他们每个人平均花上20分钟去分析一首歌曲,并赋予每首歌400种不同的属性如果你表示喜欢一首歌,程序会自动寻找跟这首歌“基因”相同的歌曲猜测你也会喜欢并采用推荐引擎技术推荐给你。借助这种人海战术潘多拉网站已经分析了74万首歌曲。

Health是一家专注于鼡通过数据为患者制定医疗解决方案的公司从安装在智能手机上的个人健康应用,到诊所、医院里医生使用的电子健康记录仪甚至是革命性的数字化基因组数据,均连接到后端数据仓库上从而为患者制定最佳的医院选择、医药选择。该如何将采集到医疗保健机构的大量操作信息分析患者情况或治疗效果,实施任何高效率的措施使之更具有意义——大数据时代提供的机会,不再是简单地收集这些数據而是如何运用数据来更好地认知这个世界。

在零售领域创业公司Retention Science发布了一个为电子商务企业提供增强用户粘性的数据分析及市场策畧设计的平台,它的用户建模引擎具备自学习功能通过使用算法和统计模型来设计优化用户粘性的策略。平台的用户数据分析都是实时進行以确保用户行为预测总是符合实际用户行为更新;同时,动态的根据这些行为预测来设计一些促销策略RS目前已获得Baroda Ventures, Mohr

20 众瀛的婚嫁后推薦

江苏众瀛联合数据科技有限公司构建了这样一个大数据平台——将准备结婚的新人作为目标消费者,并把与结婚购物相关的商家加入其Φ一对新人到薇薇新娘婚纱影楼拍了婚纱照,在实名登记了自己的信息后会被上传到大数据平台上大数据平台能根据新人在婚纱影楼嘚消费情况和偏好风格,大致分析判断出新人后续消费需求即时发送奖励和促销短信。比如邀请他们到红星美凯龙购买家具、到红豆家紡选购床上用品、到国美电器选购家用电器、到希尔顿酒店摆酒席……如果新人在红星美凯龙购买了中式家具说明他们偏好中国传统文囮,就推荐他们购买红豆家纺的中式家居用品

水,向来是个不好管理的东西:自来水公司发现某个水压计出现问题可能需要花上很长嘚时间排查共用一个水压计的若干水管。等找到的时侯大量的水已经被浪费了。以色列一家名为Takadu的水系统预警服务公司解决了这个问题Takadu把埋在地下的自来水管道水压计、用水量和天气等检测数据搜集起来,通过亚马逊的云服务传回Takadu公司的电脑进行算法分析如果发现城市某处地下自来水管道出现爆水管、渗水以及水压不足等异常状况,就会用大约10分钟完成分析生成一份报告发回给这片自来水管道的维修部门。报告中除了提供异常状况类型以及水管的损坏状况——每秒漏出多少立方米的水,还能相对精确地标出问题水管具体在哪里檢测每千米“水路”,Takadu的月收费是1万美元

22 百合网的婚恋匹配

电商行业的现金收入源自数据,而婚恋网站的商业模型更是根植于对数据的研究比如,作为一家婚恋网站百合网不仅需要经常做一些研究报告,分析注册用户的年龄、地域、学历、经济收入等数据即便是每洺注册用户小小的头像照片,这背后也大有挖掘的价值百合网研究规划部李琦曾经对百合网上海量注册用户的头像信息进行分析,发现那些受欢迎头像照片不仅与照片主人的长相有关同时照片上人物的表情、脸部比例、清晰度等因素也在很大程度上决定了照片主人受欢迎的程度。例如对于女性会员,微笑的表情、直视前方的眼神和淡淡的妆容能增加自己受欢迎的概率而那些脸部比例占照片1/2、穿着正式、眼神直视没有多余pose的男性则更可能成为婚恋网站上的宠儿。

Prismatic是一款个性化新闻应用只有4名创始员工,凭借互联网数据爬虫和社交网絡开发平台的数据依托亚马逊的云计算平台,实现了大数据的精益创业Prismatic不提供统一的设计精良的新闻订阅或推荐界面,而是根据分析鼡户的Facebook 或Twitter资料为用户做一对一的数据分析和推荐。从盈利模式来看Prismatic不是依靠广告费生存下来,也不是传统的新闻媒介而是一个披着噺闻应用外衣的电子商务公司。名义上为了给用户个性化推荐新闻而得到用户的个人信息进行数据分析针对性的推出推荐商品,从而从電子商务中盈利

人类都有和同类对比的天性,例如一家政府机构收集不同地点从事同类工作的多组员工的数据,仅仅将这些信息公诸於众就促使落后员工提高了绩效在能源行业,Opower使用数据对比来提高消费用电的能效并取得了显著的成功。作为一家SaaS的创新公司Opower与多镓电力公司合作,分析美国家庭用电费用并将之与周围的邻居用电情况进行对比被服务的家庭每个月都会受到一份对比的报告,显示自镓用电在整个区域或全美类似家庭所处水平以鼓励节约用电。Opower的服务以覆盖了美国几百万户居民家庭预计将为美国消费用电每年节省5億美元。Opower报告信封看上去像账单,它们使用行为技术轻轻地说服公用事业客户降低消耗Opower已经推出了它的大数据平台 Opower4 ,通过分析各种智能电表和用电行为电力公司等公用事业单位成为Opower的盈利来源。而对一般用户而言Opower完全是免费的。

使用新的数据技术诸如美国的Chango公司囷中国的Uniqlick公司正在数字广告行业中探索新的商业模式——实时竞拍数字广告。通过了解互联网用户在网络的搜索、浏览等行为这些公司鈳以为广告主提供最有可能对其商品感兴趣的用户群,从而进行精准营销;更长期的趋势是将广告投放给最有可能购买的用户群。这样的莋法对于广告主来说可以获得更高的转换率,而对于发布广告的网站来说也提高了广告位的价值。

众趣是国内第一家社交媒体数据管悝平台目前国内主要的社交开放平台在用户数据的开放性方面仍比较保守,身为第三方数据分析公司能够获得的用户数据还十分有限,要使用这些用户数据需获得用户许可众趣通过运营统计学等相关数据分析原理对用户数据进行过滤,最终完成的是对一个用户的行为、动作等个体特征的描述这些描述可以帮助品牌营销者了解消费者的消费习惯及需求;也可以帮助企业的领导增强对自己员工的了解。除叻对个体以及群体行为特征的描述外这些数据分析结果还可用于对用户群体的行为预测,从而为营销者提供一些前瞻性的市场分析众趣数据分析的结果只能精准到群组而无法达到个人。此类的用户数据研究除在市场营销领域具有一定的参考价之外目前大多还主要用于配合一些小调研。此外这些数据还可以实现对用户甚至企业机构的信用评级,在金融领域也有一定程度的使用

27 拖拉网的明天猜想

导购電商的拖拉网制作了“明天穿什么”这一应用。在这个应用当中众多时装圈权威人士输送时装搭配与风格单品,由用户任意打分根据鼡户的打分偏好,拖拉网便能猜到明天她们想穿什么然后为她在数十万件网购时装中推荐单品,并且实现直通购买下单在获取客户数據后,后台分析也是各显神通

拖拉网加入了更多变量来考核自己的推荐模式。比如有消费者明天要参加一个聚会不知道要穿什么风格,也没有看天气预报希望导购网站能帮她把这些场景和自己的信息组合起来,给出一整套的解决方案于是日期、地域、场合、风格,這些都成为穿衣搭配解决方案的变量经过不断的组合呈现给用户,据拖拉网数据用户在看到一个比较优质的搭配,并有场景性引导的時候点击到最后页面完成购买的转化率会比单品推荐高40%。

现在人们有了把人类基因档案序列化的能力这允许医生和科学家去预测病人對于某些疾病的易感染性和其他不利的条件,可以减少治疗过程的时间和花费位于旧金山的SeeChange公司创建了一套新的健康保险模式。该公司通过分析客户的个人健康记录、医疗报销记录、以及药店的数据来判断该客户对于慢性病的易感性,并判断该客户是否有可能从一些定淛的康复套餐中获利SeeChange同时设计健康计划,并设立奖励机制鼓励客户主动完成健康行动全过程都通过其数据分析引擎来监控。

以色列的Given Imaging公司发明了一种胶囊内置摄像头,患者服用后胶囊能以大约每秒14张照片的频率拍摄消化道内的情况并同时传回外置的图像接收器,患鍺病征通过配套的软件被录入数据库在4至6小时内胶囊相机将通过人体排泄离开体外。一般来说医生都是在靠自己的个人经验进行病征判断,难免会对一些疑似阴影拿捏不准甚至延误病人治疗现在通过Given Imaging的数据库,当医生发现一个可疑的肿瘤时双击当前图像后,过去其怹医生拍摄过的类似图像和他们的诊断结果都会悉数被提取出来可以说,一个病人的问题不再是一个医生在看而是成千上万个医生在哃时给出意见,并由来自大量其他病人的图像给出佐证这样的数据对比,不但提高了医生诊断的效率还提升了准确度。

真正的技术人財永远是各大公司的抢手货绝对不要坐等他们向你投简历,因为在他们还没有机会写简历之前很可能已经被其他公司抢走了Entelo公司能替企业家们推荐那些才刚刚萌发跳槽动机的高级技术人才,以便先下手为强

Entelo的数据库里目前有3亿份简历。而如何判断高级人才的跳槽倾向Entelo有一套正在申请专利的算法。这套算法有70多个指标用于判定跳槽倾向某公司的股价下跌、高层大换血、刚被另一大公司收购,这些都會被Entelo看作是导致该公司人才跳槽的可能性因素于是Entelo就会立刻把该公司里的高级人才的信息推送给订阅了自己服务的企业家们。企业家们收到的简历跟一般的简历还不一样Entelo抓取了这些人才在各大社交网络的信息。这样企业家们可以了解该人提交过哪些代码在网上都回答叻些什么样的问题,在Twitter上都发表的是些什么样的信息总之,这些准备“挖角”的企业家能够看到一个活生生的目标人才站在面前

航空業分秒必争,尤其是航班抵达的准确时间如果一班飞机提前到达,地勤人员还没准备好乘客和乘务员就会被困在飞机上白白耽误时间;洳果一班飞机延误,地勤人员就只能坐着干等白白消耗成本。美国一家大航空公司从其内部报告中发现大约10%的航班的实际到达时间与預计到达时间相差10分钟以上,30%的航班相差5分钟以上FlightCaster是一家提供航班延误信息预测的公司,主要根据航空公司的航班运行情况进行预测與航空公司所拥有的类似航班运行情况的专有信息一样,该公司拥有大量国内航班飞行和航班实时运行状况的历史数据Flightcaster的秘诀就是其对夶数据分析的有效利用和使用适当的软件工具对产出数据进行实时管理。

Aerospace是专门为航空业提供决策支持的技术公司通过搜集天气、航班ㄖ程表等公开数据,结合自己独立收集的其他影响航班因素的非公开数据综合预测航班到港时间。时至2012年Passur公司已经拥有超过155处雷达接收站,每4.6秒就收集一次雷达上每架飞机的一系列信息这会持续地带来海量数据。不仅如此经过长期的数据收集,Passur拥有了一个超过十年嘚巨大的多维信息载体为透彻的分析和恰当的数据模型提供了可能。Passur公司相信航空公司依据它们提供的航班到达时间做计划,能为每個机场每年节省数百万美元

一家名为气候公司的创业企业每天都会对美国境内超过100万个地点、未来两年的天气情况进行超过1万次模拟,其数据量庞大、动态、实时随后,该公司将根系结构和土壤孔隙度的相关数据与模拟结果相结合,为成千上万的农民提供农作物保险通过遥感获取土壤数据,这和我们过去所熟悉的通过网络服务获取用户网络行为数据不是一回事数据的概念得以极大的扩充。要想对烸块田地提供精准的保险服务肯定还需要与土地数据相配套的农产品期货、气候预测、国际贸易、国际政治和军事安全、国民经济,产業竞争等等各方面的数在如此庞杂的大数据基础上推出的商业模式是创新的,同现有农作物保险方式相比具备极大竞争力并且是可持續和规模化的。更妙的是这家公司基于大数据的运营,完全没有进行高额的网络设施投资只是租用了亚马逊的公共云服务,一个月几萬美元而已

几乎所有的收费电子书都会提供部分章节让读者试读,其实出版商需要弄清楚人们读到了哪里、读完后有没有购买,以及其他各种体验才能卖出更多的电子书。美国创业公司Hiptype开发了一套电子书阅读分析工具其商业模式就在试图解决这一难题。Hiptype自称为“面姠电子书的Google Analytics”能够提供与电子书有关的丰富数据。它不仅能统计电子书的试读和购买次数还能绘制出“读者图谱”,包括用户的年龄、收入和地理位置等此外,它还能告诉出版商读者在看完免费章节后是否进行了购买有多少读者看完了整本书,以及读者平均看了多尐页读者最喜欢从哪个章节开始看,又在哪个章节半途而废等等。Hiptype能够与电子书整合在一起出版商无论选择哪种渠道,总是能够获嘚用户数据Hiptype收集的所有数据都是匿名的。用户在下载了内置Hiptype服务的电子书时会得到一个提示,可以选择将其屏蔽

34 安客诚的“人网合┅”

网络营销存在一个巨大问题,如何获知在网上使用几个不同名称的人是否是同一个人?安诚客推出了一种名为“观众操作系统”的技术方案解决了这个问题它允许市场营销者与你的 “数字人物”绑定,即使你由于婚姻换了名字或者使用昵称,或者偶尔使用中名它也照样能够解答那个已经换了地址或者电话号码的人是否是同一个人的问题。

AOS 可以汇集不同数据库中的信息这些数据或离线或在线,是公司可能在不同场合针对个人而收集的通过使用AbiliTec——一种Acxiom也拥有的数字化“身份识别”技术——AOS将客户信息删繁就简,得到简单单一的结果AOS帮助安诚客的广告客户使用他们的数据在Facebook上找到广告投放目标用户。

下篇 数据关联、数据废气和黑暗数据

大数据主要不作因果判断主要适用于关联分析。很多关联分析并不需要复杂的模型只需要具有大数据的意识。

很多机构都有数据废气数据不是用完就是被舍弃,它的再利用价值也许你现在不清楚但在未来的某一刻,它会迸发出来可以化废为宝。

黑暗数据就是那些针对单一目标而收集的数据通常用过之后就被归档闲置,其真正价值未能被充分挖掘如果黑暗数据用在恰当的地方,也能公司的事业变得光明

某公司团队曾经使用来自手机的位置数据,来推测美国圣诞节购物季开始那一天有多少人在梅西百货公司的停车场停车进而可以预测其当天的销售额,這远早于梅西百货自己统计出的销售记录无论是华尔街的分析师或者传统产业的高管,都会因这种敏锐的洞察力获得极大的竞争优势

對于税务部门来说,税务欺骗正在日益的被关注这时大数据可以用于增加政府识别诈骗的流程。在隐私允许的地方政府部门可以综合各个方面的数据比如车辆的登记,海外旅游的数据来发现个人的花费模式使税务贡献不被叠加。同时一个可疑的问题出现了这并没有矗接的证据指向诈骗,这些结论并不能用来去控告个人但是他可以帮助政府部门去明确他们的审计和其他的审核以及一些流程。

物流公司的数据原来只服务于运营需要但一经再利用,物流公司就华丽转身为金融公司数据用以评估客户的信用,提供无抵押贷款或者拿運送途中的货品作为抵押提供贷款;物流公司甚至可以转变为金融信息服务公司来判断各个细分经济领域的运行和走势。

有公司已经在大数據中有接近“上帝俯视”的感觉美国洛杉矶的一家企业宣称,他们将全球夜景的历史数据建立模型在过滤掉波动之后,做出了投资房哋产和消费的研究报告麦当劳则通过外送服务,在售卖汉堡的同时获得了用户的精准地址这些地址数据汇集之后,就变成了一份绝妙嘚房地产业的内部数据

在特定情况下,黑暗数据可以用作其他用途Infinity Property & Casualty公司用累积的理赔师报告来分析欺诈大数据案例及案例分析,通过算法挽回了1200万美元的代位追偿金额一家电气销售公司,通过积累10年ERP销售数据分析按照电气设备的生命周期,给5年前的老客户逐一拜访获得了1000万元以上电气设备维修订单,顺利地进入MRO市场

美国运通以前只能实现事后诸葛亮式的报告和滞后的预测,传统的BI已经无法满足其业务发展的需要于是,AmEx开始构建真正能够预测客户忠诚度的模型基于历史交易数据,用115个变量来进行分析预测该公司表示,对于澳大利亚将于之后4个月中流失的客户已经能够识别出其中的24%。这样的客户流失分析当然可以用于挽留客户。酒店业可以为消费者定制楿应的独特的个性房间甚至可以在墙纸上放上消费者的微博的旅游心情等等。旅游业可以根据大数据为消费者提供其可能会喜好的本地特色产品、活动、小而美的小众景点等等来挽回游客的心

39 快餐业的视频分析

快餐业的公司可以通过视频分析等候队列的长度,然后自动變化电子菜单显示的内容如果队列较长,则显示可以快速供给的食物;如果队列较短则显示那些利润较高但准备时间相对长的食品。

2012年参与竞选的奥巴马团队确定了三个最根本的目标:让更多的人掏更多的钱,让更多的选民投票给奥巴马让更多的人参与进来!这需要“微观”层面的认知:每个选民最有可能被什么因素说服?每个选民在什么情况下最有可能掏腰包?什么样的广告投放渠道能够最高效获取目标選民?如竞选总指挥吉姆·梅西纳所说,在整个竞选活中,没有数据做支撑的假设不能存在。

为了筹到10亿美元的竞选款,奥巴马的数据挖掘團队在过去两年搜集、存储和分析了大量数据他们注意到,影星乔治·克鲁尼对美国西海岸40岁至49岁的女性具有非常大的吸引力:她们无疑是最有可能为了在好莱坞与克鲁尼和奥巴马共进晚餐而不惜自掏腰包的一个群体克鲁尼在自家豪宅举办的筹款宴会上,为奥巴马筹集箌数百万美元的竞选资金此后,当奥巴马团队决定在东海岸物色一位对于这个女性群体具有相同号召力的影星时数据团队发现莎拉·杰西卡·帕克的粉丝们也同样喜欢竞赛、小型宴会和名人。“克鲁尼效应”被成功地复制到了东海岸。

在整个的竞选中,奥巴马团队的广告费用花了不到3亿美元而罗姆尼团队则花了近4亿美元却落败,其中一个重要的原因在于奥巴马的数据团队对于广告购买的决策,是经過缜密的数据分析之后才制定的一项民调显示,80%的美国选民认为奥巴马比罗姆尼让他们感觉更加重视自己结果是,奥巴马团队筹得的苐一个1亿美元中98%来自于小于250美元的小额捐款,而罗姆尼团队在筹得相同数额捐款的情况下这一比例仅为31%。

“私搭乱建”在哪个国家都昰一件闹心的事而且容易引起火灾。非法在屋内打隔断的建筑物着火的可能性比其他建筑物高很多纽约市每年接到2.5万宗有关房屋住得過于拥挤的投诉,但市里只有200名处理投诉的巡视员市长办公室一个分析专家小组觉得大数据可以帮助解决这一需求与资源的落差。该小組建立了一个市内全部90万座建筑物的数据库并在其中加入市里19个部门所收集到的数据:欠税扣押记录、水电使用异常、缴费拖欠、服务切断、救护车使用、当地犯罪率、鼠患投诉等等。接下来他们将这一数据库与过去5年中按严重程度排列的建筑物着火记录进行比较,希朢找出相关性果然,建筑物类型和建造年份是与火灾相关的因素不过,一个没怎么预料到的结果是获得外砖墙施工许可的建筑物与較低的严重火灾发生率之间存在相关性。

利用所有这些数据该小组建立了一个可以帮助他们确定哪些住房拥挤投诉需要紧急处理的系统。他们所记录的建筑物的各种特征数据都不是导致火灾的原因但这些数据与火灾隐患的增加或降低存在相关性。这种知识被证明是极具價值的:过去房屋巡视员出现场时签发房屋腾空令的比例只有13%在采用新办法之后,这个比例上升到了70%

负责起草《全国促进城镇化健康發展规划(年)》(以下简称“城镇化规划”)的国家发改委规划司官员需要精确知道人口的流动,怎么统计出这些流动人口成为难题

榨菜,属於低质易耗品收入增长对于榨菜的消费几乎没有影响。一般情况下城市常住人口对于方便面和榨菜等方便食品的消费量,基本上是恒萣的销量的变化,主要由流动人口造成

据国家发改委官员的说法,涪陵榨菜这几年在全国各地区销售份额变化能够反映人口流动趋勢,一个被称为“榨菜指数”的宏观经济指标就诞生了国家发改委规划司官员发现,涪陵榨菜在华南地区销售份额由2007年的49%、2008年的48%、2009年的47.58%、2010年的38.50%下滑到2011年的29.99%这个数据表明,华南地区人口流出速度非常快他们依据“榨菜指标”,将全国分为人口流入区和人口流出区两部分针对两个区的不同人口结构,在政策制定上将会有所不同

常言道,“天有不测之风云”遇到过出门旅游、重要户外路演、举办婚礼等重要时刻却被糟糕的天气弄坏心情甚至造成经济损失的情况吗?全球第一家气象保险公司“天气账单”能为用户提供各类气候担保。客户登录“天气账单”公司网站然后给出在某个特定时间段里不希望遇到的温度或雨量范围。“天气账单”网站会在100毫秒内查询出客户指定哋区的天气预报以及美国国家气象局记载的该地区以往30年的天气数据。通过计算分析天气数据网站会以承保人的身份给出保单的价格。这项服务不仅个人用户需要一些公司,比如旅行社也很乐意参与

一家全球性饮料企业将外部合作伙伴的每日天气预报信息集成,录叺其需求和存货规划流程通过分析特定日子的温度、降水和日照时间等3个数据点,该公司减少了在欧洲一个关键市场的存货量同时使預测准确度提高了大约5%。

微软和以色列理工学院的研究人员已开发出一款软件能根据过去20年《纽约时报》的文章以及其他在线数据预测傳染病或者其他社会问题可能会于何时何地爆发。

在利用历史数据进行测试时该系统的表现十分惊人。例如根据2006年对安哥拉干旱的报噵,该系统预测安哥拉很可能发生霍乱这是由于,通过此前发生的多起事件该系统了解到在干旱出现的几年后霍乱爆发的可能性将上升。此外该系统根据对2007年初非洲大型飓风的报道,再次对安哥拉发生霍乱做出预警而在不到一周之后,报道显示安哥拉确实发生了霍亂在其他测试,例如对疾病、暴力事件及伤亡人数的预测中该系统的准确率达到70%至90%。

该系统的信息来自过去22年中《纽约时报》的报道存档具体时间为1986年至2007年。不过该系统也利用了网络上的其他一些数据,了解什么样的事件会带来特定的社会问题这些信息来源提供叻不存在于新闻文章但却有价值的内容,有助于确定不同事件之间的因果关系或前后关系例如,该系统能够推断卢旺达和安哥拉城市之間所发生事件的关系因为这两个国家都位于非洲,有着类似的GDP其他一些因素也很相似。根据这种方法该系统认为,在预测霍乱爆发方面应当考虑国家或城市的位置,国土面积有多少是水域人口密度和GDP是多少,以及近几年是否发生过干旱

负责此项研发工作的Horvitz表示,近几十年来世界的许多方面都发生了改变,不过人类的本性和环境的许多方面仍然未变因此软件可以从以往的数据中了解事情发生嘚模式,从而预测未来会发生什么他表示:“对于回溯更久之前的数据,我个人很感兴趣”

此类预测工具的市场正在形成。例如一镓名为RecordedFuture的创业公司根据网上的前瞻性报道和其他信息来源预测未来事件,该公司的客户包括政府情报部门该公司CEOChristopherAhlberg表示,利用“硬数据”來进行预测是可行的但从原型系统到商用产品还有很长的路要走。

耐克凭借一种名为Nike+的新产品变身为大数据营销的创新公司所谓Nike+,是┅种以“Nike跑鞋或腕带+传感器”的产品只要运动者穿着Nike+的跑鞋运动,iPod就可以存储并显示运动日期时间、距离、热量消耗值等数据。用户仩传数据到耐克社区就能和同好分享讨论。耐克和Facebook达成协议用户上传的跑步状态会实时更新到账户里,朋友可以评论并点击一个“鼓掌”按钮——神奇的是这样你在跑步的时候便能够在音乐中听到朋友们的鼓掌声。随着跑步者不断上传自己的跑步路线耐克由此掌握叻主要城市里最佳跑步路线的数据库。有了Nike+耐克组织的城市跑步活动效果更好。参赛者在规定时间内将自己的跑步数据上传看哪个城市累积的距离长。凭借运动者上传的数据耐克公司已经成功建立了全球最大的运动网上社区,超过500万活跃的用户每天不停地上传数据,耐克借此与消费者建立前所未有的牢固关系海量的数据对于耐克了解用户习惯、改进产品、精准投放和精准营销又起到了不可替代的莋用。

46 沃尔沃的工业互联网

在沃尔沃集团通过在卡车产品中安装传感器和嵌入式CPU,从刹车到中央门锁系统等形形色色的车辆使用信息囸源源不断地传输到沃尔沃集团总部。“对这些数据进行分析不仅可以帮助我们制造更好的汽车,还可以帮助客户们获取更好体验”沃尔沃集团CIORichStrader说。这些数据正在被用来优化生产流程以提升客户体验和提升安全性。将来自不同客户的使用数据进行分析可以让产品部門提早发现产品潜在的问题,并在这些问题发生之前提前向客户预警“产品设计方面的缺陷,此前可能需要有50万台销量的时候才能暴露絀来而现在只需要1000台,我们就能发现潜在的缺陷”

在美国最大的医药贸易商McKesson公司,对大数据的应用也已经远远领先于大多数企业将先进的分析能力融合到每天处理200万个订单的供应链业务中,并且监督超过80亿美元的存货对于在途存货的管理,McKesson开发了一种供应链模型咜根据产品线、运输费用甚至碳排放量而提供了极为准确的维护成本视图。据公司流程改造副总裁RobertGooby说这些详细信息使公司能够更加真实哋了解任意时间点的运营情况。McKesson利用先进分析技术的另一个领域是对配送中心内的物理存货配置进行模拟和自动化处理评估政策和供应鏈变化的能力帮助公司增强了对客户的响应能力,同时减少了流动资金总体来讲,McKesson的供应链转型使公司节省了超过1亿美元的流动资金

《纸牌屋》最大的特点在于,与以往电视剧的制作流程不同这是一部“网络剧”。简而言之不仅传播渠道是互联网观看,这部剧从诞苼之初就是一部根据“大数据”即互联网观众欣赏口味来设计的产品。Netflix成功之处在于其强大的推荐系统Cinematch该系统基于用户视频点播的基礎数据如评分、播放、快进、时间、地点、终端等,储存在数据库后通过数据分析计算出用户可能喜爱的影片,并为他提供定制化的推薦为此他们开设了年Netflix大奖(点击查看获奖算法),用百万美元悬赏奖励能够将其电影推荐算法准确性提高至少10%的人。

未来的电影制作成本將大幅降低一千粉丝足以使电影成功。还是像《技术元素》里说:“目光聚集的地方金钱必将追随。”

美国很多州政府在与餐饮点评網lep展开合作监督餐饮行业的卫生情况,效果非常好人们不再像以前那样从窗口去看餐馆里的情况,而是从手机APP里的评论!在中国的本地囮O2O点评比如大众点评、番茄点等等消费者可以对任何商家进行评判,同时商家也可以通过这些评判来提升自己的服务能力在环节上进荇更大力度的效率优化。

未来的餐饮行业将会由互联网和社会化媒体上所产生和承载的数据彻底带动起来会有越来越多的人加入点评中,餐馆优胜劣汰的速度将会大幅加快

在这里我还是要推荐下我自己建的大数据学习交流qq裙:, 裙 里都是学大数据开发的如果你正在学習大数据 ,小编欢迎你加入大家都是软件开发党,不定期分享干货(只有大数据开发相关的)包括我自己整理的一份最新的大数据进階资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴

}
[size=1.2em]大数据时代创新创业的三个方向囷四大挑战【导语】从传统互联网的人机互联人人互联,到工业互联网的物物互联人机物三种端各自互联,才带来大数据的产生利鼡云进行大数据的存储和计算,实现数据的融合和服务数据从哪里来,到哪里去数据如何关联,如何找到市场需求实现价值是关键數据采集加工的跑马圈地已入中盘,数据分析与应用的商业模式才刚刚开盘而这需要模式具备可持续性和可扩展性。如今时代变了以湔以企业为核心的理念转向以消费者、以用户为核心的理念,以前的设计在进行创意时以往主要靠拍脑袋决策如今需要数据的支持和支撐来指导创意。基于大数据的创新创业面临的挑战主要有四个方面:一是拿到可以利用的数据比较难,目前不少创业公司都是基于互联網上公开的数据在进行应用开发二是大数据应用可能威胁到企业中传统的角色地位甚至生存,这就涉及到与传统利益的冲突因此大数據应用推广需要一把手牵头推动。第三个瓶颈是人力资源不管美国还是中国大数据人才非常紧缺,包括数据科学家和数据分析师这些囚才需要高校和企业一起合作来进行培养。

第四关于投资的难度加大需要有更多大数据商业应用成功的项目和例子来引领投资的方向。

夶数据时代创新创业的三个方向和四大挑战

——ADEC联手浙大、五叶草大数空间举办“大数据时代的创新创业实践与思考”研讨会

在大众创新、万众创业的热潮中基于大数据的创业创新备受关注。12月17日阿里数据经济研究中心(ADEC)、浙江大学管理学院、五叶草大数空间三者携手合莋,邀请20余位浙大学者走入云栖小镇在杭州这个创新创业的基地,聆听大数据创业创新实践者的感受共同开展“大数据时代创业创新嘚实践和思考”的相关话题研讨。

三家大数据创新创业领域的企业数能科技、华院数据和洛可可公司的负责人给大家分享了他们的实践方姠、面临挑战以及心得体会在分享结束后,就大家关注的话题分组讨论的环节受到参会企业以及研究者们的欢迎

浙江大学管理学院教授刘渊老师在分享中提到,从传统互联网的人机互联人人互联,到工业互联网的物物互联人机物三种端各自互联,才带来大数据的产苼利用云进行大数据的存储和计算,实现数据的融合和服务数据从哪里来,到哪里去数据如何关联,如何找到市场需求实现价值是關键


图为浙江大学管理学院教授刘渊

以浙江大学郭斌老师为组长的小组认为大数据创新创业的商业模式有三个方向(Analytics , Data, Services ,ADS)值得关注,其中A相当于為企业提供数据的计算分析能力;第二类D是提供数据为主,要做有效的决策背后所使用的数据可能来源于多个数据源可以集聚数据成为運营的资源;第三类S相当于提供基于数据的服务,这种服务要嵌入到企业运营的业务流程

以郑刚老师为代表的小组总结了基于大数据的創新创业面临的挑战,主要有以下四个方面:一是拿到可以利用的数据比较难目前不少创业公司都是基于互联网上公开的数据在进行应鼡开发,二是大数据应用可能威胁到企业中传统的角色地位甚至生存这就涉及到与传统利益的冲突,因此大数据应用推广需要一把手牵頭推动;第三个瓶颈是人力资源不管美国还是中国大数据人才非常紧缺,包括数据科学家和数据分析师这些人才需要高校和企业一起匼作来进行培养;第四关于投资的难度加大,需要有更多大数据商业应用成功的项目和例子来引领投资的方向

大数据创新创业的三个实踐

数能科技:数据分析老兵的创业之路

数能科技的总经理张晓明先生在国外有20多年的数据分析的经验,他在分享中谈到美国的大数据指嘚是用常规方法无法处理的数据,比如音频、视频等数据而中国的大数据实际上是大数据+小数据,以电影行业为例通常都是数据采集後转化为小数据来进行统计分析和数据挖掘。


图为数能科技的总经理张晓明

张总认为中国发展大数据面临三大挑战:一是数据孤岛现象嚴重,二是行业知识缺乏在业务、技术和行政人员三方面沟通比较困难,跨学科的沟通以前比较缺乏使得整个行业发展在应用层面的發展不快,三是过去中国的发展是粗旷式的哪有机会往哪跑,现在是精细化管理进行资源的优化配置,而政府官员对这种需求的优先級不高

在大数据的商业模式方面,张总认为数据采集加工的跑马圈地已入中盘,数据分析与应用的商业模式才刚刚开盘而这需要模式具备可持续性和可扩展性,其中人才也是发展的一个瓶颈尤其欠缺具备硬实力和软实力的数据分析师,尤其是软实力方面对于理工科學生来说更难软实力主要指的是沟通、好奇心和业务理解力。

数能科技开发的“电影票房预测”应用和“电影排片宝”应用都是典型的基于数据的新应用电影票房预测每天早晨9点半会发布当天的票房预测结果,希望成为全国以及各个城市电影票房的预测风向标为发行囚进行精准营销提供依据,“电影排片宝”应用通过收集来自媒体、影院的历史数据、网上售票的预售数据等信息为各大影院排片提供建議这种应用场景还可以衍生到客流预测与资源优化管理,比如在旅游景点、大型超市等

华院数据:数据分析人才基地的孵化新模式

国內专业的数据分析挖掘人才有很多都来自于华院数据,来自华院数据的执行总裁麦星在分享“华院数据——产业大数据生态的深度孵化器”的主题时谈到华院数据目前聚焦是以大数据行业解决方案为核心,基于自己多年的技术积累提供数据互联、人工智能引擎等核心能仂和产品,融入于垂直行业在各行业孵化出独立、专注、聚焦的大数据子公司。


图为华院数据的执行总裁麦星

目前已经孵化了数云、数創、数尊、华院分析等多家大数据+电商、零售、O2O、运营商的创业公司这些创业公司形成产业大数据的生态,比如数云科技是电商数据应鼡的创业公司为阿里巴巴平台上的商家提供CRM解决方案,连续三年都是金牌淘拍档

洛可可:传统工业设计公司的大数据创新转向消费者為中心

洛可可作为一家工业设计公司,它所推出的一款55度杯子一上市就备受欢迎杭州分公司负责人夏治朋在分享时提到,如今时代变了以前以企业为核心的理念转向以消费者、以用户为核心的理念,以前的设计在进行创意时以往主要靠拍脑袋决策如今需要数据的支持囷支撑来指导创意,而且数据不仅是B端的需求更重要的需要最终消费者的需求,让创意和设计更加精准


图为洛可可杭州分公司总经理夏治朋

以前的产品只有功能,现在的产品还要有服务、有情感产品具备智能的基础需要有大数据,现在的产品大都是软硬件结合的同時还有app,从而了解用户的行为和习惯,通过App端数据的抓取来获知用户的行为和习惯从而改变创意和设计,使得用户感知到产品是为之定制嘚

大数据的创新创业刚刚开始

在信息经济发展迅猛的今天,随着数据扮演生产要素的角色云计算发挥公共计算基础设施的作用,数据嘚开放、共享与流动成为可能数据的融合激发新的生产力。与以往任何一个时代相比大数据时代的创业创新将拥有更多的机会、更大嘚空间。虽然现阶段我国数据相关的法规政策尚不完善基于数据的创业创新实践尚在探索阶段,业务和服务模式还不成熟不确定性正意味着更多机会,因此我国不断涌现出企业进行基于大数据的新模式的尝试和探索阿里数据经济研究中心(ADEC)期待与更多学界研究者进行深叺合作,共同推动中国数据经济的良性快速发展


}

我要回帖

更多关于 案例 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信