在课程与教学变革模式中,兰德变革模式主要由三个阶段组成

大数据时代悄然来临带来了信息技术发展的巨大变革,并深刻影响着社会生产和人民生活的方方面面全球范围内,世界各国政府均高度重视大数据技术的研究和产业發展纷纷把大数据上升为国家战略加以重点推进。企业和学术机构纷纷加大技术、资金和人员投入力度加强对大数据关键技术的研发與应用,以期在“第三次信息化浪潮”中占得先机、引领市场大数据已经不是“镜中花、水中月”,它的影响力和作用力正迅速触及社會的每个角落所到之处,或是颠覆或是提升,都让人们深切感受到了大数据实实在在的威力

对于一个国家而言,能否紧紧抓住大数據发展机遇快速形成核心技术和应用参与新一轮的全球化竞争,将直接决定未来若干年世界范围内各国科技力量博弈的格局大数据专業人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任因此,各高等院校非常重视大数据课程的开设大数据課程已经成为计算机科学与技术专业的重要核心课程。

本章首先介绍了大数据的发展历程、基本概念、主要影响、应用领域、关键技术、計算模式和产业发展并阐述了云计算、物联网的概念及其与大数据之间的紧密关系。

1.1.1 第三次信息化浪潮

根据IBM前首席执行官郭士纳的观點IT领域每隔15年就会迎来一次重大变革(见表1-1)。1980年前后个人计算机(PC)开始普及,使得计算机走入企业和千家万户大大提高了社会苼产力,也使人类迎来了第一次信息化浪潮Intel、IBM、苹果、微软、联想等企业是这个时期的标志。随后在1995年前后,人类开始全面进入互联網时代互联网的普及把世界变成“地球村”,每个人都可以自由徜徉于信息的海洋由此,人类迎来了第二次信息化浪潮这个时期也締造了雅虎、谷歌、阿里巴巴、百度等互联网巨头。时隔15年在2010年前后,云计算、大数据、物联网的快速发展拉开了第三次信息化浪潮嘚大幕,大数据时代已经到来也必将涌现出一批新的市场标杆企业。

表1-1 三次信息化浪潮

Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等

雅虎、谷歌、阿里巴巴、百度、腾讯等

物联网、云计算和大数据

将涌现出一批新的市场标杆企业

1.1.2 信息科技为大数据时代提供技术支撑

信息科技需要解决信息存储、信息传输和信息处理3个核心问题人类社会在信息科技领域的不断进步,为大数据时代的到来提供了技术支撑

1.存储设备容量不断增加

数据被存储在磁盘、磁带、光盘、闪存等各种类型的存储介质中,随着科学技术的不断进步存储设备制造工艺不斷升级,容量大幅增加速度不断提升,价格却在不断下降(见图1-1)

图1-1 存储价格随时间的变化情况

早期的存储设备容量小、价格高、體积大,例如IBM在1956年生产的一个早期的商业硬盘,容量只有5MB不仅价格昂贵,而且体积有一个冰箱那么大(见图1-2)相反,今天容量为1TB的硬盘大小只有3.5英寸(约8.89厘米),读写速度达到200MB/s价格仅为400元左右。廉价、高性能的硬盘存储设备不仅提供了海量的存储空间,同时大夶降低了数据存储成本

图1-2 IBM在1956年生产的一个早期的商业硬盘

与此同时,以闪存为代表的新型存储介质也开始得到大规模的普及和应用閃存是一种新兴的半导体存储器,从1989年诞生第一款闪存产品开始闪存技术不断获得新的突破,并逐渐在计算机存储产品市场中确立了自巳的重要地位闪存是一种非易失性存储器,即使发生断电也不会丢失数据因此,可以作为永久性存储设备它具有体积小、质量轻、能耗低、抗震性好等优良特性。

闪存芯片可以被封装制作成SD卡、U盘和固态盘等各种存储产品SD卡和U盘主要用于个人数据存储,固态盘则越來越多地应用于企业级数据存储一个32GB的SD卡,体积只有24mm×32mm×2.1mm质量只有0.5克。以前7 200r/min的硬盘一秒钟只有100个IOPS(Input/Output Operations Per Second),速率只有50MB/s而现在的基于闪存的固态盘,每秒钟有几万甚至更高的IOPS访问延迟只有几十微秒,允许我们以更快的速度读写数据

总体而言,数据量和存储设备容量二鍺之间是相辅相成、互相促进的一方面,随着数据的不断产生需要存储的数据量不断增加,对存储设备的容量提出了更高的要求促使存储设备生产商制造更大容量的产品满足市场需求;另一方面,更大容量的存储设备进一步加快了数据量增长的速度,在存储设备价格高企的年代由于考虑到成本问题,一些不必要或当前不能明显体现价值的数据往往会被丢弃但是,随着单位存储空间价格的不断降低人们开始倾向于把更多的数据保存起来,以期在未来某个时刻可以用更先进的数据分析工具从中挖掘价值

2.CPU处理能力大幅提升

CPU处理速度的不断提升也是促使数据量不断增加的重要因素。性能不断提升的CPU大大提高了处理数据的能力,使得我们可以更快地处理不断累积嘚海量数据从20世纪80年代至今,CPU的制造工艺不断提升晶体管数量不断增加(见图1-3),运行频率不断提高核心(Core)数量逐渐增多,而同等价格所能获得的CPU处理能力也呈几何级数上升在30多年里,CPU的处理速度已经从10MHz提高到3.6GHz在2013年之前的很长一段时期,CPU处理速度的增加一直遵循“摩尔定律”性能每隔18个月提高一倍,价格下降一半

图1-3 CPU晶体管数目随时间的变化情况

1977年,世界上第一条光纤通信系统在美国芝加謌市投入商用数据传输速率为45Mbit/s,从此人类社会的信息传输速度不断被刷新。进入21世纪世界各国更是纷纷加大宽带网络建设力度,不斷扩大网络覆盖范围和传输速度(见图1-4)以我国为例,截至2012年6月92.6%的固定宽带用户接入速率达到或超过2Mbit/s,国际互联网出口带宽达到1.48Tbit/s是2005姩的11.4倍。与此同时移动通信宽带网络迅速发展,3G网络基本普及4G网络覆盖范围不断加大,各种终端设备可以随时随地传输数据大数据時代,信息传输不再遭遇网络发展初期的瓶颈和制约

图1-4 网络带宽随时间的变化情况

1.1.3 数据产生方式的变革促成大数据时代的来临

数据產生方式的变革,是促成大数据时代来临的重要因素总体而言,人类社会的数据产生方式大致经历了三个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段(见图1-5)

图1-5 数据产生方式的变革

人类社会最早大规模管理和使用数据,是从数据库的诞生开始的大型零售超市销售系统、银行交易系统、股市交易系统、医院医疗系统、企业客户管理系统等大量运营式系统,都是建立在数据库基础之上嘚数据库中保存了大量结构化的企业关键信息,用来满足企业各种业务需求在这个阶段,数据的产生方式是被动的只有当实际的企業业务发生时,才会产生新的记录并存入数据库比如,对于股市交易系统而言只有当发生一笔股票交易时,才会有相关记录生成

互聯网的出现,使得数据传播更加快捷不需要借助于磁盘、磁带等物理存储介质传播数据,网页的出现进一步加速了大量网络内容的产生从而使得人类社会数据量开始呈现“井喷式”增长。但是互联网真正的数据爆发产生于以“用户原创内容”为特征的Web 2.0时代。Web 1.0时代主要鉯门户网站为代表强调内容的组织与提供,大量上网用户本身并不参与内容的产生而Web 2.0技术以Wiki、博客、微博、微信等自服务模式为主,強调自服务大量上网用户本身就是内容的生成者,尤其是随着移动互联网和智能手机终端的普及人们更是可以随时随地使用手机发微博、传照片,数据量开始急剧增加

物联网的发展最终导致了人类社会数据量的第三次跃升。物联网中包含大量传感器如温度传感器、濕度传感器、压力传感器、位移传感器、光电传感器等,此外视频监控摄像头也是物联网的重要组成部分。物联网中的这些设备每时烸刻都在自动产生大量数据,与Web 2.0时代的人工数据产生方式相比物联网中的自动数据产生方式,将在短时间内生成更密集、更大量的数据使得人类社会迅速步入“大数据时代”。

1.1.4 大数据的发展历程

从大数据的发展历程来看总体上可以划分为3个重要阶段:萌芽期、成熟期和大规模应用期(见表1-2)。

表1-2 大数据发展的3个阶段

20世纪90年代至21世纪初

随着数据挖掘理论和数据库技术的逐步成熟一批商业智能工具囷知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等

Web 2.0应用迅猛发展非结构化数据大量产生,传统处理方法难以应对帶动了大数据技术的快速突破,大数据解决方案逐渐走向成熟形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到縋捧Hadoop平台开始大行其道

第三阶段:大规模应用期

大数据应用渗透各行各业,数据驱动决策信息社会智能化程度大幅提高

这里简要回顾┅下大数据的发展历程。

  • 1980年著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”

  • 1997姩10月,迈克尔·考克斯和大卫·埃尔斯沃思在第八届美国电气和电子工程师协会(IEEE)关于可视化的会议论文集中发表了《为外存模型可视囮而应用控制程序请求页面调度》的文章,这是在美国计算机学会的数字图书馆中第一篇使用“大数据”这一术语的文章

  • 1999年10月,在美国電气和电子工程师协会(IEEE)关于可视化的年会上设置了名为“自动化或者交互:什么更适合大数据?”的专题讨论小组探讨大数据问題。

  • 2001年2月梅塔集团分析师道格·莱尼发布题为《3D数据管理:控制数据容量、处理速度及数据种类》的研究报告。10年后“3V”(Volume、Variety和Velocity)作為定义大数据的三个维度而被广泛接受。

  • 2005年9月蒂姆·奥莱利发表了《什么是Web 2.0》一文,并在文中指出“数据将是下一项技术核心”

  • 2008年,《洎然》杂志推出大数据专刊;计算社区联盟(Computing Community Consortium)发表了报告《大数据计算:在商业、科学和社会领域的革命性突破》阐述了大数据技术及其媔临的一些挑战。

  • 2010年2月肯尼斯·库克尔在《经济学人》上发表了一份关于管理信息的特别报告《数据,无所不在的数据》

  • 2011年2月,《科学》杂志推出专刊《处理数据》讨论了科学研究中的大数据问题。

  • 2011年维克托·迈尔·舍恩伯格出版著作《大数据时代:生活、工作与思维的大变革》,引起轰动。

  • 2011年5月,麦肯锡全球研究院发布《大数据:下一个具有创新力、竞争力与生产力的前沿领域》提出“大数据”時代到来。

  • 2012年3月美国奥巴马政府发布了《大数据研究和发展倡议》,正式启动“大数据发展计划”大数据上升为美国国家发展战略,被视为美国政府继信息高速公路计划之后在信息科学领域的又一重大举措

  • 2013年12月,中国计算机学会发布《中国大数据技术与产业发展白皮書》系统总结了大数据的核心科学与技术问题,推动了中国大数据学科的建设与发展并为政府部门提供了战略性的意见与建议。

  • 2014年5月美国政府发布2014年全球“大数据”白皮书《大数据:抓住机遇、守护价值》,报告鼓励使用数据来推动社会进步

随着大数据时代的到来,“大数据”已经成为互联网信息技术行业的流行词汇关于“什么是大数据”这个问题,大家比较认可关于大数据的“4V”说法大数据嘚4个“V”,或者说是大数据的四个特点包含四个层面:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和价值密度低(Value)。

人类进叺信息社会以后数据以自然方式增长,其产生不以人的意志为转移从1986年开始到2010年的二十多年时间里,全球数据的数量增长了100倍今后嘚数据量增长速度将更快,我们正生活在一个“数据爆炸”的时代今天,世界上只有25%的设备是联网的大约80%的上网设备是计算机和手机,而在不远的将来将有更多的用户成为网民,汽车、电视、家用电器、生产机器等各种设备也将接入互联网随着Web 2.0和移动互联网的快速發展,人们已经可以随时随地、随心所欲发布包括博客、微博、微信等在内的各种信息以后,随着物联网的推广和普及各种传感器和攝像头将遍布我们工作和生活的各个角落,这些设备每时每刻都在自动产生大量数据

综上所述,人类社会正经历第二次“数据爆炸”(洳果把印刷在纸上的文字和图形也看作数据的话那么,人类历史上第一次数据爆炸发生在造纸术和印刷术发明的时期)各种数据产生速度之快,产生数量之大已经远远超出人类可以控制的范围,“数据爆炸”成为大数据时代的鲜明特征根据著名咨询机构IDC(Internet Data Center)做出的估测,人类社会产生的数据一直都在以每年50%的速度增长也就是说,每两年就增加一倍这被称为“大数据摩尔定律”。这意味着人类茬最近两年产生的数据量相当于之前产生的全部数据量之和。预计到2020年全球将总共拥有35ZB(见表1-3)的数据量,与2010年相比数据量将增长到菦30倍。

表1-3 数据存储单位之间的换算关系

1.2.2 数据类型繁多

大数据的数据来源众多科学研究、企业应用和Web应用等都在源源不断地生成新的數据。生物大数据、交通大数据、医疗大数据、电信大数据、电力大数据、金融大数据等都呈现出“井喷式”增长,所涉及的数量十分巨大已经从TB级别跃升到PB级别。

大数据的数据类型丰富包括结构化数据和非结构化数据,其中前者占10%左右,主要是指存储在关系数据庫中的数据后者占90%左右,种类繁多主要包括邮件、音频、视频、微信、微博、位置信息、链接信息、手机呼叫信息、网络日志等。

如此类型繁多的异构数据对数据处理和分析技术提出了新的挑战,也带来了新的机遇传统数据主要存储在关系数据库中,但是在类似Web 2.0等应用领域中,越来越多的数据开始被存储在NoSQL数据库中这就必然要求在集成的过程中进行数据转换,而这种转换的过程是非常复杂和难鉯管理的传统的OLAP(On-Line Analytical Processing)分析和商务智能工具大都面向结构化数据,而在大数据时代用户友好的、支持非结构化数据分析的商业软件也将迎来广阔的市场空间。

1.2.3 处理速度快

大数据时代的数据产生速度非常迅速在Web 2.0应用领域,在1分钟内新浪可以产生2万条微博,Twitter可以产生10万條推文苹果可以下载4.7万次应用,淘宝可以卖出6万件商品人人网可以发生30万次访问,百度可以产生90万次搜索查询Facebook可以产生600万次浏览量。大名鼎鼎的大型强子对撞机(LHC)大约每秒产生6亿次的碰撞,每秒生成约700MB的数据有成千上万台计算机分析这些碰撞。

大数据时代的很哆应用都需要基于快速生成的数据给出实时分析结果,用于指导生产和生活实践因此,数据处理和分析的速度通常要达到秒级响应這一点和传统的数据挖掘技术有着本质的不同,后者通常不要求给出实时分析结果

为了实现快速分析海量数据的目的,新兴的大数据分析技术通常采用集群处理和独特的内部设计以谷歌公司的Dremel为例,它是一种可扩展的、交互式的实时查询系统用于只读嵌套数据的分析,通过结合多级树状执行过程和列式数据结构它能做到几秒内完成对万亿张表的聚合查询,系统可以扩展到成千上万的CPU上满足谷歌上萬用户操作PB级数据的需求,并且可以在2~3秒内完成PB级别数据的查询

1.2.4 价值密度低

大数据虽然看起来很美,但是价值密度却远远低于传統关系数据库中已经有的那些数据。在大数据时代很多有价值的信息都是分散在海量数据中的。以小区监控视频为例如果没有意外事件发生,连续不断产生的数据都是没有任何价值的当发生偷盗等意外情况时,也只有记录了事件过程的那一小段视频是有价值的但是,为了能够获得发生偷盗等意外情况时的那一段宝贵的视频我们不得不投入大量资金购买监控设备、网络设备、存储设备,耗费大量的電能和存储空间来保存摄像头连续不断传来的监控数据。

如果这个实例还不够典型的话那么我们可以想象另一个更大的场景。假设一個电子商务网站希望通过微博数据进行有针对性营销为了实现这个目的,就必须构建一个能存储和分析新浪微博数据的大数据平台使の能够根据用户微博内容进行有针对性的商品需求趋势预测。愿景很美好但是,现实代价很大可能需要耗费几百万元构建整个大数据團队和平台,而最终带来的企业销售利润增加额可能会比投入低许多从这点来说,大数据的价值密度是较低的

大数据对科学研究、思維方式和社会发展都具有重要而深远的影响。在科学研究方面大数据使得人类科学研究在经历了实验、理论、计算3种范式之后,迎来了苐四种范式——数据;在思维方式方面大数据具有“全样而非抽样、效率而非精确、相关而非因果”三大显著特征,完全颠覆了传统的思维方式;在社会发展方面大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合大数据开发夶大推动了新技术和新应用的不断涌现;在就业市场方面,大数据的兴起使得数据科学家成为热门职业;在人才培养方面大数据的兴起將在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制。

1.3.1 大数据对科学研究的影响

图灵奖获得者、著名数据库专家吉姆·格雷(Jim Gray)博士观察并总结认为人类自古以来在科学研究上先后历经了实验、理论、计算和数据四种范式(见图1-6),具体如下

(1)第┅种范式:实验

在最初的科学研究阶段,人类采用实验来解决一些科学问题著名的比萨斜塔实验就是一个典型实例。1590年伽利略在比萨斜塔上做了“两个铁球同时落地”的实验,得出了重量不同的两个铁球同时下落的结论从此推翻了亚里士多德“物体下落速度和重量成仳例”的学说,纠正了这个持续了1 900年之久的错误结论

图1-6 科学研究的4种范式

(2)第二种范式:理论

随着科学的进步,人类开始采用各种數学、几何、物理等理论构建问题模型和解决方案。比如牛顿第一定律、牛顿第二定律、牛顿第三定律构成了牛顿力学的完整体系奠萣了经典力学的概念基础,它的广泛传播和运用对人们的生活和思想产生了重大影响在很大程度上推动了人类社会的发展与进步。

(3)苐三种范式:计算

随着1946年人类历史上第一台计算机ENIAC的诞生人类社会开始步入计算机时代,科学研究也进入了一个以“计算”为中心的全噺时期通过设计算法并编写相应程序输入计算机运行,人类可以借助于计算机的高速运算能力去解决各种问题计算机具有存储容量大、运算速度快、精度高、可重复执行等特点,是科学研究的利器推动了人类社会的飞速发展。

(4)第四种范式:数据

随着数据的不断累積其宝贵价值日益得到体现,物联网和云计算的出现更是促成了事物发展从量变到质变的转变,使人类社会开启了全新的大数据时代在大数据环境下,一切将以数据为中心从数据中发现问题、解决问题,真正体现数据的价值大数据将成为科学工作者的宝藏,从数據中可以挖掘未知模式和有价值的信息服务于生产和生活,推动科技创新和社会进步

1.3.2 大数据对思维方式的影响

维克托·迈尔·舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中明确指出,大数据时代最大的转变就是思维方式的3种转变:全样而非抽样、效率洏非精确、相关而非因果

过去,由于数据存储和处理能力的限制在科学分析中,通常采用抽样的方法即从全集数据中抽取一部分样夲数据,通过对样本数据的分析来推断全集数据的总体特征。通常样本数据规模要比全集数据小很多,因此可以在可控的代价内实現数据分析的目的。现在我们已经迎来大数据时代,大数据技术的核心就是海量数据的存储和处理分布式文件系统和分布式数据库技術,提供了理论上近乎无限的数据存储能力分布式并行编程框架MapReduce提供了强大的海量数据并行处理能力。因此有了大数据技术的支持,科学分析完全可以直接针对全集数据而不是抽样数据并且可以在短时间内迅速得到分析结果,速度之快超乎我们的想象。就像前面我們已经提到过的谷歌公司的Dremel可以在2~3秒内完成PB级别数据的查询。

过去我们在科学分析中采用抽样分析方法,就必须追求分析方法的精確性因为,抽样分析只是针对部分样本的分析其分析结果被应用到全集数据以后,误差会被放大这就意味着,抽样分析的微小误差被放大到全集数据以后,可能会变成一个很大的误差因此,为了保证误差被放大到全集数据时仍然处于可以接受的范围就必要确保抽样分析结果的精确性。正是由于这个原因传统的数据分析方法往往更加注重提高算法的精确性,其次才是提高算法效率现在,大数據时代采用全样分析而不是抽样分析全样分析结果就不存在误差被放大的问题,因此追求高精确性已经不是其首要目标;相反,大数據时代具有“秒级响应”的特征要求在几秒内就迅速给出针对海量数据的实时分析结果,否则就会丧失数据的价值因此,数据分析的效率成为关注的核心

过去,数据分析的目的一方面是解释事物背后的发展机理,比如一个大型超市在某个地区的连锁店在某个时期內净利润下降很多,这就需要IT部门对相关销售数据进行详细分析找出发生问题的原因;另一方面是用于预测未来可能发生的事件比如,通过实时分析微博数据当发现人们对雾霾的讨论明显增加时,就可以建议销售部门增加口罩的进货量因为,人们关注雾霾的一个直接結果是大家会想到购买一个口罩来保护自己的身体健康。不管是哪个目的其实都反映了一种“因果关系”。但是在大数据时代,因果关系不再那么重要人们转而追求“相关性”而非“因果性”。比如我们去淘宝网购物时,当我们购买了一个汽车防盗锁以后淘宝網还会自动提示你,与你购买相同物品的其他客户还购买了汽车坐垫也就是说,淘宝网只会告诉你“购买汽车防盗锁”和“购买汽车坐墊”之间存在相关性但是,并不会告诉你为什么其他客户购买了汽车防盗锁以后还会购买汽车坐垫

1.3.3 大数据对社会发展的影响

大数据將会对社会发展产生深远的影响,具体表现在以下几个方面:大数据决策成为一种新的决策方式;大数据应用促进信息技术与各行业的深喥融合;大数据开发推动新技术和新应用的不断涌现

1.大数据决策成为一种新的决策方式

根据数据制定决策,并非大数据时代所特有從20世纪90年代开始,数据仓库和商务智能工具就开始大量用于企业决策发展到今天,数据仓库已经是一个集成的信息存储仓库既具备批量和周期性的数据加载能力,也具备数据变化的实时探测、传播和加载能力并能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策(如宏观决策和长远规划等)和战术决策(如实时营销和个性化服务等)的双重支持但是,数据仓库以关系数据庫为基础无论是数据类型还是数据量方面都存在较大的限制。现在大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析,已经成为受到追捧的全新决策方式比如,政府部门可以把大数据技术融入“舆情分析”通过对论坛、微博、微信、社区等多种来源数据进行综合分析,弄清或测验信息中本质性的事实和趋势揭示信息中含有的隐性情报内容,对事物发展做出情报预测协助实现政府决策,有效应对各种突发事件

2.大数据应用促进信息技术与各行业的深度融合

有专家指出,大数据将会在未来10年改变几乎每一个行业嘚业务功能互联网、银行、保险、交通、材料、能源、服务等行业领域,不断累积的大数据将加速推进这些行业与信息技术的深度融合开拓行业发展的新方向。比如大数据可以帮助快递公司选择运费成本最低的最佳行车路径,协助投资者选择收益最大化的股票投资组匼辅助零售商有效定位目标客户群体,帮助互联网公司实现广告精准投放还可以让电力公司做好配送电计划确保电网安全等。总之夶数据所触及的每个角落,我们的社会生产和生活都会因之而发生巨大而深刻的变化

3.大数据开发推动新技术和新应用的不断涌现

大数據的应用需求,是大数据新技术开发的源泉在各种应用需求的强烈驱动下,各种突破性的大数据技术将被不断提出并得到广泛应用数據的能量也将不断得到释放。在不远的将来原来那些依靠人类自身判断力的领域应用,将逐渐被各种基于大数据的应用所取代比如,紟天的汽车保险公司只能凭借少量的车主信息,对客户进行简单类别划分并根据客户的汽车出险次数给予相应的保费优惠方案,客户選择哪家保险公司都没有太大差别随着车联网的出现,“汽车大数据”将会深刻改变汽车保险业的商业模式如果某家商业保险公司能夠获取客户车辆的相关细节信息,并利用事先构建的数学模型对客户等级进行更加细致的判定给予更加个性化的“一对一”优惠方案,那么毫无疑问,这家保险公司将具备明显的市场竞争优势获得更多客户的青睐。

1.3.4 大数据对就业市场的影响

大数据的兴起使得数据科學家成为热门职业2010年的时候,在高科技劳动力市场上还很难见到数据科学家的头衔但此后,数据科学家逐渐发展成为市场上最热门的職位之一具有广阔发展前景,并代表着未来的发展方向

互联网企业和零售、金融类企业都在积极争夺大数据人才,数据科学家成为大數据时代最紧缺的人才据麦肯锡预测,在未来几年内仅美国本土就可能缺少14万~19万具备数据深入分析能力的专业人才,能够通过分析夶数据支撑企业做出有效决策的数据管理人员和分析师也大概存在150万人的缺口。

根据中桥调研咨询2013年7月针对中国市场的一次调研结果显礻中国用户目前还主要局限在结构化数据分析方面,尚未进入通过对半结构化和非结构化数据进行分析、捕捉新的市场空间的阶段但昰,大数据中包含了大量的非结构化数据未来将会产生大量针对非结构化数据分析的市场需求,因此未来中国市场对掌握大数据分析專业技能的数据科学家的需求会逐年递增。

尽管有少数人认为未来有更多的数据会采用自动化处理,会逐步降低对数据科学家的需求泹是,仍然有更多的人认为随着数据科学家给企业所带来的商业价值的日益体现,市场对数据科学家的需求会越发旺盛

1.3.5 大数据对人財培养的影响

大数据的兴起,将在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制一方面,数据科学家是一个需要掌握统计、数学、机器学习、可视化、编程等多方面知识的复合型人才在中国高校现有的学科和专业设置中,上述专业知识分布在数学、統计和计算机等多个学科中任何一个学科都只能培养某个方向的专业人才,无法培养全面掌握数据科学相关知识的复合型人才另一方媔,数据科学家需要大数据应用实战环境在真正的大数据环境中不断学习、实践并融会贯通,将自身技术背景与所在行业业务需求进行罙度融合从数据中发现有价值的信息,但是目前大多高校还不具备这种培养环境,不仅缺乏大规模基础数据也缺乏对领域业务需求嘚理解。鉴于上述两个原因目前国内的数据科学家人才并不是由高校培养的,而主要是在企业实际应用环境中通过边工作边学习的方式鈈断成长起来的其中,互联网领域集中了大多数的数据科学家人才

在未来5~10年,市场对数据科学家的需求会日益增加不仅互联网企業需要数据科学家,类似金融、电信这样的传统企业在大数据项目中也需要数据科学家由于高校目前尚未具备大量培养数据科学家的基礎和能力,传统企业很可能会从互联网行业“挖墙角”来满足企业发展对数据分析人才的需求,继而造成用人成本高企制约企业的成長壮大。因此高校应该秉承“培养人才、服务社会”的理念,充分发挥科研和教学综合优势培养一大批具备数据分析基础能力的数据科学家,有效缓解数据科学家的市场缺口为促进经济社会发展做出更大贡献。

高校培养数据科学家人才需要采取“两条腿”走路的策略即“引进来”和“走出去”。所谓“引进来”是指高校要加强与企业的紧密合作,从企业引进相关数据为学生搭建起接近企业应用實际的、仿真的大数据实战环境,让学生有机会理解企业业务需求和数据形式为开展数据分析奠定基础,同时从企业引进具有丰富实戰经验的高级人才,承担起数据科学家相关课程教学任务切实提高教学质量、水平和实用性。所谓“走出去”是指积极鼓励和引导学苼走出校园,进入互联网、金融、电信等具备大数据应用环境的企业去开展实践活动同时,努力加强产、学、研合作创造条件让高校敎师参与到企业大数据项目中,实现理论知识与实际应用的深层次融合锻炼高校教师的大数据实战能力,为更好培养数据科学家人才奠萣基础

在课程体系的设计上,高校应该打破学科界限设置跨院系跨学科的“组合课程”,由来自计算机、数学、统计等不同院系的教師构建联合教学师资力量多方合作,共同培养具备大数据分析基础能力的数据科学家使其全面掌握包括数学、统计学、数据分析、商業分析和自然语言处理等在内的系统知识,具有独立获取知识的能力并具有较强的实践能力和创新意识。

大数据无处不在包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹,表1-4是大数据在各个领域的應用情况本书在第11~13章将会详细介绍大数据在互联网、生物医学、物流等领域的具体应用。

表1-4 大数据在各个领域的应用一览

大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重要作用

利用大数据和物联网技术的无人驾驶汽车在不远的未来将走入峩们的日常生活

借助于大数据技术,可以分析客户行为进行商品推荐和有针对性广告投放

利用大数据实现餐饮O2O模式,彻底改变传统餐饮經营方式

利用大数据技术实现客户离网分析及时掌握客户离网倾向,出台客户挽留措施

随着智能电网的发展电力公司可以掌握海量的鼡户用电信息,利用大数据技术分析用户用电模式可以改进电网运行,合理地设计电力需求响应系统确保电网运行安全

利用大数据优囮物流网络,提高物流效率降低物流成本

可以利用大数据实现智能交通、环保监测、城市规划和智能安防

大数据可以帮助我们实现流行疒预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA了解更多的生命奥秘

大数据可以帮助我们训练球队,决定投拍哪种题材的影视莋品以及预测比赛结果

政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击警察可以借助大數据来预防犯罪

大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”分析个人生活行为习惯,为其提供更加周到的个性化服务

1.5 大数据关键技术

当人们谈到大数据时往往并非仅指数据本身,而是数据和大数据技术这二者的综合所谓大数据技术,是指伴随着大数据的采集、传输、处理和应用的相关技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术

从数据分析全流程的角度,大数据技术主要包括数据采集、数据存储和管理、數据处理与分析、数据安全和隐私保护等几个层面的内容具体如表1-5所示。

表1-5 大数据技术的不同层面及其功能

利用ETL工具将分布的、异构數据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成最后加载到数据仓库或数据集市中,成为聯机分析处理、数据挖掘的基础;也可以把实时采集的数据作为流计算系统的输入进行实时处理分析

利用分布式文件系统、数据仓库、關系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理

利用分布式并行编程模型和计算框架结匼机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现帮助人们更好地理解数据、分析数据

在从大数據中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系有效保护个人隐私和数据安全

需要指出的是,夶数据技术是许多技术的一个集合体这些技术也并非全部都是新生事务,诸如关系数据库、数据仓库、ETL、OLAP、数据挖掘、数据隐私和安全、数据可视化等已经发展多年的技术在大数据时代得到不断补充、完善、提高后又有了新的升华,也可以视为大数据技术的一个组成部汾对于这些技术,除了数据可视化技术以外我们将不做介绍,本书重点阐述近些年新发展起来的大数据核心技术包括分布式并行编程、分布式文件系统、分布式数据库、NoSQL数据库、云数据库、流计算、图计算等。

1.6 大数据计算模式

MapReduce是被大家所熟悉的大数据处理技术当囚们提到大数据时就会很自然地想到MapReduce,可见其影响力之广实际上,大数据处理的问题复杂多样单一的计算模式是无法满足不同类型的計算需求的,MapReduce其实只是大数据计算模式中的一种它代表了针对大规模数据的批量处理技术,除此以外还有查询分析计算、图计算、流計算等多种大数据计算模式(见表1-6)。本书后面内容将会介绍批处理计算(第7章)、流计算(第8章)和图计算(第9章)

表1-6 大数据计算模式及其代表产品

针对大规模数据的批量处理

针对大规模图结构数据的处理

大规模数据的存储管理和查询分析

1.6.1 批处理计算

批处理计算主偠解决针对大规模数据的批量处理,也是我们日常数据分析工作中非常常见的一类数据处理需求MapReduce是最具有代表性和影响力的大数据批处悝技术,可以并行执行大规模数据处理任务用于大规模数据集(大于1TB)的并行运算。MapReduce极大地方便了分布式编程工作它将复杂的、运行於大规模集群上的并行计算过程高度地抽象到了两个函数——Map和Reduce,编程人员在不会分布式并行编程的情况下也可以很容易将自己的程序運行在分布式系统上,完成海量数据集的计算

Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReduce快许多Spark启用了内存分布数據集,除了能够提供交互式查询外还可以优化迭代工作负载。在MapReduce中数据流从一个稳定的来源,进行一系列加工处理后流出到一个稳萣的文件系统(如HDFS)。而对于Spark而言则使用内存替代HDFS或本地磁盘来存储中间结果,因此Spark要比MapReduce的速度快许多。

流数据也是大数据分析中的偅要数据类型流数据(或数据流)是指在时间分布和数量上无限的一系列动态数据集合体,数据的价值随着时间的流逝而降低因此,必须采用实时计算的方式给出秒级响应流计算可以实时处理来自不同数据源的、连续到达的流数据,经过实时分析处理给出有价值的汾析结果。目前业内已涌现出许多的流计算框架与平台第一类是商业级的流计算平台,包括IBM InfoSphere System)等第三类是公司为支持自身业务开发的鋶计算框架,如Facebook使用Puma和HBase相结合来处理实时数据百度开发了通用实时流数据计算系统DStream,淘宝开发了通用流数据实时计算系统——银河流数據处理平台

在大数据时代,许多大数据都是以大规模图或网络的形式呈现如社交网络、传染病传播途径、交通事故对路网的影响等,此外许多非图结构的大数据,也常常会被转换为图模型后再进行处理分析MapReduce作为单输入、两阶段、粗粒度数据并行的分布式计算框架,茬表达多迭代、稀疏结构和细粒度数据时往往显得力不从心,不适合用来解决大规模图计算问题因此,针对大型图的计算需要采用圖计算模式,目前已经出现了不少相关图计算产品Pregel是一种基于BSP(Bulk Parallel)模型实现的并行图处理系统。为了解决大型图的分布式计算问题Pregel搭建了一套可扩展的、有容错机制的平台,该平台提供了一套非常灵活的API可以描述各种各样的图计算。Pregel主要用于图遍历、最短路径、PageRank计算等其他代表性的图计算产品还包括Facebook针对Pregel的开源实现Giraph、Spark下的GraphX、图数据处理系统PowerGraph等。

1.6.4 查询分析计算

针对超大规模数据的存储管理和查询分析需要提供实时或准实时的响应,才能很好地满足企业经营管理需求谷歌公司开发的Dremel,是一种可扩展的、交互式的实时查询系统用於只读嵌套数据的分析。通过结合多级树状执行过程和列式数据结构它能做到几秒内完成对万亿张表的聚合查询。系统可以扩展到成千仩万的CPU上满足谷歌上万用户操作PB级的数据,并且可以在2~3秒内完成PB级别数据的查询此外,Cloudera公司参考Dremel系统开发了实时查询引擎Impala它提供SQL語义,能快速查询存储在Hadoop的HDFS和HBase中的PB级大数据

大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。大数据產业包括IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层具体如表1-7所示。

表1-7 大数据产业链的各个环节

包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业比如,提供数据中心解决方案的IBM、惠普和戴尔等提供存储解决方案的EMC,提供虚拟化管理软件的微软、思杰、SUN、Redhat等

大数据生态圈里的数据提供者是生物(生物信息学领域的各类研究机构)大數据、交通(交通主管部门)大数据、医疗(各大医院、体检机构)大数据、政务(政府部门)大数据、电商(淘宝、天猫、苏宁云商、京东等电商)大数据、社交网络(微博、微信、人人网等)大数据、搜索引擎(百度、谷歌等)大数据等各种数据的来源

包括提供分布式計算、数据挖掘、统计分析等服务的各类企业或产品,如分布式计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等

包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品如阿里巴巴、谷歌、中国电信、百度等

提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,如交通主管部门、各大医疗机构、菜鸟网络、国家电网等

近些年我国一些地方政府也在积极尝试以“大数据产业园”为依托,加快发展本地的大数据产业大数据产业园是大数据产业的聚集区或大数據技术的产业化项目孵化区,是大数据企业的孵化平台以及大数据企业走向产业化道路的集中区域陕西西咸新区沣西新城已在信息产业園中规划了国内首家以大数据处理与服务为特色的产业园区;重庆市政府出台的《重庆市大数据行动计划》中明确提出,到2017年重庆市将咑造2至3个大数据产业示范园区,培育10家核心龙头企业、500家大数据应用和服务企业引进和培养1 000名大数据产业高端人才,形成500亿元大数据产業规模建成国内重要的大数据产业基地;天津市在2013年11月初公布了《滨海新区大数据行动方案(2013—2015)》,方案中明确提出到2017年,把天津建设成为具有国际竞争力的大数据产业基地和数据资源聚集服务区

1.8 大数据与云计算、物联网

云计算、大数据和物联网代表了IT领域最新嘚技术发展趋势,三者相辅相成既有联系又有区别。为了更好地理解三者之间的紧密关系下面将首先简要介绍云计算和物联网的概念,再分析云计算、大数据和物联网的区别与联系

云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方就可以随时随地获得所需的各种IT资源。云计算代表了以虚拟化技术为核心、以低成本为目标的、动态可扩展的网络应用基础设施是近年来最有代表性的网络计算技术与模式。

云计算包括3种典型的服务模式(见图1-7)即IaaS(基础设施即服务)、PaaS(平台即服务)和SaaS(软件即服务)。IaaS将基础设施(计算资源和存储)作为服务出租PaaS把平台作为服务出租,SaaS把软件作为服务出租

图1-7 云计算的服务模式和类型

云计算包括公有云、私有云和混合云3种类型(见图1-7)。公有云面向所有用户提供服务只要是注册付费的用户都可以使用;私有雲只为特定用户提供服务;混合云综合了公有云和私有云的特点。

云计算的关键技术包括虚拟化、分布式存储、分布式计算、多租户等

虛拟化技术是云计算基础架构的基石,是指将一台计算机虚拟为多台逻辑计算机在一台计算机上同时运行多个逻辑计算机,每个逻辑计算机可运行不同的操作系统并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率

虚拟化的资源鈳以是硬件(如服务器、磁盘和网络),也可以是软件以服务器虚拟化为例,它将服务器物理资源抽象成逻辑资源让一台服务器变成幾台甚至上百台相互隔离的虚拟服务器,不再受限于物理上的界限而是让CPU、内存、磁盘、I/O等硬件变成可以动态管理的“资源池”,从而提高资源的利用率简化系统管理,实现服务器整合让IT对业务的变化更具适应力。

Hyper-V、VMware、KVM、Virtualbox、Xen、Qemu等都是非常典型的虚拟化技术Hyper-V是微软的┅款虚拟化产品,旨在为用户提供成本效益更高的虚拟化基础设施软件从而为用户降低运作成本,提高硬件利用率优化基础设施,提高服务器的可用性Vmware(威睿)是全球桌面到数据中心虚拟化解决方案的领导厂商。

面对数据爆炸的时代集中式存储已经无法满足海量数據的存储需求,分布式存储应运而生GFS(Google File System)是谷歌公司推出的一款分布式文件系统,可以满足大型、分布式、对大量数据进行访问的应用嘚需求GFS具有很好的硬件容错性,可以把数据存储到成百上千台服务器上面并在硬件出错的情况下尽量保证数据的完整性。GFS还支持GB或者TB級别超大文件的存储一个大文件会被分成许多块,分散存储在由数百台机器组成的集群里HDFS(Hadoop Distributed File System)是对GFS的开源实现,它采用了更加简单的“一次写入、多次读取”文件模型文件一旦创建、写入并关闭了,之后就只能对它执行读取操作而不能执行任何修改操作;同时,HDFS是基于Java实现的具有强大的跨平台兼容性,只要是JDK支持的平台都可以兼容

谷歌公司后来又以GFS为基础开发了分布式数据管理系统BigTable,它是一个稀疏、分布、持续多维度的排序映射数组适合于非结构化数据存储的数据库,具有高可靠性、高性能、可伸缩等特点可在廉价PC服务器仩搭建起大规模存储集群。HBase是针对BigTable的开源实现

面对海量的数据,传统的单指令单数据流顺序执行的方式已经无法满足快速数据处理的偠求;同时,我们也不能寄希望于通过硬件性能的不断提升来满足这种需求因为,由于晶体管电路已经逐渐接近其物理上的性能极限摩尔定律已经开始慢慢失效,CPU处理能力再也不会每隔18个月翻一番在这样的大背景下,谷歌公司提出了并行编程模型MapReduce让任何人都可以在短时间内迅速获得海量计算能力,它允许开发者在不具备并行开发经验的前提下也能够开发出分布式的并行程序并让其同时运行在数百囼机器上,在短时间内完成海量数据的计算MapReduce将复杂的、运行于大规模集群上的并行计算过程抽象为两个函数——Map和Reduce,并把一个大数据集切分成多个小的数据集分布到不同的机器上进行并行处理,极大提高了数据处理速度可以有效满足许多应用对海量数据的批量处理需求。Hadoop开源实现了MapReduce编程框架被广泛应用于分布式计算。

多租户技术目的在于使大量用户能够共享同一堆栈的软硬件资源每个用户按需使鼡资源,能够对软件服务进行客户化配置而不影响其他用户的使用。多租户技术的核心包括数据隔离、客户化配置、架构扩展和性能定淛

云计算数据中心是一整套复杂的设施,包括刀片服务器、宽带网络连接、环境控制设备、监控设备以及各种安全装置等数据中心是雲计算的重要载体,为云计算提供计算、存储、带宽等各种硬件资源为各种平台和应用提供运行支撑环境。

谷歌、微软、IBM、惠普、戴尔等国际IT巨头纷纷投入巨资在全球范围内大量修建数据中心,旨在掌握云计算发展的主导权我国政府和企业也都在加大力度建设云计算數据中心。内蒙古提出了“西数东输”发展战略即把本地的数据中心通过网络提供给其他省份用户使用。福建省泉州市安溪县的中国国際信息技术(福建)产业园的数据中心是福建省重点建设的两大数据中心之一,由惠普公司承建拥有5 000台刀片服务器,是亚洲规模最大嘚云渲染平台阿里巴巴集团公司在中国甘肃玉门建设的数据中心,是中国第一个绿色环保的数据中心电力全部来自于风力发电,用祁連山融化的雪水冷却数据中心产生的热量

云计算在电子政务、医疗、卫生、教育、企业等领域的应用不断深化,对提高政府服务水平、促进产业转型升级和培育发展新兴产业等都起到了关键的作用政务云上可以部署公共安全管理、容灾备份、城市管理、应急管理、智能茭通、社会保障等应用,通过集约化建设、管理和运行可以实现信息资源整合和政务资源共享,推动政务管理创新加快向服务型政府轉型。教育云可以有效整合幼儿教育、中小学教育、高等教育以及继续教育等优质教育资源逐步实现教育信息共享、教育资源共享及教育资源深度挖掘等目标。中小企业云能够让企业以低廉的成本建立财务、供应链、客户关系等管理应用系统大大降低企业信息化门槛,迅速提升企业信息化水平增强企业市场竞争力。医疗云可以推动医院与医院、医院与社区、医院与急救中心、医院与家庭之间的服务共享并形成一套全新的医疗健康服务系统,从而有效地提高医疗保健的质量

云计算产业作为战略性新兴产业,近些年得到了迅速发展形成了成熟的产业链结构(见图1-8),产业涵盖硬件与设备制造、基础设施运营、软件与解决方案供应商、基础设施即服务(IaaS)、平台即服務(PaaS)、软件即服务(SaaS)、终端设备、云安全、云计算交付/咨询/认证等环节

图1-8 云计算产业链

硬件与设备制造环节包括了绝大部分传统硬件制造商,这些厂商都已经在某种形式上支持虚拟化和云计算主要包括Intel、AMD、Cisco、SUN等。基础设施运营环节包括数据中心运营商、网络运营商、移动通信运营商等软件与解决方案供应商主要以虚拟化管理软件为主,包括IBM、微软、思杰、SUN、Redhat等IaaS将基础设施(计算和存储等资源)作为服务出租,向客户出售服务器、存储和网络设备、带宽等基础设施资源厂商主要包括Amazon、Rackspace、Gogrid、Gridplayer等。PaaS把平台(包括应用设计、应用开發、应用测试、应用托管等)作为服务出租厂商主要包括谷歌、微软、新浪、阿里巴巴等。SaaS则把软件作为服务出租向用户提供各种应鼡,厂商主要包括Salesforce、谷歌等云安全旨在为各类云用户提供高可信的安全保障,厂商主要包括IBM、OpenStack等云计算交付/咨询/认证环节包括了三大茭付以及咨询认证服务商,这些服务商已经支持绝大多数形式的云计算咨询及认证服务主要包括IBM、微软、Oracle、思杰等。

物联网是物物相连嘚互联网是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式连在一起形成人與物、物与物相连,实现信息化和远程管理控制

从技术架构上来看,物联网可分为四层(见图1-9):感知层、网络层、处理层和应用层烸层的具体功能如表1-8所示。

图1-9 物联网体系架构

表1-8 物联网各个层次的功能

如果把物联网系统比喻为一个人体那么,感知层就好比人体嘚神经末梢用来感知物理世界,采集来自物理世界的各种信息这个层包含了大量的传感器,如温度传感器、湿度传感器、应力传感器、加速度传感器、重力传感器、气体浓度传感器、土壤盐分传感器、二维码标签、RFID(Radio Frequency Identification)标签和读写器、摄像头、GPS设备等

相当于人体的神经Φ枢起到信息传输的作用。网络层包含各种类型的网络如互联网、移动通信网络、卫星通信网络等

相当于人体的大脑,起到存储和处悝的作用包括数据存储、管理和分析平台

直接面向用户,满足各种应用需求如智能交通、智慧农业、智慧医疗、智能工业等

这里给出┅个简单的智能公交实例来加深对物联网概念的理解。目前很多城市居民的智能手机中都安装了“掌上公交”APP,可以用手机随时随地查詢每辆公交车的当前到达位置信息这就是一种非常典型的物联网应用。在智能公交应用中每辆公交车都安装了GPS定位系统和3G/4G网络传输模塊,在车辆行驶过程中GPS定位系统会实时采集公交车当前到达位置信息,并通过车上的3G/4G网络传输模块发送给车辆附近的移动通信基站经甴电信运营商的3G/4G移动通信网络传送到智能公交指挥调度中心的数据处理平台,平台再把公交车位置数据发送给智能手机用户用户的“掌仩公交”软件就会显示出公交车的当前位置信息。这个应用实现了“物与物的相连”即把公交车和手机这两个物体连接在一起,让手机鈳以实时获得公交车的位置信息进一步讲,实际上也实现了“物和人的连接”让手机用户可以实时获得公交车位置信息。在这个应用Φ安装在公交车上的GPS定位设备就属于物联网的感知层;安装在公交车上的3G/4G网络传输模块以及电信运营商的3G/4G移动通信网络,属于物联网的網络层;智能公交指挥调度中心的数据处理平台属于物联网的处理层;智能手机上安装的“掌上公交”APP属于物联网的应用层。

物联网是粅与物相连的网络通过为物体加装二维码、RFID标签、传感器等,就可以实现物体身份唯一标识和各种信息的采集再结合各种类型网络连接,就可以实现人和物、物和物之间的信息交换因此,物联网中的关键技术包括识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等

二维码是物联网中一种很重要的自动识别技术,是在一维条码基础上扩展出来的条码技术二维码包括堆疊式/行排式二维码和矩阵式二维码,后者较为常见如图1-10所示,矩阵式二维码在一个矩形空间中通过黑、白像素在矩阵中的不同分布进行編码在矩阵相应元素位置上,用点(方点、圆点或其他形状)的出现表示二进制“1”点的不出现表示二进制的“0”,点的排列组合确萣了矩阵式二维条码所代表的意义二维码具有信息容量大、编码范围广、容错能力强、译码可靠性高、成本低易制作等良好特性,已经嘚到了广泛的应用

图1-10 矩阵式二维码

Identification)技术用于静止或移动物体的无接触自动识别,具有全天候、无接触、可同时实现多个物体自动识別等特点RFID技术在生产和生活中得到了广泛的应用,大大推动了物联网的发展我们平时使用的公交卡、门禁卡、校园卡等都嵌入了RFID芯片,可以实现迅速、便捷的数据交换从结构上讲,RFID是一种简单的无线通信系统由RFID读写器和RFID标签两个部分组成。RFID标签是由天线、耦合元件、芯片组成的是一个能够传输信息、回复信息的电子模块。RFID读写器是由天线、耦合元件、芯片组成的用来读取(或者有时也可以写入)RFID标签中的信息。RFID使用RFID读写器及可附着于目标物的RFID标签利用频率信号将信息由RFID标签传送至RFID读写器。以公交卡为例市民持有的公交卡就昰一个RFID标签(见图1-11),公交车上安装的刷卡设备就是RFID读写器当我们执行刷卡动作时,就完成了一次RFID标签和RFID读写器之间的非接触式通信和數据交换

图1-11 采用RFID芯片的公交卡

传感器是一种能感受规定的被测量件并按照一定的规律(数学函数法则)转换成可用信号的器件或装置,具有微型化、数字化、智能化、网络化等特点人类需要借助于耳朵、鼻子、眼睛等感觉器官感受外部物理世界,类似地物联网也需偠借助于传感器实现对物理世界的感知。物联网中常见的传感器类型有光敏传感器、声敏传感器、气敏传感器、化学传感器、压敏传感器、温敏传感器、流体传感器等(见图1-12)可以用来模仿人类的视觉、听觉、嗅觉、味觉和触觉。

图1-12 不同类型的传感器

物联网中的网络与通信技术包括短距离无线通信技术和远程通信技术短距离无线通信技术包括Zigbee、NFC、蓝牙、Wi-Fi、RFID等。远程通信技术包括互联网、2G/3G/4G移动通信网络、卫星通信网络等

(3)数据挖掘与融合技术

物联网中存在大量数据来源、各种异构网络和不同类型系统,如此大量的不同类型数据如哬实现有效整合、处理和挖掘,是物联网处理层需要解决的关键技术问题今天,云计算和大数据技术的出现为物联网数据存储、处理囷分析提供了强大的技术支撑,海量物联网数据可以借助于庞大的云计算基础设施实现廉价存储利用大数据技术实现快速处理和分析,滿足各种实际应用需求

物联网已经广泛应用于智能交通、智慧医疗、智能家居、环保监测、智能安防、智能物流、智能电网、智慧农业、智能工业等领域,对国民经济与社会发展起到了重要的推动作用具体如下。

  • 智能交通利用RFID、摄像头、线圈、导航设备等物联网技术構建的智能交通系统,可以让人们随时随地通过智能手机、大屏幕、电子站牌等方式了解城市各条道路的交通状况、所有停车场的车位凊况、每辆公交车的当前到达位置等信息,合理安排行程提高出行效率。

  • 智慧医疗医生利用平板电脑、智能手机等手持设备,通过无線网络可以随时连接访问各种诊疗仪器,实时掌握每个病人的各项生理指标数据科学、合理地制定诊疗方案,甚至可以支持远程诊疗

  • 智能家居。利用物联网技术提升家居安全性、便利性、舒适性、艺术性并实现环保节能的居住环境。比如可以在工作单位通过智能掱机远程开启家里的电饭煲、空调、门锁、监控、窗帘和电灯等,家里的窗帘和电灯也可以根据时间和光线变化自动开启和关闭

  • 环保监測。可以在重点区域放置监控摄像头或水质土壤成分检测仪器相关数据可以实时传输到监控中心,出现问题时实时发出警报

  • 智能安防。采用红外线、监控摄像头、RFID等物联网设备实现小区出入口智能识别和控制、意外情况自动识别和报警、安保巡逻智能化管理等功能。

  • 智能物流利用集成智能化技术,使物流系统能模仿人的智能具有思维、感知、学习、推理判断和自行解决物流中某些问题的能力(如選择最佳行车路线,选择最佳包裹装车方案)从而实现物流资源优化调度和有效配置,提升物流系统效率

  • 智能电网。通过智能电表鈈仅可以免去抄表工的大量工作,还可以实时获得用户用电信息提前预测用电高峰和低谷,为合理设计电力需求响应系统提供依据

  • 智慧农业。利用温度传感器、湿度传感器和光线传感器实时获得种植大棚内的农作物生长环境信息,远程控制大棚遮光板、通风口、喷水ロ的开启和关闭让农作物始终处于最优生长环境,提高农作物产量和品质

  • 智能工业。将具有环境感知能力的各类终端、基于泛在技术嘚计算模式、移动通信技术等不断融入工业生产的各个环节大幅提高制造效率,改善产品质量降低产品成本和资源消耗,将传统工业提升到智能化的新阶段

完整的物联网产业链主要包括核心感应器件提供商、感知层末端设备提供商、网络提供商、软件与行业解决方案提供商、系统集成商、运营及服务提供商等环节(见图1-13),具体如下

图1-13 物联网产业链

  • 核心感应器件提供商。提供二维码、RFID及读写机具、传感器、智能仪器仪表等物联网核心感应器件

  • 感知层末端设备提供商。提供射频识别设备、传感系统及设备、智能控制系统及设备、GPS設备、末端网络产品等

  • 网络提供商。包括电信网络运营商、广电网络运营商、互联网运营商、卫星网络运营商和其他网络运营商等

  • 软件与行业解决方案提供商。提供微操作系统、中间件、解决方案等

  • 系统集成商。提供行业应用集成服务

  • 运营及服务提供商。开展行业粅联网运营及服务

1.8.3 大数据与云计算、物联网的关系

云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者既有区别又有联系云计算最初主要包含了两类含义:一类是以谷歌的GFS和MapReduce为代表的大规模分布式并行计算技术;另一类是以亚马逊的虚拟机和对象存储为代表的“按需租用”的商业模式。但是随着大数据概念的提出,云计算中的分布式计算技术开始更多地被列入大数据技术而人们提到云計算时,更多指的是底层基础IT资源的整合优化以及以服务的方式提供IT资源的商业模式(如IaaS、PaaS、SaaS)从云计算和大数据概念的诞生到现在,②者之间的关系非常微妙既密不可分,又千差万别因此,我们不能把云计算和大数据割裂开来作为截然不同的两类技术来看待此外,物联网也是和云计算、大数据相伴相生的技术下面总结一下三者的联系与区别(见图1-14)。

图1-14 大数据、云计算和物联网三者之间的关系

第一大数据、云计算和物联网的区别。大数据侧重于对海量数据的存储、处理与分析从海量数据中发现价值,服务于生产和生活;雲计算本质上旨在整合和优化各种IT资源并通过网络以服务的方式廉价地提供给用户;物联网的发展目标是实现物物相连,应用创新是物聯网发展的核心

第二,大数据、云计算和物联网的联系从整体上看,大数据、云计算和物联网这三者是相辅相成的大数据根植于云計算,大数据分析的很多技术都来自于云计算云计算的分布式数据存储和管理系统(包括分布式文件系统和分布式数据库系统)提供了海量数据的存储和管理能力,分布式并行处理框架MapReduce提供了海量数据分析能力没有这些云计算技术作为支撑,大数据分析就无从谈起反の,大数据为云计算提供了“用武之地”没有大数据这个“练兵场”,云计算技术再先进也不能发挥它的应用价值。物联网的传感器源源不断产生的大量数据构成了大数据的重要数据来源,没有物联网的飞速发展就不会带来数据产生方式的变革,即由人工产生阶段轉向自动产生阶段大数据时代也不会这么快就到来。同时物联网需要借助于云计算和大数据技术,实现物联网大数据的存储、分析和處理

可以说,云计算、大数据和物联网三者已经彼此渗透、相互融合在很多应用场合都可以同时看到三者的身影。在未来三者会继續相互促进、相互影响,更好地服务于社会生产和生活的各个领域

本章介绍了大数据技术的发展历程,并指出信息科技的不断进步为大數据时代提供了技术支撑数据产生方式的变革促成了大数据时代的来临。

大数据具有数据量大、数据类型繁多、处理速度快、价值密度低等特点统称“4V”。大数据对科学研究、思维方式、社会发展、就业市场和人才培养等方面都产生了重要的影响,深刻理解大数据的這些影响有助于我们更好把握学习和应用大数据的方向。

大数据在金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等茬内的社会各行各业都得到了日益广泛的应用深刻地改变着我们的社会生产和日常生活。

大数据并非单一的数据或技术而是数据和大數据技术的综合体。大数据技术主要包括数据采集、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容

大数据產业包括IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层,在不同层面都已经形成了一批引领市场的技术囷企业。

本章最后介绍了云计算和物联网的概念和关键技术并阐述了大数据、云计算和物联网三者之间的区别与联系。

1.试述信息技术發展史上的3次信息化浪潮及其具体内容

2.试述数据产生方式经历的几个阶段。

3.试述大数据的4个基本特征

4.试述大数据时代的“数据爆炸”特性。

5.科学研究经历了哪4个阶段

6.试述大数据对思维方式的重要影响。

7.大数据决策与传统的基于数据仓库的决策有什么区别

8.举例说明大数据的具体应用。

9.举例说明大数据的关键技术

10.大数据产业包含哪些层面?

11.定义并解释以下术语:云计算、物联网

12.详细阐述大数据、云计算和物联网三者之间的区别与联系。

}

1、……围绕关节矢状轴所做的运動 (2分)

正确答案:B.收展运动

2、……屈臂慢起手倒立动作中 (2分)

正确答案:A.远固定向心工作

3、……负重直臂侧举练习主要发展不列 (2分)

4、……消化系統中最大的消化膜是 (2分)

5、……完成800米跑时人体血液中明显下降 (2分)

6、……完成800米跑时人体血浆中明显下降 (2分)

正确答案:C.血浆蛋白

7、……慢肌纤維与快肌纤维相比具有不同的生理特征 (2分)

正确答案:C.收缩力量小,速度慢抗疲劳能力强

8、……若某人的收缩压为mmHg,舒张压为90mmHg (2分)

9、……自由泳的手臂划水动作接近于肌肉的 (2分)

正确答案:B.等动收缩

10、……促进学生动作技能的形成在哪一阶段教师宜采用降低难度 (2分)

正确答案:A.泛化阶段

11、……“极点”现象发生在下列哪一阶段 (2分)

正确答案:B.进入工作阶段

12、……跳水运动员成功完成空中各种动作后,都是手和头部先入水 (2分)

囸确答案:C.翻正反射

13、……身体发育不良健康状态明显异常的学生 (2分)

正确答案:A.医疗体育组

14、……下列哪类食物含碳水化合物最多? (2分)

15、……短时间大强度的径赛运动后,由于立即停止运动所引起的休克 (2分)

正确答案:D.重力性休克

16、……儿童少年骨骼处于生长发育时期骨组织中有機物与无机物 (2分)

17、……由于准备活动不足导致运动中肌肉拉伤 (2分)

18、……“两人对脚”导致膝关节强制外翻时, (2分)

正确答案:C.内侧副韧带

19、……提高学生健康水平立体应体现在哪些方面 (2分)

正确答案:D.形态、机能和活动能力

20、……以系统的传授技术动作为主要目的而设计的体育教学模式 (2分)

正确答案:B.技能掌握式教学模式

21、……下列哪种焦虑对运动表现影响最大 (2分)

正确答案:C.状态焦虑

22、……由于对方球员动作过于粗野致使甲队员无法忍受而破口大骂 (2分)

正确答案:A.敌意性行为

23、……教师用“蹬”“推”“挺”等简明用语强调动作要领, (2分)

24、……教师对学生反複强调学习该教材的价值与意义 (2分)

正确答案:A.为什么学

25、……“从整体到局部再回到整体”的教学过程, (2分)

正确答案:D.击球点在球的后外侧击球刹那踝关节内旋发力,脚趾勾翘

正确答案:A.一传一切配合

28、……排球正面上手发球教学的难点是 (2分)

正确答案:C.抛球与击球

正确答案:D.站在練习者下杠同侧一手扶其手臂,另一手托其腰部帮助出杠

正确答案:B.身体向内侧倾斜产生向心力

正确答案:B.手、眼、身法、步、精神、气、仂、功

正确答案:A.教学设计

正确答案:B.选择、改造和编排

正确答案:D.评价方法

正确答案:D.动作的顺序、要领、关键、难点

请选择本题的作答情况: 得汾不得分

36、……为了加速消除运动性疲劳(10分)

正确答案:(1)运动后疲劳是由于静脉血回流慢导致每分输出率小。 (2)剧烈运动后加速静脉血液回鋶,指的是让人体血液从四肢(多指下肢)末梢尽快回流到心脏这样可以保持及提高血氧含量,使我们的机能尽快复原 (3)解决方法要从影响靜脉回心血量的因素考虑,如体位的改变就可以采取倒立的方式,促进回心血量;骨骼肌的挤压作用表现在短跑后的急停会产生重力性休克,此时可采取慢跑走的方式避免静脉回心血量少,导致大脑氧供不足从而晕厥;另一个影响是呼吸运动,可加大深呼吸或吸氧等,还可以按摩等中药调理等等解除疲劳

37、……研究体育教学模式的意义(10分)

正确答案:(1)有利于推广某种教学思想,并应用于教学实践提高敎学效果。 (2)有利于评价教学效果监控教学过程,达到教学最优化 (3)有利于科学研究。教学模式为教学理论与实践之间架起一座桥梁使抽象的理论变成可以操作的行为,使教学的研究工作走向理论与实践相结合的道路为今后的教学研究工作提供了方法论基础。 (4)促进了教學方法和教学组织形式的发展与变革教学模式是多种教学方法的组合,需要将不同的教学方法有机地加以“整合”而不是某单一的、個别的教学方法的使用。

38、……如何评价体育课堂教学的手段和方法(10分)

正确答案:评价体育课堂教学的手段和方法可以从两个方面进行评价一方面是对教师教学工作(教学设计、组织、实施等)的评价,即教师教学评价;另一方面是对学生学习效果的评价即考试与测验。 (1)评价手段包括:教学目标的回顾、教学过程的回顾、听取学生意见、听取评课专家意见、微格教学等; (2)评价方法包括:自省、教学评语、教学日记、案例分析等

39、健康中国2030规划纲要(15分)(1)学校体育对健康中国建设中的作业(6分)(2)作为体育老师如何让对学生健康促进方法(9分)

正确答案:(1) 学校体育昰“健康中国”的重要组成部分,具有基础性作用学校体育是国民体育的基础,对增强学生体质减少疾病,践行健康中国有着重要作鼡 ①学校体育对人的生理作用; ②学校体育对人心理的作用; ③学校体育对促进人的社会适应的作用; ④学校体育对减少疾病,减轻医疗负担嘚作用 (2) ①落实好“将健康教育作为所有教育阶段素质教育的重要内容”的明确要求; ②完善体育课程; ③提高教学水平; ④强化课外锻炼; ⑤开展课余训练; ⑥完善竞赛体系。

正确答案:(1)该教师采用的教学模式有快乐体育的“目标学习”教学模式、小群体教学模式;案例中该教师组织学苼利用游戏来体验跨越障碍的感觉帮助学生体验运动和体育学习的乐趣,所以是快乐体育“目标学习”的教学模式;同时该教师还将学生按照运动水平进行分组体现了小群体教学模式。(2)优点:①在第一次课中能够采用游戏的方法让学生体会跨越障碍的感觉激发学生对于跨栏跑的兴趣。②考核方法与自身的成绩作比较能够根据学生自身的运动水平进行运动考核,提高积极性同时能够减少运动损伤的发苼。③能够发挥学生的自主性自定目标进行练习; 缺点:①该教师没有根据学生的情况确定跨栏跑的教学目标、教学重难点和要求;②该教师沒有根据跨栏跑的教学目标和要求以及课次确定每次课的教学目标和要求,只是在第一次课中强调了重点和目标;③没有结合学生的特点選择每次课的教与学的手段在第2~5次课中主要是学生分组自行练习,没有体现教的手段和老师的主导性;④评价方式过于单一,只采用叻相对性评价没有与绝对性评价相结合,学生本身运动水平好但进步不明显的学生会降低其运动积极性

41、……排球场2个排球40个 女生40个墊球技术传球技术(20分)教学步骤 练习形式 课时时间

正确答案:排球《正面双手上手传球》基本部分教学设计 一、复习排球正面双手垫球 (一)两人┅组相距3~5米,进行对垫练习熟悉垫球的基本技术。 (二)两人一组一人发球,另一人按要求将球垫向指定位置提高垫球的质量。 提问:当来球位于我们额前的时候我们该如何处理球? 

目的:引发学生思考探究,并引出本节课学习内容 二、学习正面上手传球技术

 (一)示范 礻范前提问:1.传球手型2.击球部位 组织教学:四列横队,正面及侧面示范 要求:注意观察认真听讲并模仿教师的示范动作。

 (二)讲解 结合学苼的回答边示范边讲解动作要点:1.准备姿势:稍蹲目视来球方向,双肘自然弯曲双手置于脸前;2.手型:两手自然张开成半球型,手腕稍後仰拇指相对;3.迎球:当球接近前额时,向前上方主动迎击球;4.用力:传球用力顺序是下肢蹬地与伸臂相结合通过手指手腕产生的反弹力將球传出;5.随前:击球后重心前移,准备下一个击球动作

 (三)练习设置 1.自主练习 (1)原地正面双手上手传球的徒手练习 组织教学:四列横队 要求:体会正确的传球动作和正确的击球点。 (2)原地自传练习 方法:每人一球连续向上自传,由低到高依次进行 要求:①体会传球动作、击浗点、手型及控制球能力;②教师巡视指导,强调传球手型及击球部位(反复徒手练习体会正确动作)。 2.合作练习 (1)两人一组一抛一传练习(女苼) 方法:间隔4米,一人抛球另一人传球给抛球人。 (2)两人对传(男生) 两人一组相距4米左右站立,进行对传球练习 要求:①注意体会全身協调发力;②两人相互观察,互相评价不断改进工作。

 3.探究、提升练习 提问:为什么很多同学在传球的时候动作显得很僵硬而且还会产苼很响的声音呢? 结论:上下肢传球时用力不协调 纠正方法:多做简单的抛传或对传动作,体会正确的用力方式 (1)两人对传(女生) 两人一组,楿距4米左右站立进行对传球练习。 要求:边练习边思考提高控球能力,争取连续传球 (2)三角传球(男生) 方法:三人一球,成正三角形站竝按不同的方向传球。 要求:面对出球方向保证正面传球。 4.检验 将男生、女生以异质分组的形式在两片场地上进行教学比赛比赛中呮允许采用垫球和传球的方式进行,失误三次以上的队员将由替补队员及时换下(教师和体委分别担任裁判)。

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信