大智慧1分钟大数据信息平台最后一天总是重复出现一次？怎么解决？

点击联系发帖人 时间：2018-04-17 08:21

大数据信息平台

声明：本文转至Big大鸟的博客下，转载的名为《什么叫大数据大数据的概念》一文，链接地址

对于“大数据”（Big data）研究机构Gartner给出了定义，“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力

的海量、高增长率和多样化的信息资产。

技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换言之，如果把比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。

从技术上看，大数据与的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式。它的特色在于对进行分布式数据挖掘，但它必须依托的、和、。

随着的来临，大数据（Big data）也吸引了越来越多的关注。《》的分析师团队认为，大数据（Big data）通常用来形容一个公司创造的大量和，这些数据在下载到用于分析时会花费过多时间和金钱。常和云计算联系到一起，因为实时的大型分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模（MPP）、数据挖掘电网、、分布式、、互联网和可扩展的存储系统。

最小的基本单位是bit，按顺序给出所有单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB，它们按照1024（2的十次方）来计算：

赫尔曼·霍尔瑞斯美国统计学家赫尔曼·霍尔瑞斯为了统计1890年的人口普查数据发明了一台电动器来读取卡片上的洞数,该设备让美国用一年时间就完成了原本耗时8年的人口普查活动，由此在全球范围内引发了数据处理的新纪元。

美国总统利用开展了美国政府最雄心勃勃的一项数据收集项目，IBM最终赢得竞标，即需要整理美国的2600万个员工和300万个雇主的记录。总统候选人阿尔夫兰登scoffs嘲笑地说，“要整理如此繁多的，还必须而调用大规模的现场调查人员去核实那些信息不完整的人员记录。”

一家英国工厂为了破译二战期间的纳粹密码,让工程师开发了系列开创性的能进行大规模数据处理的机器,并使用了第一台可编程的电子计算机进行运算。该计算机被命名为“巨人”，为了找出拦截信息中的潜在模式，它以每秒钟5000字符的速度读取纸卡——将原本需要耗费数周时间才能完成的工作量压缩到了几个小时。破译德国部队前方阵地的信息以后，帮助盟军成功登陆了诺曼底。

研究员迈克尔·和大卫·沃斯首次使用“大数据”这一术语来描述的挑战：生成大量的信息——在考克斯和埃尔斯沃斯按案例中,周围的气流——是不能被处理和可视化的。数据集通常之大,超出了、，甚至远程磁盘的承载能力。”他们称之为“大数据问题。”

在9/11袭击后,美国政府为阻止恐怖主义已经涉足大规模数据挖掘。前约翰·波因德克斯特领导国防部整合现有政府的数据集，组建一个用于筛选通信、犯罪、教育、金融、医疗和旅行等记录来识别可疑人的大数据库。一年后国会因担忧公民而停止了这一项目。

9/11委员会呼吁反恐机构应统一组建“一个基于网络的信息共享系统”，以便能快处理应接不暇的数据。到2010年，的30000名员工将拦截和存储17亿年电子邮件、电话和其它通讯日报。与此同时,零售商积累关于客户购物和个人习惯的大量数据，沃尔玛自吹已拥有一个容量为460字节的缓存器——比当时互联网上的数据量还要多一倍。

随着社交网络的激增，技术博客和专业人士为“大数据” 概念注入新的生机。“当前世界范围内已有的一些其他工具将被大量数据和应用所取代”。《》的认为当时处于一个“理论终结时代”。一些政府机构和美国的顶尖计算机科学家声称,“应该深入参与大数据计算的开发和部署工作,因为它将直接有利于许多任务的实现。”

印度政府建立印度唯一的管理局，对12亿人的指纹、照片和虹膜进行扫描,并为每人分配12位的数字ID号码，将数据汇集到世界最大的数据库中。官员们说它将会起到提高政府的服务效率和减少腐败行为的作用，但批评者担心政府会针对个别人进行剖面分析并与分享这些人的私密生活细节。

大数据或成反恐分析利器美国总统政府推出data.gov网站作为政府开放数据计划的部分举措。该网站的超过4.45万量数据集被用于保证一些网站和手机应用程序来跟踪从航班到再到特定区域内失业率的信息,这一行动激发了从肯尼亚到英国范围内的政府们相继推出类似举措。

应对,承诺创建警报系统，抓住“实时数据带给贫穷国家经济危机的影响” 。联合国全球脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格到之类的问题。

扫描2亿年的页面信息,或4兆兆字节磁盘存储,只需几秒即可完成。IBM的沃森在智力竞赛节目《》中打败了两名人类。后来纽约时报配音这一刻为一个“大数据计算的胜利。”

美国政府报告要求每个联邦机构都要有一个“大数据”的策略，作为回应，宣布一项耗资2亿美元的大数据研究与发展项目。国家卫生研究院将一套项目的数据集存放在亚马逊的计算机云内,同时国防部也承诺要开发出可“从经验中进行学习”的“自主式”防御系统。局长将军在发帖讨论机构通过云计算收集和分析全球社会媒体信息之事时，不禁惊叹我们已经被自卸卡车倒进了“‘数字尘土”中。

美国国务卿希拉里·克林顿宣布了一个名为“数据2X”的公私合营企业用来收集统计世界各地的妇女和女童在经济、政治和社会地位方面的信息。“数据不只是测量过程——它能给予我们启发,”她解释说。“一旦人们开始对某个问题实施测量时，就更倾向于采取行动来解决它们，因为没有人愿意排到名单的最低端去。”让大数据开始竞赛吧。

思维模式转变的催化剂是大量新技术的诞生，它们能够处理大数据分析所带来的3个V的挑战。扎根于开源社区，已经是目前中应用率最高的技术，特别是针对诸如文本、订阅以及视频等非结构化数据。除分布式文件系统之外，伴随一同出现的还有进行大数据集处理MapReduce。根据权威报告显示，许多企业都开始使用或者评估Hadoop技术来作为其大数据平台的标准。

大数据NoSQL数据库

我们生活的时代，相对稳定的数据库市场中还在出现一些新的技术，而且在未来几年，它们会发挥作用。事实上，NoSQL数据库在一个广义上派系基础上，其本身就包含了几种技术。总体而言，他们关注关系型的限制，如索引、流媒体和高访问量的网站服务。在这些领域，相较关系型数据库引擎，NoSQL的效率明显更高。

在Gartner公司评选的2012年十大战略技术中，内存分析在个人消费电子设备以及其他中的应用将会得到快速的发展。随着越来越多的价格低廉的内存用到数据中心中，如何利用这一优势对软件进行最大限度的优化成为关键的问题。内存分析以其实时、高性能的特性，成为大数据分析时代下的“新宠儿”。如何让大数据转化为最佳的洞察力，也许内存分析就是答案。大数据背景下，用户以及IT提供商应该将其视为长远发展的技术趋势。

随着数据仓库设备(Data Warehouse Appliance)的出现，以及大数据分析的潜能也被激发出来，许多企业将利用数据仓库新技术的优势提升自身竞争力。集成设备将企业的数据仓库硬件软件整合在一起，提升查询性能、扩充存储空间并获得更多的分析功能，并能够提供同传统数据仓库系统一样的优势。在大数据时代，集成设备将成为企业应对数据挑战的一个重要利器。

大数据就是互联网发展到现今阶段的一种表象或特征而已，没有必要神话它或对它保持敬畏之心，在以云计算为代表的技术创新大幕的衬托下，这些原本很难收集和使用的数据开始容易被利用起来了，通过各行各业的不断创新，大数据会逐步为人类创造更多的价值。

其次，想要系统的认知大数据，必须要全面而细致的分解它，我着手从三个层面来展开：

第一层面是理论，理论是认知的必经途径，也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性；从对大数据价值的探讨来深入解析大数据的珍贵所在；洞悉大数据的发展趋势；从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

第二层面是技术，技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第三层面是实践，实践是大数据的最终价值体现。在这里分别从互联网的大数据，政府的大数据，企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

大数据相比于传统的数据仓库应用，具有数据量大、查询分析复杂等特点。《》刊登的“架构大数据：挑战、现状与展望”一文列举了大数据分析平台需要具备的几个重要特性，对当前的主流实现平台——并行数据库、MapReduce及基于两者的混合架构进行了分析归纳，指出了各自的优势及不足，同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍，对未来研究做了展望。

大数据的4个“V”，或者说特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。前文提到的、视频、图片、地理位置信息等等。第三，处理速度快，1秒定律，可从各种类型的数据中快速获得高价值的信息，这一点也是和传统的有着本质的不同。第四，只要合理利用数据并对其进行正确、准确的分析，将会带来很高的价值回报。业界将其归纳为4个“V”——Volume（数据体量大）、Variety（数据类型繁多）、Velocity（处理速度快）、Value（价值密度低）。

从某种程度上说，大数据是数据分析的前沿技术。简言之，从各种各样类型的数据中，快速获得有价值信息的能力，就是大数据技术。明白这一点至关重要，也正是这一点促使该技术具备走向众多企业的潜力。

大数据最核心的价值就是在于对于进行存储和分析。相比起现有的其他技术而言，大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。

当前用于分析大数据的工具主要有开源与商用两个。

2、. Hypertable是另类。它存在于Hadoop生态圈之外，但也曾经有一些用户。

定义：利用多种轻型数据库来接收发自客户端的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。

特点和挑战：并发系数高。

使用的产品：，，，和等，并且这些产品的特点各不相同。

大数据定义：将海量的来自前端的数据快速导入到一个集中的大型或者分布式存储集群，利用分布式技术来对存储于其内的集中的进行普通的查询和等，以此满足大多数常见的分析需求。

特点和挑战：导入数据量大，查询涉及的数据量大，查询请求多。

定义：基于前面的查询数据进行数据挖掘，来满足高级别的数据分析需求。

特点和挑战：复杂，并且计算涉及的数据量和计算量都大。

我们需要的是以数据为中心的SOA还是以SOA为中心的数据？答案取决于如何处理的SOA-数据关系的三个不同模型来管理大数据、云数据和数据层次结构。在越来越多的虚拟资源中，将这些模型之间所有类型的数据进行最优拟合是SOA所面临的巨大挑战之一。本文详细介绍了每个SOA模型管理数据的优点、选择和选项。

SOA的三个数据中心模型分别是数据即服务(DaaS)模型、物理层次结构模型和架构组件模型。DaaS数据存取的模型描述了数据是如何提供给SOA组件的。描述了数据是如何存储的以及存储的层次图是如何传送到SOA数据存储器上的。最后，架构模型描述了数据、数据管理服务和SOA组件之间的关系。

SOA和数据企业的例子

也许以极限情况为开始是理解SOA数据问题的最好方式：一个企业的数据需求完全可以由(RDBMS)中的条款来表示。这样一个企业可能会直接采用数据库设备或者将专用的和现有的查询服务连接到SOA组件（查询即服务，或QaaS）上。这种设计理念之前已经被人们所接受。该设计之所以成功是因为它平衡了上述三个模型之间的关系。QaaS服务模型不是机械地连接到存储器上；而是通过一个单一的架构——RDBMS（）。数据去重和完整性便于管理单一的架构。

通过大数据的例子可以更好地理解为什么这个简单的方法却不能在更大的范围内处理数据。多数的大数据是非关系型的、非交易型的、非结构化的甚至是未更新的数据。由于缺乏因此将其抽象成一个查询服务并非易事，由于数据有多个来源和形式因此很少按序存储，并且定义基础数据的完整性和去重过程是有一些规则的。当作为大数据引入到SOA的应用程序中时，关键是要定义三种模型中的最后一种模型，SOA数据关系中的架构模型。有两种选择：水平方向和垂直方向。

大数据：“人工特征工程+线性模型”的尽头SOA和各类数据模型

在水平集成数据模型中，数据收集隐蔽于一套抽象的数据服务器，该服务器有一个或多个接口连接到应用程序上，也提供所有的完整性和数据管理功能。组件虽不能直接访问数据，但作为一种即服务形式，就像他们在简单情况下的企业，其数据的要求是纯粹的RDBMS模型。应用程序组件基本上脱离了RDBMS与大数据之间数据管理的差异。尽管由于上述原因这种方法不能创建简单的RDBMS查询模型，但是它至少复制了我们上面提到的简单的RDBMS模型。

垂直集成的数据模型以更多应用程序特定的方式连接到数据服务上，该方式使得客户关系管理、企业资源规划或动态数据认证的应用程序数据很大程度在服务水平上相互分离，这种分离直接涉及到数据基础设施。在某些情况下，这些应用程序或许有可以直接访问存储/数据服务的SOA组件。为了提供更多统一的和管理，管理服务器可以作为SOA组件来操作各种，以数据库特定的方式执行常见的任务，如去重和完整性检查。这种方法更容易适应于遗留应用和, 但它在问数据何访方式上会破坏SOA即服务原则，也可能产生数据管理的一致性问题。

毫无疑问水平模型更符合SOA原则，因为它更彻底地从SOA组件中抽象出了数据服务。不过，为了使其有效，有必要对非进行抽象定义和处理低效率与抽象有关的流程——SOA知道除非小心的避免此类事情否则这将会成为不可逾越的障碍。

水平的SOA数据策略已经开始应用于适用大数据的抽象数据。解决这个问题最常见的方法是MapReduce，可以应用于Hadoop形式的云构架。Hadoop以及类似的方法可以分发、管理和访问数据，然后集中查询这一分布式信息的相关结果。实际上，SOA组件应将MapReduce和类似数据分析功能作为一种查询功能应用。

效率问题较为复杂。因为水平可能是通过类似大多数SOA流程的信息服务总线来完成的，一个重要的步骤是要确保与该编排相关的开销额度保持在最低程度。这可以帮助减少与SOA相关的数据访问开销，但它不能克服存储系统本身的问题。因为这些存储系统已经通过水平模型脱离了SOA组件，很容易被忽略与延迟和数据传输量相关的问题，特别地，如果数据库是云分布的，那么使用他们就会产生可变的。

上述问题的一个解决方案是现代分层存储模式。数据库不是磁盘，而是一组相互连接的高速缓存点，其存储于本地内存中，也可能转向固态硬盘，然后到，最后到。缓存算法处理这些缓存点之间的活动，从而来平衡（同时也是平衡同步地更新成本）和性能。

大数据应用领域对于大数据，它也是经常可以创建适用于大多数分析的汇总数据。例如一个计算不同地点车辆数量的交通遥测应用。这种方法可以产生大量的数据，但是如果汇总数据最后一分钟还存储在内存中，最后一小时存储在闪存中，最后一天存在磁盘上，那么控制应用程序所需的实际时间可以通过快速访问资源得到满足,然而假设分析时我们可以使用一些更便宜、更慢的应用程序是会怎样。

SOA都是抽象的，但当抽象隐藏了底层影响性能和响应时间的复杂性时，这种抽象的危险程度会提高。数据访问也是这样的，因此,SOA架构师需要认真地考虑抽象与性能之间的平衡关系，并为其特定的业务需求优化它。

Hadoop旨在通过一个高度可扩展的分布式批量处理系统，对大型进行扫描，以产生其结果。Hadoop项目包括三部分，分别是Hadoop Distributed File

Hadoop平台对于操作非常大型的数据集而言可以说是一个强大的工具。为了抽象Hadoop编程模型的一些复杂性，已经出现了多个在Hadoop之上运行的应用开发语言。Pig、Hive和Jaql是其中的代表。而除了外，您还能够以其他语言编写map和reduce函数，并使用称为Hadoop Streaming（简写为Streaming）的API调用它们。

从技术角度而言，流是通过边缘连接的。图中的每个节点都是“运算符”或“适配器”，均能够在某种程度上处理流内的数据。节点可以不包含输入和输出，也可以包含多个输入和输出。一个节点的输出与另外一个或多个节点的输入相互连接。图形的边缘将这些节点紧密联系在一起，表示在运算符之间移动的数据流。

右图一个简单的流图，它可以从文件中读取数据，将数据发送到名为Functor的运算符（此运算符能够以某种编程方式转换所传入的数据），然后将这些数据传入另一个运算符。在此图片中，流数据被传送至Split运算符，而后又将数据传入文件接收器或数据库（具体情况视Split运算符的内部状况而定）。

利用Apache Hadoop等开源项目，通过传感器、RFID、、呼叫中心记录和其他来源提供的新型数据创造价值。

大数据应用领域即，IBM InfoSphere Streams。在IBMInfoSphere Streams（简称Streams）中，数据将会流过有能力操控数据流（每秒钟可能包含数百万个事件）的运算符，然后对这些数据执行动态分析。这项分析可触发大量事件，使企业利用即时的智能实时采取行动，最终改善业务成果。

当数据流过这些分析组件后，Streams将提供运算符将数据存储至各个位置，或者如果经过动态分析某些数据被视为毫无价值，则会丢弃这些数据。你可能会认为Streams与复杂事件处理（CEP）系统非相似，不过Streams的设计可扩展性更高，并且支持的数据流量也比其他系统多得多。此外，Streams还具备更高的企业级特性，包括、丰富的应用程序开发和高级调度。

出于这样的目的，许多组织开始启动自己的大数据治理计划。所谓大数据治理，指的是制定策略来协调多个职能部门的目标，从而优化、保护和利用大数据，将其作为一项企业资产。

这里所说的“大容量”通常可达到PB级的数据规模，因此，存储系统也一定要有相应等级的扩展能力。与此同时，存储系统的扩展一定要简便，可以通过增加模块或磁盘柜来增加容量，甚至不需要停机。在解决容量问题上，不得不提LSI公司的全新Nytro?智能化闪存解决方案，采用Nytro产品，客户可以将数据库事务处理性能提高30倍，并且超过每秒4.0GB的持续吞吐能力，非常适用于。

“大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。有很多“大数据”应用环境需要较高的IOPS性能，比如HPC。此外，的普及也导致了对高IOPS的需求，正如它改变了传统IT环境一样。为了迎接这些挑战，各种模式的固态存储设备应运而生，小到简单的在服务器内部做高速缓存，大到全固态介质可扩展存储系统通过高性能闪存存储，自动、智能地对热点数据进行读/写高速缓存的LSI Nytro系列产品等等都在蓬勃发展。

某些特殊行业的应用，比如金融数据、医疗信息以及政府情报等都有自己的安全标准和需求。虽然对于IT管理者来说这些并没有什么不同，而且都是必须遵从的，但是，大数据分析往往需要多类数据相互参考，而在过去并不会有这种数据混合访问的情况，大数据应用催生出一些新的、需要考虑的安全性问题，这就充分体现出利用基于DuraClass? 技术的LSI SandForce?闪存处理器的优势了，实现了企业级闪存性能和可靠性，实现简单、透明的应用加速，既安全又方便。

大数据应用领域成本问题

对于那些正在使用大数据环境的企业来说，成本控制是关键的问题。想控制成本，就意味着我们要让每一台设备都实现更高的“效率”，同时还要减少那些昂贵的部件。重复数据删除等技术已经进入到主存储市场，而且还可以处理更多的数据类型，这都可以为大数据存储应用带来更多的价值，提升存储效率。在数据量不断增长的环境中，通过减少后端存储的消耗，哪怕只是降低几个百分点，这种锱铢必较的服务器也只有LSI推出的Syncro? MX-B机架服务器设备都能够获得明显的投资回报，当今，数据中心使用的传统引导驱动器不仅故障率高，而且具有较高的维修和更换成本。如果用它替换数据中心的引导驱动器，则能将可靠性提升多达100倍。并且对主机系统是透明的，能为每一个附加服务器提供唯一的引导镜像，可简化系统管理，提升可靠性，并且节电率高达60%，真正做到了节省成本的问题。

许多大数据应用都会涉及到法规遵从问题，这些法规通常要求数据要保存几年或者几十年。比如医疗信息通常是为了保证患者的生命安全，而财务信息通常要保存7年。而有些使用大数据存储的用户却希望数据能够保存更长的时间，因为任何数据都是历史记录的一部分，而且数据的分析大都是基于时间段进行的。要实现长期的数据保存，就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。

大数据存储系统的基础设施规模通常都很大，因此必须经过仔细设计，才能保证存储系统的灵活性，使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中，已经没有必要再做了，因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用，就很难再调整了，因此它必须能够适应各种不同的应用类型和数据场景。

最早一批使用大数据的用户已经开发出了一些针对应用的定制的基础设施，比如针对政府项目开发的系统，还有大型互联网服务商创造的专用服务器等。在主流存储系统领域，应用感知技术的使用越来越普遍，它也是改善系统效率和性能的重要手段，所以，应用感知技术也应该用在大数据存储环境里。

依赖大数据的不仅仅是那些特殊的大型用户群体，作为一种商业需求，小型企业未来也一定会应用到大数据。我们看到，有些存储厂商已经在开发一些小型的“大数据”存储系统，主要吸引那些对成本比较敏感的用户。

大数据大数据治理计划也需要关注与其他信息治理计划类似的问题。这些计划必须解决以下问题：

大数据治理需要创建可靠的元数据，避免出现窘境，例如，一家企业重复购买了相同的两次，而原因仅仅是该数据集在两个不同的存储库内使用了不同的名称。

企业需要严格关注遵守隐私方面的问题，例如利用进行数据分析。

考虑到大数据的庞大数量和超快速度，组织需要确定哪种级别的数据质量属于“足够好”的质量。

■。大数据治理计划需要制定存档策略，确保不会超出控制。除此之外，组织需要设定保留计划，以便按照法规要求合理处置数据。

最终，企业需要招募大数据管理员。例如，石油与天然气公司内的勘探开采部门的管理员负责管理地震数据，包括相关元数据在内。这些管理员需要避免组织因不一致的命名规范而付款购买已经拥有的外部数据。除此之外，社交媒体管理员需要与法律顾问和配合工作，制定有关可接受的信息使用方法的策略。

众所周知，企业数据本身就蕴藏着价值，但是将有用的数据与没有价值的数据进行区分看起来可能是一个棘手的问题。

显然，您所掌握的人员情况、和客户记录对于企业的运转至关重要，但是其他数据也拥有转化为价值的力量。一段记录人们如何在您的商店浏览购物的视频、人们在购买您的服务前后的所作所为、如何通过社交网络联系您的客户、是什么吸引合作伙伴加盟、客户如何付款以及供应商喜欢的……所有这些场景都提供了很多指向，将它们抽丝剥茧，透过特殊的棱镜观察，将其与其他数据集对照，或者以与众不同的方式分析解剖，就能让您的行事方式发生天翻地覆的转变。

但是屡见不鲜的是，很多公司仍然只是将信息简单堆在一起，仅将其当作为满足公司治理规则而必须要保存的信息加以处理，而不是将它们作为战略转变的工具。

毕竟，数据和人员是业务部门仅有的两笔无法被竞争对手复制的财富。在善用的人手中，好的数据是所有管理决策的基础，带来的是对客户的深入了解和竞争优势。数据是业务部门的生命线，必须让数据在决策和行动时无缝且安全地流到人们手中。

大数据应用所以，数据应该随时为决策提供依据。看看在政府公开道路和公共交通的使用信息这样看起来甚至有点晦涩的数据时会发生什么：这些数据来源为一些私营公司提供了巨大的价值，这些公司能够善用这些数据，创造满足潜在需求的新产品和服务。

企业需要向创造和取得数据方面的投入索取回报。有效管理来自新旧来源的数据以及获取能够破解庞大数据集含义的工具只是等式的一部分，但是这种挑战不容低估。产生的数据在数量上持续膨胀；音频、视频和图像等需要新的方法来发现；电子邮件、IM、tweet和社交网络等合作和交流系统以非结构化文本的形式保存数据，必须用一种智能的方式来解读。

但是，应该将这种复杂性看成是一种机会而不是问题。处理方法正确时，产生的数据越多，结果就会越成熟可靠。传感器、和社交数据的新世界将带来转变运营的惊人新视角和机会。请不要错过。

有些人会说，数据中蕴含的价值只能由专业人员来解读。但是经济并不只是数据科学家和高级开发员的天下。

数据的价值在于将正确的信息在正确的时间交付到正确的人手中。未来将属于那些能够驾驭所拥有数据的公司，这些数据与公司自身的业务和客户相关，通过对数据的利用，发现新的洞见，帮助他们找出竞争优势。

自从有了IT部门，董事会就一直在要求信息管理专家提供洞察力。实际上，早在1951年，对预测蛋糕需求的诉求就催生了计算机的首次商业应用。自那以后，我们利用技术来识别趋势和制定战略战术的能力不断呈指数级日臻完善。

今天， (使用数据模式看清曲线周围的一切) 稳居 CXO 们的重中之重。在理想的世界中，IT 是巨大的杠杆，改变了公司的影响力，带来竞争差异、节省金钱、增加利润、愉悦买家、奖赏忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。

是商业智能的演进。当今，传感器、GPS 系统、QR 码、社交网络等正在创建新的数据流。所有这些都可以得到发掘，正是这种真正广度和深度的信息在创造不胜枚举的机会。要使大数据言之有物，以便让大中小企业都能通过更加贴近客户的方式取得竞争优势，和数据管理是核心所在。

面临从全球化到衰退威胁的风暴， IT部门领导需要在掘金大数据中打头阵，新经济环境中的赢家将会是最好地理解哪些指标影响其大步前进的人。

大数据应用当然，企业仍将需要聪明的人员做出睿智的决策，了解他们面临着什么，在充分利用的情况下，大数据可以赋予人们近乎的能力。Charles Duigg是《》一书的作者，他找出的一个黄金案例分析的例子是美国零售商 Target，其发现妇女在怀孕的中间三个月会经常购买没有气味的护肤液和某些维生素。通过锁定这些购物者，商店可提供将这些妇女变成忠诚客户的优惠券。实际上，Target 知道一位妇女怀孕时，那位妇女甚至还没有告诉最亲近的亲朋好友 -- 更不要说商店自己了。

很明显，在可以预见的将来，隐私将仍是重要的考量，但是归根结底，用于了解行为的技术会为方方面面带来双赢，让卖家了解买家，让买家喜欢买到的东西。

再看一下作家兼科学家 Stephen Wolfram的例子，他收集有关自身习惯的数据，以分析他的个人行为，预测事件在未来的可能性。

大数据将会放大我们的能力，了解看起来难以理解和随机的事物。对其前途的了解提供了获取崭新知识和能力的机会，将改变您的企业运作的方式。

大数据的意义是由人类日益普及的网络行为所伴生的，受到相关部门、企业采集的，蕴含数据生产者真实意图、喜好的，非传统结构和意义的数据。

2013年5月10日，阿里巴巴集团董事局主席在晚会上，将卸任阿里集团CEO的职位，并在晚会上做卸任前的演讲，马云说，大家还没搞清PC时代的时候，来了，还没搞清移动互联网的时候，大数据时代来了。

大数据正在改变着产品和生产过程、企业和产业，甚至竞争本身的性质。把信息技术看作是辅助或服务性的工具已经成为过时的观念，管理者应该认识到信息技术的广泛影响和深刻含义，以及怎样利用信息技术来创造有力而持久的竞争优势。无疑，信息技术正在改变着我们习以为常的经营之道，一场关系到企业生死存亡的技术革命已经到来。

借着大数据时代的热潮，微软公司生产了一款数据驱动的软件，主要是为工程建设节约资源提高效率。在这个过程里可以为世界节约40%的能源。抛开这个软件的前景不看，从微软团队致力于研究开始，可以看他们的目标不仅是为了节约了能源，更加关注智能化运营。通过跟踪、空调、风扇以及灯光等积累下来的超大量数据，捕捉如何杜绝能源浪费。“给我提供一些数据，我就能做一些改变。如果给我提供所有数据，我就能拯救世界。”微软这样说。而智能建筑正是他的团队专注的事情。

随着全球范围内个人电脑、智能手机等设备的普及和新兴市场内不断增长的互联网访问量，以及或等设备产生的数据爆增，使数字宇宙的规模在2012到2013两年间翻了一番，达到惊人的2.8ZB。 IDC预计，到2020年，数字宇宙规模将超出预期，达到40ZB。

大数据应用40ZB究竟是个什么样的概念呢？地球上所有海滩上的沙粒加在一起估计有七万零五亿亿颗。40ZB相当于地球上所有海滩上的沙粒数量的57倍。也就是说到2020年，数字宇宙将每两年翻一番；到2020年，人均数据量将达5,247GB。

该报告同时显示，尽管个人和机器每天产生大量数据，使数字宇宙前所未有地不断膨胀，但仅有0.4%的全球数据得到了分析。由此可见，大数据的应用几乎是一块未被开垦的处女地。

谷歌搜索、Facebook的帖子和微博消息使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好，凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务，并对产品和服务进行针对性地调整和优化，这就是大数据的价值。大数据也日益显现出对各个行业的推进力。

大数据时代来临首先由数据丰富度决定的。社交网络兴起，大量的UGC(互联网术语，全称为User Generated Content，即用户生成内容的意思)内容、音频、文本信息、视频、图片等出现了。另外，物联网的数据量更大，加上移动互联网能更准确、更快地收集用户信息，比如位置、生活信息等数据。从数据量来说，已进入大数据时代，但硬件明显已跟不上数据发展的脚步。

以往大数据通常用来形容一个公司创造的大量非结构化和，而提及“大数据”，通常是指解决问题的一种方法，并对其进行分析挖掘，进而从中获得有价值信息，最终衍化出一种新的商业模式。

虽然大数据在国内还处于初级阶段，但是商业价值已经显现出来。首先，手中握有数据的公司站在金矿上，基于数据交易即可产生很好的效益；其次，基于数据挖掘会有很多商业模式诞生，定位角度不同，或侧重数据分析。比如帮企业做内部数据挖掘，或侧重优化，帮企业更精准找到用户，降低，提高企业销售率，增加利润。

未来，数据可能成为最大的交易商品。但数据量大并不能算是大数据，大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此，大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。未来大数据将会如基础设施一样，有数据提供方、管理者、监管者，数据的交叉复用将大数据变成一大产业。据统计，大数据所形成的市场规模在51亿美元左右，而到2017年，此数据预计会上涨到530亿美元。

随着大数据应用的爆发性增长，它已经衍生出了自己独特的架构，而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由推动的，我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。从另一方面看，这一变化对存储厂商和其他IT基础设施厂商未尝不是一个机会。随着结构化数据和非结构化数据量的持续增长，以及分析数据来源的多样化，此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点，他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。

针对大数据的世界领先品牌存储企业有：IBM、EMC、LSISandForce 、云创存储、INTEL、惠普、戴尔、甲骨文、日立、等。

“大数据”的商业价值简而言之，企业可以通过思考数据战略的总体回报，来应对大数据的挑战，抓住大数据的机会。Informatica所指的‘数据回报率’，是为帮助高级IT和业务部门领导者进行大数据基本的战术和战略含义的讨论而设计的一个简单概念。等式非常简单：如果您提高数据对于业务部门的价值，同时降低管理数据的成本，从数据得到的回报就会增加 -- 无论是用金钱衡量，还是更好的决策

数据回报率=数据价值/数据成本

在技术层面，数据回报率为成、数据管理、商业智能和分析方面的投入提供了业务背景和案例。它还与解决业务的基础有关：挣钱、省钱、创造机会和。它涉及对效率的考虑，同时推动了改变游戏规则的洞察力。

Informatica深知，对于很多企业来说，向数据回报模型的转变不会一蹴而就。管理数据并将其成本降低的短期要求将会是首要焦点，同样还需要打破障碍以了解数据。企业只有这时才可以开始从传统和新兴数据集获得更多价值。Informatica可提供数据集成平台和领导力，为企业提供全程帮助。

在大数据的世界中，最灵活和成功的企业将会是那些善用大机遇的公司。

未来十年，决定中国是不是有大智慧的核心意义标准（那个”思想者”），就是国民幸福。一体现到民生上，通过大数据让事情变得澄明，看我们在人与人关系上，做得是否比以前更有意义；二体现在生态上，看我们在天与人关系上，做得是否比以前更有意义。总之，让我们从前10年的意义混沌时代，进入未来10年意义澄明时代。

生产者是有价值的，消费者是价值的意义所在。有意义的才有价值，消费者不认同的，就卖不出去，就实现不了价值；只有消费者认同的，才卖得出去，才实现得了价值。大数据帮助我们从消费者这个源头识别意义，从而帮助生产者实现价值。这就是启动内需的原理。

随着具有特征的数据基础设施和数据资源发展起来，组织的变革就越来越显得不可避免。大数据将推动网络结构产生无组织的组织力量。最先反映这种结构特点的，是各种各样的应用，如RSS、维基、博客等。大数据之所以成为时代变革力量，在于它通过追随意义而获得智慧。

大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程；大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。

大数据与云计算的关系物联网、云计算、移动互联网、、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器，无一不是数据来源或者承载的方式。

有些例子包括，RFID，，，社会数据（由于数据革命的社会），互联网文本和文件;互联网搜索索引;呼叫详细记录，天文学，，基因组学，，生物，和其他复杂和/或跨学科的科研，，医疗记录;摄影档案馆视频档案;和大规模的电子商务。

虽然大数据的拥护者看到了使用大数据的巨大潜力，但也有隐私倡导者担心，因为越来越多的人开始收集相关数据，无论是他们是否会故意透露这些数据或通过张贴，甚至他们在不知不觉中通过分享自己的生活而公布了一些具体的数字细节。

分析这些巨大的数据集会使我们的预测能力产生虚假的信息，将导致作出许多重大和有害的错误决定。此外，数据被强大的人或机构滥用，自私的操纵议程达到他们想要的结果。

和合作利用大数据预测犯罪的发生。

统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。

利用数据和交通数据建立城市规划。

的实时定价机制，根据需求和库存的情况，该公司基于SAS的系统对多达7300万种货品进行实时调价。

Tipp24 AG针对欧洲博彩业构建的下注和预测平台。该公司用KXEN软件来分析数十亿计的交易以及客户的特性，然后通过对特定用户进行动态的营销活动。这项举措减少了90%的预测模型构建时间。正在试图收购KXEN。“SAP想通过这次收购来扭转其长久以来在预测分析方面的劣势。”Laney分析到。

PredPol Inc. 公司通过与洛杉矶和的警方以及一群研究人员合作，基于算法的变体和犯罪数据来预测犯罪发生的几率，可以精确到500的范围内。在洛杉矶运用该算法的地区，和分布下降了33%和21%。

American Express(，AmEx)和。以往，AmEx只能实现事后诸葛式的报告和滞后的预测。“传统的BI已经无法满足业务发展的需要。”Laney认为。于是，AmEx开始构建真正能够预测忠诚度的模型，基于历史交易数据，用115个变量来进行分析预测。该公司表示，对于澳大利亚将于之后四个月中流失的客户，已经能够识别出其中的24%。

基础架构先行Express Scripts Holding Co.的产品制造。该公司发现那些需要服药的人常常也是最可能忘记服药的人。因此，他们开发了一个新产品：会响铃的药品盖和自动的电话呼叫，以此提醒患者按时服药。

Infinity Property & Casualty Corp.的黑暗数据(dark data)。Laney对于黑暗数据的定义是，那些针对单一目标而收集的数据，通常用过之后就被归档闲置，其真正价值未能被充分挖掘。在特定情况下，这些数据可以用作其他用途。该公司用累积的报告来分析欺诈案例，通过算法挽回了1200万美元的金额。

利用起互联网大数据，对消费者的喜好进行判定。商户可以为消费者定制相应的独特的个性服务，甚至可以在一些商品或者服务上匹配用户心情等等。商家还可以根据大数据为消费者提供其可能会喜好的特色产品，活动，小而美的小众商品等等。

的升级改造，具有令人兴奋的商业前景。一个Shopping Mall的投资往往高达数十亿元，设想一下，如果智能化升级能够让一个Shopping Mall的顾客数量和人均消费提升30%-50%，为此投入几百万元甚至上千万元对于投资方来说非常划算，那么仅仅针对国内Shopping Mall的智能化升级就是一个千亿元级别的市场。

经典大数据案例-沃尔玛经典营销：啤酒与尿布

“啤酒与尿布”的故事产生于的超市中，沃尔玛的人员分析销售数据时发现了一个令人难于理解的现象：在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中，这种独特的销售现象引起了管理人员的注意，经过后续调查发现，这种现象出现在年轻的父亲身上。

在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲前去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒，这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一，则他很有可能会放弃购物而到另一家商店，直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象，开始在卖场尝试将啤酒与尿布摆放在相同的区域，让年轻的父亲可以同时找到这两件商品，并很快地完成购物；而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件，从而获得了很好的，这就是“啤酒与尿布” 故事的由来。

当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal提出通过分析购物篮中的商品集合，从而找出商品之间的关联算法，并根据商品之间的关系，找出客户的购买行为。艾格拉沃从数学及角度提出了商品关联关系的计算方法——Aprior算法。沃尔玛从上个世纪 90 年代尝试将 Aprior 算法引入到数据分析中，并获得了成功，于是产生了“啤酒与尿布”的故事。

IBM的以其在2012年5月发布智慧分析洞察“3A5步”动态路线图作为基础。所谓“3A5步”，指的是在“掌握信息”（Align）的基础上“获取洞察”（Anticipate），进而采取行动（Act），优化决策策划能够救业务绩效。除此之外，还需要不断地“学习”（Learn）从每一次业务结果中获得反馈，改善基于信息的决策流程，从而实现“转型”（Transform）。

Operational Analytics，可分别应用于OLTP（）、OLAP（）和操作。与此前发布的IBMPureSystems系列产品一样，IBM PureData系统提供内置的专业知识、源于设计的集成，以及在其整个生命周期中的简化体验。

斯隆数字巡天收集在其最初的几个星期，就比在天文学的历史上之前的2000年的收集了更多的数据。自那时以来，它已经积累了140兆兆字节的信息。这个望远镜的继任者，大天气巡天望远镜，将于2016年在网上将获得数据公布，沃尔玛每隔一小时处理超过100万客户的交易，录入量数据库估计超过2.5 PB相当于美国国会图书馆的书籍的167倍。FACEBOOK从它的用户群获得并处理400亿张照片。解码最原始的花费10年时间处理，如今可以在一个星期内实现。

“大数据”的影响，增加了对信息管理专家的需求，甲骨文，IBM，微软和SAP花了超过15亿美元的在软件智能数据管理和分析的专业公司。这个行业自身价值超过1000亿美元，增长近10%，每年两次，这大概是作为一个整体的软件业务的快速。

大数据已经出现，因为我们生活在一个有更多信息的社会中。有46亿全球移动电话用户有20亿人访问互联网。基本上，人们比以往任何时候都与数据或信息交互。 1990年至2005年，全球超过1亿人进入中产阶级，这意味着越来越多的人收益的这笔钱将反过来导致更多的信息增长。预计，到2013年，在互联网上流动的将达到每年667艾字节。

大数据，其影响除了经济方面的，它同时也能在政治、文化等方面产生深远的影响，大数据可以帮助人们开启循“数”管理的模式，也是我们当下“大社会”的集中体现，三分技术，七分数据，得数据者得天下。

大数据实践国内正从传统的面向群体的营销转向，从流量购买转向人群购买。虽然市场大环境不好，但是具备数据挖掘能力的公司却倍受资本青睐。

163大数据是一个很好的视角和工具。从资本角度来看，什么样的公司有价值，什么样的公司没有价值，从其拥有的数据规模、数据的活性和这家公司能运用、解释数据的能力，就可以看出这家公司的。而这几个能力正是资本关注的点。

与社交网络兴起将大数据带入新的征程，互联网营销将在行为分析的基础上向个性化时代过渡。创业公司应用“大数据”告诉广告商什么是正确的时间，谁是正确的用户，什么是应该发表的正确内容等，这正好切中了广告商的需求。

社交网络产生了海量用户以及实时和完整的数据，同时社交网络也记录了用户群体的情绪，通过深入挖掘这些数据来了解用户，然后将这些分析后的数据信息推给需要的品牌商家或是公司。

实际上，将用户群精准细分，直接找到要找的用户正是社交内容背后数据挖掘所带来的结果。而通过各种算法实现的数据信息交易，正是为自己的社交数据挖掘公司设计的盈利模式。这家仅仅五六个人的小公司拿到了天使投资。未来的市场将更多地以人为中心，主动迎合用户需求，前提就是要找到这部分人群。

在移动互联网领域，公司从开发者角度找到数据挖掘的方向，通过提供免费的技术服务，帮助开发者了解应用状况。

国内的企业跟美国比较，有一个很重要的特性就是人口基数的区别，中国消费群体所产生的这种数据量，与国外相比不可同日而语。

伴随着各种随身设备、物联网和云计算等技术的发展，人和物的所有轨迹都可以被记录。在移动互联网的核心网络节点是人，不再是网页。数据大爆炸下，怎样挖掘这些数据，也面临着技术与商业的双重挑战。

首先，如何将数据信息与产品和人相结合，达到产品或服务优化是大数据商业模式延展上的挑战之一。

其次，巧妇难为无米之炊，大数据的关键还是在于谁先拥有数据。

从市场角度来看，大数据还面临其他因素的挑战。

产业界对于大数据的热情持续升温的同时，资本也敏锐地发现了这一趋势，并开始关注数据挖掘和服务类公司。

最早提出“大数据”时代已经到来的机构是全球知名咨询公司。麦肯锡在研究报告中指出，数据已经渗透到每一个行业和业务职能领域，逐渐成为重要的生产因素；而人们对于的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。

大数据时代:如何节省存储成本“麦肯锡的报告发布后，大数据迅速成为了计算机行业争相传诵的热门概念，也引起了金融界的高度关注。”随着的不断发展，数据本身是资产，这一点在业界已经形成共识。“如果说云计算为数据资产提供了保管、访问的场所和渠道，那么如何盘活数据资产，使其为国家治理、企业决策乃至个人生活服务，则是大数据的核心议题，也是云计算内在的灵魂和必然的升级方向。”

事实上，全球互联网巨头都已意识到了“大数据”时代，数据的重要意义。包括EMC、惠普、IBM、微软在内的全球IT 巨头纷纷通过收购“大数据”相关厂商来实现技术整合，亦可见其对“大数据”的重视。

“大数据”作为一个较新的概念，目前尚未直接以专有名词被我国政府提出来给予政策支持。不过，在2011年12月8日工信部发布的物联网“十二五”规划上，把作为4项关键技术创新工程之一被提出来，其中包括了海量数据存储、数据挖掘、图像视频智能分析，这都是大数据的重要组成部分。而另外3项关键技术创新工程，包括信息感知技术、、，也都与“大数据”密切相关。

大数据是继云计算、物联网之后IT产业又一次颠覆性的技术变革。云计算主要为数据资产提供了保管、访问的场所和渠道，而数据才是真正有价值的资产。企业内部的经营交易信息、物联网世界中的商品物流信息，互联网世界中的人与人交互信息、等，其数量将远远超越现有企业IT架构和基础设施的承载能力，要求也将大大超越现有的计算能力。如何盘活这些数据资产，使其为国家治理、企业决策乃至个人生活服务，是大数据的核心议题，也是云计算内在的灵魂和必然的升级方向。

大数据时代网民和消费者的界限正在消弭，企业的疆界变得模糊，数据成为核心的资产，并将深刻影响企业的业务模式，甚至重构其文化和组织。因此，大数据对国家治理模式、对企业的决策、组织和业务流程、对个人生活方式都将产生巨大的影响。如果不能利用大数据更加贴近消费者、深刻理解需求、高效分析信息并作出预判，所有传统的产品公司都只能沦为新型用户平台级公司的附庸，其衰落不是管理能扭转的。

大数据时代将引发新一轮信息化投资和建设热潮。据IDC预测，到2020年全球将总共拥有35ZB的数据量，而麦肯锡则预测未来大数据产品在三大行业的应用就将产生7千亿美元的，未来中国大数据产品的潜在市场规模有望达到1.57万亿元，给IT行业开拓了一个新的黄金时代。

当前还处在大数据时代的前夜，预计今明两年将是大数据市场的培育期，2014年以后大数据产品将会形成业绩。

大数据给城市带来的重大变革宋清辉：大数据正改变我们的未来

大数据时代，与其让对你感兴趣的人去搜寻你的隐私，就不如自曝隐私。当我在全球不同城市演讲结束交换名片的时候，基本从来不发载有自己名字、电话、地址等基本信息的名片，因为那根本用不着，也不符合大数据时代的精髓。所以我的名片简单到只有一个名字和几个，只要或者扫一扫二维码，关于个人的信息别人就会一览无余，包括在写什么文章、在哪里演讲等信息……

不想说一个人若拒绝大数据就去失去生命这样沉重的话题，但大数据确实在深刻改变着你和我的未来。

2015年5月26日，中共贵州省委副书记、省政府省长在峰会上透露，国家在制定大数据国家战略及行动计划。贵州省将抓住和用好战略机遇，深入挖掘大数据的商业价值、管理价值和社会价值。

工信部信息服务处处长在论坛期间则表示，工信部将抓紧研究制定大数据发展的指导性文件。下一步，工信部将和有关部门加强协同，积极营造良好的环境，推动应用和产业相互促进、良性发展，为我国大数据产业和大数据创新发展探索积累经验。

大数据时代来了！不得不承认如今数据量的激增越来越明显，各种各样的数据铺天盖地的砸下来，企业选择相应工具来存储、分析与处理它们。从Excel、，到现在最新的可视化数据分析工具，数据分析软件进步越来越快，免费的大数据魔镜已经可以达到500多种可视化效果和实现数据共享。那么在大数据时代中，都新出现了哪些数据类型呢？

1）过于一些记录是以模拟形式方式存在的，或者以数据形式存在但是存贮在本地，不是公开数据资源，没有开放给互联网用户，例如音乐、照片、视频、监控录像等影音资料。现在这些数据不但数据量巨大，并且共享到了互联网上，面对所有互联网用户，其数量之大是前所未有。举个例子，Facebook每天有18亿张照片上传或被传播，形成了海量的数据。

2）出现后，移动设备的很多传感器收集了大量的用户点击,已知IPHONE有3个传感器，三星有6个传感器。它们每天产生了大量的点击数据，这些数据被某些公司所有拥有，形成用户大量行为数据。

3）电子地图如高德、百度、出现后，其产生了大量的数据流数据，这些数据不同于传统数据，传统数据代表一个属性或一个度量值，但是这些地图产生的流数据代表着一种行为、一种习惯，这些流数据经频率分析后会产生巨大的商业价值。基于地图产生的数据流是一种新型的数据类型，在过去是不存在的。

4）进入了社交网络的年代后，互联网行为主要由用户参与创造，大量的互联网用户创造出海量的社交行为数据，这些数据是过去未曾出现的。其揭示了人们行为特点和生活习惯。

5）电商户崛起产来了大量网上交易数据，包含支付数据，查询行为，物流运输、购买喜好，点击顺序，评价行为等，其是信息流和数据。

6）传统的互联网入口转向之后，用户的搜索行为和提问行为聚集了。单位存储价格的下降也为存储这些数据提供了经济上的可能。

上面我们所指的大数据不同与过去传统的数据，其产生方式、存储载体、访问方式、表现形式、来源特点等都同传统数据不同。大数据更接近于某个数据，它是全面的数据、准确的数据、有价值的数据。这些新类型数据相信大家都很熟悉，它们已经比传统数据类型更深入地走进了我们生活。

}

在本篇文章中。我将对机器学习做个概要的介绍。

本文的目的是能让即便全然不了解机器学习的人也能了解机器学习，而且上手相关的实践。

这篇文档也算是 EasyPR开发的番外篇。从这里開始，必须对机器学习了解才干进一步介绍EasyPR的内核。当然，本文也面对一般读者，不会对阅读有相关的前提要求。

在进入正题前，我想读者心中可能会有一个疑惑：机器学习有什么重要性。以至于要阅读完这篇非常长的文章呢？

我并不直接回答这个问题前。相反，我想请大家看两张图，下图是图一：

图1 机器学习界的执牛耳者与互联网界的大鳄的联姻

这幅图上上的三人是当今机器学习界的执牛耳者。中间的是Geoffrey Hinton, 加拿大多伦多大学的教授。如今被聘为“Google大脑”的负责人。右边的是Yann LeCun, 纽约大学教授，如今是Facebook人工智能实验室的主任。而左边的大家都非常熟悉，Andrew Ng，中文名吴恩达，斯坦福大学副教授，如今也是“百度大脑”的负责人与百度首席科学家。

这三位都是眼下业界炙手可热的大牛。被互联网界大鳄求贤若渴的聘请，足见他们的重要性。

而他们的研究方向，则全部都是机器学习的子类–深度学习。

这幅图上描写叙述的是什么？Windows Phone上的语音助手Cortana，名字来源于《光环》中士官长的助手。

相比其它竞争对手。微软非常迟才推出这个服务。Cortana背后的核心技术是什么，为什么它能够听懂人的语音？其实，这个技术正是机器学习。机器学习是全部语音助手产品(包括Apple的siri与Google的Now)能够跟人交互的关键技术。

通过上面两图，我相信大家能够看出机器学习似乎是一个非常重要的，有非常多未知特性的技术。

学习它似乎是一件有趣的任务。

实际上，学习机器学习不仅能够帮助我们了解互联网界最新的趋势。同一时候也能够知道伴随我们的便利服务的实现技术。

机器学习是什么，为什么它能有这么大的魔力，这些问题正是本文要回答的。同一时候。本文叫做“从机器学习谈起”，因此会以漫谈的形式介绍跟机器学习相关的全部内容，包括学科(如数据挖掘、计算机视觉等)，算法(神经网络，svm)等等。本文的主要文件夹例如以下：

1.一个故事说明什么是机器学习

5.机器学习的应用–大数据

6.机器学习的子类–深度学习

7.机器学习的父类–人工智能

8.机器学习的思考–计算机的潜意识

1.一个故事说明什么是机器学习

机器学习这个词是让人疑惑的。首先它是英文名称Machine Learning(简称ML)的直译，在计算界Machine一般指计算机。这个名字使用了拟人的手法，说明了这门技术是让机器“学习”的技术。可是计算机是死的，怎么可能像人类一样“学习”呢？

传统上假设我们想让计算机工作。我们给它一串指令，然后它遵照这个指令一步步运行下去。有因有果。非常明白。但这种方式在机器学习中行不通。机器学习根本不接受你输入的指令，相反，它接受你输入的数据! 也就是说，机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法。

这听起来非常不可思议。但结果上却是非常可行的。“统计”思想将在你学习“机器学习”相关理念时无时无刻不伴随，相关而不是因果的概念将是支撑机器学习能够工作的核心概念。

你会颠覆对你曾经全部程序中建立的因果无处不在的根本理念。

以下我通过一个故事来简单地阐明什么是机器学习。这个故事比較适合用在知乎上作为一个概念的阐明。在这里，这个故事没有展开。但相关内容与核心是存在的。假设你想简单的了解一下什么是机器学习，那么看完这个故事就足够了。

假设你想了解机器学习的很多其它知识以及与它关联紧密的当代技术，那么请你继续往下看。后面有很多其它的丰富的内容。

这个样例来源于我真实的生活经验，我在思考这个问题的时候突然发现它的过程能够被扩充化为一个完整的机器学习的过程，因此我决定使用这个样例作为全部介绍的開始。这个故事称为“等人问题”。

我相信大家都有跟别人相约，然后等人的经历。

现实中不是每一个人都那么守时的，于是当你碰到一些爱迟到的人，你的时间不可避免的要浪费。我就碰到过这种一个样例。

对我的一个朋友小Y而言，他就不是那么守时，最常见的表现是他常常迟到。当有一次我跟他约好3点钟在某个麦当劳见面时，在我出门的那一刻我突然想到一个问题：我如今出发合适么？我会不会又到了地点后，花上30分钟去等他？我决定採取一个策略解决问题。

要想解决问题，有好几种方法。第一种方法是採用知识：我搜寻能够解决问题的知识。但非常遗憾，没有人会把怎样等人这个问题作为知识传授，因此我不可能找到已有的知识能够解决问题。另外一种方法是问他人：我去询问他人获得解决问题的能力。可是相同的，这个问题没有人能够解答。由于可能没人碰上跟我一样的情况。第三种方法是准则法：我问自己的内心，我有否设立过什么准则去面对这个问题？比如。不管别人怎样，我都会守时到达。但我不是个死板的人。我没有设立过这种规则。

其实，我相信有种方法比以上三种都合适。我把过往跟小Y相约的经历在脑海中重现一下，看看跟他相约的次数中，迟到占了多大的比例。而我利用这来预測他这次迟到的可能性。假设这个值超出了我心里的某个界限，那我选择等一会再出发。假设我跟小Y约过5次。他迟到的次数是1次，那么他按时到的比例为 80%，我心中的阈值为70%，我觉得这次小Y应该不会迟到，因此我按时出门。

假设小Y在5次迟到的次数中占了4次，也就是他按时到达的比例为20%。由于这个值低于我的阈值，因此我选择推迟出门的时间。

这种方法从它的利用层面来看。又称为经验法。在经验法的思考过程中，我其实利用了以往全部相约的数据。

因此也能够称之为依据数据做的推断。

依据数据所做的推断跟机器学习的思想根本上是一致的。

刚才的思考过程我仅仅考虑“频次”这种属性。在真实的机器学习中，这可能都不算是一个应用。一般的机器学习模型至少考虑两个量：一个是因变量。也就是我们希望预測的结果。在这个样例里就是小Y迟到与否的推断。还有一个是自变量，也就是用来预測小Y是否迟到的量。

假设我把时间作为自变量，譬如我发现小Y所有迟到的日子基本都是星期五，而在非星期五情况下他基本不迟到。于是我能够建立一个模型。来模拟小Y迟到与否跟日子是否是星期五的概率。见下图：

这种图就是一个最简单的机器学习模型，称之为决策树。

当我们考虑的自变量仅仅有一个时。情况较为简单。假设把我们的自变量再添加一个。比如小Y迟到的部分情况时是在他开车过来的时候(你能够理解为他开车水平较臭，或者路较堵)。于是我能够关联考虑这些信息。建立一个更复杂的模型，这个模型包括两个自变量与一个因变量。

再更复杂一点。小Y的迟到跟天气也有一定的原因，比例如以下雨的时候。这时候我须要考虑三个自变量。

假设我希望能够预測小Y迟到的详细时间。我能够把他每次迟到的时间跟雨量的大小以及前面考虑的自变量统一建立一个模型。于是我的模型能够预測值，例如他大概会迟到几分钟。

这样能够帮助我更好的规划我出门的时间。在这种情况下，决策树就无法非常好地支撑了，由于决策树仅仅能预測离散值。

我们能够用节2所介绍的线型回归方法建立这个模型。

假设我把这些建立模型的过程交给电脑。比方把全部的自变量和因变量输入，然后让计算机帮我生成一个模型。同一时候让计算机依据我当前的情况，给出我是否须要迟出门，须要迟几分钟的建议。

那么计算机运行这些辅助决策的过程就是机器学习的过程。

机器学习方法是计算机利用已有的数据(经验)。得出了某种模型(迟到的规律)，并利用此模型预測未来(是否迟到)的一种方法。

通过上面的分析，能够看出机器学习与人类思考的经验过程是相似的。只是它能考虑很多其它的情况，运行更加复杂的计算。

其实，机器学习的一个主要目的就是把人类思考归纳经验的过程转化为计算机通过对数据的处理计算得出模型的过程。经过计算机得出的模型能够以近似于人的方式解决非常多灵活复杂的问题。

以下，我会開始对机器学习的正式介绍，包括定义、范围，方法、应用等等，都有所包括。

从广义上来说。机器学习是一种能够赋予机器学习的能力以此让它完毕直接编程无法完毕的功能的方法。但从实践的意义上来说，机器学习是一种通过利用数据。训练出模型，然后使用模型预測的一种方法。

让我们详细看一个样例。

拿国民话题的房子来说。

如今我手里有一栋房子须要售卖。我应该给它标上多大的价格？房子的面积是100平方米。价格是100万。120万，还是140万？

非常显然，我希望获得房价与面积的某种规律。

那么我该怎样获得这个规律？用报纸上的房价平均数据么？还是參考别人面积相似的？不管哪种，似乎都并非太靠谱。

我如今希望获得一个合理的，而且能够最大程度的反映面积与房价关系的规律。

于是我调查了周边与我房型相似的一些房子，获得一组数据。这组数据中包括了大大小小房子的面积与价格，假设我能从这组数据中找出面积与价格的规律，那么我就能够得出房子的价格。

对规律的寻找非常easy，拟合出一条直线，让它“穿过”全部的点，而且与各个点的距离尽可能的小。

通过这条直线。我获得了一个能够最佳反映房价与面积规律的规律。

这条直线同一时候也是一个下式所表明的函数：

上述中的a、b都是直线的參数。获得这些參数以后，我就能够计算出房子的价格。

由于这条直线综合考虑了大部分的情况，因此从“统计”意义上来说，这是一个最合理的预測。

在求解过程中透露出了两个信息：

1.房价模型是依据拟合的函数类型决定的。

假设是直线。那么拟合出的就是直线方程。假设是其它类型的线，比如抛物线，那么拟合出的就是抛物线方程。

机器学习有众多算法，一些强力算法能够拟合出复杂的非线性模型，用来反映一些不是直线所能表达的情况。

2.假设我的数据越多，我的模型就越能够考虑到越多的情况，由此对于新情况的预測效果可能就越好。

这是机器学习界“数据为王”思想的一个体现。

一般来说(不是绝对)，数据越多。最后机器学习生成的模型预測的效果越好。

通过我拟合直线的过程，我们能够对机器学习过程做一个完整的回想。首先。我们须要在计算机中存储历史的数据。接着。我们将这些数据通过机器学习算法进行处理，这个过程在机器学习中叫做“训练”。处理的结果能够被我们用来对新的数据进行预測。这个结果一般称之为“模型”。

对新数据的预測过程在机器学习中叫做“预測”。“训练”与“预測”是机器学习的两个过程。“模型”则是过程的中间输出结果，“训练”产生“模型”，“模型”指导 “预測”。

让我们把机器学习的过程与人类对历史经验归纳的过程做个比对。

图5 机器学习与人类思考的类比

人类在成长、生活过程中积累了非常多的历史与经验。人类定期地对这些经验进行“归纳”。获得了生活的“规律”。当人类遇到未知的问题或者须要对未来进行“猜測”的时候。人类使用这些“规律”，对未知问题与未来进行“猜測”，从而指导自己的生活和工作。

机器学习中的“训练”与“预測”过程能够相应到人类的“归纳”和“猜測”过程。

通过这种相应，我们能够发现。机器学习的思想并不复杂，仅仅是对人类在生活中学习成长的一个模拟。

由于机器学习不是基于编程形成的结果，因此它的处理过程不是因果的逻辑，而是通过归纳思想得出的相关性结论。

这也能够联想到人类为什么要学习历史。历史实际上是人类过往经验的总结。有句话说得非常好。“历史往往不一样，但历史总是惊人的相似”。通过学习历史，我们从历史中归纳出人生与国家的规律，从而指导我们的下一步工作，这是具有莫大价值的。

当代一些人忽视了历史的本来价值，而是把其作为一种宣扬功绩的手段，这其实是对历史真实价值的一种误用。

上文虽然说明了机器学习是什么，可是并没有给出机器学习的范围。

其实，机器学习跟模式识别，统计学习，数据挖掘。计算机视觉，语音识别。自然语言处理等领域有着非常深的联系。

从范围上来说，机器学习跟模式识别。统计学习，数据挖掘是相似的。同一时候，机器学习与其它领域的处理技术的结合。形成了计算机视觉、语音识别、自然语言处理等交叉学科。因此，一般说数据挖掘时，能够等同于说机器学习。同一时候，我们寻常所说的机器学习应用，应该是通用的，不仅仅局限在结构化数据。还有图像，音频等应用。

在这节对机器学习这些相关领域的介绍有助于我们理清机器学习的应用场景与研究范围，更好的理解后面的算法与应用层次。

下图是机器学习所牵扯的一些相关范围的学科与研究领域。

图6 机器学习与相关学科

模式识别=机器学习。两者的主要差别在于前者是从工业界发展起来的概念。后者则主要源自计算机学科。在著名的《Pattern Recognition And Machine Learning》这本书中，Christopher M. Bishop在开头是这样说的“模式识别源自工业界，而机器学习来自于计算机学科。

只是，它们中的活动能够被视为同一个领域的两个方面，同一时候在过去的10 年间，它们都有了长足的发展”。

数据挖掘=机器学习+数据库。这几年数据挖掘的概念实在是太耳熟能详。差点儿等同于炒作。但凡说数据挖掘都会吹嘘数据挖掘怎样怎样，比如从数据中挖出金子，以及将废弃的数据转化为价值等等。可是，我虽然可能会挖出金子，但我也可能挖的是“石头”啊。这个说法的意思是，数据挖掘仅仅是一种思考方式，告诉我们应该尝试从数据中挖掘出知识，但不是每一个数据都能挖掘出金子的，所以不要神话它。一个系统绝对不会由于上了一个数据挖掘模块就变得无所不能(这是IBM最喜欢吹嘘的)，恰恰相反，一个拥有数据挖掘思维的人员才是关键。而且他还必须对数据有深刻的认识，这样才可能从数据中导出模式指引业务的改善。

大部分数据挖掘中的算法是机器学习的算法在数据库中的优化。

统计学习近似等于机器学习。统计学习是个与机器学习高度重叠的学科。

由于机器学习中的大多数方法来自统计学，甚至能够觉得。统计学的发展促进机器学习的繁荣昌盛。

比如著名的支持向量机算法。就是源自统计学科。可是在某种程度上两者是有分别的，这个分别在于：统计学习者重点关注的是统计模型的发展与优化，偏数学。而机器学习者更关注的是能够解决问题，偏实践，因此机器学习研究者会重点研究学习算法在计算机上运行的效率与准确性的提升。

计算机视觉=图像处理+机器学习。

图像处理技术用于将图像处理为适合进入机器学习模型中的输入，机器学习则负责从图像中识别出相关的模式。

计算机视觉相关的应用非常的多。比如百度识图、手写字符识别、车牌识别等等应用。这个领域是应用前景非常火热的，同一时候也是研究的热门方向。

随着机器学习的新领域深度学习的发展，大大促进了计算机图像识别的效果。因此未来计算机视觉界的发展前景不可估量。

语音识别=语音处理+机器学习。语音识别就是音频处理技术与机器学习的结合。

语音识别技术一般不会单独使用。通常会结合自然语言处理的相关技术。

眼下的相关应用有苹果的语音助手siri等。

自然语言处理=文本处理+机器学习。自然语言处理技术主要是让机器理解人类的语言的一门领域。

在自然语言处理技术中，大量使用了编译原理相关的技术，比如词法分析，语法分析等等，除此之外，在理解这个层面，则使用了语义理解，机器学习等技术。作为唯一由人类自身创造的符号，自然语言处理一直是机器学习界不断研究的方向。

依照百度机器学习专家余凯的说法“听与看，说白了就是阿猫和阿狗都会的，而仅仅有语言才是人类独有的”。

怎样利用机器学习技术进行自然语言的的深度理解，一直是工业和学术界关注的焦点。

能够看出机器学习在众多领域的外延和应用。

机器学习技术的发展促使了非常多智能领域的进步，改善着我们的生活。

通过上节的介绍我们知晓了机器学习的大致范围，那么机器学习里面到底有多少经典的算法呢？在这个部分我会简要介绍一下机器学习中的经典代表方法。这部分介绍的重点是这些方法内涵的思想，数学与实践细节不会在这讨论。

在大部分机器学习课程中。回归算法都是介绍的第一个算法。

原因有两个：一.回归算法比較简单。介绍它能够让人平滑地从统计学迁移到机器学习中。

二. 回归算法是后面若干强大算法的基石，假设不理解回归算法，无法学习那些强大的算法。回归算法有两个重要的子类：即线性回归和逻辑回归。

线性回归就是我们前面说过的房价求解问题。怎样拟合出一条直线最佳匹配我全部的数据？一般使用“最小二乘法”来求解。“最小二乘法”的思想是这样的。假设我们拟合出的直线代表数据的真实值，而观測到的数据代表拥有误差的值。

为了尽可能减小误差的影响，须要求解一条直线使全部误差的平方和最小。

最小二乘法将最优问题转化为求函数极值问题。函数极值在数学上我们通常会採用求导数为0的方法。

但这种做法并不适合计算机。可能求解不出来，也可能计算量太大。

计算机科学界专门有一个学科叫“数值计算”，专门用来提升计算机进行各类计算时的准确性和效率问题。

比如，著名的“梯度下降”以及“牛顿法”就是数值计算中的经典算法。也非常适合来处理求解函数极值的问题。

梯度下降法是解决回归模型中最简单且有效的方法之中的一个。

从严格意义上来说。由于后文中的神经网络和推荐算法中都有线性回归的因子。因此梯度下降法在后面的算法实现中也有应用。

逻辑回归是一种与线性回归非常相似的算法，可是，从本质上讲，线型回归处理的问题类型与逻辑回归不一致。线性回归处理的是数值问题，也就是最后预測出的结果是数字，比如房价。

而逻辑回归属于分类算法。也就是说，逻辑回归预測结果是离散的分类，比如推断这封邮件是否是垃圾邮件，以及用户是否会点击此广告等等。

实现方面的话，逻辑回归仅仅是对对线性回归的计算结果加上了一个Sigmoid函数，将数值结果转化为了0到1之间的概率(Sigmoid函数的图像一般来说并不直观，你仅仅须要理解对数值越大。函数越逼近1。数值越小，函数越逼近0)。接着我们依据这个概率能够做预測，比如概率大于0.5，则这封邮件就是垃圾邮件，或者肿瘤是否是恶性的等等。从直观上来说，逻辑回归是画出了一条分类线。见下图。

图7 逻辑回归的直观解释

假设我们有一组肿瘤患者的数据。这些患者的肿瘤中有些是良性的(图中的蓝色点)，有些是恶性的(图中的红色点)。

这里肿瘤的红蓝色能够被称作数据的 “标签”。同一时候每一个数据包括两个“特征”：患者的年龄与肿瘤的大小。我们将这两个特征与标签映射到这个二维空间上，形成了我上图的数据。

当我有一个绿色的点时。我该推断这个肿瘤是恶性的还是良性的呢？依据红蓝点我们训练出了一个逻辑回归模型，也就是图中的分类线。这时。依据绿点出如今分类线的左側，因此我们推断它的标签应该是红色，也就是说属于恶性肿瘤。

逻辑回归算法划出的分类线基本都是线性的(也有划出非线性分类线的逻辑回归。只是那样的模型在处理数据量较大的时候效率会非常低)，这意味着当两类之间的界线不是线性时，逻辑回归的表达能力就不足。

以下的两个算法是机器学习界最强大且重要的算法，都能够拟合出非线性的分类线。

神经网络(也称之为人工神经网络。ANN)算法是80年代机器学习界非常流行的算法，只是在90年代中途衰落。

如今，携着“深度学习”之势。神经网络重装归来，又一次成为最强大的机器学习算法之中的一个。

神经网络的诞生起源于对大脑工作机理的研究。早期生物界学者们使用神经网络来模拟大脑。机器学习的学者们使用神经网络进行机器学习的实验，发如今视觉与语音的识别上效果都相当好。在BP算法(加速神经网络训练过程的数值算法)诞生以后，神经网络的发展进入了一个热潮。BP算法的发明人之中的一个是前面介绍的机器学习大牛Geoffrey Hinton(图1中的中间者)。

详细说来，神经网络的学习机理是什么？简单来说，就是分解与整合。

在著名的Hubel-Wiesel试验中。学者们研究猫的视觉分析机理是这种。

比方说。一个正方形，分解为四个折线进入视觉处理的下一层中。四个神经元分别处理一个折线。每一个折线再继续被分解为两条直线，每条直线再被分解为黑白两个面。于是。一个复杂的图像变成了大量的细节进入神经元。神经元处理以后再进行整合。最后得出了看到的是正方形的结论。

这就是大脑视觉识别的机理，也是神经网络工作的机理。

让我们看一个简单的神经网络的逻辑架构。

在这个网络中，分成输入层。隐藏层，和输出层。输入层负责接收信号，隐藏层负责对数据的分解与处理。最后的结果被整合到输出层。每层中的一个圆代表一个处理单元。能够觉得是模拟了一个神经元，若干个处理单元组成了一个层，若干个层再组成了一个网络。也就是”神经网络”。

图9 神经网络的逻辑架构

在神经网络中，每一个处理单元其实就是一个逻辑回归模型，逻辑回归模型接收上层的输入，把模型的预測结果作为输出传输到下一个层次。通过这种过程，神经网络能够完毕非常复杂的非线性分类。

下图会演示神经网络在图像识别领域的一个著名应用，这个程序叫做LeNet，是一个基于多个隐层构建的神经网络。通过LeNet能够识别多种手写数字，而且达到非常高的识别精度与拥有较好的鲁棒性。

右下方的方形中显示的是输入计算机的图像，方形上方的红色字样“answer”后面显示的是计算机的输出。左边的三条竖直的图像列显示的是神经网络中三个隐藏层的输出，能够看出。随着层次的不断深入，越深的层次处理的细节越低，比如层3基本处理的都已经是线的细节了。LeNet的发明人就是前文介绍过的机器学习的大牛Yann LeCun(图1右者)。

进入90年代，神经网络的发展进入了一个瓶颈期。其主要原因是虽然有BP算法的加速。神经网络的训练过程仍然非常困难。因此90年代后期支持向量机(SVM)算法代替了神经网络的地位。

3、SVM（支持向量机）

支持向量机算法是诞生于统计学习界，同一时候在机器学习界大放光彩的经典算法。

支持向量机算法从某种意义上来说是逻辑回归算法的强化：通过给予逻辑回归算法更严格的优化条件。支持向量机算法能够获得比逻辑回归更好的分类界线。

可是假设没有某类函数技术，则支持向量机算法最多算是一种更好的线性分类技术。

可是，通过跟高斯“核”的结合。支持向量机能够表达出非常复杂的分类界线，从而达成非常好的的分类效果。

“核”其实就是一种特殊的函数，最典型的特征就是能够将低维的空间映射到高维的空间。

比例如以下图所看到的：

图11 支持向量机图例

我们怎样在二维平面划分出一个圆形的分类界线？在二维平面可能会非常困难。可是通过“核”能够将二维空间映射到三维空间。然后使用一个线性平面就能够达成相似效果。也就是说，二维平面划分出的非线性分类界线能够等价于三维平面的线性分类界线。于是，我们能够通过在三维空间中进行简单的线性划分就能够达到在二维平面中的非线性划分效果。

图12 三维空间的分割

支持向量机是一种数学成分非常浓的机器学习算法（相对的。神经网络则有生物科学成分）。

在算法的核心步骤中，有一步证明，即将数据从低维映射到高维不会带来最后计算复杂性的提升。于是，通过支持向量机算法，既能够保持计算效率，又能够获得非常好的分类效果。

因此支持向量机在90年代后期一直占领着机器学习中最核心的地位，基本代替了神经网络算法。

直到如今神经网络借着深度学习又一次兴起。两者之间才又发生了微妙的平衡转变。

前面的算法中的一个显著特征就是我的训练数据中包括了标签，训练出的模型能够对其它未知数据预測标签。

在以下的算法中，训练数据都是不含标签的，而算法的目的则是通过训练，猜測出这些数据的标签。这类算法有一个统称。即无监督算法(前面有标签的数据的算法则是有监督算法)。无监督算法中最典型的代表就是聚类算法。

让我们还是拿一个二维的数据来说。某一个数据包括两个特征。我希望通过聚类算法，给他们中不同的种类打上标签，我该怎么做呢？简单来说。聚类算法就是计算种群中的距离，依据距离的远近将数据划分为多个族群。

聚类算法中最典型的代表就是K-Means算法。

降维算法也是一种无监督学习算法，其主要特征是将数据从高维降低到低维层次。在这里，维度其实表示的是数据的特征量的大小。比如。房价包括房子的长、宽、面积与房间数量四个特征，也就是维度为4维的数据。

能够看出来，长与宽其实与面积表示的信息重叠了，比如面积=长 × 宽。通过降维算法我们就能够去除冗余信息。将特征降低为面积与房间数量两个特征，即从4维的数据压缩到2维。于是我们将数据从高维降低到低维，不仅利于表示。同一时候在计算上也能带来加速。

刚才说的降维过程中降低的维度属于肉眼可视的层次，同一时候压缩也不会带来信息的损失(由于信息冗余了)。假设肉眼不可视，或者没有冗余的特征。降维算法也能工作。只是这样会带来一些信息的损失。可是，降维算法能够从数学上证明，从高维压缩到的低维中最大程度地保留了数据的信息。

因此。使用降维算法仍然有非常多的优点。

降维算法的主要作用是压缩数据与提升机器学习其它算法的效率。

通过降维算法。能够将具有几千个特征的数据压缩至若干个特征。另外，降维算法的还有一个优点是数据的可视化。比如将5维的数据压缩至2维，然后能够用二维平面来可视。降维算法的主要代表是PCA算法(即主成分分析算法)。

推荐算法是眼下业界非常火的一种算法，在电商界，如亚马逊，天猫，京东等得到了广泛的运用。推荐算法的主要特征就是能够自己主动向用户推荐他们最感兴趣的东西，从而添加购买率。提升效益。推荐算法有两个基本的类别：

一类是基于物品内容的推荐。是将与用户购买的内容近似的物品推荐给用户，这种前提是每一个物品都得有若干个标签，因此才干够找出与用户购买物品相似的物品，这样推荐的优点是关联程度较大，可是由于每一个物品都须要贴标签。因此工作量较大。

还有一类是基于用户相似度的推荐，则是将与目标用户兴趣相同的其它用户购买的东西推荐给目标用户，比如小A历史上买了物品B和C，经过算法分析，发现还有一个与小A近似的用户小D购买了物品E，于是将物品E推荐给小A。

两类推荐都有各自的优缺点。在一般的电商应用中，通常是两类混合使用。

推荐算法中最有名的算法就是协同过滤算法。

除了以上算法之外，机器学习界还有其它的如高斯判别。朴素贝叶斯。决策树等等算法。

可是上面列的六个算法是使用最多，影响最广，种类最全的典型。机器学习界的一个特色就是算法众多。发展百花齐放。

以下做一个总结。依照训练的数据有无标签，能够将上面算法分为监督学习算法和无监督学习算法。但推荐算法较为特殊，既不属于监督学习，也不属于非监督学习，是单独的一类。

监督学习算法：线性回归。逻辑回归。神经网络，SVM

无监督学习算法：聚类算法，降维算法

除了这些算法以外，有一些算法的名字在机器学习领域中也常常出现。但他们本身并不算是一个机器学习算法，而是为了解决某个子问题而诞生的。你能够理解他们为以上算法的子算法。用于大幅度提高训练过程。当中的代表有：梯度下降法，主要运用在线型回归，逻辑回归，神经网络，推荐算法中。牛顿法，主要运用在线型回归中。BP算法。主要运用在神经网络中；SMO算法，主要运用在SVM中。

5.机器学习的应用–大数据

说完机器学习的方法。以下要谈一谈机器学习的应用了。无疑，在2010年曾经。机器学习的应用在某些特定领域发挥了巨大的作用，如车牌识别。网络攻击防范，手写字符识别等等。

可是，从2010年以后。随着大数据概念的兴起，机器学习大量的应用都与大数据高度耦合。差点儿能够觉得大数据是机器学习应用的最佳场景。

譬如。但凡你能找到的介绍大数据魔力的文章，都会说大数据怎样准确准确预測到了某些事。比如经典的Google利用大数据预測了H1N1在美国某小镇的爆发。

百度预測2014年世界杯，从淘汰赛到决赛全部预測正确。

图14 百度世界杯成功预測了全部比赛结果

这些实在太奇妙了，那么到底是什么原因导致大数据具有这些魔力的呢？简单来说，就是机器学习技术。正是基于机器学习技术的应用，数据才干发挥其魔力。

大数据的核心是利用数据的价值，机器学习是利用数据价值的关键技术。对于大数据而言。机器学习是不可或缺的。相反，对于机器学习而言，越多的数据会越可能提升模型的精确性。同一时候，复杂的机器学习算法的计算时间也迫切须要分布式计算与内存计算这种关键技术。

因此，机器学习的兴旺也离不开大数据的帮助。大数据与机器学习两者是互相促进，相依相存的关系。

机器学习与大数据紧密联系。

可是，必须清醒的认识到，大数据并不等同于机器学习，同理，机器学习也不等同于大数据。大数据中包括有分布式计算，内存数据库，多维分析等等多种技术。单从分析方法来看。大数据也包括以下四种分析方法：

1.大数据，小分析：即数据仓库领域的OLAP分析思路，也就是多维分析思想。
2.大数据，大分析：这个代表的就是数据挖掘与机器学习分析法。
3.流式分析：这个主要指的是事件驱动架构。
4.查询分析：经典代表是NoSQL数据库。

也就是说，机器学习仅仅是大数据分析中的一种而已。

虽然机器学习的一些结果具有非常大的魔力，在某种场合下是大数据价值最好的说明。但这并不代表机器学习是大数据下的唯一的分析方法。

机器学习与大数据的结合产生了巨大的价值。

基于机器学习技术的发展，数据能够“预測”。

对人类而言，积累的经验越丰富，阅历也广泛。对未来的推断越准确。比如常说的“经验丰富”的人比“初出茅庐”的小伙子更有工作上的优势，就在于经验丰富的人获得的规律比他人更准确。而在机器学习领域，依据著名的一个实验。有效的证实了机器学习界一个理论：即机器学习模型的数据越多，机器学习的预測的效率就越好。见下图：

图15 机器学习准确率与数据的关系

通过这张图能够看出，各种不同算法在输入的数据量达到一定级数后。都有相近的高精确度。于是诞生了机器学习界的名言：成功的机器学习应用不是拥有最好的算法，而是拥有最多的数据。

在大数据的时代，有好多优势促使机器学习能够应用更广泛。比如随着物联网和移动设备的发展，我们拥有的数据越来越多，种类也包括图片、文本、视频等非结构化数据。这使得机器学习模型能够获得越来越多的数据。

同一时候大数据技术中的分布式计算Map-Reduce使得机器学习的速度越来越快，能够更方便的使用。

种种优势使得在大数据时代，机器学习的优势能够得到最佳的发挥。

6.机器学习的子类–深度学习

近来，机器学习的发展产生了一个新的方向，即“深度学习”。

虽然深度学习这四字听起来颇为高大上，但其理念却非常easy，就是传统的神经网络发展到了多隐藏层的情况。

在上文介绍过。自从90年代以后，神经网络已经消寂了一段时间。

可是BP算法的发明人Geoffrey Hinton一直没有放弃对神经网络的研究。由于神经网络在隐藏层扩大到两个以上，其训练速度就会非常慢。因此有用性一直低于支持向量机。2006 年，Geoffrey Hinton在科学杂志《Science》上发表了一篇文章。论证了两个观点：

1.多隐层的神经网络具有优异的特征学习能力。学习得到的特征对数据有更本质的刻画。从而有利于可视化或分类；

2.深度神经网络在训练上的难度。能够通过“逐层初始化” 来有效克服。

通过这种发现，不仅攻克了神经网络在计算上的难度，同一时候也说明了深层神经网络在学习上的优异性。

从此，神经网络又一次成为了机器学习界中的主流强大学习技术。同一时候，具有多个隐藏层的神经网络被称为深度神经网络，基于深度神经网络的学习研究称之为深度学习。

由于深度学习的重要性质，在各方面都取得极大的关注，依照时间轴排序。有以下四个标志性事件值得一说：

2012年6月，《纽约时报》披露了Google Brain项目，这个项目是由Andrew Ng和Map-Reduce发明人Jeff Dean共同主导。用16000个CPU Core的并行计算平台训练一种称为“深层神经网络”的机器学习模型，在语音识别和图像识别等领域获得了巨大的成功。Andrew Ng就是文章開始所介绍的机器学习的大牛(图1中右者)。
2012年11月，微软在中国天津的一次活动上公开演示了一个全自己主动的同声传译系统。讲演者用英文演讲，后台的计算机一气呵成自己主动完毕语音识别、英中机器翻译，以及中文语音合成，效果非常流畅，当中支撑的关键技术是深度学习；
2013年1月，在百度的年会上。创始人兼CEO李彦宏高调宣布要成立百度研究院。当中第一个重点方向就是深度学习。并为此而成立深度学习研究院(IDL)。
2013年4月。《麻省理工学院技术评论》杂志将深度学习列为2013年十大突破性技术(Breakthrough Technology)之首。

图17 深度学习的发展热潮

文章开头所列的三位机器学习的大牛。不仅都是机器学习界的专家，更是深度学习研究领域的先驱。

因此，使他们担任各个大型互联网公司技术掌舵者的原因不仅在于他们的技术实力。更在于他们研究的领域是前景无限的深度学习技术。

眼下业界很多的图像识别技术与语音识别技术的进步都源于深度学习的发展。除了本文开头所提的Cortana等语音助手，还包括一些图像识别应用，当中典型的代表就是下图的百度识图功能。

深度学习属于机器学习的子类。基于深度学习的发展极大的促进了机器学习的地位提高，更进一步地。推动了业界对机器学习父类人工智能梦想的再次重视。

7.机器学习的父类–人工智能

人工智能是机器学习的父类。

深度学习则是机器学习的子类。假设把三者的关系用图来表明的话。则是下图：

图19 深度学习、机器学习、人工智能三者关系

毫无疑问，人工智能(AI)是人类所能想象的科技界最突破性的发明了，某种意义上来说，人工智能就像游戏最终幻想的名字一样，是人类对于科技界的最终梦想。从50年代提出人工智能的理念以后，科技界。产业界不断在探索，研究。

这段时间各种小说、电影都在以各种方式展现对于人工智能的想象。人类能够发明相似于人类的机器，这是多么伟大的一种理念。但其实，自从50年代以后，人工智能的发展就磕磕碰碰。未有见到足够震撼的科学技术的进步。

总结起来，人工智能的发展经历了例如以下若干阶段。从早期的逻辑推理。到中期的专家系统，这些科研进步确实使我们离机器的智能有点接近了，但还有一大段距离。

直到机器学习诞生以后，人工智能界感觉最终找对了方向。基于机器学习的图像识别和语音识别在某些垂直领域达到了跟人相媲美的程度。

机器学习使人类第一次如此接近人工智能的梦想。

其实，假设我们把人工智能相关的技术以及其它业界的技术做一个类比，就能够发现机器学习在人工智能中的重要地位不是没有理由的。

人类差别于其它物体，植物，动物的最主要差别，作者觉得是“智慧”。

而智慧的最佳体现是什么？

是计算能力么。应该不是。心算速度快的人我们一般称之为天才。

是反应能力么，也不是。反应快的人我们称之为灵敏。
是记忆能力么，也不是，记忆好的人我们一般称之为过目不忘。

是推理能力么，这种人我或许会称他智力非常高，相似“福尔摩斯”，但不会称他拥有智慧。
是知识能力么，这种人我们称之为博闻广。也不会称他拥有智慧。

想想看我们一般形容谁有大智慧？圣人，诸如庄子。老子等。智慧是对生活的感悟，是对人生的积淀与思考。这与我们机器学习的思想何其相似？通过经验获取规律。指导人生与未来。没有经验就没有智慧。

图20 机器学习与智慧

那么，从计算机来看，以上的种种能力都有种种技术去应对。

比如计算能力我们有分布式计算，反应能力我们有事件驱动架构，检索能力我们有搜索引擎。知识存储能力我们有数据仓库，逻辑推理能力我们有专家系统。可是，唯有相应智慧中最显著特征的归纳与感悟能力。仅仅有机器学习与之相应。

这也是机器学习能力最能表征智慧的根本原因。

让我们再看一下机器人的制造，在我们具有了强大的计算。海量的存储，高速的检索。迅速的反应，优秀的逻辑推理后我们假设再配合上一个强大的智慧大脑，一个真正意义上的人工智能或许就会诞生，这也是为什么说在机器学习高速发展的如今，人工智能可能不再是梦想的原因。

人工智能的发展可能不仅取决于机器学习。更取决于前面所介绍的深度学习。深度学习技术由于深度模拟了人类大脑的构成。在视觉识别与语音识别上显著性的突破了原有机器学习技术的界限，因此极有可能是真正实现人工智能梦想的关键技术。

不管是谷歌大脑还是百度大脑。都是通过海量层次的深度学习网络所构成的。或许借助于深度学习技术，在不远的将来，一个具有人类智能的计算机真的有可能实现。

最后再说一下题外话，由于人工智能借助于深度学习技术的高速发展，已经在某些地方引起了传统技术界达人的担忧。真实世界的“钢铁侠”。特斯拉CEO 马斯克就是当中之中的一个。

近期马斯克在參加MIT讨论会时，就表达了对于人工智能的担忧。

“人工智能的研究就相似于召唤恶魔，我们必须在某些地方加强注意。”

图21 马斯克与人工智能

虽然马斯克的操心有些危言耸听。可是马斯克的推理不无道理。“假设人工智能想要消除垃圾邮件的话。可能它最后的决定就是消灭人类。”马斯克觉得预防此类现象的方法是引入政府的监管。在这里作者的观点与马斯克相似。在人工智能诞生之初就给其加上若干规则限制可能有效，也就是不应该使用单纯的机器学习，而应该是机器学习与规则引擎等系统的综合能够较好的解决这类问题。

由于假设学习没有限制。极有可能进入某个误区。必须要加上某些引导。

正如人类社会中。法律就是一个最好的规则。杀人者死就是对于人类在探索提高生产力时不可逾越的界限。

在这里，必须提一下这里的规则与机器学习引出的规律的不同。规律不是一个严格意义的准则，其代表的很多其它是概率上的指导，而规则则是神圣不可侵犯。不可改动的。

规律能够调整。但规则是不能改变的。有效的结合规律与规则的特点，能够引导出一个合理的，可控的学习型人工智能。

8.机器学习的思考–计算机的潜意识

最后，作者想谈一谈关于机器学习的一些思考。主要是作者在日常生活总结出来的一些感悟。

回想一下我在节1里所说的故事，我把小Y过往跟我相约的经历做了一个罗列。可是这种罗列以往全部经历的方法仅仅有少数人会这么做，大部分的人採用的是更直接的方法，即利用直觉。那么，直觉是什么？其实直觉也是你在潜意识状态下思考经验后得出的规律。

就像你通过机器学习算法，得到了一个模型，那么你下次仅仅要直接使用即可了。那么这个规律你是什么时候思考的？可能是在你无意识的情况下。比如睡觉，走路等情况。这种时候，大脑其实也在默默地做一些你察觉不到的工作。

这种直觉与潜意识。我把它与还有一种人类思考经验的方式做了区分。假设一个人勤于思考，比如他会每天做一个小结，譬如“吾日三省吾身”。或者他常常与同伴讨论近期工作的得失，那么他这种训练模型的方式是直接的，明意识的思考与归纳。这种效果非常好。记忆性强，而且更能得出有效反应现实的规律。可是大部分的人可能非常少做这种总结，那么他们得出生活中规律的方法使用的就是潜意识法。

举一个作者本人关于潜意识的样例。作者本人曾经没开过车，近期一段时间买了车后。天天开车上班。我每天都走固定的路线。有趣的是，在一開始的几天，我非常紧张的注意着前方的路况，而如今我已经在无意识中就把车开到了目标。这个过程中我的眼睛是注视着前方的。我的大脑是没有思考。可是我手握着的方向盘会自己主动的调整方向。也就是说。随着我开车次数的增多。我已经把我开车的动作交给了潜意识。这是非常有趣的一件事。

在这段过程中。我的大脑将前方路况的图像记录了下来，同一时候大脑也记忆了我转动方向盘的动作。经过大脑自己的潜意识思考，最后生成的潜意识能够直接依据前方的图像调整我手的动作。假设我们将前方的录像交给计算机。然后让计算机记录与图像相应的驾驶员的动作。

经过一段时间的学习，计算机生成的机器学习模型就能够进行自己主动驾驶了。这非常奇妙，不是么。

其实包括Google、特斯拉在内的自己主动驾驶汽车技术的原理就是这样。

除了自己主动驾驶汽车以外，潜意识的思想还能够扩展到人的交际。譬如说服别人，一个最佳的方法就是给他展示一些信息。然后让他自己去归纳得出我们想要的结论。

这就好比在阐述一个观点时。用一个事实，或者一个故事。比大段的道理要好非常多。古往今来，但凡优秀的说客。无不採用的是这种方法。春秋战国时期，各国合纵连横，常常有各种说客去跟一国之君交流，直接告诉君主该做什么，无异于自寻死路，可是跟君主讲故事，通过这些故事让君主恍然大悟，就是一种正确的过程。

这里面有很多杰出的代表，如墨子，苏秦等等。

基本上全部的交流过程，使用故事说明的效果都要远胜于阐述道义之类的效果好非常多。为什么用故事的方法比道理或者其它的方法好非常多，这是由于在人成长的过程，经过自己的思考，已经形成了非常多规律与潜意识。假设你告诉的规律与对方的不相符。非常有可能出于保护，他们会本能的拒绝你的新规律，可是假设你跟他讲一个故事，传递一些信息，输送一些数据给他。他会思考并自我改变。他的思考过程实际上就是机器学习的过程，他把新的数据纳入到他的旧有的记忆与数据中，经过又一次训练。假设你给出的数据的信息量非常大，大到调整了他的模型，那么他就会依照你希望的规律去做事。

有的时候，他会本能的拒绝运行这个思考过程。但是数据一旦输入，不管他希望与否，他的大脑都会在潜意识状态下思考。而且可能改变他的看法。

假设计算机也拥有潜意识(正如本博客的名称一样)。那么会怎么样？譬如让计算机在工作的过程中，逐渐产生了自身的潜意识，于是甚至能够在你不须要告诉它做什么时它就会完毕那件事。这是个非常有意思的设想，这里留给各位读者去发散思考吧。

本文首先介绍了互联网界与机器学习大牛结合的趋势，以及使用机器学习的相关应用，接着以一个“等人故事”展开对机器学习的介绍。介绍中首先是机器学习的概念与定义。然后是机器学习的相关学科，机器学习中包括的各类学习算法。接着介绍机器学习与大数据的关系，机器学习的新子类深度学习。最后探讨了一下机器学习与人工智能发展的联系以及机器学习与潜意识的关联。

经过本文的介绍，相信大家对机器学习技术有一定的了解。比如机器学习是什么。它的内核思想是什么(即统计和归纳)，通过了解机器学习与人类思考的近似联系能够知晓机器学习为什么具有智慧能力的原因等等。

其次，本文漫谈了机器学习与外延学科的关系。机器学习与大数据相互促进相得益彰的联系。机器学习界最新的深度学习的迅猛发展，以及对于人类基于机器学习开发智能机器人的一种展望与思考。最后作者简单谈了一点关于让计算机拥有潜意识的设想。

机器学习是眼下业界最为Amazing与火热的一项技术，从网上的每一次淘宝的购买东西，到自己主动驾驶汽车技术。以及网络攻击抵御系统等等，都有机器学习的因子在内，同一时候机器学习也是最有可能使人类完毕AI dream的一项技术，各种人工智能眼下的应用，如微软小冰聊天机器人。到计算机视觉技术的进步。都有机器学习努力的成分。

作为一名当代的计算机领域的开发或管理人员。以及身处这个世界，使用者IT技术带来便利的人们。最好都应该了解一些机器学习的相关知识与概念，由于这能够帮你更好的理解为你带来莫大便利技术的背后原理，以及让你更好的理解当代科技的进程。

这篇文档花了作者两个月的时间。最终在2014年的最后一天的前一天基本完毕。通过这篇文章，作者希望对机器学习在国内的普及做一点贡献。同一时候也是作者本人自己对于所学机器学习知识的一个融汇贯通，总体归纳的提高过程。

作者把这么多的知识经过自己的大脑思考，训练出了一个模型。形成了这篇文档，能够说这也是一种机器学习的过程吧(笑)。

作者所在的行业会接触到大量的数据，因此对于数据的处理和分析是寻常非常重要的工作，机器学习课程的思想和理念对于作者日常的工作指引作用极大。几乎导致了作者对于数据价值的又一次认识。想想半年前，作者还对机器学习似懂非懂，如今也能够算是一个机器学习的Expert了(笑)。但作者始终觉得。机器学习的真正应用不是通过概念或者思想的方式，而是通过实践。仅仅有当把机器学习技术真正应用时，才可算是对机器学习的理解进入了一个层次。正所谓再“阳春白雪”的技术，也必须落到“下里巴人”的场景下运用。眼下有一种风气，国内外研究机器学习的某些学者，有一种高贵的逼格，觉得自己的研究是普通人无法理解的，可是这种理念是根本错误的。没有在真正实际的地方发挥作用，凭什么证明你的研究有所价值呢？作者觉得必须将高大上的技术用在改变普通人的生活上，才能发挥其根本的价值。

一些简单的场景，恰恰是实践机器学习技术的最好地方。

}