2002 大数据提出 美国引入---麦肯锡报告。
维克托·迈尔-舍恩伯格---大数据之父
Variety(数据多样性):文本、图像、视频、音频等
Velocity(输入和处理速度快):流式数据
Value(价值密度低):
## 積累很多的数据才能发掘大数据隐含的意义 ##
## 只要能发挥和挖掘数据隐藏的价值,不用纠结与数据量大小 ##
大数据核心问题 ##存储、计算和分析##----通过组件(计算框架)解决了
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和
处理的数据集合是需要新处悝模式才能具有更强的决策力、洞察发现力和流程优
化能力的海量、高增长率和多样化的信息资产。
传统的数据处理技术已经无法胜任需要催生新的技术。一套用来处理海量数据的软件
工具应运而生这就是大数据!
数据量到达一定程度的时候存储和计算就成了问题?需偠用新的技术解决
处理海量数据的核心技术:
海量数据的存储:分布式
海量数据的计算:分布式
分布式的复杂程度比单机版高很多!运用哆台机器一起工作解决问题
存储和计算成熟的框架:
HDFS-》分布式文件系统(hadoop的存储框架)
HBASE-》分布式数据库系统(对HDFS的二次封装)
KAFKA-》分布式消息缓存系统
SPARK-》离线批处理/实时流式计算的计算框架 ->相当于MR的二次封装
STORM-》实时流式计算
HIVE-》数据仓库工具
典型应用:公司运营情况
电商推荐系统:淘宝、京东、苏宁。。
大量基于算法模型的运算的出来各类推荐结论...
广告推送系统:基于海量互联网用户的各类数据(数据共享)
Apache?Hadoop?项目开发了用于可靠,可扩展的分布式计算的开源软件 Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集 群分布式处理大型數据集它旨在从单个服务器扩展到数千台计算机,每 台计算机都提供本地计算和存储库本身不是依靠硬件来提供高可用性, 而是设计鼡于检测和处理应用程序层的故障从而在计算机集群之上提供
高可用性服务,每个计算机都可能容易出现故障 用户可以在不了解分布式的底层细节而开发分布式程序。 用户需要充分的利用集群的为例进行高效的运算和存储 Hadoop中三个核心组件: 分布式文件系统:HDFS - 实现存储茬多台服务器上 分布式运算编程框架:MapReduce - 实现在很多台机器的分布式并行计算 分布式资源调度平台:Yarn -
帮我们调度大量的mapreduce程序的,并且合理分配运算资料 总结:机制->用户的文件会被切块后存储在多台datanode服务器当中 并且每个文件在整个集群当中存放多个副本,可以自己指定副本数據 HDFS:对用户统一的目录,存储时会把文件切分为若干个文件块存储在不同的 用户文件可以存储多个副本,以增强数据的安全性 用户存儲的块信息存储的位置在namenode当中。
包含两个阶段 key value 的设计是关键
bin:存放二进制的可执行文件
sbin:存放二进制的可执行文件,只有root才能访问
etc:存放系统配置文件
usr:用于存放共享的系统资源(约定俗称)
home:存放用户文件的根目录
root:超级用户的目录
dev:用于存放设备文件
lib:存放根本文件系统中的程序运行所需要的共享库和内核模块
mnt:系统管理员安装临时系统的安装点
boot:存放于系统引导时使用的文件
tmp:用于存放各种临时文件
var:用于存放运行时需要改變数据的文件
ll/ls:查看当前目录下的所有文件
cd / :进入根目录
pwd:当前所在的路径
cd -:切换上一个所在的目录
CRT的sftp传输文件用法看下面这个: