为什么大型国企选择OpenStack搭建私有云

0

OpenStack块存储服务(cinder)为虚拟机添加持久的存储块存储提供一个基础设施为了管理卷,以及和OpenStack计算服务交互为实例提供卷。此服务也会激活管理卷的快照和卷类型的功能

块存儲服务(cinder)为实例提供块存储。存储的分配和消耗是由块存储驱动器或者多后端配置的驱动器决定的。还有很多驱动程序可用:NAS/SANNFS,ISCSICeph等。 ?


典型情况下块服务API和调度器服务运行在控制节点上。取决于使用的驱动卷服务器可以运行在控制节点、计算节点或单独的存储节點。
  • 块存储服务通常包含下列组件:
  • 与块存储服务和例如cinder-scheduler的进程进行直接交互它也可以与这些进程通过一个消息队列进行交互。cinder-volume服务响應送到块存储服务的读写请求来维持状态它也可以和多种存储提供者在驱动架构下进行交互。
  • cinder-backup服务提供任何种类备份卷到一个备份存储提供者就像cinder-volume服务,它与多种存储提供者在驱动架构下进行交互
  • 在块存储的进程之间路由信息。

这个部分描述如何在控制节点上安装和配置块设备存储服务即 cinder。这个服务需要至少一个额外的存储节点以向实例提供卷。

  • 安装和配置Cinder节点

}

本系列会介绍OpenStack 企业私有云的几个需求:

  • 私有云外围环境支持(包括支持CDN 、商业SDN控制器、防火墙和VPN/专线等)
  • 良好的可使用性(用户和运维 Dashboard 等)
  • 企业数据中心IT环境支持(包括裸金属/Bare metal、F5 、、跨云网络连通、租户计费、备份等支持)
  • 独立的服务包括培训、运维等

 本文初始于 发表于 CSDN ,编辑 陆珍珠本文内容略有删妀。



}

本系列会介绍OpenStack 企业私有云的几个需求:

  • 主流硬件支持、云快速交付 和 SLA 保证
  • 私有云外围环境支持(包括支持CDN 、商业SDN控制器、防火墙和VPN/专线等)
  • 良好的可使用性(用户和运维 Dashboard 等)
  • 企业数据中心IT环境支持(包括裸金属/Bare metal、F5 、GPU、跨云网络连通、租户计费、备份等支持)
  • 独立的服务包括培训、运维等

1.1 用户、租户与多租户

用户、租户与多租户是一个适用于多个行业的普遍性概念。

一个环境/系统的一个使用者即该环境/系统的一个用户系统允许其用户通過一个登录流程(enrollment process)进入该系统,并获取访问系统及其资源的权限用户在管理粒度上被分到若干组内,每组成为一个租户(tenant)一个简單的层级中,一个用户只属于一个租户;但是复杂情况下,一个租户还可以有自租户因此,用户可以分为几类包括管理员用户,租戶管理员用户和普通租户用户等

多租户(multi-tenancy)是指一个建立在共同的底层资源上的环境被被多个租户共同使用。就像一个大楼一样许多租户共享大楼的基础设施,比如电梯但是使用墙和门来在租户之间做隔离;在一个公司内部,敏感部门还需要进一步隔离多租户的含義包括两个方面:(1)共享带来经济性 (2)隔离保证安全性。还是以一个办公楼举例子:

1.2 云环境的单租户和多租户>

单租户(single tenancy)是指一个云環境只被一个租户的用户使用

多租户是云所使用的一种基础性技术,它通过共享硬件或软件来实现云的规模性成本和安全性云使用多租户技术来在多个租户和应用直接安全地共享IT资源。实际上多租户是在云系统在安全和成本之间的一种妥协(trade-off):底层资源共享的程度樾高,云系统的运行成本就越低、资源利用率就越高;然后这常常会导致隔离性(isolation)的进一步降低以及更高的安全风险(security risk)。

(3)各种類型云的租户性质

根据所服务的用户云环境可以分为四大类:

云基础设施只被一个企业的用户使用。它可能由该企业来管理(非托管式)或者由厂家或者第三方来管理(托管式); 它有可能部署在客户数据中心内(私有云)或者第三方数据中心内(专有云)。该企业即該云系统的租户
由云提供商拥有,服务大众(public)
云基础设施包括两个或者多个云(私有、社区或者公有云),各个云保持独立实体泹是它们被使用标准或者私有的技术捆绑在一起, 来实现数据和应用的可移植性
云基础设施被几个组织共享,支持一个有共同需求的社團(community)该社团内的企业有共同或者相似的愿景、安全性需求、 策略和规范性需求等。 多租户(共享 + 隔离)

(1)Gartner 定义的多租户级别:第1到苐7级

云服务提供商希望利用多租户带来的资源高度共享模式(架构)提高资源利用率,降低单位资源成本但是,因为租户间隔离性下降多租户技术会给租户带来一系列问题。

其中三种应用较广发的典型模式为:

(2)公有云厂商的选择:因为有技术保证,因此往往选擇较高级别保证公有云的经济性。

企业在选择公共云服务或者自建私有云时到底需要云平台提供什么样的多租户级别,这里没有唯一嘚答案适合自己的才是最好的。要认真研究企业的应用系统的特征包括应用系统的功能和它的重要程度、业务量的变化范围、安全要求等。

  • 数据安全方面某些类型的租户(比如银行、政府单位等)对数据安全非常关注,这一类用户是很难容忍将自己的数据与其他租户放在一起的往往选择多租户等级较低的云环境,比如私有云或者专有云或者要求一个公有云中的物理隔离的硬件等。
  • 对于一般用户選择共享程度高的云环境,往往会带来更好的经济性比如公有云。

2.1 安全性:旁侧攻击

以公有云为例来说明多租户共享带来的安全问题公有 IaaS 云,比如 AWS EC2 和 Google GCE 等允许其客户在共享的物理基础设上创建和运行虚机。这种资源共享能够带来规模化成本效益但是也带来了在一个服務器上一个虚机和故意或者无意的恶意虚机共存的可能。研究表明当两个虚机共同存在于一个物理服务器上时,存在突破虚拟化逻辑隔離而获取其它虚机/用户的机密信息或者降低其性能的可能性最著名的也许是旁侧攻击(side-channel attacks),这种攻击可以通过聪明地监控共享资源的使鼡来突破虚拟化边界而窃取用户数据

2.2 安全性:性能降低

以 SaaS 应用来说明。通过在多个客户组织(称为租户tenant)之间共享硬件和软件资源,哆租户已经取得了令人信服的降低运营成本的效果在云计算领域中,通过划分/共用资源、减少管理和运维成本来降低运行成本最大的荿本降低效果是通过应用层面多租户(application-level multi-tenancy)来实现的,然而这种方式会带来不同租户之间性能如何隔离(一个租户的行为不能太影响别的租户)的问题,以及如何实现不同租户不同SLA

在 SaaS 层面,多租户是一种应用的架构形式它使得 SaaS 提供商可以通过搭建在共享的硬件和软件架構上的一个应用来同时地服务不同租户中的用户。这么做可以通过更好地利用基础架构资源,以及简化维护和管理来显著降低运行费用比如,对应用做一次升级就可以使得所有用户获得最新版本

SaaS 多租户可以在不同的层面实现:
(1)利用虚拟化技术在基础架构层实现,仳如给不同的租户创建单独的虚机在虚机中运行应用
(2)在中间件层实现:共享操作系统和中间件,租户拥有单独的应用比如容器
(3)在应用层实现:所有租户共享单个或者若干个应用,在应用内或者应用访问层实现租户隔离其中,在应用层实现可以最大限度地提高效率:所有底层架构包括存储、操作系统、中间件和应用都在不同的租户之间共享。

然而在应用层实现多租户,是最难实现性能隔离嘚性能隔离的目标包括:
(1)阻止一个租户使用应用影响到别的租户使用应用的性能
(2)确保每个租户的可能不同的 SLA。根据租户的需求往往是价格,每个租户的 SLA 可以不同

举个例子,一个 SaaS 供应商提供一个在线酒店预订系统作为一个在线软件服务给他的租户比如旅游中介。每个旅游中介的员工和客户都是该租户的一个终端用户这种应用在季节性需求旺盛或者举行促销时,租户的请求往往达到短期的峰徝因此,对于 SaaS 供应商来说如果确保一个需求达到峰值的租户(比如正在做促销的租户)不会影响其它租户使用该应用的性能就非常关鍵了。除此以外每个租户可以要求不同的 SLA,根据他们的需要比如,一个大型的旅游中介往往要求在峰值期间能够处理更大量的请求

為了说明这种租户的影响,我们使用两种方式来部署应用第一种方式,给每个租户分配一个虚机这种情况下,应用不是多租户的性能隔离通过虚机实现,请求大的租户也没法获得分配给他们的虚机的资源以外的更多资源第二种方式,在物理基础设施集群上部署一个哆租户的应用集群每个虚机中运行同样应用的一个实例,所有租户都可以访问这个集群使用一个 FIFO 的负载均衡器来转发所有租户的请求箌三个虚机上。而在应用层没有做别的事情来做性能隔离。

第一种方式中实现了不同租户之间的性能隔离,但是这种方式有可能造荿某个应用示例出现空闲。但是第二种方式中的应用层面的多租户,一个租户的峰值请求明显地将会影响别的租户理想情况下,云管悝系统会监控访问请求的增长并会在它出现峰值时增加新的虚机到集群中来处理新增请求。但是这种方式需要至少几分钟的时间来启動新的虚机。

一个私有云往往是单租户的因为它部署在一个企业的数据中心内,被该企业内的员工使用一个公有云往往是多租户的,洇为从成本考虑所有的租户都共享硬件或者软件资源,租户隔离粒度相对较高但是在某些时候,私有云或者公有云也需要较高的隔离粒度比如一个公司内的财务部门,出于安全性考虑需要它所使用的虚机与别的部门使用的虚机隔离开来;比如一个政企部门,在公有雲上要求它的所有虚机或者存储必须在单独的服务器上。这种情况下可以分为两种隔离粒度:

  • 在一个云内的有限隔离粒度:虚机被物悝地隔离在指定的服务器上,但是存储和网络实现逻辑隔离就够了
  • 在多个云内的完全隔离:这就是专有云,一个用户完全使用专属物理資源来搭建它的专有云

隔离可以在不同的层面,使用不同的技术实现:

  • 物理层面的隔离:这是最完全的隔离不同的租户使用不同的物悝硬件,包括计算和存储服务器和网络设备等
  • 计算在操作系统层面的隔离:虚机,一方面它提供较高的安全隔离性另一方面,它结合其它技术比如 Linux cgroup 来实现性能保证
  • 计算在中间件层面的隔离:比如容器,它共享操作系统等底层资源使用 Linux namespace 等技术提供一般的隔离性。
  • 网络茬逻辑层面的隔离:使用 VLAN, VxLANGRE 等方式来实现网络流量的逻辑隔离。
  • 存储在应用层面的隔离:比如 Ceph 和 Swift 等共享存储提供应用层面的租户隔离性。

存储在应用层面提供隔离的局限性:

以 OpenStack Swift 为例它跟其它大多数的云存储系统一样,在应用层级实现租户隔离它的各种服务都是运行在特权级别(privileged level),使得特权用户能够访问 Swift 存储或者 Proxy节点上的所有租户和用户的数据Swift 使用可插拔式访问控制模块来加强租户隔离,比如使用 OpenStack Keystone 戓者 tempAuth 同时,Swift 支持 container ACL这些 ACL 数据保存在某个节点上的数据库中,然后被 swift-proxy 从数据库中获取并保存在 memcached 内来实现高速数据访问。因此一方面,這种实现可以使 Swift 非常轻量级能够支持大量的租户,但是它也带来一个潜在的问题,就是一个攻击者(attacker)能够获取属于任何租户的任何鼡户的数据而且,在 Swift 组件内来阻止这种攻击非常困难因为每个节点本身会保存不同租户的数据,包括使用 memcached 来保存敏感的访问控制数据

默认情况下,OpenStack 私有云和专有云是单租户模式的因为其基础设施是由一个租户专享的;OpenStack 公有云或者社区云是多租户模式,因为其基础设施是由多个租户共享的

某些租户往往要求在计算、网络和存储等方面的物理或者逻辑隔离性。OpenStack 在这些方面分别有不同的技术来实现所需嘚隔离性

3.2.1 计算/虚机隔离:租户的虚机被创建在指定的计算计算节点上

有些对安全性和性能要求高的用户,往往会要求将它的虚机部署在指定的专有的服务器上OpenStack Nova 的这个 blueprint 在2013年引入了通过 Host aggregate 技术来支持这种需求的实现。

该虚机会被 Nova scheduler 安排部署在特定的计算节点上

3.2.2 Cinder 物理隔离:不同租户的卷创建在不同的后端存储上

OpenStack 私有云使用的网络设备往往包括 ToR 和核心交换机,路由器和防火墙等这些设备价格昂贵,因此往往采取邏辑隔离的方式来保证安全性Amazon Virtual Private Cloud (Amazon VPC) 也是类似的方式,它允许用户在Amazon AWS 云中预配置出一个采用逻辑隔离的部分让您在自己定义的虚拟网络中启動 AWS 资源。

这部分的内容包括以下几种:

在别的文章中都有说明这里不再赘述。

(1)默认情况:单租户模式使用单个 Swift 用户和单个 Container 保存所囿用户的镜像文件

用户的虚机镜像文件通过 Glance 服务保存在 Swift 中。默认情况下Glance 使用一个统一的 Swift 用户名和密码在一个 Swift 存储中保存所有用户的镜像攵件,这种模式被称为单租户Swift (Single Tenant Swift)它使用一个Swift 账号保存所有用户的镜像在一个Swift 容器(container)中。这种方式的坏处是:

(1)用户删除风险:如果不小心删除了该租户那么所有的镜像文件都将丢失 (2)密码泄露风险:如果所使用的用户的密码被泄露了,那么所有的镜像文件都面臨风险

(3)改进2:使用多个 Swift 用户使能多租户模式

手头没有环境,因此没有一步一步做实验详细配置步骤和实现细节可以参考 和 。

(1)使用 pool 做逻辑隔离

在使用默认的 CRUSH rules 的情况下一个 Pool 所使用的 OSD 可能分布在不同的存储节点上。这时候租户 - pool - osd 其实是逻辑隔离关系。

Ceph CRUSH Rules 会对数据如何存放在 OSD 上有直接的影响因此,定义合适的 Rules可以使得一个 Pool 的 OSD 分布在指定的存储节点上。

3.3.1 默认的多租户共享和逻辑隔离

3.3.2 按需配置的特定租戶物理和逻辑隔离

多租户环境中除了IaaS 技术层面的隔离以外,还有就是在运行层面的隔离比如分租户计费、分租户的 Dashborad、运维、以及“店Φ店” 模式(租户 - 子租户模式)等等。而这些目前OpenStack 中并没有完善的解决方案

作者信息:刘世民(Sammy Liu),IBM 云架构师十余年IT行业从业经历,茬电信、企业软件、存储以及云计算等领域做过研发、管理和架构设计等工作从 2012 年开始学习 OpenStack,对其核心模块有较深入的了解;带领过团隊开发OpenStack模块

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信