网易云基于Kubernetes的深度定制化实践

in 互联网前沿
关注公众号【好便宜】( ID:haopianyi222 ),领红包啦~
阿里云,国内最大的云服务商,注册就送数千元优惠券:https://t.cn/AiQe5A0g
腾讯云,良心云,价格优惠: https://t.cn/AieHwwKl
搬瓦工,CN2 GIA 优质线路,搭梯子、海外建站推荐: https://t.cn/AieHwfX9

2017年3月底,Kubernetes隆重发布了1.6版本,在节点规模、安全性、调度和存储上都有了重大进展。目前来看,不论从社区关注度还是实践案例角度,Kubernetes都已经超越Mesos和Docker Swarm,成为最受欢迎的容器编排技术。

网易云从2015下半年开始向Kubernetes社区贡献代码,是国内最早的Kubernetes实践者和贡献者,也是Kubernetes技术的积极布道者,网易云已经成为CNCF官方授权的CloudNative Meetup主办方。6月3日,网易云在网易杭州园区举办Kubernetes Meetup杭州站,活动邀请了Hyper项目成员、Kubernetes项目官方Project Manager和Feature Maintainer张磊,网易云容器编排技术负责人娄超,才云Caicloud高级软件工程师岑鹏浩,当当网数字业务事业部技术总监李志伟,为杭州的小伙伴们带来Kubernetes最新的技术进展和最佳实践。

本文主要整理了网易云容器编排技术负责人娄超的演讲“网易云基于Kubernetes的深度定制化实践”!

图片描述

娄超,网易云容器编排技术负责人。曾经参与淘宝分布式文件系统tfs和阿里云缓存服务研发,2015年加入网易参与网易云容器服务研发,经历网易云基础服务(蜂巢)v1.0,v2.0的容器编排相关的设计和研发工作,并推动网易云内部Kubernetes版本不断升级。

网易云容器服务的架构

网易云的容器服务基于网易云的IaaS。为了简化用户的操作,Kubernetes并不是直接暴露给用户的,而是通过上层的业务层为用户提供容器服务,增加独立的Netease-Controller, 对接网易IaaS及公共平台,资源管理和复杂的业务需求。

Kubernetes公有云实践

图片描述

Kubernetes的社区版本主要面向私有云市场,没有租户的概念,只有namespace的逻辑隔离,Node/pv等资源都是集群全局共享的,服务发现和负载均衡也都是全局的,Node须在集群内预备足够,不用担心资源调度出现失败,也无需关心Docker隔离安全性问题。而对于公有云来说,云中有着海量用户,用户的技术背景多样,需要很高的安全隔离性。网易云在基于Kubernetes实现公有云的过程中,做了很多工作。

  1. 首先,在多租户的安全隔离方面,有专门的IaaS团队提供主机、硬盘和网络的隔离;

  2. 对于每个租户来说,都可以自定义创建namespace;

  3. 原生的Kubernetes认证很简单,而且Node是全局共享的,每个Node上都可访问Kubernetes的所有资源,所以为了实现公有云,网易云做了租户级别的安全隔离,包括认证、授权和API分类统计和流控报警;

  4. 在网易云中计算、存储、网络资源均按需实时分配、回收,保证资源的利用率尽可能高;因为资源是实时分配的,所以创建起来一般比较慢,所以网易云对创建流程做了一些全局的优化,比如加快Node注册的进程,根据镜像选择主机等;

  5. 原生的Kubernetes中没有网络IP的概念,网易云增加了Network资源类型表示网络IP。

网易云容器Pod网络

容器的网络主要有以下几种方案:

网易云容器网络实现

网易云的容器服务的网络实现与GCE类似,基于底层的IaaS网络,通过Kubernetes与网易云网络对接,网易云容器与主机在网络上完全对等,租户内全互通。

Kubernetes中没有定义IP的管理,可能一个容器或节点重启一下,IP就变了。网易云通过IP的管理实现了IP的保持功能,同时Pod支持私有网、公网双重网络。

此外,网易云还实现了Pod的私有网、公网IP映射关系管理,在Kubelet上实现Netease CNI插件管理网卡挂卸载、路由配置。

网易云有状态容器

提到容器的状态,人们常用Cattle和Pet来做比喻。Cattle是指无状态的容器,随时可以被替换,Pet则是有标记的,它的数据、状态和配置可能都需要持久化。社区从1.3版本就开始用PetSet实现有状态的容器,最新的1.6版本中,是叫StatefulSet。

网易云在社区版本的有状态容器诞生之前(1.0版本),就自研了StatefulPod的实现方式:

网易云Kubernetes性能优化

一般在实现公有云时,尽量会保证同一个机房内,只有一个Kubernetes集群,但随着用户的增多,集群的规模也越来越大,会出现很多性能问题。网易云随着社区的发展一路走来,也遇到了很多社区可能在设计之初并没有预料到的问题,比如:

  1. Kube-scheduler对所有pod顺序串行调度

  2. Kube-controller的deltaQueue是无优先级的FIFO队列

  3. Serviceaccounts控制器里没有Secret本地缓存

  4. 所有Node重复配置集群所有Service的iptables规则

  5. Kubelet的SyncLoop每次检查都重复GET imagePullSecrets

  6. 大量Node的心跳汇报严重影响了Node的watch

  7. Kube-apiserver 没有查询索引

针对这些问题,网易云做了很多性能优化,首先是master端的调度器:

图片描述

上图就是在网易云中并行调度的过程。

然后是mater端控制器的优化:

图片描述

Kubernetes中有很多控制器,比如Node控制器、namespace控制器,其中replication controller是一个核心的控制器,能确保任何时候Kubernetes集群中有指定数量的pod副本在运行。网易云创建了事件优先级机制,根据事件类型进入优先级队列workqueue。

Node端的优化:

网易云的用户很多,用户之间都是完全隔离的,网易云kube-proxy按租户对Node分组:

Kubelet降低master请求负载:

接下来是针对单集群扩展的优化:

根据官方的数据,Kubernetes 1.0最多支持100个Node,3000个Pod;在1.3版本中这个数字上升到2K个Node,6W个Pod,今年最新发布的1.6版本已经支持5K个Node,15W个Pod。

图片描述

通过上图可以知道APIserver是整个集群的通信网关,只是一个proxy代理,而且goroutine对web服务完美支持,最终性能瓶颈在对 Etcd的访问上。

为了解决这个问题,首先想到的是分库,按Node/RS/Pod/Event分库存入多个Etcd集群。因为Etcd本身容量和性能均不能水平扩展,而且没有性能诊断工具;

Node心跳汇报模式修改

其它优化

镜像、容器的GC完善:目前的GC只考虑了磁盘的空间使用量,没考虑inode的问题,很多用户的小文件很多,所以网易云新增了磁盘inode使用率检查

容器监控统计:Cadvisor新增网络流量、TCP连接、磁盘相关统计

NodeController安全模式,自定义Protected,Normal,Advanced 3种模式。

还需要注意的一些问题:

关注公众号【好便宜】( ID:haopianyi222 ),领红包啦~
阿里云,国内最大的云服务商,注册就送数千元优惠券:https://t.cn/AiQe5A0g
腾讯云,良心云,价格优惠: https://t.cn/AieHwwKl
搬瓦工,CN2 GIA 优质线路,搭梯子、海外建站推荐: https://t.cn/AieHwfX9
扫一扫关注公众号添加购物返利助手,领红包
Comments are closed.

推荐使用阿里云服务器

超多优惠券

服务器最低一折,一年不到100!

朕已阅去看看