如何使用Kubernetes GPU集群自动化深度学习训练

  • 【想提高技能的速度看过来!】

    他是 @杨建荣, DBADBAplus 社群联合发,近 10 年经验老兵!Oracle 10g OCM OCP 认证专家,曾从 2012 年开始每天坚持撰写技术文章现已坚持 1100 多天!看到很多人,总是因为 DBA 感到职业发展迷茫、为技能提升焦虑于是开了一个免费公开课,希望帮助大家

    长按下方图中,赶快添加小助手获取免费听课地址吧!

}

训练任务创建后会以应用容器嘚方式运行。可以在容器服务管理控制台查看应用运行详情进入容器进行管理操作等。

  1. 在 Swarm 菜单下单击左侧导航栏中的 应用
  2. 在应用列表页面找到前面创建的应用 test-caffe。
  3. 单击应用名查看更多任务执行的状况。可以看到上述任务有一个容器 test-caffe_worker1 在运行

    可以查看该容器的运行的節点位置,查看资源监控和日志信息也可以通过简单的 web 远程终端,直接进入该容器内部效果和通过SSH进入容器一样。


  4. 通过简单的 web 远程终端进入容器内部操作

    根据训练任务的复杂程度,在等待一段时间后训练结束。任务容器会自动退出释放所占用的 GPU 等资源。

    至此通過自定义镜像的方式,用户可以使用容器服务简单、快速地运行基于 Caffe 等任何深度学习框架的模型训练训练任务调度、计算资源分配、GPU 使鼡率优化、数据存储的集成、集群管理,监控和运维等工作都不需要用户额外的投入

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信