训练任务创建后会以应用容器嘚方式运行。可以在容器服务管理控制台查看应用运行详情进入容器进行管理操作等。
- 在 Swarm 菜单下单击左侧导航栏中的 应用。
- 在应用列表页面找到前面创建的应用 test-caffe。
-
单击应用名查看更多任务执行的状况。可以看到上述任务有一个容器 test-caffe_worker1 在运行
可以查看该容器的运行的節点位置,查看资源监控和日志信息也可以通过简单的 web 远程终端,直接进入该容器内部效果和通过SSH进入容器一样。
-
通过简单的 web 远程终端进入容器内部操作
根据训练任务的复杂程度,在等待一段时间后训练结束。任务容器会自动退出释放所占用的 GPU 等资源。
至此通過自定义镜像的方式,用户可以使用容器服务简单、快速地运行基于 Caffe 等任何深度学习框架的模型训练训练任务调度、计算资源分配、GPU 使鼡率优化、数据存储的集成、集群管理,监控和运维等工作都不需要用户额外的投入