深度学习环境准备之docker常用操作详解和pycharm/tensorboard远程使用方法

发布时间：2023-01-09 23:30

作为深度学习算法工程师，除了要跟论文、公式、数据、代码打交道，还有更基础、有时候也是最头疼的就是环境，环境操作的熟练程度对工作效率有重要影响。经过无数次的挖坑踩坑，有必要把常用的环境操作进行总结梳理。

为了支持多个不同的工程，只有一个环境一般是不够的，使用过的多环境工具有anaconda虚拟环境、pipenv、docker等，但在大规模工程实践中，docker在多系统移植、多平台支持和多用户复用和隔离等方面有着非常大的优势，所以应用更加广泛。本文主要介绍docker的基本操作，以及搭建好docker环境后，如何使用本地pycharm远程连接docker环境并在本地浏览器使用tensorboard进行可视化分析。

一、docker基本操作和应用场景

docker有两个基本概念：镜像（image）和容器（container）,二者的关系类似于类和对象，一个是静态且固化的环境文件，一个是运行起来的、可以修改和操作的环境实例。docker的所有操作的前提是已经安装好docker软件，并且存在至少一个基础镜像，基础镜像可以从远程镜像仓拉取或者自行下载。

下面从基于一个基础镜像启动一个新的容器开始：

1.查看所有本地镜像

查看本地镜像的命令是：

 docker images

可以看到镜像名称、ID、创建时间、size和标签（TAG），假设有一个镜像名称和标签为image_test:1.0

2.创建容器

创建容器的命令有：

docker run
或docker create

二者都是基于一个镜像创建新的容器，区别是docker create只创建不启动，而docker run创建后启动。

注意在docker19版本之前，docker是不支持gpu的，因而无法使用nvidia显卡，如果需要使用nvidia，需要使用nvidia-docker命令，而docker19版本之后不需要。假设我们要创建一个名为container_test的容器并启动它:

nvidia-docker run --name container_test image_test:1.0

如果需要启动后直接进入容器，则需要加上-it参数

如果需要外部访问容器，需要用-p参数设置容器与服务器之间的端口映射。由于后续要使用pycharm（默认22端口）和tensorboard（默认6006端口），所以至少需要设置两个端口映射。

如果需要挂载服务器地址，需要用-v参数设置容器与服务器之间的地址映射。由于需要使用docker运行服务器中/home/my_name/projects下的代码，所以需要将这个地址映射到容器内，假设新建一个/workspace

由于默认给docker分配的共享内存只有64M，所以需要用--shm-size调整大小。

所以完整命令可以写为：

nvidia-docker run --name container_test  --shm-size="32g" -v /home/my_name/projects:/workspace -p 40010:22 -p 40011:6006 -it  image_test:1.0

要注意这些设置一旦设置后不能修改，只能重新创建一个新的容器。

3.查看、启动和进入容器

现在系统中已经存在创建好的容器，部分容器已启动，查看所有启动中的容器的命令是：

docker ps

查看所有容器（包括未启动）的话，加上-a 参数

假设要启动、停止、重启我的容器：

docker start container_test
docker stop container_test
docker restart container_test

进入启动中的容器：（停止的容器不能进入，需要先start）

docker exec -it container_test bash
docker attach container_test

这两个命令都可以进入容器，但是是有区别的。假设已经有一个终端进入容器，exec命令是在另一个终端重新开一个进程，和原进程彼此间互不影响，而attach命令是在另一个终端进入同一个进程，两个终端的信息将同步显示。

退出容器：

exit
ctrl+d
ctrl+p ctri+q

前两个命令退出后容器停止，第三个命令退出后容器仍在运行，此时再进入容器适合使用attach命令。

4.容器的网络代理和pip设置

如果需要代理上网，则应该进行一些docker的代理配置。具体操作可以参见以下博客：

docker代理配置详解_、Dong的博客-CSDN博客

因为docker容器是一个独立的环境，所以像pip源的设置需要重新设置一下，方法一是修改~/.pip/pip.conf文件，如设置为豆瓣源：

[global]
timeout = 60
index-url=http://pypi.douban.com/simple
trusted-host=pypi.douban.com

方法二是直接用命令行设置：（如阿里源）

    pip config set global.trusted-host mirrors.aliyun.com
    pip config set global.index-url https://mirrors.aliyun.com/simple

另外还有以下备选：

清华大学 ：https://pypi.tuna.tsinghua.edu.cn/simple/
中国科学技术大学 ：http://pypi.mirrors.ustc.edu.cn/simple/
华中科技大学：http://pypi.hustunique.com/
豆瓣源：http://pypi.douban.com/simple/
腾讯源：http://mirrors.cloud.tencent.com/pypi/simple
华为镜像源：https://repo.huaweicloud.com/repository/pypi/simple/

5.容器的固化（生成新的镜像）、导出和导入镜像

假设现在已经在容器中进行了很多操作，包括安装了新的工具包、更新了代码等，需要迁移到新的服务器或者提供给其他用户使用，就需要进行容器固化，固化即生成新的镜像。

这里要注意一点，假如希望固化的镜像中保存自己的代码，必须将代码从挂载的地址拷贝到自有地址，因为挂载地址的内容是不会被固化的。

假设现在需要将container_test容器固化为image_test:2.0（不加标签则默认标签为latest）,命令为：

docker commit container_test image_test:2.0

如果需要加入一些commit信息，则可用-a输入作者，-m输入提交信息。

这里需要说明的是，因为docker镜像是分层（layer）存储的，每一层依赖上一层，只保存新增信息。假如用commit命令生成镜像，则在原有镜像中加入了一个新的layer，即使这一层的操作是删除了部分内容，整个镜像的体积仍然在增大。一开始看到commit，博主想到git中也有commit操作，并且可以回退，但docker的commit是不存在回退操作的，而是每次commit生成一个新的镜像，原有镜像保持不变。假如不想保存本次commit的修改，只能删除本次保存的镜像，从原有镜像开始重新操作。

commit后可以查看镜像的修改记录：

docker history image_test:2.0

由于使用commit生成镜像会导致镜像变得臃肿，所以工程中更推荐使用DockerFile构建镜像，关于DockerFile的使用方式网上的教程很多，本文不详细展开。

镜像生成后，在系统中仍然是分层存储的，具体的存储方式比较复杂，不能直接拷贝和移植。如果要进行跨服务器拷贝和传输，需要先将镜像导出为tar文件，假设为image_test.tar，命令如下：

docker save -o image_test.tar image_test:2.0
或docker save image_test:2.0 > image_test.tar

则在当前目录生成了image_test.tar文件，可以进行拷贝和传输。

在目标地址可以进行镜像的导入，导入完毕后可以由docker images命令查看到。导入命令为：

docker load -i image_test.tar
或 docker load < image_test.tar

还有一种导出和导入的方式为：

导出：

docker export -o image_test.tar image_test:2.0
或docker export image_test:2.0 > image_test.tar

导入：

docker import image_test.tar 新镜像名
或docker import 新镜像名 < image_test:2.0

export/import和save/load的区别是前者保存的是容器的快照，只包含容器当前信息，不包括任何历史记录，体积比较小，后者保存的是一个分层的文件系统，包含所有历史记录，体积比较大。

6.镜像的推送和拉取

在工程项目中，本地镜像经常需要和远程镜像仓进行交互，所以需要使用push(推送）和pull(拉取）操作，同样与git的相关操作比较类似，push和pull的内容都是新修改的layer。

首先需要配置自己的远程镜像仓。

sudo vi /etc/docker/daemon.json

然后在“insecure-registries”列表中加入镜像仓地址，并更新daemon文件和重启docker

sudo systemctl daemon-reload
sudo systemctl restart docker

如果要拉取镜像，默认从Docker Hub中拉取，如果配置了自己的远程镜像仓，可从自己的远程镜像仓拉取：

docker pull centos
docker pull 远程镜像仓地址/镜像名：TAG

如果要推送镜像，需要先给镜像重命名为远程镜像仓地址/镜像名：TAG，然后再推送，如：

docker tag image_test:2.0 远程镜像仓地址/镜像名：TAG
docker push 远程镜像仓地址/镜像名：TAG

我们还可以建立自己的镜像仓，提供给别人拉取，方法是拉取Docker Hub中的registry镜像，并启动一个容器，设置端口映射和地址映射：

docker run --name registry -d -p 5000:5000 --restart=always -v 本地地址：/var/lib/registry  registry

自己的IP地址：5000即为自己的镜像仓地址。

docker的基本操作就介绍到这里，下面介绍一下配置好docker环境后如何在本地使用pycharm和tensorboard

二、pycharm远程连接docker

首先注意pycharm只有专业版才有SSH功能。可以用pycharm打开并编辑本地代码工程，远程连接docker的解释器，所有的修改都将即时地同步到docker中的映射路径，可以顺畅地使用pycharm各种功能。

docker内需要进行以下操作：

1.启动并进入docker

2.在docker中安装openssh:

apt-get install openssh-server

3.修改ssh_config，把PermitRootLogin改为yes

vi /etc/ssh/sshd_config

4.重启ssh服务：

service ssh restart

5.设置root密码：执行passwd，输入密码

pycharm中需要以下操作：

1.进入tools/deployment/configuration，新建SFTP连接方式，输入连接名

2.在弹出的SSH configuration页面填入远程连接的host地址、端口号、用户名（root）和刚才设置的root密码，点Test Connection按钮，没问题即连接成功。如果直接连到服务器，即填入22端口，如果连到服务器中运行的docker,需要填入本文1.2节创建容器时设置的映射到容器22端口的40010端口。

3.进入File/settings/Project/Python Interpreter，点击解释器的设置按钮，增加新的解释器

4.在弹出的Add Python Interpreter页面中选择SSH Interpreter,再选择Existing environment,选择刚才设置的SSH地址

5.在弹出页面中填入docker中的Interpreter地址。默认为/usr/bin/python，也可以是别的地址，如果docker内使用anaconda装的三方件，可能为/root/anaconda3/bin/python，可以用whereis python命令查看

6.在同页面的Sync folder中填入本地工程地址和docker中同步的地址，确认即可。

注意以上操作在代码运行时实际上跑的是docker中的代码，如果生成新的文件，本地是看不到的，可在tools/deployment选项中手动同步，但本地的修改是自动同步到docker中的。实际使用中可以将较大的数据文件都放在服务器上映射到的docker地址中，只把需要编辑的代码在本地拷贝一份，避免占用太多空间。

另外注意如果程序在运行中，一定要保证docker也在运行状态，一旦docker停止，程序也将停止。

三、远程使用tensorboard

因为tensorboard保存的文件需要在浏览器中查看，而docker一般不支持图形界面显示，所以无法在docker中直接看到tensorboard可视化效果。

解决的方法有两种，一种是在docker外面的服务器上安装tensorboard和chrome浏览器（之前博客介绍过：苹果姐：pytorch使用tensorboard实现可视化总结），但这种方法比较繁琐，因为tensorboard依赖的环境比较多，包括tensorflow/python等。

另一种方法是在服务器或本地做端口映射，如果服务器上没有安装chrome，在本地做端口映射比较方便。

首先在docker中运行：

tensorboard  --logdir my_path

假设生成的地址为127.0.0.1:6006（tensorboard默认端口号为6006），则在本地cmd窗口运行：

ssh -L 6006:127.0.0.1: 40011 用户名@服务器IP地址

此处的40011为本文1.2节创建容器时设置的服务器上映射到docker6006端口的端口号。

然后在本地浏览器输入127.0.0.1:6006即可看到tensorboard可视化效果。

以上即为深度学习工程实践中常用的环境操作，希望对大家有所帮助。