前言
數據科學開發環境配置起來讓人頭疼,會碰到包版本不一致、錯誤信息不熟悉和編譯時間漫長等問題。這很容易讓人垂頭喪氣,也使得邁入數據科學的這第一步十分艱難。而且這也是一個完全不常見的準入門檻。
還好,過去幾年中出現了能夠通過搭建孤立的環境來解決這個問題的技術。本文中我們就要介紹的這種技術名叫Docker。Docker能讓開發者簡單、快速地搭建數據科學開發環境,并支持使用例如Jupyter notebooks等工具進行數據探索。
簡介
Docker 最初 dotCloud 公司內部的一個業余項目
Docker 基于 Go 語言
Docker 項目的目標是實現輕量級的操作系統虛擬化解決方案
Docker 的基礎是 Linux 容器(LXC)等技術
Docker 容器的啟動可以在秒級實現,這相比傳統的虛擬機方式要快得多
Docker 對系統資源的利用率很高,一臺主機上可以同時運行數千個 Docker 容器
下面的圖片比較了 Docker 和傳統虛擬化方式的不同之處,可見容器是在操作系統層面上實現虛擬化,直接復用本地主機的操作系統,而傳統方式則是在硬件層面實現。
容器除了運行其中應用外,基本不消耗額外的系統資源,使得應用的性能很高,同時系統的開銷盡量小。傳統虛擬機方式運行 10 個不同的應用就要起 10 個虛擬機,而Docker 只需要啟動 10 個隔離的應用即可。
主要優勢為:
更快速的交付和部署 - 容器成為了最小單位
更高效的虛擬化 - 內核級虛擬化
更輕松的遷移和拓展
更簡單的管理
基本概念
主要是三個:
鏡像(Image)
一個只讀的模板,鏡像可以用來創建 Docker 容器
可以簡單創建或更新現有鏡像,或者直接下載使用其他人的
容器(Container)
容器是從鏡像創建的運行實例,在啟動的時候創建一層可寫層作為最上層(因為鏡像是只讀的)
可以被啟動、開始、停止、刪除。每個容器都是相互隔離的、保證安全的平臺
可以把容器看做是一個簡易版的 Linux 環境(包括root用戶權限、進程空間、用戶空間和網絡空間等)和運行在其中的應用程序
倉庫(Repository)
集中存放鏡像文件的場所
最大的公開倉庫是 Docker Hub
國內的公開倉庫包括 Docker Pool 等
當用戶創建了自己的鏡像之后就可以使用 push 命令將它上傳到公有或者私有倉庫,這樣下次在另外一臺機器上使用這個鏡像時候,只需要從倉庫上 pull 下來就可以了
Docker 倉庫的概念跟 Git 類似,注冊服務器可以理解為 GitHub 這樣的托管服務
安裝
官方網站提供了 Mac, Linux 和 Windows 版本的安裝教程。因為我打算使用虛擬機進行安裝測試,所以這里主要走 Linux 的安裝教程,不過其他的應該大同小異。我的 ubuntu 版本是 14.04 LTS, trusty
Docker 目前只能安裝在 64 位平臺上,并且要求內核版本不低于 3.10,實際上內核越新越好,過低的內核版本容易造成功能的不穩定。可以通過下面的命令來檢查內核版本(兩個方式,都可以):
1
2
|
parallels@ubuntu:~$ uname -a Linux ubuntu 3.13.0-83-generic #127-Ubuntu SMP Fri Mar 11 00:25:37 UTC 2016 x86_64 x86_64 x86_64 GNU/Linux |
1
2
|
parallels@ubuntu:~$ cat /proc/version Linux version 3.13.0-83-generic (buildd@lgw01-55) (gcc version 4.8.2 (Ubuntu 4.8.2-19ubuntu1) ) #127-Ubuntu SMP Fri Mar 11 00:25:37 UTC 2016 |
這里我們按照官網的教程,不使用 apt-get
而是使用 curl
來進行安裝。
1、如果沒有安裝 curl,使用 sudo apt-get update; sudo apt-get install cur
l 來進行安裝
2、下載最新的 Docker 包 curl -fsSL https://get.docker.com/ | sh
如果想要以 non-root
用戶的角色來使用,請使用 sudo usermod -aG docker parallels
(這里 parallels 是用戶名),注意需要注銷并重新登錄以應用改動
3、驗證安裝
需要先啟用 docker sudo service docker start
然后可以用 docker version
來查看版本
最后使用 docker run hello-world
來測試
版本信息
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
|
parallels@ubuntu:~$ docker version Client: Version: 1.10.3 API version: 1.22 Go version: go1.5.3 Git commit: 20f81dd Built: Thu Mar 10 15:54:52 2016 OS/Arch: linux/amd64 Server: Version: 1.10.3 API version: 1.22 Go version: go1.5.3 Git commit: 20f81dd Built: Thu Mar 10 15:54:52 2016 OS/Arch: linux/amd64 |
成功運行 hello world 的結果
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
|
parallels@ubuntu:~$ docker run hello-world Hello from Docker. This message shows that your installation appears to be working correctly. To generate this message, Docker took the following steps: 1. The Docker client contacted the Docker daemon. 2. The Docker daemon pulled the "hello-world" image from the Docker Hub. 3. The Docker daemon created a new container from that image which runs the executable that produces the output you are currently reading. 4. The Docker daemon streamed that output to the Docker client, which sent it to your terminal. To try something more ambitious, you can run an Ubuntu container with: $ docker run -it ubuntu bash Share images, automate workflows, and more with a free Docker Hub account: https://hub.docker.com For more examples and ideas, visit: https://docs.docker.com/userguide/ |
這之后的部分是課程需求。
我們需要安裝 docker machine
和 virtual box
,具體步驟為:
1
2
3
4
5
6
7
|
# 獲取權限 $ sudo su # 下載 Docker Machine 的二進制文件 $ curl -L https: //github .com /docker/machine/releases/download/v0 .6.0 /docker-machine- ` uname -s`-` uname -m` > /usr/local/bin/docker-machine && chmod +x /usr/local/bin/docker-machine # 驗證安裝 $ docker-machine version docker-machine version 0.6.0, build e27fb87 |
添加源
把這行添加到 /etc/apt/sources.list
文件中 deb http://download.virtualbox.org/virtualbox/debian trusty contrib
wget -q https://www.virtualbox.org/download/oracle_vbox.asc -O- | sudo apt-key add -
更新并安裝 sudo apt-get update; sudo apt-get install virtualbox-5.0
配置
然后是一些配置,先重設默認的虛擬機
刪除原來的默認(如果有的話)docker-machine rm default
創建新的默認虛擬機 docker-machine create --driver virtualbox default
(這一步可能需要等一下,我用的是 Parallel Desktop 11,還需要在虛擬機設置中開啟 CPU 虛擬化,主要是支持 vt-x)
然后如果直接在菜單中選擇 Virtual Box 的話,就會發現什么都沒有,技巧是要在剛才的命令行中輸入 virtualbox,然后就可以看到下面的界面:
在 Settings - Network 中選擇 Port Forwarding,然后按照如圖所示添加記錄
這里的 Host Port: 9234 記為 A,Guest Port: 9001 記為 B。然后就可以啟動 docker 中老師提供的鏡像了:
命令為 docker run -it -p 9001:9000 cmusvsc/apachecmda:1.1
(需要下載一段時間,然后再解壓一段時間),這里 9001 記為 C,9000 記為 D。
接著就會直接連接到 docker 中的虛擬機,從之后的圖中可以看到命令行前面的內容也變化了。然后我們輸入命令開啟前端
1
2
|
cd /home/Spring2016/ApacheCMDA-Frontend . /activator run # 相當于在 9000 端口開啟 |
不要關現在的終端,開啟一個新的終端。用
1
|
docker exec -it `docker ps -q` /bin/bash |
進入正在執行的 docker
等待一段時間后,繼續走以下命令
1
2
3
4
|
# 開啟 MySQL 服務器 service mysql start cd /home/Spring2016/ApacheCMDA-Backend . /activator "run 9034" |
然后可以見到
然后等待一段時間(第一運行需要編譯),就可以見到主頁面了:
也可以嘗試直接 localhost:9001
還記得前面的端口轉發嗎?這里解釋一下:
A,也就是 9234,是用戶訪問的端口號
B,也就是 9001,我們通過虛擬機的端口轉發從 9234 轉到了 9001
C,也就是 9001(這個命令中的 docker run -it -p 9001:9000 cmusvsc/apachecmda:1.1),是虛擬機繼續轉發的端口
D,也就是 9000(這個命令中的 docker run -it -p 9001:9000 cmusvsc/apachecmda:1.1),是 Docker 容器中接收請求的端口。
也就是說,B 和 C 一定要一樣,A 和 D 可以在命令中設置。至于為什么后端需要運行在 9034 端口,是因為前端和后端通過這個端口通訊(應該是寫死在代碼里的)
掛載主機數據卷到容器內,可以通過如下命令進行文件夾映射
1
|
docker run -it -p 9999:9999 -p 9001:9000 - v ~ /localFolder : /sharedFolder cmusvsc /apachecmda :1.1 |
從容器內拷貝文件到主機上
1
2
3
4
5
6
7
8
|
# 列出 container docker ps # 復制 這個不知道為啥不行 docker cp <containerId>: /file/path/within/container /host/path/target # 掛載映射 docker run -it - v /home/parallels/Documents/code : /home/code cmusvsc /apachecmda :1.1 # 復制 cp -r Spring2016/* . /code/ |
總結
以上就是這篇文章的全部內容了,希望本文的內容對大家能有所幫助,如果有疑問大家可以留言交流。