写作本文的起因是我想让修改后的分布式 PyTorch 程序能更快的在 Facebook 的集群上启动。探索过程很有趣,也展示了工业机器学习需要的知识体系。
2007 年我刚毕业后在 Google 工作过三年。当时觉得分布式操作系统 Borg 真好用。
从 2010 年离开 Google 之后就一直盼着它开源,直到 Kubernetes 的出现。
Kubernetes 调度的计算单元是 containers(准确的翻译是“集装箱”,而不是意思泛泛的“容器”,看看 Docker 公司的 Logo 上画的是啥就知道作者的心意了)。
...