云计算到底是什么？为什么都在迁移？

2026年5月15日内容管家

AI领域评论11字数 2259阅读7分31秒阅读模式

Stack Overflow 技术负责人：什么是云计算？

本期节目中，Stack Overflow 基础设施团队技术负责人 Josh Zhang 用最直白的语言解释了云计算的本质——"就是用别人的电脑"。

过去企业自建数据中心，需要租场地、接网络、采购服务器、聘请硬件工程师，一整套流程既费钱又费人。云计算的核心承诺就是：你不再需要处理这些琐事。一切都是软件驱动的——通过云控制台声明和配置，无需人工下单、机房上架、物理调测，中小公司也能快速获得原本门槛极高的基础设施。

容器与编排：云端应用的"打包"与"调度"

节目随后深入探讨了容器（Container）与节点（Node）的工作原理。

物理机时代： 直接在服务器上安装操作系统（如 Linux 或 Windows），再部署应用。问题在于资源浪费——一台服务器只为单个应用定制，代价高昂。

虚拟机时代： 将一台物理服务器拆分为多个虚拟服务器，分摊资源以节省成本和空间。但这仍然臃肿——每台虚拟机都要预装完整操作系统，大量重复内容并不必要。

容器时代（Docker）： 只安装一个极简的 Linux 发行版，将应用及其依赖打包进独立容器，多个容器共享同一台物理机却互不干扰。相比将服务器拆成"小服务器"，Docker 相当于把服务器拆成多个微小、自包含的应用运行环境。

编排层（Kubernetes）： 容器只是单个应用的打包方式，需要 Kubernetes 来统一调度。关键概念是 Pod：如果一台物理机上只跑一个应用，该服务器宕机则应用中断。Pod 的做法是让同一应用并行运行多个副本——一个挂了，其他继续跑。这就是 Kubernetes 所做的事情。

云计算的真实面目：共享与规模

Josh 澄清了一个常见误解：所谓"云"并非与数据中心不同的某种东西，一切仍然跑在真实硬件上。

Amazon AWS 的诞生逻辑很简单：建设数据中心时产生了大量闲置服务器和多余容量，Amazon 想："既然基础设施成本已经固定，为什么不把空闲算力租出去赚点钱？"于是从母公司拆分出来——本质上，你租用的是 Amazon 服务器的一个切片，凭借其规模采购优势获得折扣价格。

AI 浪潮下的数据中心需求

谈到 AI 公司在密歇根、得克萨斯等地圈地建数据中心的热潮，Josh 确认：所有主流云服务商都在为算力容量头疼。

传统数据中心中，机架高度已实现标准化（"单位"）。标准服务器占 2~3 单位，但随着芯片密度飙升，单个单位现在可容纳 128 甚至 256 颗 CPU，外加大量内存。这意味着在极小空间内即可为大量用户提供共享算力——这种硬件进化也是 AI 公司不再满足于现有云厂商、转向自建基础设施的背景之一。

AI 算力需求的爆发，正在重塑整个数据中心行业。传统服务器即便运转良好，也必须腾出空间给体积更大、功耗更高的新型服务器。而云迁移的核心价值并非省钱，而是灵活性——按需扩容、免去采购硬件的长周期。以下详细展开。

GPU 崛起：算力密度根本改变

AI 浪潮来临后，所有人都在向 GPU 迁移。英伟达的 GPU 芯片并非普通处理器，它们体积庞大、功耗极高，即便最小的型号也相当于 3 至 4U 高度服务器的占用空间。更关键的是，AI 所需算力密度与传统 CPU 计算完全不同，无法在同等空间内实现等量承载。

这直接导致全球数据中心建设潮。原有数据中心在空间、供电、冷却三方面同时面临压力——所有条件都是固定的，但必须塞进更大更重的服务器。基础设施扩建因此成为刚需。

CPU 与 GPU：各有所长的处理器

CPU 是通用芯片。 每台计算机都离不开它，负责处理一切"是或否"的二进制逻辑，能做任何事，但不以任何单一任务见长。

GPU 专为矩阵运算而生。 最初设计用于视频游戏的图形渲染，英伟达是最早的开拓者之一。GPU 擅长矩阵数学，而 AI 工作负载恰好高度依赖矩阵运算——这是两种芯片的本质差异。

当前技术领域的算力需求以矩阵数学为主，大量 GPU 被用于训练模型、跑 AI 推理。传统 CPU 并未被淘汰，普通应用程序仍然需要它。只是当下算力消耗的"大户"变成了 GPU。

云端真相：灵活性才是卖点

很多人以为迁云能省钱，但有过实际运维经验的人都清楚："云上唯一确定会扩展的，是你的账单。" 这句话在业内广泛流传，并非戏言。

云的核心优势是灵活性。传统数据中心扩容要联系厂商采购服务器，光是物流、上架、配置软件就耗时漫长。云端只需一条命令，一分钟内就能获得额外算力，按需扩展、即开即用。

成本方面，如果团队能极其精准地按需启停资源，理论上可以接近自建数据中心的费用。但实际运营中，云往往比自建数据中心更贵——只不过贵在别处。迁云后不再需要专职硬件工程师，普通工程师就能处理大多数工作负载，节省的是人力而非硬件成本。

迁云实战：发现、评估、迁移

从物理数据中心迁往云端，发现阶段是最关键的环节。任何公司内部都可能存在无人知晓的遗留服务，迁云前必须全面清点所有应用，明确哪些需要迁移、哪些可以直接淘汰。

清点完成后，要找到对应的云端替代方案。例如负载均衡器，在数据中心内配置方式高度定制化，迁云时需要重新设计云原生方案。虽然大多数场景存在一对一映射，但若直接按 1:1 比例在云端复制物理服务器，成本会大幅上升。

正确的做法是按应用类别统一规划：先决定迁移范围，再为每类应用设计最优路径，而非逐台盲目迁移。

将云视为"第三数据中心"

将应用迁移上云的过程远比外界想象的复杂。Stack Overflow 的做法是：先把云当成"第三数据中心"来处理，而非推倒重来。具体步骤是：

在最前端部署负载均衡器，由它判断流量应导向本地数据中心还是云端；
保留纽约和丹佛两个原有数据中心，逐步将服务向云端部署并同步测试；
通过负载均衡将流量缓慢指向云端，同步监控流量与其他遥测数据；
验证无误后，逐步下线原有物理机房。

当事人坦言，这是高度简化的描述，实际迁移涉及大量人员协作，复杂到"如果能做得出色，完全可以开一家咨询公司赚大钱"。

硬件退役：付费请人处理

一旦完成迁移，后续工作反而简单了。Stack Overflow 选择让硬件供应商直接上门拉走设备——付费请他们处理即可。由于涉及安全销毁要求，所有硬件均被压碎处理，团队成员笑称"最后阶段就是剪剪线缆、把东西到处扔，相当解压"。

数据中心其实就在普通仓库里

被问及对云计算新手的建议时，访谈者透露了一个冷知识：多数数据中心并不在什么神秘地点，就是普通的大旧仓库而已。

Stack Overflow 自建的数据中心则颇为特殊——位于泽西城一栋摩天大楼的第 17 层，窗外可直接眺望自由女神像，"相当离奇"。

谈及进入数据中心的体验，用"超级安全"形容毫不为过：指纹识别、虹膜扫描、"人员陷阱"（man trap，防尾随的安保门禁）一应俱全。"简直跟特工一样。"被访者感叹道。

Stack Overflow 官方博客