云计算到底是什么?为什么都在迁移?

内容管家 AI领域评论11字数 2259阅读7分31秒阅读模式

Stack Overflow 技术负责人:什么是云计算?

本期节目中,Stack Overflow 基础设施团队技术负责人 Josh Zhang 用最直白的语言解释了云计算的本质——"就是用别人的电脑"

过去企业自建数据中心,需要租场地、接网络、采购服务器、聘请硬件工程师,一整套流程既费钱又费人。云计算的核心承诺就是:你不再需要处理这些琐事。一切都是软件驱动的——通过云控制台声明和配置,无需人工下单、机房上架、物理调测,中小公司也能快速获得原本门槛极高的基础设施。

容器与编排:云端应用的"打包"与"调度"

节目随后深入探讨了容器(Container)与节点(Node)的工作原理。

物理机时代: 直接在服务器上安装操作系统(如 Linux 或 Windows),再部署应用。问题在于资源浪费——一台服务器只为单个应用定制,代价高昂。

虚拟机时代: 将一台物理服务器拆分为多个虚拟服务器,分摊资源以节省成本和空间。但这仍然臃肿——每台虚拟机都要预装完整操作系统,大量重复内容并不必要。

容器时代(Docker): 只安装一个极简的 Linux 发行版,将应用及其依赖打包进独立容器,多个容器共享同一台物理机却互不干扰。相比将服务器拆成"小服务器",Docker 相当于把服务器拆成多个微小、自包含的应用运行环境

编排层(Kubernetes): 容器只是单个应用的打包方式,需要 Kubernetes 来统一调度。关键概念是 Pod:如果一台物理机上只跑一个应用,该服务器宕机则应用中断。Pod 的做法是让同一应用并行运行多个副本——一个挂了,其他继续跑。这就是 Kubernetes 所做的事情。

云计算的真实面目:共享与规模

Josh 澄清了一个常见误解:所谓"云"并非与数据中心不同的某种东西,一切仍然跑在真实硬件上

Amazon AWS 的诞生逻辑很简单:建设数据中心时产生了大量闲置服务器和多余容量,Amazon 想:"既然基础设施成本已经固定,为什么不把空闲算力租出去赚点钱?"于是从母公司拆分出来——本质上,你租用的是 Amazon 服务器的一个切片,凭借其规模采购优势获得折扣价格。

AI 浪潮下的数据中心需求

谈到 AI 公司在密歇根、得克萨斯等地圈地建数据中心的热潮,Josh 确认:所有主流云服务商都在为算力容量头疼

传统数据中心中,机架高度已实现标准化("单位")。标准服务器占 2~3 单位,但随着芯片密度飙升,单个单位现在可容纳 128 甚至 256 颗 CPU,外加大量内存。这意味着在极小空间内即可为大量用户提供共享算力——这种硬件进化也是 AI 公司不再满足于现有云厂商、转向自建基础设施的背景之一。

AI 算力需求的爆发,正在重塑整个数据中心行业。传统服务器即便运转良好,也必须腾出空间给体积更大、功耗更高的新型服务器。而云迁移的核心价值并非省钱,而是灵活性——按需扩容、免去采购硬件的长周期。以下详细展开。

GPU 崛起:算力密度根本改变

AI 浪潮来临后,所有人都在向 GPU 迁移。英伟达的 GPU 芯片并非普通处理器,它们体积庞大、功耗极高,即便最小的型号也相当于 3 至 4U 高度服务器的占用空间。更关键的是,AI 所需算力密度与传统 CPU 计算完全不同,无法在同等空间内实现等量承载。

Article hero image

这直接导致全球数据中心建设潮。原有数据中心在空间、供电、冷却三方面同时面临压力——所有条件都是固定的,但必须塞进更大更重的服务器。基础设施扩建因此成为刚需。

CPU 与 GPU:各有所长的处理器

CPU 是通用芯片。 每台计算机都离不开它,负责处理一切"是或否"的二进制逻辑,能做任何事,但不以任何单一任务见长。

GPU 专为矩阵运算而生。 最初设计用于视频游戏的图形渲染,英伟达是最早的开拓者之一。GPU 擅长矩阵数学,而 AI 工作负载恰好高度依赖矩阵运算——这是两种芯片的本质差异。

当前技术领域的算力需求以矩阵数学为主,大量 GPU 被用于训练模型、跑 AI 推理。传统 CPU 并未被淘汰,普通应用程序仍然需要它。只是当下算力消耗的"大户"变成了 GPU。

云端真相:灵活性才是卖点

很多人以为迁云能省钱,但有过实际运维经验的人都清楚:"云上唯一确定会扩展的,是你的账单。" 这句话在业内广泛流传,并非戏言。

云的核心优势是灵活性。传统数据中心扩容要联系厂商采购服务器,光是物流、上架、配置软件就耗时漫长。云端只需一条命令,一分钟内就能获得额外算力,按需扩展、即开即用。

成本方面,如果团队能极其精准地按需启停资源,理论上可以接近自建数据中心的费用。但实际运营中,云往往比自建数据中心更贵——只不过贵在别处。迁云后不再需要专职硬件工程师,普通工程师就能处理大多数工作负载,节省的是人力而非硬件成本。

迁云实战:发现、评估、迁移

从物理数据中心迁往云端,发现阶段是最关键的环节。任何公司内部都可能存在无人知晓的遗留服务,迁云前必须全面清点所有应用,明确哪些需要迁移、哪些可以直接淘汰。

清点完成后,要找到对应的云端替代方案。例如负载均衡器,在数据中心内配置方式高度定制化,迁云时需要重新设计云原生方案。虽然大多数场景存在一对一映射,但若直接按 1:1 比例在云端复制物理服务器,成本会大幅上升。

正确的做法是按应用类别统一规划:先决定迁移范围,再为每类应用设计最优路径,而非逐台盲目迁移。

将云视为"第三数据中心"

将应用迁移上云的过程远比外界想象的复杂。Stack Overflow 的做法是:先把云当成"第三数据中心"来处理,而非推倒重来。具体步骤是:

  1. 在最前端部署负载均衡器,由它判断流量应导向本地数据中心还是云端;
  2. 保留纽约和丹佛两个原有数据中心,逐步将服务向云端部署并同步测试;
  3. 通过负载均衡将流量缓慢指向云端,同步监控流量与其他遥测数据;
  4. 验证无误后,逐步下线原有物理机房。

当事人坦言,这是高度简化的描述,实际迁移涉及大量人员协作,复杂到"如果能做得出色,完全可以开一家咨询公司赚大钱"。

硬件退役:付费请人处理

一旦完成迁移,后续工作反而简单了。Stack Overflow 选择让硬件供应商直接上门拉走设备——付费请他们处理即可。由于涉及安全销毁要求,所有硬件均被压碎处理,团队成员笑称"最后阶段就是剪剪线缆、把东西到处扔,相当解压"。

数据中心其实就在普通仓库里

被问及对云计算新手的建议时,访谈者透露了一个冷知识:多数数据中心并不在什么神秘地点,就是普通的大旧仓库而已。

Stack Overflow 自建的数据中心则颇为特殊——位于泽西城一栋摩天大楼的第 17 层,窗外可直接眺望自由女神像,"相当离奇"。

谈及进入数据中心的体验,用"超级安全"形容毫不为过:指纹识别、虹膜扫描、"人员陷阱"(man trap,防尾随的安保门禁)一应俱全。"简直跟特工一样。"被访者感叹道。

  • Stack Overflow 官方博客

 
内容管家

发表评论