公众号记得加星标?,第一时间看推送不会错过。
在最近一次RISC-V 峰会上,谷歌数据中心性能工程总监 Martin Dixon 发表了一场精彩的演讲。他以谷歌成功过渡到基于 ARM 的服务器为例spanner,带领听众进行了一次“公路旅行”,探讨了谷歌将 RISC-V 集成到其庞大的仓库级计算基础设施中的愿景。Dixon 概述了将 RISC-V 应用于数据中心规模所面临的机遇、挑战和必要条件。
谷歌的异构计算之旅始于其基于通用 x86 平台的早期阶段,并在不断变化的需求中迎来了 27 周年纪念。2010 年代中期,该公司开始尝试 ARM 架构,并遵循了 2014 年发布的 ARM 服务器规范。这促成了 2022 年 Tau T2A ARM 实例的推出,以及最近推出的定制 Axion ARM 处理器。如今,谷歌的数据中心已经混合部署了 x86、ARM 和新兴架构,包括早期的 RISC-V 组件。Dixon强调,异构性和专业化对于克服摩尔定律放缓至关重要,能够实现规模化更高的效率和性能。
RISC-V 的开放性和定制潜力令人兴奋,但 Dixon 也警告说,如果没有标准,它就是一把“双刃剑”。他强调,需要像 RVA23 规范和即将发布的 RISC-V 服务器平台规范这样的基准,以确保仓库级部署的兼容性。
Dixon以公路旅行为例,概述了成功的关键“要素”:
回顾移植到 ARM 架构的经验,Dixon 分享道,谷歌的主要工作负载(包括 YouTube、Spanner 和 BigQuery)几乎占其计算资源的一半。移植不仅仅关乎大型服务——调度器需要大小作业混合打包才能实现高效运行。谷歌通过集中协作、自动化和 AI 生成的变更,移植了超过 3 万个软件包钓鱼网,从而为大量工作负载提供了自助服务。
开发者们对工具链崩溃的担忧最终被证明是多余的;问题大多是一些“琐碎”的小问题,例如配置文件、构建路径和不稳定的测试。少数小问题包括浮点精度差异(已通过标准化为 float128 解决)和一些极少的内存排序错误。总的来说,过渡过程比预期的要顺利得多。
展望未来,谷歌正通过 RISC-V 国际组织参与 QoS 和 RVA23 等标准的制定,并作为 RISE 的创始成员spanner,加速 Linux 和 LLVM 的上游开发。为了实现流程的“自动化”,谷歌将其 Gemini AI 模型应用于 4 万个 ARM 移植修改,并对其进行分类,以便未来自动执行更改。现在,AI 代理负责安全、渐进地进行部署,团队往往难以察觉。
对于 RISC-V,Dixon呼吁批准服务器规范、交付功能强大的片上系统 (SoC)、扩大测试覆盖范围并拥抱人工智能。谷歌通过 RISE 和 RISC-V International,利用 Gemini 计划的资助金资助学术界人士推进人工智能驱动的移植工作。
Dixon乐观地引用杰克·凯鲁亚克的名言结束了演讲:让我们“满怀热情地迎接下一个挑战”,利用RISC-V实现仓库级规模的计算。他的演讲凸显了谷歌对开放架构的承诺,并将RISC-V定位为未来超大规模计算的关键支柱。
参考链接
https://semiwiki.com/ip/risc-v/364961-googles-road-trip-to-risc-v-at-warehouse-scale-insights-from-googles-martin-dixon/

