Discord 详细介绍了他们如何在单 GPU 训练达到极限后,重建其机器学习平台。通过在 Ray 和 Kubernetes 上实现标准化、引入一条命令即可操作的集群 CLI,以及使用 Dagster 和 KubeRay 自动化工作流,公司将分布式训练变成了一项日常操作。这些改进让大型模型能够实现 ...
作者 | Craig Risi 译者 | 马可薇在这篇 工程实践文章 中,Yelp 详细介绍了他们如何构建一套可扩展且具备成本效率的日志处理流水线,用于在全公司范围内处理 Amazon S3 的服务器访问日志(SAL),并成功突破了原始日志在高规模场景下面临的存储成本高、查询效率低等传统瓶颈。文章系统性地梳理了 Yelp ...