科技行者 on MSN
上海人工智能实验室团队突破GPU编程难题:让AI自动写出超高速内核代码
这项由上海人工智能实验室、MetaX和复旦大学联合完成的研究发表于2026年3月31日,论文编号为arXiv:2603.28342v1,为AI驱动的GPU内核优化领域带来了重大突破。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。
IT之家 3 月 8 日消息,AMD 企业副总裁 Anush Elangovan 上周发布了一个完全用 Python 编写的小型实验性 Radeon 驱动程序。据 Elangovan 本人证实,这些代码完全通过 Claude Code 所生成,他期间甚至一次都没打开过代码编辑器。 乍听之下,绝大部分用户可能自动脑补出一个 ...
IT之家3 月 8 日消息,AMD 企业副总裁 Anush Elangovan 上周发布了一个完全用 Python 编写的小型实验性 Radeon 驱动程序。据 Elangovan 本人证实,这些代码完全通过 Claude Code 所生成,他期间甚至一次都没打开过代码编辑器。 乍听之下,绝大部分用户可能自动脑补出一个 ...
嵌入式边缘设备资源紧张,即使采用轻量化安装,仍需通过代码、运行环境、内存管理等维度优化,进一步降低CPU、内存与存储占用,确保应用稳定运行。 (一)代码层面精简优化 一是图像格式与分辨率优化,优先使用灰度图(CV_8UC1)替代RGB图(CV_8UC3),内存 ...
英伟达发布最新版CUDA 13.1,官方直接定性:这是自2006年诞生以来最大的进步。 核心变化是推出全新的CUDA Tile编程模型,让开发者可以用Python写GPU内核,15行代码就能达到200行CUDA C++代码的性能。 英伟达是不是亲手终结了CUDA的“护城河”?如果英伟达也转向Tile ...
英伟达发布最新版CUDA 13.1,官方直接定性:这是自2006年诞生以来最大的进步。 核心变化是推出全新的CUDA Tile编程模型,让开发者可以用Python写GPU内核,15行代码就能达到200行CUDA C++代码的性能。 Jim Keller参与设计过AMD Zen架构、苹果A系列芯片、特斯拉自动驾驶芯片 ...
英伟达把CUDA门槛砸了!新一代CUDA 13.1推出全新编程模型CUDA Tile,15行Python代码性能匹敌200行C++,被芯片界传奇人物Jim Keller质疑“自毁护城河”。
Python 速度提升80倍?探究如何用一行代码将你的代码变成GPU猛兽! GPU非常适合处理需要对不同数据执行相同操作的任务。这种方法名为单指令多数据(SIMD)。与只有几个强大核心的CPU不同,GPU拥有数千个较小的核心,它们可以同时运行这些重复性操作。你会在 ...
了解如何使用cuDF、cuML和cuGraph等GPU加速库来加速Python数据科学工作流程,以更快地进行数据处理和模型训练。 Python在数据科学领域的受欢迎程度毋庸置疑,但随着数据集的增长,对速度的需求变得至关重要。根据NVIDIA的说法,现已有多种替代方案可以在很少代码 ...
NVIDIA 推出 CUTLASS 4.0,引入 Python 接口,利用 CUDA Tensors 和空间微内核,提升深度学习和高性能计算的 GPU 性能。 NVIDIA 宣布发布 CUTLASS 4.0,这是一个重要更新,引入了面向 CUDA 库的 Python 接口,旨在优化深度学习 (DL) 和高性能计算 (HPC) 中的 GPU 性能。据 NVIDIA称,此 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果