这项由上海人工智能实验室、MetaX和复旦大学联合完成的研究发表于2026年3月31日,论文编号为arXiv:2603.28342v1,为AI驱动的GPU内核优化领域带来了重大突破。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。
IT之家 3 月 8 日消息,AMD 企业副总裁 Anush Elangovan 上周发布了一个完全用 Python 编写的小型实验性 Radeon 驱动程序。据 Elangovan 本人证实,这些代码完全通过 Claude Code 所生成,他期间甚至一次都没打开过代码编辑器。 乍听之下,绝大部分用户可能自动脑补出一个 ...
IT之家3 月 8 日消息,AMD 企业副总裁 Anush Elangovan 上周发布了一个完全用 Python 编写的小型实验性 Radeon 驱动程序。据 Elangovan 本人证实,这些代码完全通过 Claude Code 所生成,他期间甚至一次都没打开过代码编辑器。 乍听之下,绝大部分用户可能自动脑补出一个 ...
嵌入式边缘设备资源紧张,即使采用轻量化安装,仍需通过代码、运行环境、内存管理等维度优化,进一步降低CPU、内存与存储占用,确保应用稳定运行。 (一)代码层面精简优化 一是图像格式与分辨率优化,优先使用灰度图(CV_8UC1)替代RGB图(CV_8UC3),内存 ...
英伟达发布最新版CUDA 13.1,官方直接定性:这是自2006年诞生以来最大的进步。 核心变化是推出全新的CUDA Tile编程模型,让开发者可以用Python写GPU内核,15行代码就能达到200行CUDA C++代码的性能。 英伟达是不是亲手终结了CUDA的“护城河”?如果英伟达也转向Tile ...
英伟达发布最新版CUDA 13.1,官方直接定性:这是自2006年诞生以来最大的进步。 核心变化是推出全新的CUDA Tile编程模型,让开发者可以用Python写GPU内核,15行代码就能达到200行CUDA C++代码的性能。 Jim Keller参与设计过AMD Zen架构、苹果A系列芯片、特斯拉自动驾驶芯片 ...
英伟达把CUDA门槛砸了!新一代CUDA 13.1推出全新编程模型CUDA Tile,15行Python代码性能匹敌200行C++,被芯片界传奇人物Jim Keller质疑“自毁护城河”。
Python 速度提升80倍?探究如何用一行代码将你的代码变成GPU猛兽! GPU非常适合处理需要对不同数据执行相同操作的任务。这种方法名为单指令多数据(SIMD)。与只有几个强大核心的CPU不同,GPU拥有数千个较小的核心,它们可以同时运行这些重复性操作。你会在 ...
了解如何使用cuDF、cuML和cuGraph等GPU加速库来加速Python数据科学工作流程,以更快地进行数据处理和模型训练。 Python在数据科学领域的受欢迎程度毋庸置疑,但随着数据集的增长,对速度的需求变得至关重要。根据NVIDIA的说法,现已有多种替代方案可以在很少代码 ...
NVIDIA 推出 CUTLASS 4.0,引入 Python 接口,利用 CUDA Tensors 和空间微内核,提升深度学习和高性能计算的 GPU 性能。 NVIDIA 宣布发布 CUTLASS 4.0,这是一个重要更新,引入了面向 CUDA 库的 Python 接口,旨在优化深度学习 (DL) 和高性能计算 (HPC) 中的 GPU 性能。据 NVIDIA称,此 ...