如果说 2017 年的 PyTorch 让深度学习从 "少数派的炼丹炉" 变成了 "人人可用的工程平台",那么具身智能(Embodied AI)正在等待属于它自己的 "PyTorch 时刻"。过去两年,VLA(Vision-Language-Action,视觉-语言-动作)模型几乎是机器人领域最火热的方向:从 Google 的 RT-2、Physical Intelligence 的 π₀,到 N ...
点击上方“Deephub Imba”,关注公众号,好文章不错过 !模型有 2 亿个参数,fp32 精度下理论上只需 800 MB。为什么 24 GB 的 GPU 却满了?原因在于模型参数只是训练期间占用 GPU ...
AI自动生成的苹果芯片Metal内核,比官方的还要好? Gimlet Labs的最新研究显示,在苹果设备上,AI不仅能自动生成Metal内核,还较基线内核实现了87%的PyTorch推理速度提升。
近日, 摩尔线程 正式发布并 开源 面向GPU底层算子生成的专用代码大模型 MusaCoder 。这是 业内 首个基于国产GPU算力底座完成全链路训练与验证的 开源 代码大模型 ,其完整后训练流程均在基于MTT S5000构建的夸娥智算集群上完成 。 在KernelBench严格评测中, MusaCoder -27B-RL以Overall Pass@8 93.2%、Avg.@8 88.60%的成绩 ...
小扎痛失老将!PyTorch创始人之一今早官宣离职,加入Meta十一年,一手打造出响彻AI界的PyTorch。如今,离职原因也很纯粹:不愿余生只与PyTorch绑定,去开启下一个新篇章。 刚刚,PyTorch创始人Soumith Chintala官宣,将于11月17日离职Meta! 原因很简单,不想一辈子搞PyTorch ...
AMD宣布ROCm和PyTorch支持已经开放给同是RDNA 3架构的RX 7900 XT显卡,涵盖了RDNA 3架构的所有顶级产品。 AMD上个月已经放出了Ubuntu Linux的ROCm 5.7.1驱动更新,为Radeon Pro W7900和Radeon RX 7900 XTX显卡带来了ROCm和PyTorch支持。而在12月初的AMD Advancing ...
PyTorch,这一广受欢迎的开源机器学习框架,近期正式推出了其最新版本——2.8版。此次版本更新聚焦于提升量化大语言模型(LLM)在Intel CPU上的推理性能,吸引了众多开发者和研究人员的目光。 在PyTorch 2.8中,开发者团队通过算法优化和技术革新,显著提高了 ...
深夜调试完Transformer结构,服务器却因内存错误中断训练;在实验室反复运行强化学习环境时,单核延迟拖慢策略收敛;用JupyterNotebook加载百GB生物数据集,传统桌面CPU频繁卡顿——这些不是偶然故障,而是AI研究人员 ...
Fireworks AI 于 2022 年在美国加州雷德伍德市创立,其联合创始人兼首席执行官乔琳(Lin Qiao)本硕毕业于复旦大学,之后在加州大学圣巴巴拉分校获得计算机科学博士学位。在创办 Fireworks AI 之前,她曾在 Meta 担任高级工程总监,领导超过 300 名工程师的团队,负责开发和部署包括 PyTorch 在内的 AI 框架。PyTorch 是目前全球最主流的开源机器学习框 ...
Hexagon‑MLIR是高通技术公司提供的开源AI编译器软件栈,确保用户能够在Hexagon NPU(为高性能、高效AI和生成式AI载荷构建的一款专用AI加速器)上轻松编译和运行Triton内核与PyTorch模型。 此项举措通过探索基于开源MLIR的编译软件栈来补充本公司的商业工具链,为 ...
摩尔线程开源代码大模型MusaCoder:基于国产GPU全栈训练,性能超越Claude Opus 4.7,摩尔,源代码,gpu,大模型,算子 ...
当深夜的服务器集群仍在迭代Transformer参数,当GPU显存即将耗尽而CPU仍需承担数据预处理、特征工程与分布式调度重任——AI研究人员真正需要的,不是纸面核心数,而是可信赖的持续吞吐、毫秒级响应的I/O一致性、经得 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果