Unlocking edge GPUs for larger AI models and asynchronous execution: Roofline has built a new Vulkan 1.3 HAL for IREE

AI deployment is rapidly moving to edge devices, where dedicated AI accelerators (NPUs) are getting most of the attention for heavy AI workloads. Additionally, GPUs are present on many edge SoCs but are typically being overlooked for AI deployment. The deployment capabilities of current software stacks reflect that since edge GPUs are often lacking full AI support. This case study shows how Roofline unlocks edge GPUs for larger AI models by building a new Vulkan 1.3 HAL for IREE. We demonstrate this by running Qwen3-8B heterogeneously on an ARM Mali-G720 GPU.

事例

ランタイム

sdk

ROOFLINEとNXP、EIQ NEUTRON NPUにおけるLLM向けの次世代ソフトウェア・サポートを実現

NXP® Semiconductorsとの協業により、Rooflineの拡張性の高いMLIRおよびIREEコンパイラ・インフラストラクチャを活用し、当社のヘテロジニアス実行スタックをNPUへと拡張しました。本ケーススタディでは、i.MX 95アプリケーション・プロセッサ上のNXP製eIQ® Neutron NPUにおけるLLM対応を起点として、このソフトウェア・ソリューションがもたらす3つの主な利点、すなわち1) 幅広いモデルの対応、2) 2GBを超えるモデルにおけるアクセラレータのメモリ制限の克服、3) CPUのみでの実行と比較して最大3.2倍のLLM性能向上を実現したことを紹介します。

事例

sdk

ランタイム

Dynamic shape support: A key enabler for on-device LLM inference

This case study shows how Roofline achieves up to 23× higher throughput by solving one of the most fundamental bottlenecks in efficient on-device language model inference: dynamic shapes in the prefill stage.

事例

ランタイム

sdk

エッジSoC向け非同期ヘテロジニアス実行

このケース・スタディでは、Rooflineが最新のエッジ向けシステム・オン・チップ（SoC）において、いかにして非同期ヘテロジニアス実行を実現したかを紹介します。当社の技術は、SoC内のCPU、GPU、NPUのハードウェアを連携させ、AIモデル全体を効率的に実行します。これにより、エッジにおけるAI展開ソフトウェアに長年欠けていた重要な要素を補完し、最適なデバイス上でより大規模なモデルを効率的に実行することを可能にします。

事例

sdk

ランタイム

Roofline x ARM: Enhancing software support for ARM SVE in MLIR and IREE

This case study showcases how Roofline and ARM enabled scalable, vector-length-agnostic ML execution on Arm CPUs by implementing data-tiled Scalable Vector Extension (SVE) support end-to-end in IREE, unlocking up to 100× speedups on real models and hardware.

事例

申し訳ありませんが、該当するものは見つかりませんでした。最新の事例を閲覧してみませんか？

Back to Main 事例を見る