What does Roofline's runtime do?

The runtime is a small piece of software that is ported to the device to run the compiled model. It is a lightweight, fast inference engine built in C to execute the optimized kernels generated in the SDK. Our runtime supports heterogeneous execution across CPUs, GPUs, and NPUs, handles dynamic shapes for models like LLMs, and can be extended to custom NPUs through hardware abstraction layers. The runtime runs on Linux, macOS, Windows, and even bare-metal systems.

Which hardware platforms are supported?

For information about supported hardware platforms, please visit our main page.

Can I monitor the performance of deployed models?

Yes, you can monitor performance through our Performance Dashboard.

How can I get access to the runtime?

To get access to the runtime, please contact us.

ランタイム

デバイス上でコンパイル済みモデルを実行する軽量ランタイム。効率的なSoCの管理、制御のための全機能を提供します。

お問い合わせ

動作デモ

ランタイムの実動を確認し、最先端アプリケーション向けにSoCの全性能を引き出す仕組みを体験してください。

主な機能

異種実行

CPU、GPU、NPUといった最適なデバイス間でモデルの並列処理を実行する。

ダイナミックシェイプ

LLMおよびその他の最先端モデルにおける実行時における動的形状の完全サポート。

カスタムNPU向けに拡張可能

HALを介して新規NPU向けに容易に拡張可能。

OSおよびベアメタル対応

Linux、MacOS、Windowsからベアメタルシステムまで、あらゆるニーズに対応する統合ツールチェーン。

仕組み

ターゲットデバイスへの移植を容易にするため、実行時実行ファイルを事前に生成できます。軽量なCベースのエンジンはワークフローにシームレスに統合され、最小限のオーバーヘッドでベアメタルシステムやOSベースのシステム上でコンパイル済みモデルを実行可能です。

ドキュメントを表示

import torch, create_attic_runtime

random_input = torch.rand(1, 3, 256,
256, dtype=torch.float32)
rt = create_attic_runtime(compiled_model)
main_function = rt.get_function_by_name("main")
iree_output = main_function(random_input)

よくある質問

Rooflineのランタイムは何をしますか？

ランタイムは、コンパイル済みモデルを実行するためにデバイスに移植される小さなソフトウェアです。これはC言語で構築された軽量かつ高速な推論エンジンであり、SDKで生成された最適化されたカーネルを実行します。当社のランタイムはCPU、GPU、NPUを跨いだヘテロジニアス実行をサポートし、LLMのようなモデルの動的形状を処理し、ハードウェア抽象化レイヤーを通じてカスタムNPUへ拡張可能です。ランタイムはLinux、macOS、Windows、さらにはベアメタルシステム上でも動作します。

どのハードウェアプラットフォームがサポートされていますか？

当社のランタイムは幅広いSoCをサポートしています。拡張可能なアーキテクチャにより、新しいデバイスやカスタムNPUを容易に追加でき、追加プラットフォームの継続的な評価も行っています。サポート対象のCPU、GPU、NPUについてはメインページをご覧ください。

デプロイされたモデルのパフォーマンスを監視できますか？

はい。当社のパフォーマンスダッシュボードでは、デバイスを横断したモデルの明確なインサイトを提供します。これには、レイテンシ、スループット、メモリ使用量、経時的な安定性、複数デバイス間の比較が含まれます。毎晩の更新により、結果は常に最新の状態に保たれます。詳細については、当社のパフォーマンスダッシュボードページをご覧ください。

ランタイムにアクセスするにはどうすればよいですか？

お問い合わせフォームよりご連絡ください。すぐに折り返しご連絡いたします。