ランタイム

デバイス上でコンパイル済みモデルを実行する軽量ランタイム。効率的なSoCオーケストレーションのための全機能を提供します。
お問い合わせ

動作中

ランタイムの実動を確認し、最先端アプリケーション向けにSoCの全性能を引き出す仕組みを体験してください。

主な機能

異種実行

CPU、GPU、NPUといった最適なデバイス間でモデルの並列処理を実行する。

ダイナミックシェイプ

LLMおよびその他の最先端モデルにおける実行時における動的形状の完全サポート。

カスタムNPU向けに拡張可能

HALを介して新規NPU向けに容易に拡張可能。

OSおよびベアメタル対応

Linux、MacOS、Windowsからベアメタルシステムまで、あらゆるニーズに対応する統合ツールチェーン。

仕組み

ターゲットデバイスへの移植を容易にするため、実行時実行ファイルを事前に生成できます。軽量なCベースのエンジンはワークフローにシームレスに統合され、最小限のオーバーヘッドでベアメタルシステムやOSベースのシステム上でコンパイル済みモデルを実行可能です。
ドキュメントを表示
import torch, create_attic_runtime

random_input = torch.rand(1, 3, 256,
               256, dtype=torch.float32)
rt = create_attic_runtime(compiled_model)
main_function = rt.get_function_by_name("main")
iree_output = main_function(random_input)

よくある質問

Rooflineのランタイムは何をしますか?

ランタイムは、コンパイル済みモデルを実行するためにデバイスに移植される小さなソフトウェアです。これはC言語で構築された軽量かつ高速な推論エンジンであり、SDKで生成された最適化されたカーネルを実行します。当社のランタイムはCPU、GPU、NPUを跨いだヘテロジニアス実行をサポートし、LLMのようなモデルの動的形状を処理し、ハードウェア抽象化レイヤーを通じてカスタムNPUへ拡張可能です。ランタイムはLinux、macOS、Windows、さらにはベアメタルシステム上でも動作します。

どのハードウェアプラットフォームがサポートされていますか?

当社のランタイムは幅広いSoCをサポートしています。拡張可能なアーキテクチャにより、新しいデバイスやカスタムNPUを容易に追加でき、追加プラットフォームの継続的な評価も行っています。サポート対象のCPU、GPU、NPUについてはメインページをご覧ください。

デプロイされたモデルのパフォーマンスを監視できますか?

はい。当社のパフォーマンスダッシュボードでは、デバイスを横断したモデルの明確なインサイトを提供します。これには、レイテンシ、スループット、メモリ使用量、経時的な安定性、複数デバイス間の比較が含まれます。毎晩の更新により、結果は常に最新の状態に保たれます。詳細については、当社のパフォーマンスダッシュボードページをご覧ください。

ランタイムにアクセスするにはどうすればよいですか?

お問い合わせフォームよりご連絡ください。すぐに折り返しご連絡いたします。