ランタイムは、コンパイル済みモデルを実行するためにデバイスに移植される小さなソフトウェアです。これはC言語で構築された軽量かつ高速な推論エンジンであり、SDKで生成された最適化されたカーネルを実行します。当社のランタイムはCPU、GPU、NPUを跨いだヘテロジニアス実行をサポートし、LLMのようなモデルの動的形状を処理し、ハードウェア抽象化レイヤーを通じてカスタムNPUへ拡張可能です。ランタイムはLinux、macOS、Windows、さらにはベアメタルシステム上でも動作します。
ランタイムは、コンパイル済みモデルを実行するためにデバイスに移植される小さなソフトウェアです。これはC言語で構築された軽量かつ高速な推論エンジンであり、SDKで生成された最適化されたカーネルを実行します。当社のランタイムはCPU、GPU、NPUを跨いだヘテロジニアス実行をサポートし、LLMのようなモデルの動的形状を処理し、ハードウェア抽象化レイヤーを通じてカスタムNPUへ拡張可能です。ランタイムはLinux、macOS、Windows、さらにはベアメタルシステム上でも動作します。
当社のランタイムは幅広いSoCをサポートしています。拡張可能なアーキテクチャにより、新しいデバイスやカスタムNPUを容易に追加でき、追加プラットフォームの継続的な評価も行っています。サポート対象のCPU、GPU、NPUについてはメインページをご覧ください。
はい。当社のパフォーマンスダッシュボードでは、デバイスを横断したモデルの明確なインサイトを提供します。これには、レイテンシ、スループット、メモリ使用量、経時的な安定性、複数デバイス間の比較が含まれます。毎晩の更新により、結果は常に最新の状態に保たれます。詳細については、当社のパフォーマンスダッシュボードページをご覧ください。
お問い合わせフォームよりご連絡ください。すぐに折り返しご連絡いたします。