Das Laden der Intermediate Representation (IR) eines Eingabemodells in die GPU dauert länger als das Laden desselben Modells in eine CPU.
Erstellen Sie manuell cl_cache Verzeichnis im Arbeitsverzeichnis Ihrer Anwendung.
Der Treiber verwendet dieses Verzeichnis, um die binären Darstellungen der kompilierten Kernel zu speichern. Dies funktioniert auf allen unterstützten Betriebssystemen.
Legen Sie alternativ die Umgebungsvariable fest:
export INTEL_OPENCL_CACHE=1
In diesem Artikel finden Sie eine Übersicht über das Modell-Caching, um die Latenz zu optimieren.
Das Laden des Eingabemodells im IR-Format (Intermediate Representation) in die GPU dauert länger als das Laden desselben Modells auf eine CPU, da der GPU-Stack auf OpenCL* basiert. Die Ladezeit hängt von der Kompilierungszeit der OpenCL*-Kernel ab.
Wenn Sie die cl_cache aktivieren, dauert es beim ersten Laden des Modells immer noch lange, da der OpenCL*-Kernel kompiliert wird. Jede nachfolgende Ladung desselben Modells ist jedoch viel schneller.
Für die programmgesteuerte Cachekonfiguration in OpenVINO™ 2026.0:
core.set_property("GPU", {"CACHE_DIR": "./cl_cache"})