Schneller Schritt zur Verbesserung der Modellladezeit auf GPU
Das Laden des Intermediate Representation (IR) eines Eingabemodells auf die GPU dauert länger, als das Laden des gleichen Modells auf eine CPU.
Erstellen Sie cl_cache Verzeichnis manuell im Arbeitsverzeichnis Ihrer Anwendung.
Der Treiber verwendet dieses Verzeichnis, um die binären Darstellungen der kompilierten Kernel zu speichern. Dies funktioniert auf allen unterstützten OSes.
In diesem Artikel finden Sie weitere Informationen zur Verwaltung der cl_cache.
Das Laden Ihres Eingabemodells im Ir-Format (Intermediate Representation) auf die GPU dauert länger als das Laden des gleichen Modells auf eine CPU, da der GPU-Stack auf OpenCL* basiert. Die Ladezeit hängt von der Kompilierungszeit von OpenCL* Kernels ab.
Wenn Sie die cl_cache aktivieren, dauert es beim ersten Laden des Modells immer noch lange, da der OpenCL*-Kernel kompiliert wird. Jede nachfolgende Last des gleichen Modells ist jedoch viel schneller.