Die Latenz misst die Inferenzzeit, die für die Verarbeitung einer einzelnen Eingabe erforderlich ist, wenn die Inferenz synchron erfolgt.
Bei der Ausführung von OpenVINO™ Benchmark mit Standardparametern wird im Modus "Inferenz" eine Inferenzierung durchgeführt. Aus diesem Grund misst die resultierende Latenz die gesamte Inferenzzeit, die für die Verarbeitung der Anzahl der Inferenzanfragen erforderlich ist.
Darüber hinaus werden bei der Ausführung von Benchmark App auf der CPU mit Standardparametern 4 Inferenzanforderungen erstellt, während 16 Inferenzanfragen erstellt werden, wenn die Benchmark App auf GPU mit Standardparametern ausgeführt wird. Daher ist die resultierende Latenz von Inferenzierung auf GPU höher als bei der CPU.
Geben Sie für einen fairen Vergleich die gleiche Anzahl von Inferenzanfragen an, wenn Sie Benchmark App auf CPU und GPU ausführen:
benchmark_app.exe -m model.xml -d CPU -nireq 4
benchmark_app.exe -m model.xml -d CPU -nireq 4