Es wird erwartet, dass das FP16-Format im Vergleich zum gleichen Modell im FP32-Format eine schnellere Inferenz liefert. Verwenden Sie die benchmark_app, um Inferenzen mit den Standardeinstellungen der Anwendung für beide Formate auszuführen, aber es gibt keine Leistungsverbesserung (höhere FPS), wenn Sie das FP16-Formatmodell mit dem FP32-Formatmodell vergleichen.
Um das FP32-Modell im F32-Format auszuführen, während das benchmark_app verwendet wird, fügen Sie -infer_precision f32 für das ausgewählte Gerät hinzu.
Zum Beispiel:
$ benchmark_app -m intel/bert-large-uncased-whole-word-masking-squad-0001/FP32/bert-large-uncased-whole-word-masking-squad-0001.xml -d GPU -t 5 -api async -hint throughput -infer_precision f32
Für das GPU-Plugin wird die Gleitkommagenauigkeit eines GPU-Primitivs basierend auf der Operationspräzision in der OpenVINO IR ausgewählt, mit Ausnahme der <komprimierten f16 OpenVINO IR-Form, die in der f16
Präzision ausgeführt wird.
Für das CPU-Plugin ist die standardmäßige Gleitkommagenauigkeit eines CPU-Primitivs f32. Um die f16 OpenVINO™ IR zu unterstützen, konvertiert das Plugin intern alle f16-Werte in f32 und alle Berechnungen werden mit der nativen Präzision von f32 durchgeführt. Auf Plattformen, die bfloat16-Berechnungen nativ unterstützen (mit der Erweiterung AVX512_BF16 oder AMX), wird automatisch der Typ bf16 anstelle von f32 verwendet, um eine bessere Leistung zu erzielen (siehe Hinweis zum Ausführungsmodus).
Weitere Informationen zu Datentypen für CPU/GPU-Plugins finden Sie unter: