FP32 形式の同じモデルと比較した場合に、より高速な推論を実行する FP16 形式が期待されます。benchmark_appを使用して、両方の形式についてアプリケーションのデフォルト設定で推論を実行しますが、FP16 形式モデルと FP32 形式モデルを比較すると、パフォーマンスの向上 (FPS の上昇) は見られません。
benchmark_appを使用しながらFP32モデルをF32形式で実行するには、選択したデバイスに-infer_precision f32を追加します。
例えば:
$ benchmark_app -m intel/bert-large-uncased-whole-word-masking-squad-0001/FP32/bert-large-uncased-whole-word-masking-squad-0001.xml -d GPU -t 5 -api async -hint throughput -infer_precision f32
GPU プラグインの場合、GPU プリミティブの浮動小数点精度は、精度で実行される <圧縮 f16 OpenVINO IR 形式を除き、OpenVINO IR での動作 f16
精度に基づいて選択されます。
CPU プラグインの場合、CPU プリミティブのデフォルトの浮動小数点精度は f32 です。f16 OpenVINO™ IR をサポートするために、プラグインは内部的にすべての f16 値を f32 に変換し、すべての計算は f32 のネイティブ精度を使用して実行されます。bfloat16 計算をネイティブにサポートするプラットフォーム (AVX512_BF16 または AMX 拡張子を持つ) では、パフォーマンスを向上させるために f32 の代わりに bf16 タイプが自動的に使用されます (実行モードのヒントを参照)。
CPU/GPU プラグインのデータタイプの詳細については、次を参照してください。