エグゼクティブ・サマリー
シミュレーションのワークロードを加速させるため、研究者はモンテカルロ法に基づくシミュレーションや一般的なディープラーニング推論を加速するために幅広く適用できそうな技術を活用しました。その結果は、インテル® Xeon® スケーラブル・プロセッサー・ファミリーに存在する AI アクセラレーション機能の有効性を目立たせるものでした。
GAN のトレーニングとインテル® DL ブーストを使用して、精度を犠牲にすることなく量子化により加速することで、モンテカルロ・シミュレーションを用いるすべての用途に、エキサイティングな新しい可能性が開かれます。
課題
CERN (欧州原子核研究機構) の物理学者や研究者は、独自のさまざまな粒子加速器施設を利用して、物質のもっとも基本的な構成要素、すなわち基本粒子の研究を行なっています。42 カ国 170 強のコンピューティング・センターによるグローバルなコラボレーションである世界 LHC 計算グリッドは、シミュレーションに用いられるとともに、この研究によって生成される膨大な量のデータを分析、保存するために利用されます。
最近の大規模な汎用 ATLAS 実験に備えて、空洞に降ろされるミューオンチェンバーのスモールホイールを見るエンジニア。チェンバーは衝突を検出し、そのデータが分析に用いられます。写真は © CERN の許可を得て使用しています。
CERN の LHC (大型ハドロン衝突型加速器、世界最大の粒子加速器) の将来におけるニーズに備えるため、CERN の研究者、SURFsara、およびインテルは、モンテカルロ法に基づくシミュレーションで、これまでとはかけ離れたレベルの成果を引き出すため、アプローチを再考してきました。LHC の今後の改善により、粒子衝突率が劇的に上昇します。LHC 実験での衝突の後、カロリメーターは検出器を通過する際に粒子が失うエネルギーを測定します。カロリメーターからのデータの解釈は、衝突を効果的に推測する、モンテカルロ法に基づくシミュレーションにより行なわれます。
研究者チームは、モンテカルロ法に基づいたシミュレーションよりもはるかに早く結果を出せる可能性を秘めた、ディープラーニング推論のワークロード加速化を求めました。この研究は、CERN オープンラボを通じたインテルと CERN との長年のコラボレーションの一環として行なわれています。CERN オープンラボは、2001 年に設立された官民パートナーシップで、情報通信技術 (ICT) のイノベーションを加速する後押しをするための研究を行なっています。現在、インテルと CERN は、ハードウェアの評価から HPC や AI に至るまで、幅広い調査に協力して取り組んでいます。
ソリューション
研究者は、インテル® ディープラーニング・ブースト (インテル® DL ブースト) を搭載したインテル® Xeon スケーラブル・プロセッサー・ファミリーにおける推論でより高いパフォーマンスを得るため、インテル® AI アナリティクス・ツールキットを使用しました。インテル® DL ブーストは、ディープラーニングのワークロードで非常に効率性の高い推論のアクセラレーションを実現するため、AVX-512 命令セットを拡張します。
さらに、これらの調査は、他の多くの分野でも有用なモンテカルロ・シミュレーションに依存するモデルを加速する方法についての知見を提供します。
インテル® DL ブーストが提供する内蔵型の AI アクセラレーションは、プロジェクトのパフォーマンス向上において中心的な役割を果たしました。インテル® DL ブーストは、正確さを犠牲にすることなく推論を加速することが示されました。
検索結果
研究者は、将来的に利用される可能性のある、条件付き敵対的生成ネットワーク (GAN) を使用する、粒子加速器のカロリメーターをシミュレートすることにより、これまでに必要とされていたコンピューティング・リソースの一部だけを使用して、パフォーマンスの向上を実証しました。GAN をトレーニングするというアプローチと、量子化を通じた精度を犠牲にしない加速のためにインテル® DL ブーストを使用することは、モンテカルロ・シミュレーションを利用するあらゆる用途でエキサイティングな新しい可能性を開きます。
(図 2、左側) インテル® Xeon® Platinum 8280 プロセッサーに搭載されたインテル® DL ブースト (特に INT8 演算) を使用することで、量子化は 1.8 倍1 加速し、精度もわずかに上昇していることを示しています。
(図3、右側) インテル® DL ブースト搭載のインテル® Xeon Platinum 8280 プロセッサー上において、推論のマルチストリーミングにより性能が 2.2 倍1 向上しました。
この研究は広範囲に影響を及ぼします。CERN で AI と量子の研究を専門とする物理学者、Sofia Vallecorsa 博士が述べるとおり、世界 LHC 計算グリッドのうち半分以上の計算が、シミュレーションに利用されています。トレーニング済みモデルの導入において、パフォーマンス、コスト、精度はすべて非常に重要です。
図 2 で示したとおり、研究チームは複雑な GAN モデルの推論で 1.8 倍のパフォーマンス向上を確認しました。また、精度もわずかに向上しています (数値が低いほど高性能: INT8 の精度が 0.05324 に対し、FP32 の精度は 0.061227)。1
インテル® Xeon Platinum 8280 プロセッサー上のインテル® DL ブーストを活用することで、量子化の速度は 1.8 倍向上し、精度もわずかに向上したことが示されています。1
ソリューションのまとめ
精度を損なうことなくインテル® DL ブーストを利用するモデルを採用するため、CERN の研究者はインテル® Low Precision Optimization Tool を使用しました。これは精度重視の自動チューニング戦略をサポートする、新しいオープンソースの Python ライブラリーです。このツールは、TensorFlow、PyTorch、MXNet などの代表的な DL フレームワークで低精度推量ソリューションの導入を早めるために役立ちます。ツールは GitHub サイトで入手でき、インテル® AI アナリティクス・ツールキットに含まれています。また、ディープラーニング・ワークフローを加速するためにインテルで最適化されたバージョンの TensorFlow、PyTorch、および事前トレーニング済みモデルも付属しています。図 4 は、自動化された量子化の自動チューニングで用いられるフローを示しています。
CERN の研究者は、ネットワーク内の計算の約半分は float32 からインテル® DL ブーストでサポートされている INT8 の数値精度に、精度を損なうことなく切り替えられることを見いだしました。その結果、パフォーマンスはほぼ倍増2 しました。これは、 float32 から INT8 への完全な変換により、計算性能が増加し、メモリーの帯域幅が減少するため、パフォーマンスにおいて理論上、最大 4 倍の向上が得られるという期待に一致するものです。ネットワークの半分が変換されたので、完全に変換すると理論上の最大値が 4 倍になる場合に、性能向上が 2 倍を少し下回るというのは理にかなっています。
図 4.精度のトレードオフを完全に制御して量子化を実現し、結果として推論のパフォーマンスが著しく向上します。
この画像は、ヒッグス粒子の発見で有名な、2 つの大規模な汎用実験のうちの 1 つと同様に、コンパクト・ミューオン・ソレノイド (CMS) 検出器と、3 つの W ボゾンが生成される出現事象候補を示したものです。画像は © CERN の許可を得て使用しています。
インテル® Xeonスケーラブル・プロセッサー・ファミリーにあるインテル® DL ブーストのサポートは、精度を犠牲にすることなく推論を加速するために適していることが示されました。
この著しい性能向上は、精度を犠牲にすることなく得られたものであることは強調しておく必要があります。INT8 に完全に変換すればパフォーマンスは向上するでしょうが、精度が損なわれます。これは研究チームの用途として望ましくないものです。量子化は重要な技術で、精度重視の自動チューニングをサポートするツールのおかげで比較的容易になりました。これにより、精度を望ましいレベルに管理しつつ、パフォーマンスの向上を達成できます。
量子化は推論を加速させる効果的な方法であることが明らかになっており、INT8 で内蔵 AI アクセラレーション (インテル® DL ブースト) をサポートするインテル® Xeon スケーラブル・プロセッサー・ファミリーは、これがいかに強力なものであるかを示しています。従来の 32 ビットと比較して、パフォーマンスは倍近くになりました。しかもオープンソースの量子化ツールのおかげで、精度は維持されています。
FP32 と INT8 の推論は、両方ともマルチコア向けに最適化されました。SURF でハイパフォーマンス・コンピューティングとビジュアライゼーションの責任者である Valeriu Codreanu は、このパフォーマンス最適化について次のように説明します。「推論はトレーニングよりも (GAN の生成ネットワーク部分のみが使用されるため) 計算コストが低いので、このプロセスで複数のコアを使用する場合、ハードウェアの効率は最適となりません。この問題を解決するため、私たちはマルチストリーム量子化推論を用い、シングルストリームの量子化推論と比べて、同じインテル® Xeon Platinum 8020 システムを用いて 2.2 倍2 の高速化を実現しました。これは図 3 で説明しています。
推論をマルチストリーム化することで、インテル® DL ブーストを搭載したインテル® Xeon Platinum 8280 プロセッサーで推論のパフォーマンスを 2.2 倍2 上げました。
TensorFlow や Python に内蔵されたアクセラレーションを含め、使用されるツールの重要な部分は、oneAPI をサポートするライブラリーを活用しています。つまり、1 つのベンダーや 1 つの製品 (GPU など) のみに特化するのではなく、ヘテロジニアス・システムに対応する準備が整っているということです。
oneAPI は、業界を超えたオープンな標準ベースの統一プログラミングモデルあり、アーキテクチャを超えた共通の開発体験を提供しています。インテルは oneAPI の作成を支援し、さまざまなオープンソースのコンパイラー、ライブラリー、その他のツールでサポートしています。
oneAPI を介して INT8 を利用するようにプログラミングすることで、このケーススタディーで説明したような類の研究は、INT8 やその他量子化できる数値フォーマットに対応した、インテル® Xe GPU、FPGA などのあらゆるデバイスで実行できます。
ソリューションの構成
- インテルのハイパフォーマンス・コンピューティング
- インテル® Xeon® スケーラブル・プロセッサー・ファミリー
- インテル® DL ブースト
- インテル® Low Precision Optimization Tool
ビデオ・プレゼンテーション「インテル® ディープラーニング・ブーストで Low-Precision Optimization Tool を使用した AI 推論を増加 - 高エネルギー物理学における使用事例 (Increasing AI Inference with Low-Precision Optimization Tool with Intel Deep Learning Boost–A High Energy Physics Use Case)」、Haihao Shen (インテル) および Dr. Sofia Vallecorsa (CERN オープンラボ)。
CERN の論文「ディープラーニングのための精度低下戦略: 高エネルギー物理学における敵対的生成ネットワークの使用事例 (Reduced Precision Strategies for Deep Learning: A High Energy Physics Generative Adversarial Network Use Case)」、2月の第 10 回 International Conference on Pattern Recognition Applications and Methods で発表予定。