第 5 世代インテル® Xeon®スケーラブル・プロセッサー (以前の開発コード名: Emerald Rapids) は、インテル® フィールド内スキャンと呼ばれる新しい信頼性、可用性、保守性 (RAS) 機能を導入しました。これは、システム管理者が時間の経過とともに故障したプロセッサーを素早く簡単に見つけることができるように設計されたツールのファミリーです。インテル®のフィールド内スキャン には、現在および将来のプロセッサーに搭載される予定の機能のロードマップがあります。Scan-at-Field (SAF) とアレイ内蔵セルフテスト (BIST) は、In-Field Scan ファミリーの最初の 2 つの機能で、どちらも第 5 世代 インテル® Xeon® プロセッサーで使用できます。
インテル®の In-Field Scan は最小限の侵入で、ノード内の他のすべてのコアが顧客のワークロードを実行し続ける間に、1 つのコアをすばやくテストするように設計されています。
Scan* は、半導体デバイスの故障を検出する業界標準の手法です。これまで、スキャンはチップ製造工場の特殊なテスト機器によって使用されてきました。インテルでは、大量生産 (HVM) 中にスキャンを使用してプロセッサーをテストします。
Scan-At-Field (フィールドスキャン) により、お客様はインテルの製造スキャン・テストのサブセットを実行して、個々のプロセシング・コアの障害の有無をチェックできます。インテルが提供するテストパターン (スキャン・テスト・イメージと呼ばれます) を使用して、プロセッサー・パッケージ内の各コアを個別にテストし、適切な動作を確認できます。
アレイ BIST は、各コアの L1 (レベル 1) および L2 (レベル 2) キャッシュ、および多数のレジスターファイルとデータ配列をチェックします。ビルトインセルフテスト(BIST)であるため、ロードするテストイメージはありません。すべてのテストは、各コアの専用テストモジュールによって調整されます。
SAF および ArrayBIST の高レベルの技術概要については、 ライブ・フリート環境での障害のあるコンポーネントの検出に関するテクニカルペーパーに記載されています。システム要件とインフィールド・スキャンの実行方法の詳細は、 第® 5 世代インテル・インフィールド・スキャン・インテル® Xeon®・プロセッサーの有効化ガイド に記載されています。
インテル®の In-Field Scan は、信頼性と可用性サービスの領域における重要な前進であり、業界のテスト機能を使用して、フリート内の欠陥ユニットを迅速に特定できるようになります。
プラットフォームでインテル®のフィールド内スキャンを有効にするには、ハードウェア要件とソフトウェア要件があります。以下に要件の概要を示します。
インテル®の In-Field Scan は、システム管理者が定期的にフリートをテストしてプロセッサーが正しく動作していることを確認するために使用できるように設計および最適化されています。インテル® In-Field Scan は、ノード全体の操作を中断することなく、ライブノード (オンラインでユーザーアプリケーションを実行しているノード) で実行できる非常に高速なプロセッサー・テストをシステム管理者に提供します。この場合、 非常に高速 という用語は~200ms以下を意味します。
時間の経過とともに故障したコンポーネントを見つけるために、フリートの定期的なテストをお勧めします。フリートをテストする頻度と実行するテストの範囲は複雑な問題です。たとえば、プロセッサの実行時間など、多くの変数が関係します。プロセッサの予測故障率(FIT)2SDE(サイレントデータエラー)に対する顧客の許容範囲システム管理者がプロアクティブなシステム保守に費やすことをいとわない時間。
「ライブフリート環境での障害のあるコンポーネントの検出」テクニカルペーパーでは、フィールド内スキャンを実行できる頻度に関する考慮事項と例を示します。
® 第 5 世代インテル® インテル Xeon プロセッサーのフィールドスキャン有効化ガイド には、実行方法、テスト方法、および結果の理解方法に関する詳細情報があります。
第 5 世代 インテル® Xeon® プロセッサー向けインテル®のフィールド・スキャン・スキャン・テスト・イメージ、およびバージョンの確認または新しいイメージの読み込みの手順が 掲載 されています (NDA アカウントが必要 - インテル® リソース & ドキュメント・センターへの申請方法)。
インテル®のフィールド内スキャン・アプリケーションが 掲載 されます (NDA アカウントが必要 - インテル®のリソース & ドキュメント・センターへの申請方法)。
数十万 または数百万のプロセッサを搭載したフリートでは、障害が定期的に発生する可能性があります。これらの欠陥をできるだけ早く発見することは、顧客の業務の中断を最小限に抑えるための鍵です。
インテルは、プロセッサーの正しい動作をテストするために、複数のツールと機能のロードマップを提供することで業界をリードしています。インテル® In-Field Scan は、システム管理者によるフリート管理を改善するために、これらのテスト機能を拡張します。
インテルは インテル® Data Center Diagnostic Tool (インテル® DCDiag) も提供しています。インテル® DCDiag は、個々のマイクロプロセッサー・コアの機能を含め、ほとんどの SoC 機能を系統的にチェックする一連のテストです。DCDIAG は、テストの実行が適切に完了したことを確認するだけでなく、すべての DCDIAG 計算が正しいことを確認することで、サイレント データ エラーとして現れる障害を含む、さまざまな種類の障害を検出できます。インテル® DCDiag の詳細については、こちらのリンク にアクセスしてください。
インテル® In-Field Scan と インテル® DCDiag は補完的なテストツールです。インテル®の In-Field Scan は最小限の侵入で、ノード内の他のすべてのコアが顧客のワークロードを実行し続ける間に、1 つのコアをすばやくテストするように設計されています。インテル® DCDiag は包括的なプロセッサー・テスト・スイートであり、処理ノード全体がテスト専用である場合に最も効果的です。それぞれのツールの実行テスト内容が異なるため、インテルでは、各ツールがテスト対象のプロセッサー間で異なる不具合を識別することを発見しました。
手記: 第 5 世代 インテル® Xeon® プロセッサーのすべての SKU がインテル®のフィールド内スキャンをサポートしているわけではありません。