小規模言語モデル (SLM)と CPU を使用して AI の効率を最大化する方法

小規模な言語モデルを使用する適切な規模のアプローチが、コスト効率、精度、セキュリティーを向上させる方法を説明します。

重要なポイント

  • 小規模言語モデルは、大規模言語モデル (LLM) から派生した軽量で俊敏な言語 AI モデルです。

  • パイプライン全体では、SLM は LLM よりもトレーニング・データと計算能力を必要としません。

  • AI に最適化された CPU と組み合わせることで、SLM はリーン・アーキテクチャーで応答的に実行できるカスタマイズされた AI 機能を可能にします。

  • インテル® Xeon® プロセッサーは、SLM ワークロードと AI で強化されたアプリケーションに最適なプラットフォームを提供します。

言語 AI の開発と導入への代替アプローチを検討

企業や ISV、その他のテクノロジー組織は、AI を革新的で実現可能なものにする方法を模索しています。言語 AI モデルの開発と導入は、従来、ディスクリート GPU やその他の専用ハードウェアを搭載したサーバーとワークステーションでサポートされる大規模言語モデル (LLM) に依存していました。しかし、このタイプのソリューションを実現するために必要な労力とインフラが、多くの組織にとって負担となることがよくあります。

その結果、実践的なイノベーターたちは、SLM ベースのソリューションを選択するようになりました。SLM は、チャットボットなどのドメイン固有の言語ベースのアプリケーションをより効率的に実現できる軽量で集中的なモデルです。さらにコスト効率を高めるために、これらの SLM イノベーターは、クラウド、オンプレミスのデータセンター、エッジに導入されているかどうか、CPU のみのアーキテクチャーで SLM ワークロードを実行する方法を模索しています。

ドメイン固有の言語 AI をより効率的に有効にする方法をより深く理解できるように、SLM とインテル® Xeon® プロセッサーなどの AI 対応 CPU の組み合わせがなぜこれほど強力かを検証してみましょう。

SLM で言語 AI ソリューションを簡素化

効率性、プライバシー、コスト効率を優先する企業にとって、SLM は AI 機能への優れたルートを提供します。広範囲に広がり、汎用的なである LLM とは対照的に、SLM は特定のタスクを効率的に実行するように設計されたコンパクトな AI モデルです。その結果、AI パイプラインの各段階で必要な演算能力とデータが少なくなります。人気の SLM の例としては、Mistral 7BLlama 3.2 コレクションがあります。

効率性と費用面でのメリット

通常、SLM は蒸留や剪定などの技術を通じて LLM から導き出されます。SLM は、データが少ないため、電力やクラウドリソースに多額の費用をかけることなく、頻繁にトレーニングと再トレーニングを行うことができます。この柔軟性は、ユーザーが予算やスケジュールを過度に消費することなく、モデルのパフォーマンスを微調整し、改良するのに役立ちます。

セキュリティーとプライバシー規制のメリット

さらに、SLM はプライバシーとセキュリティーのメリットを兼ね備えています。SLM は、必要なトレーニング・データが少なく、広く使用されていないため、機密情報を取り込んで保持する可能性は低くなります。より小規模なデータセットとシンプルなアーキテクチャーにより、結果を説明しやすくなり、バイアスや幻覚を特定できます。さらに、SLM は必要なリソースが少ないため、サイバーセキュリティーの脅威に対する攻撃表面積も小さくなります。

ドメイン固有の AI のメリット

SLM は、より小さく、より集中的なデータセット上に構築されているため、ドメイン固有のアプリケーションでの使用に適しています。特定の業界、分野、または企業向けに構築されたデータセットに関するトレーニングは、SLM が誤った出力のリスクを低減し得る、繊細な意味合いの理解を深めるために役立ちます。また、焦点を絞ることにより、タスク完了率や精度などの指標の最適化も促進されます。さらに、SLM のデータとトレーニングの要件が少ないことで、迅速な対応が可能となり、ROI の早期の実現にもつながります。

CPU 上の SLM により効率を最大化

SLM と AI 対応 CPU を組み合わせて使用することで、パフォーマンスを犠牲にすることなく、実世界の言語 AI 実装のための軽量で費用対効果に優れたソリューションを提供できます。小規模言語モデルに GPU やその他の専用ハードウェアではなく CPU を使用することで、コスト、複雑さ、リソース消費を最小限に抑えることができます。

例えば、最新のインテル® Xeon® プロセッサー (第 4 世代以降) を搭載したサーバーでは、CPU のみのアーキテクチャー上で、低レイテンシー、低コスト、かつプライベートに SLM を実行することができます。優れた柔軟性とパフォーマンスにより、小規模言語モデルにこれらのプロセッサーを使用することは、オンプレミスの導入で SLM アプリケーションを有効にする上で、特に魅力的な方法となります。

インテル® Xeon® プロセッサーに統合されたアクセラレーター

また、インテル® Xeon® 4、5、6 プロセッサーには、インテル® アドバンスト・マトリクス・エクステンション (インテル® AMX) アクセラレーターが統合されています。このアクセラレーターと拡張されたメモリー帯域幅を組み合わせることで、SLM の計算効率が向上します。さらに、モデルサイズが小さくなったことで、完全なアプリケーションをインテル® Xeon® プロセッサー搭載の単一ノード上で実行できるため、コストを大幅に削減し、優れたレイテンシーとスループットを実現します。

インテル® AMX は、ディープラーニング (DL) のトレーニングと推論のパフォーマンスを向上させ、自然言語処理などのワークロードに最適なものにしています。インテル® AMX 命令セットを活用するように AI 機能をコード化するか、プロセッサー命令セット・アーキテクチャーを使用するために、非 AI 機能をコード化することができます。

また、最新のインテル® Xeon® プロセッサーには、インテル® AMX 以外にもさまざまな最適化とアクセラレーション・エンジンが組込まれており、セキュリティーやネットワーキングなど複数のユースケースをサポートしている点も注目です。

 

インテル® Xeon® プロセッサー搭載 Llama 3.2 3B

ベンチマーク結果によると、Llama 3.2 3B を 1,024 トークンの入力と 128 トークンの出力で実行した場合、第 5 世代インテル® Xeon® プロセッサーおよび P-cores 搭載インテル® Xeon® 6 プロセッサーでは、次のトークンのレイテンシーを 50ms 未満 (P99) に維持しながら、驚異的なスループットを達成できることが示されています。1
 

 

インテル® Xeon® プロセッサー搭載 Microsoft Phi-3

Phi-3 ファミリーの SLM は、生成 AI (GenAI) アプリケーションを構築に適した、高性能でコスト効率の高いオプションを提供します。Phi-3 メディア 4K、128K バリアントのベンチマークは、インテル® Xeon® プロセッサーが LLM 推論導入に適したパフォーマンスの高いオプションであることを示しています。2
 

SLM と CPU の機会の評価

CPU で実行される SLM は、言語 AI とドメイン固有のモデルを、組織が実装する上でより実用的にするための、実現可能で費用対効果に優れた、正確で安全な手段を提供します。

さらに、インテル® Xeon® プロセッサーを含む CPU アーキテクチャー上で、SLM を実行する道筋は、予想よりも直接的かもしれません。

CPU 上の SLM オプションの評価を開始するために、今日から実行できる 4 つの手順を次に示します。

 

  1. インフラチームと現在の投資状況を評価してください。多くの組織がインテル® Xeon® プロセッサー搭載サーバーを所有しており、インテル® AMX を搭載したインテル® Xeon® 6 プロセッサーに移行して既存のインフラストラクチャーを更新することで、SLM の TCO に大きなメリットをもたらすことができます。
  2. システム・プロバイダーにお問い合わせください。インテル® AMX アクセラレーターを備えたインテル® Xeon® プロセッサー搭載インスタンスは、主要なクラウド・プロバイダーから入手でき、すぐに利用できます。
  3. テクノロジー・パートナーとオプションについて相談します。インテル® パートナーは、エッジからクラウドまでの小規模言語モデルで、インテル® Xeon® プロセッサーを含むインテルのテクノロジーを最大限に活用できるよう、お客様をサポートする準備ができています。
  4. 既存の AI アプリケーションを CPU アーキテクチャーに移植することが、いかに簡単であるかをご覧ください。インテルは、コードを一度記述すると、どこにでも導入できる OpenVINO™ ツールキットなど、幅広い開発ツールを提供しています。