So maximieren Sie die KI-Effizienz mithilfe von Small Language Models (SLMs) und CPUs

Entdecken Sie jetzt, wie Sie mit einem richtig dimensionierten Ansatz, der Small Language Models nutzt, Kosteneffizienz, Genauigkeit und Sicherheit verbessern können.

Auf einen Blick

  • Small Language Models (SLMs) sind schlanke, flexible KI-Modelle, die von Large Language Models (LLMs) abgeleitet wurden.

  • Entlang der gesamten Pipeline benötigen SLMs weniger Trainingsdaten und Rechenleistung als LLMs.

  • In Kombination mit einer KI-optimierten CPU ermöglichen SLMs angepasste KI-Funktionen, die sich mit einer schlanken Architektur reaktionsschnell ausführen lassen.

  • Intel® Xeon® Prozessoren stellen eine ideale Plattform für SLM-Workloads und KI-gestützte Anwendungen dar.

author-image

Von

Alternative Ansätze für die Entwicklung und Bereitstellung von Sprach-KI

Unternehmen, ISVs und andere Technologiefirmen suchen nach Wegen, um KI innovativ und praktisch umsetzbar zu machen. Die Entwicklung und Bereitstellung von Sprach-KI-Modellen hat bislang auf Large Language Models (LLMs) beruht, die von Servern und Workstations mit separaten GPUs oder anderer spezialisierter Hardware unterstützt werden. Der Aufwand und die Infrastruktur, die für solche Lösungen erforderlich sind, erweisen sich für viele Unternehmen jedoch als unerschwinglich.

Daher entscheiden sich pragmatische Innovatoren zunehmend für SLM-basierte Lösungen. SLMs sind schlanke und fokussierte Modelle, die domänenspezifische, sprachbasierte Anwendungen wie Chatbots effizienter unterstützen können. Um die Kosteneffizienz weiter zu erhöhen, untersuchen diese SLM-Innovatoren, wie sie SLM-Workloads mit reinen CPU-Architekturen ausführen können – unabhängig davon, ob sie in der Cloud, lokal in einem Rechenzentrum oder am Edge bereitgestellt werden.

Um besser zu verstehen, wie Sie domänenspezifische Sprach-KI effizienter unterstützen können, wollen wir uns ansehen, was die Kombination aus SLMs und KI-fähigen CPUs wie Intel® Xeon® Prozessoren so effektiv macht.

Vereinfachen Sie Sprach-KI-Lösungen mit SLMs

Für Unternehmen, denen es auf Effizienz, Datenschutz und Kosteneffizienz ankommt, stellen SLMs eine hervorragende Methode für KI-Funktionen dar. Anders als LLMs, die groß sind und universell genutzt werden können, sind SLMs kompakte KI-Modelle, die dazu dienen, bestimmte Aufgaben effizient ausführen. Sie benötigen in jeder Phase der KI-Pipeline weniger Rechenleistung und weniger Daten. Beispiele für beliebte SLMs sind Mistral 7B und die Llama 3.2 Kollektion.

Effizienz- und Kostenvorteile

In der Regel werden SLMs mit Techniken wie Destillation und Zurückschneiden von LLMs abgeleitet. Da SLMs weniger Daten umfassen, lassen sie sich häufig trainieren und neu trainieren, ohne erhebliche Kosten für Strom oder Cloud-Ressourcen zu verursachen. Dank dieser Flexibilität können Sie die Leistung Ihres Modells optimieren, ohne viel Geld oder Zeit zu benötigen.

Vorteile bei Sicherheit und Datenschutz

Darüber hinaus bieten SLMs Vorteile bei Datenschutz und Sicherheit. Aufgrund des geringeren Trainingsdatenbedarfs und der eingeschränkten Verwendung ist es weniger wahrscheinlich, dass SLMs vertrauliche Daten erfassen und speichern. Dank der kleineren Datenmengen und der einfacheren Architektur lassen sich Ergebnisse leichter erklären und Biases oder Halluzinationen schneller erkennen. Da SLMs weniger Ressourcen erfordern, sind sie auch mit einer kleineren Angriffsfläche für Cyberbedrohungen verbunden.

Domänenspezifische KI-Vorteile

Da SLMs auf kleineren, fokussierteren Datenmengen basieren, eignen sie sich gut für die Verwendung in domänenspezifischen Anwendungen. Das Trainieren mit einer Datenmenge, die für eine bestimmte Branche, einen bestimmten Bereich oder ein bestimmtes Unternehmen entwickelt wurde, hilft SLMs dabei, ein tiefes und nuanciertes Verständnis zu entwickeln, das das Risiko für fehlerhafte Ausgaben verringern kann. Außerdem erleichtert der genauere Fokus Optimierungen für Metriken wie Abschlussrate und Genauigkeit von Aufgaben. Darüber hinaus können geringere Daten- und Trainingsanforderungen für SLMs zu kurzen Turnaround-Zeiten und einem schnelleren ROI führen.

Maximale Effizienz mithilfe von SLMs auf CPUs

SLMs und KI-fähige CPUs können zusammen verwendet werden, um eine schlanke, kosteneffiziente Lösung zur praktischen Sprach-KI-Implementierung zu bieten. Und das ohne Leistungseinbußen. Die Verwendung von CPUs anstelle von GPUs oder anderer spezieller Hardware für kleine Sprachmodelle kann Kosten, Komplexität und Ressourcenverbrauch minimieren.

Server auf Basis der neuesten Intel® Xeon® Prozessoren der 4. Generation und neuer ermöglichen es Benutzern beispielsweise, SLMs auf einer reinen CPU-Architektur kostengünstig und privat mit geringer Latenz auszuführen. Aufgrund ihrer Flexibilität und Leistung sind solche Prozessoren für Small Language Models ein besonders attraktiver Weg, um SLM-Anwendungen in lokalen Bereitstellungen zu unterstützen. Das kann wichtig sein, wenn besonders strenge Anforderungen an die Datensicherheit gelten.

In Intel® Xeon® Prozessoren integrierte Beschleuniger

Intel® Xeon® Prozessoren der 4., 5. und 6. Generation bieten außerdem den integrierten Intel® Advanced Matrix Extensions (Intel® AMX) Beschleuniger, der in Kombination mit erhöhter Speicherbandbreite die Recheneffizienz von SLMs verbessert. Eine kleinere Modellgröße bedeutet auch, dass vollständige Anwendungen auf einem einzigen Intel® Xeon® prozessorbasierten Knoten ausgeführt werden können, was die Kosten erheblich senkt und eine hervorragende Latenz und einen hervorragenden Durchsatz bietet.

Intel® AMX verbessert die Leistung von Trainings- und Inferenzaufgaben für Deep Learning (DL) und ist somit ideal für Workloads wie die Verarbeitung natürlicher Sprache. Sie können KI-Funktionen codieren, um die Vorteile des Intel® AMX Befehlssatzes zu nutzen, oder Nicht-KI-Funktionen codieren, um die Befehlssatzarchitektur des Prozessors zu verwenden.

Es ist auch wichtig zu beachten, dass die neuesten Intel® Xeon® Prozessoren eine Reihe von integrierten Optimierungen und Beschleunigungs-Engines bieten, die über Intel® AMX hinausgehen und verschiedene Anwendungsfälle wie Sicherheit und Netzwerk unterstützen.

 

Llama 3.2 3B auf Intel® Xeon® Prozessoren

Benchmarking-Ergebnisse zeigen, dass das Ausführen von Llama 3.2 3B mit einem Input von 1.024 Token und einem Output von 128 Token auf Intel® Xeon®Prozessoren der 5. Generation und Intel® Xeon® 6 P-Core-Prozessoren bemerkenswerte Durchsatzraten erzielen kann, während eine Next-Token-Latenz von unter 50 ms (P99) beibehalten wird.1

 

Microsoft Phi-3 auf Intel® Xeon® Prozessoren

Die SLMs der Phi-3 Reihe bieten leistungsstarke, kostengünstige Optionen für die Entwicklung von generativen KI-Anwendungen (GenAI). Das Benchmarking von Phi-3-mittleren 4K- und 128K-Varianten zeigt, dass Intel® Xeon® Prozessoren eine leistungsfähige Option für die LLM-Inferenzbereitstellung sind.2

Bewerten Sie Ihre SLM- und CPU-Möglichkeiten

Auf CPUs ausgeführte SLMs bieten eine praktikable, kosteneffiziente, genaue und sichere Methode, um die Implementierung von Sprach-KI und domänenspezifischen Modellen in Ihrem Unternehmen spürbar zu erleichtern.

Darüber hinaus kann der Weg zur Ausführung von SLMs in einer CPU-Architektur, die auf Intel® Xeon® Prozessoren beruht, einfacher sein als Sie denken.

Hier sind vier Schritte, die Sie noch heute ergreifen können, um mit der Evaluierung Ihrer SLM-auf-CPU-Optionen zu beginnen:

 

  1. Bewerten Sie mit Ihrem Infrastrukturteam Ihre vorhandenen Investitionen. Viele Unternehmen besitzen Intel Xeon prozessorbasierte Server, und die Auffrischung Ihrer bestehenden Infrastruktur durch eine Migration auf Intel Xeon 6 Prozessoren mit Intel AMX kann enorme TCO-Vorteile für SLMs bringen.
  2. Informieren Sie sich bei Ihrem Cloud-Anbieter. Instanzen mit Intel® Xeon® Prozessoren und dem Intel® AMX Beschleuniger sind bei allen großen Cloud-Anbietern verfügbar und können von Ihnen genutzt werden.
  3. Erörtern Sie Optionen mit Ihren Technologiepartnern. Intel® Partner können Ihnen helfen, das Beste aus unseren Technologien (einschließlich Intel® Xeon® Prozessoren) für Small Language Models herauszuholen – vom Edge bis zur Cloud.
  4. Entdecken Sie jetzt, wie einfach es ist, vorhandene KI-Anwendungen in CPU-Architekturen zu portieren. Intel bietet eine Reihe von Development Tools an, darunter das OpenVINO™ Toolkit, mit denen Sie Code einmal schreiben und dann überall bereitstellen können.

Der Inhalt dieser Seite ist eine Kombination aus menschlicher und computerbasierter Übersetzung des originalen, englischsprachigen Inhalts. Dieser Inhalt wird zum besseren Verständnis und nur zur allgemeinen Information bereitgestellt und sollte nicht als vollständig oder fehlerfrei betrachtet werden. Sollte eine Diskrepanz zwischen der englischsprachigen Version dieser Seite und der Übersetzung auftreten, gilt die englische Version. Englische Version dieser Seite anzeigen.