Beschleunigen Sie Ihren Erfolg in RAG und generativer KI
Anwendungen mit Large Language Model (LLM) wie Chatbots eröffnen leistungsstarke Vorteile in allen Branchen. Unternehmen verwenden LLMs, um Betriebskosten zu reduzieren, die Mitarbeiterproduktivität zu steigern und personalisierte Kundenerlebnisse zu bieten.
Während Unternehmen wie Ihr Unternehmen um die Umwandlung dieser revolutionären Technik in Wettbewerbsvorteile wetteifern, muss ein erheblicher Teil der Produkte zuerst die Daten ihres Unternehmens anpassen, damit Modelle geschäftsspezifische KI-Ergebnisse liefern können. Die Kosten- und Zeitinvestitionen, die für die Feinabstimmung von Modellen erforderlich sind, können jedoch beträchtliche Hindernisse schaffen, die viele potenzielle Innovatoren zurückhalten.
Um diese Barrieren zu überwinden, bietet Retrieval-Augmented Generation (RAG) einen kosteneffektiveren Ansatz für die LLM-Anpassung. Indem Sie es Ihnen ermöglicht, Modelle auf Ihren proprietären Daten ohne Feinabstimmung aufzubauen, kann RAG Ihnen bei der schnellen Einführung von LLM-Anwendungen helfen, die auf Ihr Unternehmen oder Ihre Kunden zugeschnitten sind. Anstatt eine Neuschulung oder Feinabstimmung zu erfordern, ermöglicht der RAG-Ansatz es Ihnen, ein handelsübliches LLM mit einer kuratierten externen Wissensbasis, die auf den einzigartigen, proprietären Daten Ihres Unternehmens basiert, zu verbinden. Diese Wissensbasis verleiht den Ergebnissen des Modells den Kontext und die Informationen, die unternehmensspezifisch sind.
In diesem Artikel erfahren Sie, wie Sie die wichtigsten Komponenten Ihrer RAG-Implementierung einrichten können, von der Auswahl Ihrer Hardware- und Softwarebasis, dem Aufbau Ihrer Wissensbasis und der Optimierung Ihrer Anwendung in der Produktion. Wir teilen auch Tools und Ressourcen, die Ihnen dabei helfen können, die meiste Energie und Effizienz aus jeder Phase der Pipeline zu erzielen.
Wann ist RAG der richtige Ansatz?
Bevor Sie mit der Bewertung von Pipeline-Bausteinen beginnen, müssen Sie sich überlegen, ob RAG oder Feinabstimmung am besten für Ihre LLM-Anwendung geeignet ist.
Beide Ansätze beginnen mit einem grundlegenden LLM, das einen kürzeren Weg zu benutzerdefinierten LLMs bietet als das Training eines Modells von Grund auf. Grundlegende Modelle wurden vortrainiert und erfordern keinen Zugriff auf massive Datenbestände, ein Team von Datenexperten oder zusätzliche Rechenleistung für das Training.
Sobald Sie sich jedoch für ein Grundmodell entschieden haben, müssen Sie es weiterhin an Ihr Unternehmen anpassen, damit Ihr Modell Ergebnisse liefern kann, die Ihren Herausforderungen und Anforderungen entsprechen. RAG kann hervorragend zu Ihrer LLM-Anwendung passen, wenn Sie nicht die Zeit oder das Geld haben, um in die Feinabstimmung zu investieren. RAG reduziert auch das Risiko von Halluzinationen, kann Quellen für seine Ausgaben bereitstellen, um die Erklärbarkeit zu verbessern, und bietet Sicherheitsvorteile, da vertrauliche Informationen sicher in privaten Datenbanken aufbewahrt werden können.
Erfahren Sie mehr über die Vorteile, die RAG Ihrer generativen KI-Initiative bieten kann
Wählen Sie Hardware, die Leistung und Sicherheit priorisiert
Die RAG-Pipeline enthält viele rechenintensive Komponenten, und die Endbenutzer erwarten Reaktionen mit geringer Latenz. Das macht die Auswahl Ihrer Rechenplattform zu einer der wichtigsten Entscheidungen, die Sie treffen werden, um die Pipeline von Anfang bis Ende zu unterstützen.
Intel® Xeon® Prozessoren ermöglichen es Ihnen, die gesamte RAG-Pipeline auf einer einzigen Plattform zu betreiben und zu verwalten, was Entwicklung, Bereitstellung und Wartung optimiert. Intel® Xeon® Prozessoren umfassen integrierte KI-Engines zur Beschleunigung wichtiger Operationen in der gesamten Pipeline – einschließlich Data Ingestion, Abruf und KI-Inferenz – auf der CPU, ohne dass zusätzliche Hardware erforderlich ist.
Für RAG-Anwendungen, die den höchsten Durchsatz oder die niedrigste Latenz erfordern, können Sie Intel® Gaudi® KI-Beschleuniger integrieren, um erweiterte Leistungsanforderungen kosteneffektiv zu erfüllen. Intel® Gaudi® Beschleuniger wurden speziell für die Beschleunigung von Inferenzierung entwickelt und können sogar CPUs und andere Beschleuniger für RAG-Inferenz ersetzen.
Da Unternehmen oft RAG verwenden, wenn sie mit vertraulichen Daten arbeiten, ist der Schutz Ihrer Pipeline während der Entwicklung und in der Produktion von größter Bedeutung. Intel® Xeon® Prozessoren verwenden integrierte Sicherheitstechnologien – Intel® Software Guard Extensions (Intel® SGX) und Intel® Trust Domain Extensions (Intel® TDX) –, um eine sichere KI-Verarbeitung in der gesamten Pipeline über Confidential Computing und Datenverschlüsselung zu ermöglichen.
Nach der Bereitstellung kann die Latenz Ihrer Anwendung aufgrund einer erhöhten Endbenutzernachfrage erhöht werden. Intel® Hardware ist hochgradig skalierbar, sodass Sie schnell Infrastrukturressourcen hinzufügen können, um der wachsenden Nutzung gerecht zu werden. Sie können auch Optimierungen integrieren, um wichtige Operationen in der gesamten Pipeline zu unterstützen, wie Datenvektorisierung, Vektorsuche und LLM-Inferenz.
Sie können die RAG-Leistung der Intel® Xeon® und Intel® Gaudi® KI-Prozessoren über die Intel® Tiber™ Developer Cloud testen
Verwenden Sie ein RAG-Framework zur einfachen Integration von KI-Toolchains
Um viele Komponenten zu verbinden, kombinieren RAG-Pipelines mehrere KI-Toolchains für Dateneinnahme, Vektordatenbanken, LLMs und mehr.
Wenn Sie mit der Entwicklung Ihrer RAG-Anwendung beginnen, können integrierte RAG-Frameworks wie LangChain, fastRAG von Intel Lab und LlamaIndex die Entwicklung optimieren. RAG-Frameworks bieten oft APIs, um KI-Toolchains nahtlos in die Pipeline zu integrieren und vorlagenbasierte Lösungen für reale Anwendungsfälle anzubieten.
Intel bietet Optimierungen zur Maximierung der Gesamtleistung der Pipeline auf Intel® Hardware. Zum Beispiel integriert fastRAG Intel® Extension für PyTorch und Optimum Habana, um RAG-Anwendungen auf Intel® Xeon® Prozessoren und Intel® Gaudi® KI-Beschleunigern zu optimieren.
Intel hat auch Optimierungen zu LangChain beigetragen, um die Leistung auf Intel® Hardware zu verbessern. Erfahren Sie, wie Sie diesen Workflow einfach mit LangChain und Intel® Gaudi® 2 KI-Beschleunigern einrichten können
Bauen Sie Ihre Wissensbasis auf
RAG ermöglicht es Unternehmen, wichtige proprietäre Informationen über ihr Unternehmen und ihre Kunden in LLMs einzuspielen. Diese Daten werden in einer Vektor-Datenbank gespeichert, die Sie selbst erstellen können.
Informationsquellen identifizieren
Stellen Sie sich vor, Sie verwenden RAG, um einen persönlichen KI-Assistenten bereitzustellen, der Ihnen bei der Beantwortung von Mitarbeiterfragen zu Ihrem Unternehmen helfen kann. Sie können die wichtigsten Daten eines LLM-Systems wie Produktinformationen, Unternehmensrichtlinien, Kundendaten und das abteilungsspezifische Protokoll einspielen. Mitarbeiter könnten dem RAG-gestützten Chatbot Fragen stellen und unternehmensspezifische Antworten erhalten, was Mitarbeitern hilft, Aufgaben schneller zu erledigen und sie in die Lage versetzt, sich auf strategisches Denken zu konzentrieren.
Natürlich werden Wissensbasen in verschiedenen Branchen und Anwendungen variieren. Ein Pharmaunternehmen kann ein Archiv mit Testergebnissen und einem Patientenverlauf verwenden. Ein Hersteller könnte Gerätespezifikationen und historische Leistungsdaten einem RAG-basierten Roboterarm zuführen, damit er potenzielle Geräteprobleme früh erkennen kann. Ein Finanzinstitut könnte ein LLM mit proprietären Finanzstrategien und Echtzeit-Markttrends verbinden wollen, um einem Chatbot personalisierte Finanzberatung zu ermöglichen.
Um Ihre Wissensbasis aufzubauen, müssen Sie letztlich die wichtigen Daten sammeln, auf die Ihr LLM zugreifen soll. Diese Daten können aus einer Vielzahl von textbasierten Quellen stammen, einschließlich PDFs, Videotranskripten, E-Mails, Präsentationsfolien und sogar tabellarischen Daten aus Quellen wie Wikipedia-Seiten und Tabellenkalkulationen. RAG unterstützt auch multimodale KI-Lösungen, die mehrere KI-Modelle kombinieren, um Daten jeder Modalität zu verarbeiten, einschließlich Ton, Bildern und Video.
Zum Beispiel könnte ein Einzelhändler eine multimodale RAG-Lösung verwenden, um Überwachungsmaterial schnell nach wichtigen Ereignissen zu durchsuchen. Dazu erstellt der Einzelhändler eine Datenbank mit Videomaterial und verwendet Textaufforderungen – wie „Mann, der etwas in die Tasche steckt“, um relevante Clips zu identifizieren, ohne dass er Hunderte von Stunden Video manuell durchsuchen muss.
Bereiten Sie Ihre Daten vor
Um Ihre Daten für die effiziente Verarbeitung vorzubereiten, müssen Sie zuerst die Daten bereinigen, z. B. durch das Entfernen von doppelten Informationen und Rauschen und das Aufteilen in überschaubare Teile. Sie können hier weitere Tipps zur Bereinigung Ihrer Daten lesen
Als nächstes müssen Sie ein KI-Framework verwenden, das als Einbettungsmodell bezeichnet wird, um Ihre Daten in Vektoren oder mathematische Darstellungen des Textes zu konvertieren, die dem Modell helfen, einen größeren Kontext zu verstehen. Einbettungsmodelle können von einem Drittanbieter heruntergeladen werden – wie etwa jene, die in der Open-Source-Einbettungsmodell-Rangliste von Hugging Face vorgestellt werden – und können oft über Hugging Face-APIs nahtlos in Ihr RAG-Framework integriert werden. Nach der Vektorisierung können Sie Ihre Daten in einer Vektor-Datenbank speichern, damit sie vom Modell für einen effizienten Abruf bereit sind.
Je nach Volumen und Komplexität Ihrer Daten kann die Verarbeitung von Daten und das Erstellen von Einbettungen so rechenintensiv sein wie LLM-Inferenz. Intel® Xeon® Prozessoren können Ihre gesamte Dateneinnahme, Einbettung und Vektorisierung auf einem CPU-basierten Knoten effizient verarbeiten, ohne dass zusätzliche Hardware erforderlich ist.
Darüber hinaus können sich Intel® Xeon® Prozessoren mit quantisierten Einbettungsmodellen koppeln, um den Vektorisierungsprozess zu optimieren, was den Kodierungsdurchsatz im Vergleich zu nicht quantisierten Modellen um bis zum Vierfachen verbessert1.
Optimieren Sie Abfrage- und Kontextabruf
Wenn ein Benutzer eine Abfrage an ein RAG-basiertes Modell übermittelt, durchsucht ein Retriever-Mechanismus Ihre Wissensbasis nach relevanten externen Daten, um die endgültige Ausgabe des LLMs zu bereichern. Dieser Prozess beruht auf Vektorsuchoperationen, um die relevantesten Informationen zu finden und zu bewerten.
Vektor-Suchoperationen sind auf Intel® Xeon® Prozessoren hochoptimiert. Intel® Advanced Vector Extensions 512 (Intel® AVX-512), die in Intel® Xeon® Prozessoren integriert sind, verbessern wichtige Operationen in der Vektorsuche und reduzieren die Anzahl der Anweisungen, was für erhebliche Verbesserungen des Durchsatzes und der Leistung sorgt.
Sie können auch die Lösung von Intel Lab für skalierbare Vektorsuche (SVS) nutzen, um die Leistung der Vektordatenbank zu verbessern. SVS optimiert Vektorsuchfunktionen auf Intel® Xeon® CPUs, um die Abrufzeiten und die Gesamtleistung der Pipeline zu verbessern.
Optimieren Sie die LLM-Antwortgenerierung
Sobald das LLM mit zusätzlichen Daten aus Ihrem Vektorspeicher ausgestattet ist, kann es eine kontextgenaue Antwort generieren. Dies beinhaltet LLM-Inferenz, die in der Regel die rechenintensivste Phase der RAG-Pipeline ist.
Intel® Xeon® Prozessoren verwenden Intel® Advanced Matrix Extensions (Intel® AMX), einen integrierten KI-Beschleuniger, um effizientere Matrixoperationen und eine verbesserte Speicherverwaltung zu ermöglichen, was zur Maximierung der Inferenzleistung beiträgt. Verwenden Sie für mittlere und große LLMs Intel® Gaudi® KI-Beschleuniger, um Inferenz mit speziell entwickelter KI-Leistung und -Effizienz zu beschleunigen.
Intel bietet auch mehrere Optimierungsbibliotheken, um Ihnen bei der Maximierung der LLM-Inferenz auf Ihren Hardwareressourcen zu helfen. Unsere Intel® oneAPI-Bibliotheken bieten Low-Level-Optimierungen für beliebte KI-Frameworks wie PyTorch und TensorFlow, sodass Sie vertraute Open-Source-Tools verwenden können, die auf Intel® Hardware optimiert sind. Sie können auch Erweiterungen wie die Intel® Extension for PyTorch hinzufügen, um erweiterte quantisierte Inferenztechniken zur Steigerung der Gesamtleistung zu ermöglichen.
Sobald Ihre Anwendung in Produktion ist, möchten Sie möglicherweise auf das neueste LLM aktualisieren, um mit der Nachfrage der Endbenutzer Schritt zu halten. Da RAG keine Feinabstimmung erfordert und Ihre Wissensbasis außerhalb des Modells existiert, ermöglicht RAG es Ihnen, Ihr LLM schnell durch ein neues Modell zu ersetzen, um schnellere Inferenz zu unterstützen.
Beschleunigen Sie Ihre RAG-Erfahrungen mit Intel
RAG kann Ihnen bei der schnellen und kosteneffektiven Bereitstellung benutzerdefinierter LLM-Anwendungen helfen, ohne dass eine Feinabstimmung erforderlich ist. Mit den richtigen Bausteinen können Sie in nur wenigen Schritten eine optimierte RAG-Pipeline einrichten.
Nutzen Sie während Ihrer KI-Initiative das Intel® AI Portfolio, um jede Phase Ihrer RAG-Pipeline zu verbessern. Unsere Hardware- und Softwarelösungen wurden entwickelt, um Ihren Erfolg zu beschleunigen.
Intel Tiber™ Developer Cloud
Entdecken Sie die wichtigsten Intel® Technologien für RAG und sammeln Sie praktische Erfahrungen.
Bausteine von RAG mit Intel
Erfahren Sie mehr über Intel Optimierungen in der gesamten RAG-Pipeline.
Developer Tutorial: RAG auf Intel® Gaudi® 2
Holen Sie sich einen Schritt-für-Schritt-Leitfaden mit Code-Beispielen für die Bereitstellung von RAG-Anwendungen auf einem Intel® Gaudi® 2 KI-Prozessor.