Tencent: Verbesserte Sprachsynthese in Echtzeit

Skalierbare Intel® Xeon® Prozessoren der 3. Generation betreiben die intelligente Xiaowei Sprach- und Videoserviceplattform von Tencent Cloud.

Auf einen Blick:

  • Tencent arbeitet an der Entwicklung der intelligenten Xiaowei Sprach- und Videoservice-Zugangsplattform. Die Plattform, die Text-to-Speech (TTS) auf Basis eines neuronalen Vocoders einsetzt, führt mithilfe von End-to-End-Akustikmodellen eine hochwertige TTS-Konvertierung und -wiedergabe durch.

  • Die Lösung verwendet skalierbare Intel® Xeon® Prozessoren der 3. Generation unter Integration von BFloat-Erweiterungen und Intel® Advanced Vector Extensions 512, die bei Einbindung der Intel® oneAPI Deep Neural Network Library den Zugriff auf den Arbeitsspeicher erheblich verringern und die Hardwarebeschleunigung unterstützen.

author-image

Von

Intelligente Sprachanwendungen befinden sich aktuell in einer beispiellosen Entwicklungs- und Wachstumsphase. Der intelligente Sprachverarbeitungsmarkt in China wird bis Ende 2021 voraussichtlich CNY 19,48 Milliarden erreichen. 1 Tencent widmet sich der Forschung im Bereich künstlicher Intelligenz (KI) und Internetinnovationen, um intelligente Sprachhardwarelieferanten zu fördern. Das Unternehmen arbeitet derzeit an der Entwicklung der intelligenten Xiaowei Sprach- und Videoservice-Zugangsplattform. Die Plattform, die Text-to-Speech (TTS) auf Basis neuronaler Vocoder einsetzt, führt mithilfe von End-to-End-Akustikmodellen eine hochwertige TTS-Konvertierung und -bereitstellung durch.

Während herkömmliche Vocoder-Modelle wie WaveNet Hi-Fi-Audio erstellen können, verlängern die erforderliche hohe Komplexität und enorme Rechenleistung die Sprachsynthese, was ihre Fähigkeit, in realen Produktionsszenarien den Bedarf nach Wiedergabe in Echtzeit zu erfüllen, schmälert. Der laufende Zugriff auf die Plattform durch eine hohe Anzahl von Geräten ist auch eine Herausforderung an die Durchsatzkapazität. Die Erweiterung der Serverkapazität ist einfach keine gute Lösung, da sie zu astronomisch hohen Bereitstellungskosten führen würde. Aus diesem Grund hat sich Tencent entschieden, noch modernere Vocoder-Modelle einzusetzen, um die Xiaowei-Plattform im Einzelnen zu optimieren. In enger Zusammenarbeit mit Intel entwickelte Tencent die benutzerdefinierten Vocoder-Modelllösungen Parallel WaveNet (pWaveNet) und WaveRN, um die Plattform mit außergewöhnlicher TTS-Leistung auszurüsten und gleichzeitig die Gesamtbetriebskosten (TCO) zu senken.

Die Rechentechnik der Lösungen besteht im Kern aus skalierbaren Intel® Xeon® Prozessoren der 3. Generation. Zusätzlich zu der erhöhten Kern- und Thread-Anzahl, die die Plattform mit stärkeren Rechenkapazitäten ausstatten, beinhaltet der Prozessor der nächsten Generation auch die Erweiterungen BFloat (BF16) und Intel® Advanced Vector Extensions 512 (Intel® AVX-512), was den Zugriff auf den Speicher erheblich reduziert und die Hardwarebeschleunigung bei der Zusammenarbeit mit der Intel® oneAPI Deep Neural Network Library (oneDNN) unterstützt. Der größere Cache des Prozessors hilft auch bei der Verbesserung der Verarbeitungseffizienz durch höhere Cache-Trefferraten. Die benutzerdefinierten Lösungen, die die oben erwähnte hochentwickelte Intel Technik integrieren, haben es der Xiaowei-Plattform ermöglicht, Unternehmen und Geräteherstellern erstklassige Sprachsyntheseleistung zu bieten. Das Feedback vom Markt war extrem positiv.

Kontinuierliche Verbesserungen am Durchsatz und der Echtzeitleistung haben es der Xiaowei-Plattform ermöglicht, hochwertige intelligente Sprachdienste für unternehmenstaugliche Anwendungen anzubieten. Mit Unterstützung der fortschrittlichen Intel Hardware- und Software-Technik haben die benutzerdefinierten Lösungen mit skalierbaren Intel Xeon Prozessoren der 3. Generation die Sprachsyntheseleistung der Plattform nach vorn gebracht.“ – Qiao Tian, leitender Forscher bei Tencent Cloud

KI erreicht immer mehr Branchen und neue Unternehmen, die sich auf intelligente Produkte spezialisieren und Lösungen zur Sprachnavigation, für Hörbücher, intelligenten Kundendienst und Anwendungen mit intelligenter Spracheingabe und -erkennung entwickeln, die die Sprachsynthese einsetzen, um den Kreislauf von Mensch-Maschine-Interaktionen zu vollenden. Obwohl diese innovativen Funktionen das Leben erleichtern, haben viele festgestellt, dass diese Produkte sich in ihrer KI-Leistung und Betriebsweise stark unterscheiden. Das Benutzererlebnis sollte verbessert werden. Dies liegt hauptsächlich an den unterschiedlichen Plattformen, für die diese Anwendungen entwickelt wurden. Infolgedessen konnten Unternehmen ihre Weiterentwicklung im Bereich Daten und Technik weder dazu nutzen, qualitativ hochwertige intelligente Sprachdienste bereitzustellen noch mithilfe von Gerätekonnektivität eine Synergie zu schaffen.

Die intelligente Xiaowei Sprach- und Videoserviceplattform wurde entwickelt, um diesen Engpass zu überwinden. Eine vollständige KI mit Sprach- und semantischen Funktionen wird mit Tencent Cloud-Diensten kombiniert, um Benutzern eine bessere KI-Leistung auf der Plattform zu bieten. Mit dem reichen Portfolio und der Big-Data-Kapazität von Tencent haben Benutzer auch Zugriff auf ein breites Spektrum von Lösungen, die Tencents mittlere Plattformfunktionalität in verschiedene Szenarien integrieren. Nehmen Sie beispielsweise intelligente Hotels. Durch die Implementierung der Xiaowei-Hardware erhalten Lösungen wie intelligente Anfragen und Raumsteuerung sofort umfangreiche sensorische Funktionen wie Computer-Vision und -Hören. Hinzu kommt, dass diese Produkte für ein benutzerfreundliches nahtloses Erlebnis mit den geläufigen mobilen Apps wie WeChat, WeChat Map und WeChat Music verbunden werden können. In der Verkehrsbranche verbessert die Plattform das Benutzererlebnis beträchtlich, indem sie die enorm beliebten Unterhaltungs-Apps wie QQ Music und Tencent News nutzt. Zudem ermöglicht sie es Autoherstellern, intelligente Interaktionen wie integrierte sprachaktivierte Navigation anzubieten. Die Xiaowei-Plattform von Tencent ist auch in anderen Bereichen wie dem Bildungswesen, dem Finanzwesen und den Medien weit verbreitet.

Neben der Zusammenarbeit mit den Benutzern zur Entwicklung eines robusten Produktumfelds arbeitet Tencent unermüdlich an der Optimierung seiner Vocoder-Modelle, indem die zentrale TTS-Kapazität der Plattform aktualisiert wird, um das Endbenutzererlebnis zu steigern. Die TTS-Technik kann zur Konvertierung externer Texteingaben oder computergenerierter Daten in eine natürlich klingende Sprachansage verwendet werden. In diesem Prozess berechnet und analysiert das Vocoder-Modell, um Sprachklangwellen auszugeben, wobei die Art des Modells erhebliche Auswirkungen auf die Syntheseergebnisse hat. Herkömmliche Vocoder wie das WaveNet sind tiefe autoregressive Modelle, die auf Convolutional Neural Networks (CNNs) basieren. Die Ausgabe von der vorherigen Ebene wird in das Ende der Eingangsebene für die konvolutionale Iteration integriert. Die erzeugte Sprachqualität könnte sich der natürlichen menschlichen Stimme nähern. Dennoch ist das herkömmliche WaveNet-Modell in der praktischen Anwendung mit folgenden Nachteilen behaftet.

  • Zunächst geht die komplexe Struktur von WaveNet mit dem Bedarf nach mehr Rechenleistung und weniger zufriedenstellender Synthesegeschwindigkeit einher. In intelligenten Sprachinteraktionsszenarien, in der viel Echtzeitleistung gefordert ist, kann das Modell vermutlich nicht mithalten.
  • Des Weiteren erfordert die steigende Verbreitung von intelligenten Sprachanwendungen, dass die Xiaowei-Plattform eine Vielzahl von Geräten unterstützen muss. Der erhöhte Workload (Durchsatz) erfordert folglich Vocoder-Modelle mit höherer TTS-Leistune

Daher benötigte Tencent dringend eine fortschrittliche TTS-Lösung, die die Herausforderungen einer Echtzeitbereitstellung und des Durchsatzes bewältigen kann. Dazu wandte sich Tencent an Intel, einen Marktführer und langfristigen Partner, um zwei angepasste TTS-Lösungen zu entwickeln, den pWaveNet Vocoder und den WaveRNN Vocoder, um die Plattformleistung maßgeblich zu verbessern.

Benutzerdefinierte Parallel WaveNet Vocoder-Lösung

Das pWaveNet Modell wurde nicht nur aufgrund seiner leichten Statur ausgewählt, sondern auch aufgrund der Erweiterung des ursprünglichen WaveNet-Modells durch Einführung der Destillationstechnik zur Wahrscheinlichkeitsdichte. Das heißt, ein vortrainiertes WaveNet-Modell fungiert als „Lehrer“, der das „Schüler“-Netzwerk leitet, was bei laufendem Betrieb Vorhersagen vornimmt. Das „Schüler“-Netzwerk ist kleiner und erhält als Eingabe randomisiertes „weißes Rauschen“. Er lernt aus der Wahrscheinlichkeitsverteilung des Lehrers und führt kontinuierliche Anpassungen durch, um Abweichungen vom „Lehrer“ zu reduzieren und die Ausgabe zu optimieren. Im Gegensatz zum WaveNet-Modell, das auf sequentieller Generation basiert, bei der jeder Input-Sample aus der vorherigen Ausgabe gezogen wird, lernt das pWaveNet-Schülernetzwerk von jeder der Audioproben des Lehrers statt von seinen eigenen vorherigen Outputs. Dies ermöglicht eine parallele Verarbeitung und die Generierung der gesamten Sequenz von Output-Samples in einem einzigen Durchgang, was die für TTS erforderliche Zeit erheblich reduziert.

Abbildung 1 Struktur des Parallel WaveNet-Modells.

Die Architektur der „Schüler“-Netzwerke im pWaveNet-Modell basierten jedoch immer noch auf konvolutionalen neuronalen Netzwerken. Sie sind kleiner, aber wie allgemein bekannt ist, sind konvolutionale Operationen rechenintensiver als herkömmliche arithmetische Operationen. Aus diesem Grund wurde das pWaveNet-Modell von Tencent angepasst, indem die con1D in eine Kombination aus mehreren General Matrix Multiply (GEMM) verwandelt wurde. Dabei wurde die Netzwerktopologie vereinfacht und die Rechenanforderung reduziert. Darüber hinaus wurde der OpenMP Parallelmechanismus eingeführt, um die Vorteile von pWaveNet im Parallel-Computing zu maximieren. Diese Änderungen ermöglichen es dem angepassten Modell, eine schnellere Synthese ohne Qualitätsabstriche zu erzielen.

Angepasste WaveRNN Vocoder-Lösung

Abgesehen von der angestrebten Geschwindigkeitserhöhung wurde die Xiaowei-Plattform auch von der steigenden Anzahl an angeschlossenen Geräten gefordert, was zu einer noch größeren Nachfrage nach Durchsatz führte. Das bedeutet, dass in Situationen, in denen eine große Anzahl von Instanzen berechnet werden soll, jeder einzelne Kern möglichst viele Instanzen bewältigen sollte. Der schnellste Weg zur Steigerung des Durchsatzes pro Kern ist die erneute Reduzierung der erforderlichen Rechenleistung.

Zur Behebung dieses Problems wählte Tencent das fortschrittliche WaveRNN-Modell, das als Vorbild für die Entwicklung der WaveRNN TTS-Hochleistungslösung diente. Das WaveRNN ist im Wesentlichen ein Einzelebenen-Netzwerk auf Wiederholungsbasis mit einer doppelten Softmax-Ebene. Die 16-Bit-Sample-Reihe wird in das grobe Teil (hohe 8-Bit) und das feine Teil (niedrige 8-Bit) geteilt. Die Vorhersagen werden entsprechend vom Gated Recurrent Unit (GRU) vorgenommen. Die Einzelebenen-Netzwerkstruktur mit Wiederholung bedeutet, dass nur 5 Rechenschritte erforderlich sind, um eine 16-Bit-Sample vorherzusagen: bedeutend weniger als die in einer WaveNet DNN.

Abbildung 2 Struktur des WaveRNN-Modells

Ausgehend von seinem inhärenten strukturellen Vorteil entwickelte Tencent das WaveRNN-Modell weiter, um die Rechenleistung zu reduzieren und TTS zu beschleunigen. Das Sample-Rate-Netzwerk, das den Hauptbestandteil des angepassten WaveRNN-Modells ausmacht, blieb ein Single-Layer-Netzwerk mit Wiederholung und einer doppelten Softmax-Ebene. Das angepasste Modell unterscheidet sich darin, dass es den linearen Teil von der ursprünglichen Eingabe trennt, um eine auf LPC basierende Vorhersage abzugeben, was die Rechenkomplexität weitgehend reduziert. Die Sample-Sequenz ist auch in mehrere Subbänder unterteilt, wobei die Berechnung des anschließenden Subbands beginnt, wenn das vorherige generiert wurde, was die Geschwindigkeit der gesamten Berechnung effektiv steigert. Darüber hinaus verwendet die Lösung Sparse-Technik, um die Bandbreitennachfrage und die gesamte Rechenzeit des Netzwerks zu reduzieren. Große Sparse-Modelle können die Rechenleistung in Umgebungen mit mehreren Kernen besser ausgleichen als kleine, kompakte Modelle.

Abbildung 3 Struktur des angepassten WaveRNN Vocoder-Modells

Die beiden Faktoren zur Steigerung der Synthesegeschwindigkeit liegen in der Beschleunigung des Lesens/Schreibens der Daten in den Arbeitsspeicher und die Effizienz der Datenausführung. Die in den skalierbaren Intel Xeon Prozessoren der 3. Generation integrierten BF16- und Intel AVX-512-Erweiterungen haben dazu beigetragen, dass wir in unseren angepassten Modellen beide Ziele erreichen konnten. Mit dem angepassten pWaveNet Vocoder erzielte die Plattform einen Real-Time Faktor (RTF) von 0,036 für TTS mit der Qualitätsstufe MOS 4.4. Der angepasste WaveRNN Vocoder profitiert auch von einer schnelleren TTS-Geschwindigkeit und kann mehr Workloads bearbeiten.“ – Qiao Tian, leitender Forscher bei Tencent Cloud

Die angepasste Lösung zur Vocoder-Modelloptimierung ergab erhebliche Verbesserungen für die Xiaowei-Plattform von Tencent

Schnellere Reaktion – Das angepasste pWaveNet Vocoder-Modell eignet sich für die Parallel-Berechnung aufgrund der vereinfachten Netzwerkstruktur und der Leistung der skalierbaren Intel Xeon Prozessors der 3. Generation. Die Synthese erfolgt schneller und ohne Beeinträchtigung der Sprachqualität. Die neuen Lösungen haben nachweislich einen RTF von 0,036 in TTS erbracht2 mit einem Mean Opinion Score (MOS) von 4.4.

Verbesserte Leistung – Mit einer vereinfachten Modellstruktur sowie einer linearen Verarbeitung, Subband-Unterteilung, Sparse-Technik und anderen Faktoren hat das angepasste WaveRNN Vocoder-Modell die Berechnung effektiv reduziert. Beim Einsatz der skalierbaren Intel® Xeon® Prozessoren bietet die Plattform eine verbesserte TTS-Leistung und kann mehr bzw. größere Workloads bearbeiten. Die Leistung eines einzelnen Prozessorkerns mit 100 Instanzen hat sich als nahezu identisch mit nur einer erwiesen.3

Mehr Rechenkapazität – Die nächste Generation der in den skalierbaren Intel Xeon Prozessor integrierten Hardwarebeschleunigungstechnik sowie der leistungsstarke Kern und der größere Cache-Speicher geben der Xiaowei-Plattform den Raum, höhere Leistungsstufen zu erzielen. Dadurch kann die Plattform noch mehr Unternehmen helfen und ein qualitativ hochwertiges intelligentes Umfeld schaffen, indem KI-Innovationen den nötigen Antrieb finden.

Intel beflügelt TTS-Lösungen

Sobald die Wahl der hervorragenden Modellstruktur feststand, wählte Tencent Intels fortschrittliche Hardware als Grundlage, um die Leistung der Lösung als Ganzes zu maximieren. Sowohl das angepasste pWaveNet Vocoder-Modell als auch die WaveRNN-Modelllösungen verwenden die skalierbaren Intel Xeon Prozessoren der 3. Generation. Mit 28 Kernen können die Prozessoren eine verbesserte Rechenleistung bieten und gleichzeitig die Durchsatzanforderungen der Xiaowei-Plattform erfüllen. Die integrierten BF16-Anweisungen spielen dabei eine entscheidende Rolle, da sie die Speicherauslastung effektiv steigern. Unter Einsatz der Intel AVX-512-Anweisungen und der Intel oneAPI Deep Neural Network-Bibliothek kann die Hardware beschleunigt werden. Der extragroße Cache-Speicher des neuen Prozessors bietet zusätzliche Verarbeitungsleistung, was wiederum die TTS-Leistung verbessert.

Intel® BF16-Befehle reduzieren Lese-/Schreibzeiten im Arbeitsspeicher

BF16 ist ein neues Fließkommaformat mit 1 Sign-Bit, 8 Exponent-Bit und 7 Mantissa-Bit. Sie könnte als eine verkürzte Version von FP32 gesehen werden, in der die letzten 16 Mantissa-Bit fehlen. BF16 hat die gleiche Exponent-Größe wie FP32. Sie behält daher einen ähnlichen dynamischen Bereich und somit die gleiche Präzision. Die Reduzierung der Mantissa-Bit reduziert die Rechenleistung jedoch deutlich und verbessert die Speicher- und Lese-/Schreibleistung. Die Verwendung von BF16 in den Modelloptimierungslösungen führte zu einer Sprachqualität der FP32-Ebene, jedoch mit einer viel kürzeren Synthesezeit.

Abbildung 4 Struktur der BF16 und FP32 Fließkommaformate

Intel® AVX-512-Anweisungen steigern die Ausführungseffizienz

Die Intel AVX-512 ist ein Satz von Anweisungen zur Durchführung von Single Instruction Multiple Data AVX-512 (SIMD) Operationen auf dem Prozessor. Die Leistung kann verbessert werden, indem ein einzelner Prozessor mehrere Register steuert und die Datenoperationen parallel dazu ausführt. Intel AVX-512 bietet 512-Bit-weite Anleitungen für mehr Operationen pro Taktzyklus. Sie unterstützt auch die 3-Operand-Funktion, mit der komplexe fortschrittliche Anweisungen erstellt werden, um mehrere einfache, individuelle Anweisungen zu ersetzen. Damit wird die Flexibilität bei der Anweisung erhöht, der Zugriff auf den Arbeitsspeicher reduziert und die Effizienz der Einzelkern-Ausführung maximiert.

Extragroßer Prozessor-Cache steigert die Verarbeitungsleistung

Häufig verwendete Daten werden im Cache zwischen Prozessor und Speicher gespeichert. Der Prozessor ist beim Lesen/Schreiben viel schneller als der Arbeitsspeicher. Daher ist der Cache entscheidend für die Bereitstellung von temporärem Speicher, damit der Prozessor nicht lange auf die Daten warten muss. Ein Prozessor überprüft zuerst den Cache in der Nähe nach allen erforderlichen Daten und erst dann den Arbeitsspeicher, wenn er die Daten nicht gefunden hat. Intels extragroßer Prozessor-Cache steigert die Cache-Trefferrate und steigert die Prozessorleistung.

Abbildung 5 steigert die Leistung von angepassten Lösungen.

Tests und Validierung der Lösungsleistung

Die von den angepassten Lösungen gelieferten Leistungsverbesserungen wurden anhand der skalierbaren Intel Xeon Prozessoren der 3. Generation von Tencent und Intel gemeinsam verifiziert. TTS-Durchsatz und RTF wurden mit jeweils BF16 und FP32 gemessen, um die zukünftige Erweiterung der Xiaowei-Plattform durch Daten zu unterstützen.

Mit derselben Qualitätsstufe (MOS 4.4) erzielte das angepasste pWaveNet-Modell eine RTF von 0,036 und eine 1,89-fache Leistungsgeschwindigkeit mit BF16 im Vergleich zu FP32. 4 Das angepasste WaveRNN-Modell zeigte auch eine außergewöhnliche Leistung. Es stellte sich heraus, dass die Leistung von 1 oder 100 Instanz(en) auf einem einzigen Kern nur leicht variierte. Auf derselben Qualitätsstufe (MOS 4.5) erreichte der Durchsatz insgesamt 305,1, während eine 1,54-fache Leistungssteigerung beim Einsatz von BF16 im Vergleich zu FP32 erzielt wurde. 5

Ein Blick in die Zukunft

Die Zusammenarbeit zwischen Tencent und Intel kann viele fortschrittliche Plattformen und Systeme realisieren. Die angepassten Lösungen mit den skalierbaren Intel Xeon Prozessoren der 3. Generation bieten in TTS-Anwendungsfällen eine hervorragende Leistung. Als nächsten Schritt planen die beiden Unternehmen eine weitere Zusammenarbeit, indem sie noch mehr der fortschrittlichen Intel Hardware- und Software-Technik integrieren und in neue Geschäftsbereiche expandieren. Dies kann es verschiedenen Branchen ermöglichen, sich auf „smarte“ Technik umzustellen, indem sie aus der Spracherkennung, Sprachidentifizierung und anderen wichtigen KI-Bereichen neue Geschäftswerte erschließen. Sie können ihren Fokus auf ein intelligentes Umfeld setzen, in dem Software und Hardware voll integriert sind.

Neben der Xiaowei-Plattform arbeiten Tencent und Intel auch weiterhin zusammen, um die hervorragende Infrastruktur zu nutzen, die die skalierbare Intel Xeon Plattform der nächsten Generation bereitstellt, um Benutzern agilere, effizientere, zuverlässigere, vielfältigere und innovativere Dienste in der Cloud-Architektur, der Daten-Cloudlagerung, KI, dem HPC und der Sicherheit zu liefern. Benutzer profitieren von den niedrigeren Systemverwaltungs- und Wartungskosten, einer höheren Flexibilität bei der Bereitstellung und Markteinführung und der Freistellung ihrer Kapazität, um sich auf die geschäftliche Innovation zu konzentrieren und gegenüber der Marktkonkurrenz zu trumpfen.