LAIKA Studios erweitert Möglichketen bei der Filmproduktion

Das Applied Machine Learning-Team von Intel und oneAPI-Tools helfen LAIKA dabei, die grenzenlosen Möglichkeiten von Stop-Motion-Animation zu nutzen.

LAIKA, das vor allem für seine für den Oscar nominierten hybriden Stop-Motion-Filme wie Coraline, ParaNorman, Die Boxtrolls, Kubo – Der tapfere Samurai und Mister Link – Ein fellig verrücktes Abenteuer bekannt wurde, strebt ständig nach Innovationen im Animationsbereich. Das Studio nutzt fortschrittliche Technik, um die Grenzen dessen zu erweitern, was in Filmen möglich ist. Im Jahr 2016 erhielt Laika einen wissenschaftlichen und technischen Oscar für seine Innovation im animierten Film.

Video abspielen:

Webinar ansehen:

In diesem Webinar hören Sie die technischen Experten bei LAIKA, VFX Supervisor Steve Emerson und Production Technology Director Jeff Stringer, die über die Bemühungen hinter den Kulissen und die technologischen Innovationen in den preisgekrönten Filmen von LAIKA sprechen.

Erfahren Sie, wie LAIKA in Zusammenarbeit mit Intel Tools entwickelt hat, die auf maschinellem Lernen und KI basieren, um die digitale Farbgebung und die Rotoskopie zu beschleunigen. Das Ziel dabei ist es, mehrere Formen zu erkennen und im Verhältnis zum Bild genau vorherzusagen, egal ob sie offen oder geschlossen sind, und gleichzeitig die räumliche Glätte und zeitliche Kohärenz zu gewährleisten. Das maschinelle Lernen verlässt sich bei der Erstellung von Modellen üblicherweise auf große Datenmengen. Intel und LAIKA haben eine neuartige Lösung gefunden, mit der das Stop-Motion-Animationsverfahren kleinere Datenmengen benötigt.

Lesen Sie das Transkript unten:

Mary Killelea: Herzlich willkommen. Vielen Dank für Ihre Teilnahme an der Customer-Spotlight-Reihe von Intel. Diese Reihe hebt innovative, branchenführende Unternehmen hervor, die mithilfe von datenzentrischen Techniklösungen und Plattformen von Intel die digitale Transformation durchlaufen, geschäftliche und technische Herausforderungen behoben und neue Gelegenheiten geschaffen haben. Heute freuen wir uns, LAIKA begrüßen zu dürfen. Wir werden uns darüber unterhalten, wie das Unternehmen maschinelles Lernen einsetzt, um die Filmproduktion dramatisch zu beeinflussen. Der Moderator ist heute Tim Crawford. Tim ist strategischer CIO-Berater und arbeitet mit Großunternehmen zusammen. Tim, ich lasse unser heutiges Gespräch durch Sie eröffnen.

Tim Crawford: Klingt gut. Vielen Dank, Mary und ich möchte auch alle Gäste im heute Morgen stattfindenden Webinar begrüßen. Uns steht eine faszinierende Unterhaltung über maschinelles Lernen und KI in der Filmproduktion bevor, und ich möchte auch sagen, dass es heute einige wirklich interessante Überraschungen geben wird. Darauf können Sie sich schon freuen. Im heutigen Gespräch begrüße ich zwei Mitarbeiter von LAIKA: Jeff Stringer und Steve Emerson. Ich gebe jetzt Jeff und Steve ein paar Minuten, um sich selbst und LAIKA vorzustellen, falls Ihnen der Name kein Begriff ist. Zudem werden sie das Verfahren zur Filmproduktion bei LAIKA beschreiben, damit wir eine gewisse Grundlage haben. Jeff, möchten Sie anfangen und vielleicht sich selbst, LAIKA und das Verfahren vorstellen?

Jeff Stringer: Klar, ja, ich bin Jeff Stringer. Ich bin Director of Production Technology bei LAIKA, einem Unternehmen, das seit 15 Jahren existiert. In dieser Zeit haben wir Stop-Motion-Animationsfilme produziert. Unser erster Film war Coraline im Jahr 2009, und der neueste Film war Mister Link – Ein fellig verrücktes Abenteuer. Und Steve ist unser Visual Effects Supervisor. Ich glaube, er kann wahrscheinlich mehr darüber erzählen, wie das Verfahren abläuft.

Tim Crawford: OK. Steve.

Steve Emerson: Sicher.. Ich heiße Steve Emerson. Ich bin der Visual Effects Supervisor hier bei LAIKA. Wie Jeff erwähnt hat, feiern wir dieses Jahr unser 15-jähriges Jubiläum. Im Laufe der 15 Jahre haben wir fünf Spielfilme produziert. Das sind Coraline, ParaNorman, Die Boxtrolls, Kubo – Der tapfere Samurai und Mister Link – Ein fellig verrücktes Abenteuer. Die Art und Weise, wie wir in diesem Lagerhaus hier in Hillsboro (Oregon) zusammen Filme machen, ist die Stop-Motion-Animation, eine klassische Stop-Motion- oder Filmtechnik. Eigentlich ist dieses Verfahren so alt wie der Film selbst, und die meisten von Ihnen wissen wahrscheinlich, wie das funktioniert. Im Grunde sehen Sie 24 Standbilder in schneller Folge, was die Illusion der Bewegung erzeugt. Und bei der traditionellen 2D-Animation zeichnen Sie 24 Bilder pro Sekunde, um diese Illusion der Bewegung zu schaffen.

Hier bei LAIKA nehmen wir Puppen mit vollständigen Gelenkfunktionen und platzieren diese in Miniatur-Szenen mit realistischer Beleuchtung, und dann nehmen wir das Bild für Bild auf.

Für jedes Bild in dieser einen Sekunde Film posieren wir die Puppe, machen eine Aufnahme, bewegen die Puppe oder etwas anderes in dieser Umgebung, in ganz kleinen Schritten. Wir machen eine weitere Aufnahme, und wenn wir 24 davon haben, besitzen wir eine Sekunde Film. Dann wiederholen wir das immer wieder, bis wir einen 90 bis 95 Minuten oder 2 Stunden langen Film haben. Es ist ein zeitraubender, intensiver, manchmal verrückter Prozess, bei dem immer wieder Probleme auftauchen. Oft werden diese Probleme in der Postproduktion korrigiert, was ich als Visual Effects Supervisor überwache. Und es ist dieser Teil des Verfahrens, den wir durch maschinelles Lernen wirklich optimieren möchten.

Tim Crawford: Sehr interessant, Jeff und Steve. Vielen Dank für diese Einführung. Ich glaube, das ist eine gute Grundlage für unser erstes Thema hier, nämlich die Herausforderungen, mit denen es LAIKA zu tun hatte. Steve hat erwähnt, wie Sie 24 Bilder für eine Sekunde Film aufnehmen, was ja wirklich erstaunlich ist, wenn man sich das mal überlegt. Können Sie vielleicht etwas mehr darauf eingehen, wie Sie diese Fotos aufnehmen, und welche Probleme es mit den Puppen gibt, und wie man hier die Technik einsetzen kann? Und dann sprechen wir darüber, wie Sie diese Herausforderung lösen, aber zunächst sollten wir das Problem selbst beschreiben.

Steve Emerson: Ich möchte zunächst erwähnen, nur um mehr Kontext zu bieten, dass die Animatoren hier bei LAIKA etwa dreieinhalb Sekunden, vielleicht vier Sekunden, fünf Sekunden pro Woche aufnehmen, wenn sie wirklich gut sind. Wenn wir also über 24 Frames sprechen, ist das im Grunde die Tagesleistung eines Stop-Motion-Animators.

Was wir hier tun, und was die Basis von allem anderen darstellt, ist das Potenzial der Stop-Motion-Animation umzusetzen. Wir wollen Dinge mit dieser Kunstform erreichen, die noch nie zuvor erreicht wurden, sodass Leute, die Animationsfilme ansehen, etwas völlig Neues erleben. Und dazu setzen wir Technik ein.

In der Phase von Coraline haben wir 3D-Druck für die Mimik eingesetzt. Bevor wir also die Puppen auf die Bühne bringen, hat unser Mimik-Animationsteam die Mimik für eine bestimmte Aufnahme festgelegt. Das wird alles im Computer erstellt, dann genehmigt und an einen 3D-Drucker geschickt. Die Gesichter werden im Voraus gedruckt und auf einer Art großem Kuchenblech an die Animatoren geliefert. Wenn also die Animatoren an diesem Punkt eine bestimmte Mimik benötigen, befestigen sie diese Gesichter magnetisch. Ansonsten konzentrieren sie sich auf die Körperbewegung und die Schwerkraft in dieser Umgebung.

Aber eine Sache, die bereits früh beschlossen wurde, war, dass man das Gesicht in der Mitte aufteilen würde, genau zwischen den Augen, um mehr Mienenspiel zu ermöglichen. Das bot nicht nur dem Animator die Gelegenheit, sich in einem bestimmten Frame für einen Mund oder eine Augenbraue zu entscheiden, sondern bot auch bei Puppen mit weniger Gesichtskomponenten mehr Mimik. Letztlich bedeutete das, dass bei allen unseren Charakteren eine Linie durch das Gesicht verläuft. Was wir auch in den letzten fünf Filmen gemacht haben, ist die Rotoskopie, eine Hightech-Version des Abzeichnens, die im Computer durchgeführt wird.

Und bei der Rotoskopie zeichnet man im Grunde Linien und Formen, um dem Computer zu sagen, dass man dieses bestimmte Gebiet auf irgendeine Weise ändern möchte. Diese anderen Bereiche, die man abzeichnet ... da weist man an, dass die nicht betroffen sind. Und das ist wirklich die Grundlage des Verfahrens. Man muss sich das so vorstellen: Wenn man ein Haus außen oder innen anstreichen will, muss man zuerst Malerkreppband anbringen. Und erst dann kann man streichen. Aber das Abdeckband schützt bestimmte Teile des Hauses. Für mich ähnelt die Rotoskopie dem Anbringen von Abdeckband am Haus, bevor man mit dem Anstrich beginnt. Das ist zeitraubend, und vielen Animatoren gefällt das ehrlich gesagt nicht, aber deshalb sind wir auch so darauf aus, das durch maschinelles Lernen zu beheben. Die Rotoskopie ermöglicht uns diese Feinarbeit, um die Linie durch das Gesicht unserer Charaktere zu verbergen.

Jeff Stringer: Wenn ich da noch etwas hinzufügen könnte.

Tim Crawford: Bitteschön, Jeff.

Jeff Stringer: Ich wollte nur erwähnen, wie die Problemstellung sich im Laufe der Jahre seit den Tagen von Coraline noch verkompliziert hat. Sie wissen ja, dass wir diese Gesichts-Kits verwendet haben, sodass die Anzahl der Gesichter im Film durch die Zahl der Gesichter beschränkt war, die wir realistischerweise drucken und für die Aufnahmen verarbeiten konnten. Aber da die Drucktechnik sich weiterentwickelt hat und wir diesen Prozess weiter vorangetrieben haben, machen wir immer mehr Aufnahmen mit ganz einzigartigen Gesichts-Sets. Ich glaube, dass wir bei Mister Link für diese Charaktere über 100.000 Formen gedruckt haben. Da wir also eine sehr nuancierte Vorstellung auf der Bühne aufnehmen wollten, wurde das für unser Rotoskopie-Team zunehmend zum Problem. Ich glaube, dass die Größe dieses Teams sich im Laufe der dreizehn Jahre wahrscheinlich verdoppelt hat.

Tim Crawford: Erstaunlich. Und um weiter über das Rotoskopie-Verfahren zu sprechen, wie viel erreicht man davon am Tag, und wie sieht das aus? Sie haben darüber gesprochen, wie viele Filmsekunden Sie am Tag im Spezialeffekt-Team oder im Team für visuelle Effekte erreichen können. Wenn man mit der Rotoskopie beginnt, wie schnell läuft das ab?

Steve Emerson: Nun, bei Mister Link hatten wir insgesamt 1.486 Aufnahmen, die wir in irgendeiner Weise durch visuelle Effekte verbessert haben. Innerhalb dieser Aufnahmen gab es über 2.000 Charakteraktionen, bei denen kosmetische Arbeit über Rotoskopie und Szenenentfernung nötig war. Für jede dieser 2.000 Charakteraktionen gehen wir von verschiedenen Komplexitätsstufen bei der Optimierung aus. Daher berechnen wir etwa 50 Frames pro Tag, bei einer durchschnittlichen Aufnahmelänge von 100 Frames. Daher erwarten wir, dass die Leute eine Aufnahme in ein paar Tagen erledigen. Aber das sind 50 Frames pro Tag, und in Mister Link mussten 2.000 Aktionen bereinigt werden.

Tim Crawford: Wow, das ist eine unglaubliche Menge an Arbeit. Wie lange dauert es üblicherweise, einen Film zu produzieren? Bevor wir uns die Technik ansehen, sollten wir die traditionellen Verfahren berücksichtigen. Sie verwenden die Puppen und danach kommt die Rotoskopie ... wie lange dauert dann typischerweise die Produktion eines Films?

Jeff Stringer: Von der Designphase aus berechnet?

Steve Emerson: Möchtest du das beantworten, Jeff?

Jeff Stringer: Gerne. Vom Entwurf bis zur Postproduktion kann es bis zu drei Jahre dauern.

Tim Crawford: Ach du meine Güte.

Jeff Stringer: Und wenn man vorher die Entwicklungszeit der Geschichte einschließt, kann es noch länger dauern. Aber eine typische Aufnahmeperiode umfasst etwa 18 Monate. Das fängt aber erst an, nachdem wir alles gebaut haben und nur Animationen auf der Bühne aufnehmen. Und das Gute daran ist, wie unser Team für visuelle Effekte in die Arbeit integriert ist. Es arbeitet mit den Animatoren auf den Bühnen und schließt Aufnahmen ab, sobald diese damit fertig sind. Daher gibt es in der Regel keine lange Postproduktionsperiode. Aber das ist eine lange Zeit und daher ein ausgedehnter Prozess.

Tim Crawford: Das ist unglaublich. Vielleicht sollten wir dann weitergehen und darüber sprechen, wie Sie diese Herausforderung angehen und wie Technologie dabei hilft. Möchten Sie beschreiben, wie das maschinelle Lernen zur Reinigung dieser Linien im Gesicht eingesetzt wurde? Und Sie haben in einem früheren Gespräch erwähnt, dass Sie durch die Gesichter eine emotionale Verbindung mit den Charakteren hatten. Welche Rolle spielt diese Linie und wie wird maschinelles Lernen eingesetzt?

Jeff Stringer: Sie wissen vielleicht, und Steve könnte das näher beschreiben, dass man zuerst entscheiden muss, ob diese Optimierung überhaupt durchgeführt werden muss, ja? Das war eine spezifische Entscheidung, die LAIKA getroffen hat. Es ist der Wunsch von LAIKA, soviel wie möglich mit der Kamera zu erfassen und diese Geschichten auf die nuancierteste und realistischste Weise zu erzählen, die uns dazu bringt, so etwas zu optimieren. Andere Firmen hätten diese Linien dort gelassen.

Steve Emerson: Ich kam zu LAIKA während der Produktion von Coraline. Es gab kurz vorher eine große Debatte darüber, ob es sich überhaupt lohnte, diese Linien zu beseitigen. Und letztlich geht es zumindest für mich persönlich darum, dass ich einen Film ansehe, um eine tolle Geschichte zu erleben. Ich möchte an einen Ort gebracht werden, den ich im Alltag nie erreichen könnte, und ich will ein emotionales Erlebnis haben. Und dazu muss der Zuschauer ein Gefühl der Empathie mit den Charakteren auf der Leinwand entwickeln. Und die Tatsache war, dass eine dicke Linie mitten im Gesicht dieser Charaktere einen Ablenkungsfaktor darstellte. Das würde die Vorstellung schwächen und die emotionale Verbindung zwischen Charakteren und Zuschauern stören. Und daher wurde die Entscheidung getroffen, dass wir jeden Frame dieses Films reinigen und diese Linien effektiv löschen werden. Wissen Sie, im Laufe der Jahre haben wir diesen Prozess verfeinert und optimiert. Ich glaube nicht, dass wir im Laufe dieser 15 Jahre einen so großen Sprung vorwärts gemacht haben, wie in den letzten 12 Monaten, ehrlich gesagt. Jeff könnte wahrscheinlich erzählen, wie genau unsere Zusammenarbeit mit Intel begonnen hat.

Jeff Stringer: Die Lösung durch maschinelles Lernen war etwas, das wir schon vor dem Treffen mit dem Team bei Intel verfolgten. Es gab viele Artikel, viele Forschungsarbeiten in diesem Bereich, die den Einsatz von maschinellem Lernen zur Bildsegmentierung erwähnten. Ich glaube, es gab da sogar einige Tools für die visuelle Rotoskopie. Das war also eines unserer Ziele. Und dann erfuhren wir, dass dieses Team bei Intel ein Problem in der Praxis suchte, das sich mit der von ihm entwickelten Technik lösen ließ. Und wir trafen den Leiter des Applied Machine Learning Teams. Er brachte seine Gruppe mit, wir trafen uns mehrmals bei LAIKA. Dabei beschrieben wir unser Verfahren und das spezifische Problem mit den Gesichtern und den Szenen. Die Leute von Intel hielten das für perfekt und wollten das Problem lösen, und so begann unsere Zusammenarbeit.

Tim Crawford: Interessant. Ich möchte in wenigen Minuten etwas genauer auf die Partnerschaft mit Intel eingehen, aber vorher sollten wir darüber sprechen, wie maschinelles Lernen auf die Rotoskopie und die Optimierung der Gesichter angewandt wurde. Einer der Aspekte, die Sie früher bezüglich des maschinellen Lernens erwähnt haben, ist, dass mehr Daten von Vorteil sind. Aber das ist nicht unbedingt der Fall, wenn es um diese Puppen und die Linien in ihrem Gesicht geht. Man kann mit dieser Technik auch nicht einfach nach Perfektion streben. Vielleicht könnten Sie etwas mehr darüber sprechen, was das bei Ihrer Filmproduktion und der Rotoskopie bedeutet.

Steve Emerson: Möchten Sie, dass ich ...

Jeff Stringer: Es gibt da zwei Faktoren. Ich glaube, dass die Frage der größeren Datenmenge interessant ist. Soweit ich mich erinnere, war das eine von Intels Erkenntnissen in diesem Zusammenhang. Statt ein sehr allgemeines Tool zu entwickeln, das lediglich die Puppengesichter erkannte, war ihr Tool genau auf diese Aufgabe zugeschnitten. Und es stellte sich heraus, dass man dann nur spezifische Daten brauchte, keine allgemeinen. Ich meine, wir waren uns zu Beginn nicht sicher, dass das so funktionieren würde. Wir hatten Zugriff auf Computergrafikdateien für jedes der gedruckten Gesichter. Und wir konnten Dateien rendern und versuchten, auf verschiedene Weisen ein Trainingsdatenset zu entwickeln, indem wir eine Reihe von Dateien der Gesichter renderten und sie sogar fotografierten. Wir haben sie in ein robotisches Kamerasystem integriert und die Gesichter aus verschiedenen Blickwinkeln aufgenommen. Aber es stellte sich heraus, dass bei der Erstellung einer Rotoform aus den Verfolgungspunkten auf dem Gesicht fünf oder sechs Aufnahmen mit gut gewählten Basisdaten reichten, um das System zu trainieren.

Tim Crawford: Ein Aspekt, den wir in unseren Gesprächen erwähnt haben, ist, dass das maschinelle Lernen dazu eingesetzt werden kann, all diese Linien im Gesicht zu finden, aber es soll nicht unbedingt alle davon korrigieren. Und ich glaube, dass Steve sagte, dass man bestimmte Bereiche schützen will. Wie hat das maschinelle Lernen diese Chance geschaffen, aber vielleicht auch Herausforderungen, die Sie lösen mussten?

Steve Emerson: Sicher.. Wenn wir also diese Art von Arbeit durchführen, möchten wir sicherstellen, dass wir so viel Mimik wie möglich schützen. Das Einzige, was am Ende davon betroffen wird, sind die Artefakte auf dem Puppengesicht, die gesäubert werden müssen, aber alles andere ist geschützt. Das ist also sehr wichtig. Meine persönliche Reaktion auf Stop-Motion-Animation ist, dass ich es erkenne, wenn ich es sehe, und ich habe eine instinktive Reaktion darauf. Die Leute verstehen es, wenn sie etwas Physisches sehen, das in realistischer Beleuchtung fotografiert wurde. Es ist, als ob die Actionfiguren aus deiner Kindheit zum Leben erwacht wären und dir nun eine Geschichte erzählen. Und ein Teil davon ist, dass man dabei kleine Makel sieht. Und diese werden von Menschenhand erschaffen, nicht von einem Computer, der immer nach Perfektion strebt, solange man ihm nicht irgendwie befiehlt, etwas nicht perfekt zu machen.

Wenn wir hier bei LAIKA Aufnahmen machen und Probleme beheben, geht es nicht immer darum, das perfekt zu machen, sondern auch um die Frage, ob sich etwas synthetisch anfühlt, nicht ganz richtig. Was fehlt hier? Wir können die Dinge etwas verschlechtern und sie weniger perfekt machen. Und wenn es um maschinelles Lernen geht, um das, was wir hier tun, war ein wichtiger Faktor dabei, dass wir sicherstellen wollten, dass das Endergebnis vom Künstler bestimmt wurde. Die Maschine würde also einen Versuch unternehmen und einem dann die Verfolgungsdaten und Rotoformen zurückgeben. Aber gleichzeitig bot das einem Menschen, einem Künstler die Möglichkeit, die geleistete Arbeit zu bewerten und das so zu verbessern, wie er oder sie das für nötig hielt, um die Authentizität zu gewährleisten.

Tim Crawford: Das ist hochinteressant. Ich meine die Kombination von maschinellem Lernen mit kleineren Datenmengen, aber auch, dass man nicht nach Perfektion strebt. Das widerspricht etwas dem traditionellen Ansatz, den man mit dem maschinellen Lernen assoziiert. Sie haben die Partnerschaft mit Intel erwähnt, und welche Rolle Intel spielte. Ich möchte kurz mit Ihnen darüber reden, wie das alles begann. Und dann können Sie noch genauer über die eigentliche Technik sprechen, die bei den visuellen Effekten verwendet wurde.

Jeff Stringer: Gerne. Ich glaube, einer der Faktoren, der die Partnerschaft mit Intel zu einem Erfolg werden ließ, war ihre Bereitschaft, bis ins kleinste Detail zu verfolgen, wie unsere Künstler arbeiteten. Sie kamen und sahen ihnen tatsächlich über die Schultern und machten sich Notizen. Schließlich wussten sie viel über das maschinelle Lernen und nur wenig über die Filmproduktion. Es gab also einen eindeutigen Wissensaustausch, und man muss sich etwas bemühen, unsere Vorgehensweise zu verstehen, da nur wenige Leute auf unsere Art Filme machen. Ich war von ihrer Geduld sehr beeindruckt. Wenn sich Leute unseren Prozess ansehen, fragen Sie sich immer, warum wir diese CG-Gesichter ausdrucken und an der Puppe befestigen und das dann fotografieren? Warum rendern wir das nicht einfach, wie alle anderen es tun würden? Aber wie Steve erwähnt hat, wollen wir das Licht auf diesem Gesicht sehen, wenn es von einer Kamera auf der Bühne aufgenommen wird. Es ist ein etwas seltsames Verfahren und es war ungewöhnlich, dass Intel bereit war, uns dabei zu folgen und ein genau auf diese Arbeit zugeschnittenes Tool zu entwickeln. Wir haben mit anderen Anbietern und anderen Partnern zusammengearbeitet, um diese Probleme zu beheben, und die Leute wollten immer eine allgemeine Lösung entwickeln, die für jeden Film funktionieren würde. Aber die von LAIKA sind eben etwas Besonderes.

Tim Crawford: So hört sich das an.

Jeff Stringer: Aber sie verstanden, dass der Weg zum Erfolg darin bestand, ein bestimmtes Problem anzugehen und die Daten in die Hände der Künstler zu legen, die das Tag für Tag tun und am Besten wissen, wie man sie benutzt. Wenn man versucht, sich immer eine Lösung vom Computer geben zu lassen, wird das nie klappen. Ich glaube, das ist wahrscheinlich der Aspekt in diesem Framework, der allgemein anwendbar ist. In Zukunft können wir das wieder und wieder tun. Wir suchen einfach künstlerische Prozesse, die repetitiv und konsistent sind und entwickeln dann diese Tools in den Systemen, um ihre Arbeit zu beschleunigen, nicht um sie zu ersetzen.

Tim Crawford: Prima. Denken Sie mal an die Zukunft und wie sich die Filmproduktion verändern wird. Sie haben die Linie zwischen den Gesichtshälften als eine Komponente erwähnt. Welche anderen Aspekte werden sich bei der Filmproduktion verändern?

Jeff Stringer: Nun, wie gesagt ...

Steve Emerson: Soll ich etwas darüber sagen, Jeff, oder willst du es übernehmen?

Jeff Stringer: Ja, mach du das, du hast da bestimmt eine Idee.

Steve Emerson: Ich weiß bestimmt, in welche Richtung ich damit gehen würde. Wir bauen diese enormen Welten, und wir versuchen, größere Filme zu machen. Gleichzeitig müssen wir aber auch finanziell verantwortlich handeln und unsere Grenzen kennen. Daher suchen wir nach Möglichkeiten zur Optimierung, um größere Filme mit ähnlichen Budgets wie frühere Titel zu machen. Was nun immer wieder geschieht, ist, dass wir Welten erschaffen, in denen Puppen in großen Mengen auftreten. Vor LAIKA gab es in Stop-Motion-Filmen keine großen Mengen, da es nicht möglich war, so viele Puppen anzufertigen. Wenn man also eine enorme Menge von Charakteren haben will, muss man entweder tausend Puppen bauen und aufstellen, oder digitale Technik einsetzen.

Wenn wir also etwas wie in Kubo – Der tapfere Samurai oder Mister Link – Ein fellig verrücktes Abenteuer tun wollen, benötigen wir Masken und Alphakanäle und Rotoskopie. Dadurch können wir separate Puppenvorführungen aus Animationsplatten einsetzen und die sekundären Hintergrundszenen mit digitalen Charakteren dort einsetzen. Manchmal nehmen wir das mit Greenscreen-Technik auf, aber das gefällt uns nicht so, da dies die Beleuchtung auf den Bühnen beeinträchtigt. Idealerweise nehmen wir daher die Puppen dort auf und setzen dann die Rotoskopie ein. Aber die Rotoskopie ist teuer und zeitraubend. Daher bitten wir oft die Animatoren, dort draußen in der Beleuchtung wie geplant eine Aufnahme zu machen und eine sekundäre Aufnahme einer kleinen grünen Karte durchzuführen, oder einen Mini-Greenscreen hinter der Puppe zu platzieren. Dann haben wir zwei Frames für jeden Frame des Films und können die Greenscreen-Aufnahme dazu verwenden, den nötigen Alphakanal zu erhalten und die Menge hinter der Puppe zu platzieren.

Es wäre unglaublich, wenn wir eine vollständige Charakter-Rotomation durchführen könnten, um Charaktere von Animationsplatten zu trennen, ohne Greenscreens hinter ihnen platzieren zu müssen. Das würde es uns ermöglichen, die zweite Aufnahme zu überspringen, und dann müssten die Stop-Motion-Animatoren keine Zeit auf die Greenscreens verschwenden. Sie könnten einfach mit der Vorführung fortfahren, denn bei ihrer Arbeit geht es viel um den Rhythmus. Und wenn ich sage, dass sie pro Tag eine Sekunde produzieren, wenn sie Glück haben, dann haben sie ja manchmal das Pech, dass ich sie bitte, Greenscreens hinter den Puppen zu platzieren. Wir kämen viel schneller voran, könnten uns mehr auf die Handlung konzentrieren, wir könnten andere Apparate bauen, oder Dinge, die wir an den Puppen anbringen, um noch realistischere und nuancierte Szenen zu ermöglichen. Aber all dies beginnt mit einer vollständigen Charakter-Rotomation der Puppenszenen, denn das wäre ein enormer Durchbruch für das Studio.

Tim Crawford: Wie interessant. Wenn Sie also an die Zukunft denken, wollen Sie die Rotoskopie automatisieren und Doppelaufnahmen vermeiden. Was wären andere Anwendungsbereiche, die Sie sich für das maschinelle Lernen und die Technik im Allgemeinen bei der Filmproduktion vorstellen können?

Jeff Stringer: Technik im Allgemeinen. Es gibt in der Filmbranche natürlich Innovationen. Ich meine, wir verbessern nicht nur die Rotoskopie und unsere visuellen Effekte. Wir wollen auch Methoden finden, um die Anfertigung der Puppen zu beschleunigen und auszubauen. Die Puppen für diese Art von Animation sind Wunderwerke der Technik. Die Anfertigung dauert lange, aber sie müssen es aushalten, bis zu zwei Jahre lang auf der Bühne von Animatoren benutzt zu werden. Wir stellen alle unsere mechanischen Teile in den Puppen selbst her, daher wollen wir Computer-Design und 3D-Druck auch dafür einsetzen, was wir bisher kaum getan haben. Es gibt auch andere Innovationen bezüglich der Bewegungssteuerungsysteme, aber bezüglich des maschinellen Lernens konzentrieren wir uns auf immer wiederholte Aufgaben. Davon gibt es viele bei den visuellen Effekten, die einem nicht die gleiche künstlerische Kontrolle bieten, wie man das möchte, aber sie sind erforderlich, besonders bei unserer Art der Filmproduktion. Wir suchen nach häufig verwendeten Systemen, die wir erkennen und aus dem Rahmen herausholen können. Und das Problem, das Steve beschreibt, wie man wirklich den vollständigen Puppenkörper erkennen und einen Tiefenkanal schaffen kann, der ihn trennt, das ist etwas, das wir in Zukunft angehen wollen.

Tim Crawford: Es ist für mich so interessant, weil Sie Dinge tun, die dem widersprechen, was wir über das maschinelle Lernen und den Einsatz von KI gehört haben. Ihre Methode ist einfach faszinierend. Sie haben über Tiefenkameras gesprochen, über Bildsensoren gesprochen, wie passt das in den zukünftigen Prozess?

Jeff Stringer: Daran haben wir seit Jahren gearbeitet. Sie wissen, dass es Innovationen in diesem Bereich gegeben hat, und ich glaube sogar, dass Intel eine kostengünstige Tiefenkamera anbietet, Dinge wie die Microsoft Connect-Kameras. Das Grundkonzept besteht darin, dass man zwei Objektive verwenden kann, um geometrische Daten aus einem Stereobild zu extrahieren. Es war bisher schwierig, das in einem kleineren Maßstab umzusetzen. Ich glaube, dass ist ein Problem für die meisten der Techniklösungen, die auf die volle menschliche Skala ausgelegt sind. Aus irgendeinem Grund wird es in unserem Puppenmaßstab schwieriger, diese Masken herzustellen. Wir suchen also jemanden, der mit uns daran arbeitet, und das dürfte spezielle Hardware erfordern.

Tim Crawford: Faszinierend, absolut faszinierend. Nun möchten wir zu den Fragen und Antworten übergehen. Vielleicht kann ich die erste Frage stellen. Sie haben in der Vergangenheit die spezifische Technik erwähnt, die Sie verwenden. Warum haben Sie sich entschlossen, das maschinelle Lernen auf CPUs auf Xeon Prozessoren [Intel® Xeon® Prozessoren] auszuführen und welche Vorteile sehen Sie dabei im Vergleich zur Verwendung von GPUs?

Jeff Stringer: Das war einer der Aspekte, der uns bei der Zusammenarbeit mit Intel besonders gefiel. Wir wussten, dass wir bereits eine beträchtliche Investition in die [Intel] Xeon CPUs getätigt hatten, die wir für unsere Workstations und unsere Render-Farm verwenden. Wenn die Applied Machine Learning Group bei Intel etwas bauen würde, würde sie es für diese CPUs optimieren können. Das war sogar Teil ihrer eigenen Roadmap, was einen deutlichen Vorteil bot. Ich meine, wenn man ein neues CPU-Gerät oder sonstige Technik in den Workflow einführen muss, ist das schwierig. Einer der Aspekte, der uns an der Zusammenarbeit besonders gefiel, war, dass wir ein Toolset erhalten würden, das in unsere bestehenden Workloads passen und auf unserer existierenden Hardware laufen würde, ohne dass wir große Investitionen tätigen mussten.

Tim Crawford: Die nächste Frage. Sie haben über Perfektion gesprochen und wir haben in der Vergangenheit erwähnt, dass maschinelles Lernen zur Perfektion führt. Die Frage lautet: Fürchten Sie, dass maschinelles Lernen zu gut wird und die Emotionen des Films beeinträchtigt? Sie haben darüber gesprochen, wie man eine Verbindung zu einem Gesicht fühlt, Steve, und dass Sie an einen anderen Ort versetzt werden wollen, wenn Sie einen Film ansehen. Befürchten Sie, dass das ML zu gut wird und die Emotion des Films untergräbt?

Steve Emerson: Ich glaube das nicht, Tim. Letztlich sehen sich das immer noch Menschen an. Das ist eigentlich mein Job, nach jeder Nachbehandlung eines Bilds sehe ich mir das an, und dann zeige ich das dem Regisseur und sage, das sieht fantastisch aus, oder das ist unglaublich. Solange also immer noch das menschliche Auge sicherstellt, dass sich das authentisch anfühlt, geht das in Ordnung. Letztlich geht es wieder auf diese Geschichte zurück. Eine meiner Lieblingsanekdoten ist, dass jemand gefragt wurde: Warum würden Sie ein Bild auf Leinwand malen, wenn Sie Photoshop und ein Wacom-Tablet benutzen können? Das ist nur eine andere Vorgehensweise, wissen Sie. Eine andere Art, sich auszudrücken.

Wir machen Stop-Motion-Filme und machen uns dabei Technik zunutze, und Leute werden immer fragen, wo da die Grenze ist. Und für uns ist die Grenze, dass wir so viel wie möglich mit der Kamera aufnehmen. Wir werden sicherstellen, dass Stop-Motion-Animatoren alle unsere Hauptfiguren und Helden in den Filmen kontrollieren. Wir werden genau so viele Sets bauen, und wenn wir den Punkt erreichen, wo wir das Erzählen unserer Geschichte begrenzen müssen, scheuen wir uns nicht davor, Technik einzusetzen, um das zu ermöglichen. Wir wollen das auf eine Weise tun, die unser Handwerk respektiert, und glücklicherweise bin ich hier im Visual Effects Team nicht der Einzige, der von Stop-Motion-Filmen begeistert ist, da auch meine Vorgesetzten und Gruppenleiter so denken. Wir haben auch einige der talentiertesten Kulissenbauer, Stop-Motion-Animatoren, Beleuchtungstechniker, denen wir Szenen auf unseren Computern zeigen und sie dann fragen können: „Fühlt sich das authentisch an, oder haben wir das verhunzt?“ Wir können das auch mit allem tun, was aus den ML-Verfahren kommt. Letztlich geht es darum, Dinge zu optimieren, damit wir noch bessere Geschichtenerzähler werden.

Tim Crawford: Hört sich gut an. Die nächste Frage hat auch etwas damit zu tun. Wie können Sie ein Gleichgewicht von computergenerierter Grafik und Rotoskopie mit dem maschinellen Lernen finden? Da geht es wohl auch darum, nicht nach Perfektion zu streben, immer noch einzigartige Puppen und Prozesse zu haben, die künstlerische Freiheit, wenn Sie möchten. Wie findet man ein Gleichgewicht dazwischen? Das ist eine ausgezeichnete Frage.

Steve Emerson: Bei dieser Frage, Tim, geht es darum, wir wir entscheiden, was wir digital machen und was mit Puppen und Bühnen produziert wird. Habe ich das richtig verstanden?

Tim Crawford: Ja. Ich glaube, bei der Frage geht es mehr darum, warum man nicht nur computergenerierte Grafik verwendet, anstatt Rotoskopie mit maschinellem Lernen. Bei der computergenerierten Grafik kann man potenziell einen gewissen Grad an Perfektion erzielen.

Steve Emerson: Ich würde mich ehrlich gesagt für die Rotoskopie mit maschinellem Lernen entscheiden. Das geht darauf zurück, wie wir diese Filme produzieren. Wir beginnen mit Storyboards und Animatics, also animierten Storyboards, dann treffen sich die kreativsten Leute des Studios in einem Konferenzraum mit dem Regisseur und gehen Szene um Szene durch und überlegen, wie wir ein bestimmtes visuelles Element im Film umsetzen. Während dieser Diskussionen befinde ich mich im Raum und halte den Mund, bis es ein Problem gibt, denn wir werden das visuelle Element in die Kamera kriegen, wenn es möglich ist. Und wenn es aus irgendeinem Grund physisch nicht möglich ist, wenn wir beispielsweise etwas mit feinem Staub animieren müssten, oder wenn es an Ressourcen liegt, wenn etwa eine Abteilung einfach nicht genug Personal hat, dann mische ich mich ein und spreche über potenzielle digitale Lösungen. Aber wir fangen immer damit an, etwas in die Kamera zu kriegen. Was bei maschinellem Lernen und KI wirklich aufregend ist, ist dass es uns in dieser Hinsicht mehr Optionen gibt.

Tim Crawford: Wir haben nur noch einige Minuten. Ich möchte noch in einer Blitzrunde einigen Fragen stellen. Eine Frage aus dem Publikum will wissen, ob das alles vor Ort geschieht. Gibt es Teile Ihres gesamten Produktionsprozesses, die sich eher für die Public Cloud eignen, und erwarten Sie, dass das im Laufe der Zeit geschieht?

Jeff Stringer: Es ist on-prem, vor Ort. Wir sind für die Arbeit mit lokalen Systemen optimiert. So wurde unser Studio aufgebaut, da es für uns wichtig ist, dass alle vor Ort zusammenarbeiten. Ich kann Ihnen sagen, dass die Pandemie eine Herausforderung darstellt, und wir müssen zunehmend auch Daten auf einfach zugängliche Weise außer Haus verfügbar machen. Deshalb erwägen wir zu diesem Zweck eine Cloud-Infrastruktur. Beantwortet das die Frage?

Tim Crawford: Ja, ich glaube, das ist ausgezeichnet. Ändern sich durch die Einführung von KI und maschinellem Lernen bezüglich visueller Effekte die Anforderungen für Bewerber in diesem Bereich? Das ist eine ausgezeichnete Frage.

Jeff Stringer: Ja. Ich meine, Steve, die geht wahrscheinlich an dich, aber ich würde einfach Nein sagen. Die Erstellung von Training-Datensätzen erfordert spezielle Kenntnisse und Kosten. Und wenn wir das in meinem Produktionstechnik-Team zunehmend einführen, benötigen wir vielleicht einen Datenwissenschaftler. Aber was die Grafiker von visuellen Effekten und das Malen und die Rotoskopie und andere Fähigkeiten betrifft, werden wir diese immer noch unterstützen.

Steve Emerson: Wir möchten sicherstellen, dass die Werkzeuge so intuitiv wie möglich sind, damit sie von Künstlern verwendet werden, die mit Rotoskopie und Grafik vertraut sind. Letztlich wollen wir das optimieren und die Workflows beschleunigen, und auf unserer Seite ist es James Pena, unser Rotoskopie-Leiter, der diese Entwicklung vorangetrieben hat. Er fing als Rotoskopie-Grafiker im Studio an. Es ist also wichtig, dass er von seiner Perspektive aus sagen kann, wenn ich als Rotoskopie-Grafiker mit begrenzter Erfahrung über die Filmproduktion bei LAIKA hierher komme, kann ich dieses Tool sofort verwenden. So intuitiv ist es.

Tim Crawford: Prima. Ich glaube, wir haben Zeit für eine letzte Frage. Hat die Verwendung von künstlicher Intelligenz und maschinellem Lernen im Rendering-Prozess die Dauer des eigentlichen Rendering erhöht, und erfordert das zur Unterstützung eine andere Serverinfrastruktur?

Jeff Stringer: Es hat die Rendering-Zeit für eine Aufnahme nicht erhöht. Es gibt eine Trainingsperiode, die über Nacht läuft, wenn wir einen neuen Charakter eintrainieren, was aber separat von dem kurzen Rendering ist. Und das kann auf der Charakterbasis durchgeführt werden, nicht pro Aufnahme. Das hat keine große Auswirkung darauf. Was die Infrastruktur betrifft, ist dies einer der Vorteile der Zusammenarbeit mit Intel am oneAPI [Toolkit], dem Netzwerk von Anwendungen, denn das ist alles auf unsere [Intel] Xeon CPUs optimiert.

Tim Crawford: Prima. Okay, damit ist unsere Zeit für Fragen und Antworten vorbei. Jeff, Steve, vielen Dank für die Teilnahme an diesem wirklich erkenntnisreichen Gespräch über das, was sozusagen hinter den Kulissen der Filmproduktion abläuft. Nun haben wir eine Einführung in die Stop-Motion-Animation erhalten, und wir sind dafür sehr dankbar.

Jeff Stringer: Das hat echt Spaß gemacht.

Tim Crawford: Mary, du kannst dann dieses Webinar schließen.

Mary Killelea: Wunderbar. Vielen Dank für dieses aufschlussreiche Gespräch und an alle, die daran teilgenommen haben. Bitte achten Sie auf weitere interessante, kommende Customer Spotlights, in denen datenzentrische Innovationen vorgestellt werden.

Transkript herunterladen ›

Informationen über zugehörige Produkte und Lösungen

Skalierbare Intel® Xeon® Prozessoren

Mit den skalierbaren Intel® Xeon® Prozessoren lassen sich nutzbringende Erkenntnisse einfacher gewinnen. Darüber hinaus bieten sie hardwarebasierte Sicherheit und ermöglichen die dynamische Bereitstellung von Diensten.

Weitere Infos

Intel® AI Analytics Toolkit

Beschleunigen Sie durchgängige Machine-Learning- und Data-Science-Pipelines mit optimierten Deep-Learning-Frameworks und leistungsstarken Python*-Bibliotheken.

Weitere Infos

Intel® oneAPI Rendering Toolkit (Render Kit)

Entwickeln Sie mit Open-Source-Bibliotheken leistungsstarke, fotorealistische, erweiterbare und kostengünstige Visualisierunsanwendungen.

Weitere Infos

Hinweise und Disclaimer

Durch Intel® Technik ermöglichte Funktionsmerkmale und Vorteile hängen von der Systemkonfiguration ab und können entsprechend geeignete Hardware, Software oder die Aktivierung von Diensten erfordern. Die Leistungsmerkmale variieren je nach Systemkonfiguration. Kein Computersystem bietet absolute Sicherheit. Informieren Sie sich beim Systemhersteller oder Einzelhändler oder auf https://www.intel.de. In Leistungstests verwendete Software und Workloads können speziell für die Leistungseigenschaften von Intel® Mikroprozessoren optimiert worden sein. Leistungstests wie SYSmark und MobileMark werden mit spezifischen Computersystemen, Komponenten, Softwareprogrammen, Operationen und Funktionen durchgeführt. Jede Veränderung bei einem dieser Faktoren kann abweichende Ergebnisse zur Folge haben. Für eine umfassende Bewertung Ihrer vorgesehenen Anschaffung, auch im Hinblick auf die Leistung des betreffenden Produkts in Verbindung mit anderen Produkten, sollten Sie zusätzliche Informationen und Leistungstests heranziehen.Ausführlichere Informationen finden Sie unter https://www.intel.de/benchmarks. Die Leistungsergebnisse basieren auf Tests, die zum Zeitpunkt, der in den Konfigurationen angegeben ist, durchgeführt wurden und berücksichtigen möglicherweise nicht alle öffentlich verfügbaren Sicherheitsupdates. Weitere Einzelheiten finden Sie in den veröffentlichten Konfigurationsdaten. Kein Produkt und keine Komponente bieten absolute Sicherheit. // Die beschriebenen Kostensenkungsszenarien sind als Beispiele dafür gedacht, wie ein bestimmtes Produkt mit Intel®-Technik unter den genannten Umständen und in der angegebenen Konfiguration zukünftige Kosten beeinflussen und Einsparungen ermöglichen kann. Die Umstände unterscheiden sich von Fall zu Fall. Intel übernimmt keine Gewähr für Kosten oder Kostensenkungen. // Intel hat keinen Einfluss auf und keine Aufsicht über die Benchmarkdaten Dritter oder die Websites, auf die in diesem Dokument Bezug genommen wird. Besuchen Sie die genannten Websites, um sich davon zu überzeugen, dass die angeführten Benchmarkdaten zutreffen. // Bei einigen Tests wurden die Ergebnisse unter Verwendung interner Analysen oder Architektursimulationen bzw. -modellen von Intel geschätzt oder nachempfunden. Sie dienen nur informatorischen Zwecken. Unterschiede in der Hardware, Software oder Konfiguration des Systems können die tatsächliche Leistung beeinflussen.