Schwer lösbare Probleme

Die Sichtweise von Intels Bob Rogers, wie man aus beinahe jedem Analyseprojekt Nutzen ziehen kann.

Auf einen Blick

  • Datenwissenschaftler kämpfen häufig mit Problemen, die mit Big Data (anscheinend) nicht lösbar sind.

  • Die richtigen Fragen zu stellen und die Wahl der besten Algorithmen für die jeweiligen Probleme sind entscheidend für den Erfolg von Analyselösungen.

  • Problembehandlungstechniken können Analytikern helfen, verwertbare Antworten zu erhalten, selbst wenn sie sich auf eine etwas andere Frage beziehen.

author-image

Von

Als Hedgefonds-Manager verbrachte ich über ein Jahrzehnt damit, Termingeschäfte zu prognostizieren. Wir hatten Tickdaten, die Jahrzehnte zurückreichten, aber es gab eine starke Zufallskomponente, die automatische Prognosen über einen bestimmten Präzisionsgrad hinaus unmöglich machte. Die Kombination aller Beweggründe, die Menschen für den Kauf und Verkauf zu einem bestimmten Zeitpunkt haben, mit der gewaltigen Anzahl von Menschen, die Geschäfte tätigen, bedeutete, dass es uns – unabhängig davon, was wir machten – nie perfekt gelingen würde, aus dem Rauschen Indikatoren zu entnehmen.

In der Datenwissenschaft bezeichnet man dies als unlösbare Probleme, und über einen bestimmten Punkt hinaus werden Datenanalyse und Big Data ganz einfach keine weiteren Fortschritte erzielen.

Aber es gibt auch gute Neuigkeiten: Viele Probleme, die auf den ersten Blick praktisch nicht lösbar erscheinen, lassen sich dennoch lösen, indem man den Ansatz oder die Eingabewerte justiert.

Das Wissen, wann sich als praktisch nicht lösbar erscheinende Probleme mit einigen tragbaren Änderungen lösen lassen, verschafft Unternehmen – und Projektsponsoren – eine Ausgangsposition für stetigen Erfolg. Im Gegenzug dazu kann man mit der Fähigkeit, Probleme mit unrealistischen Ausmaßen zu erkennen, verhindern, dass Zeit und Gelder verschwendet werden, die man profitabler für eine besser fokussierte Frage einsetzen könnte.

Hier sind vier Problembehandlungsmethoden, die Ihre Ergebnisse verbessern könnten. Durch die schrittweise Anwendung einer oder mehrerer dieser Methoden könnten Sie, statt immer wieder mit dem Kopf gegen eine Wand zu rennen, Ihre Chancen erhöhen, Nutzen aus Ihren Analysen zu ziehen.

1. Eine besser fokussierte Frage stellen

Der beste Schritt nach vorn besteht häufig darin, einen Teilbereich der ursprünglichen Fragestellung zu lösen und die Erkenntnisse zu extrapolieren. Der Versuch, die Wahrscheinlichkeit zu bestimmen, mit der sich ein bestimmter Social-Media-Benutzer für ein von Ihnen designtes Auto interessiert, wird wahrscheinlich scheitern. Selbst mit einer großen Menge brauchbarer Daten haben Sie vermutlich zu viele Variablen, um zu einem Modell mit echtem Vorhersagewert zu gelangen.

Wenn man neue Daten hinzufügt, erschließt man manchmal neue Horizonte und neues Vorhersagepotenzial.

Bob Rogers, Chief Data Scientist bei Intel

2. Den Algorithmus verbessern

In der Datenwissenschaft definieren Algorithmen nicht nur die Abfolge der Operationen, die das Analysesystem auf die Datenmenge anwendet, sie spiegeln auch wider, wie man über potenzielle Beziehungen innerhalb der Daten denkt oder daraus ein „Modell“ ableitet.

Um den richtigen Algorithmus zu entwickeln (oder einen verfügbaren Algorithmus für einen bestimmten neuen Zweck anzupassen), benötigt man bisweilen viele Durchgänge. (Da maschinelles Lernen die automatisierte Verbesserung von Algorithmen verspricht, sollte man diese Disziplin im Auge behalten.)

Wenn man neue Daten hinzufügt, erschließt man manchmal neue Horizonte und neues Vorhersagepotenzial.

Ein Anzeichen dafür, dass ein Algorithmus nicht funktioniert, ist zum Beispiel, wenn man die Rechenleistung sagen wir um den Faktor fünf erhöht, damit aber nur eine deutlich geringere Verbesserung der Verarbeitungszeit erzielt.

Ein weiterer Test besteht darin, die Parameter des Algorithmus geringfügig zu verändern. Geringfügig abweichende Algorithmen sollten nur geringfügig abweichende Antworten liefern. Wenn die Ergebnisse deutlich abweichen, kann es sein, dass etwas nicht stimmt und man einen anderen Algorithmus benötigt.

Und vielleicht hat man auch einen gänzlich falschen Typ von Algorithmus gewählt. Die Modellauswahl basiert oft auf Annahmen über die Daten, etwa die Erwartung einer linearen Progression zwischen zwei Elementen, obwohl die Beziehung durch einen Entscheidungsbaum präziser dargestellt werden könnte.

Es gibt zahlreiche Bibliotheken mit öffentlich verfügbaren Open-Source-Algorithmen. Man muss nur selten bei null beginnen.

3. Daten bereinigen

Dies ist für IT-Abteilungen eine uralte Herausforderung. Garbage In, Garbage Out. Im Idealfall hat man sich um dieses Problem gekümmert, bevor man mit einem Analyseprojekt beginnt, aber vor dem Beginn der Analyse sind die mit Daten verknüpften Probleme oft nicht klar.

4. Andere Daten verwenden

Im Vergleich zum vorherigen Schritt ist diese Variante etwas kniffliger. Um mehr Daten zu erhalten, muss man eventuell nur seine Metadaten aktualisieren. Möglicherweise muss man einige Prozesse verändern, um die benötigten Daten zu erfassen.

Die meisten Unternehmen haben ihre in traditionellen Data-Warehouses gespeicherten Daten bereits vollständig ausgepresst. Wenn man neue Daten hinzufügt – insbesondere unstrukturierte Daten wie von Ärzten verfasste Textnotizen über Patientenfortschritte oder dokumentierte Interaktionen zwischen Callcenter-Mitarbeitern und Kunden – erschließt man manchmal neue Horizonte und neues Vorhersagepotenzial.

Die allgemeine Regel lautet: Mehr Daten sollten bessere Antworten liefern. Wenn man ein Analyseprojekt testet, sollte man nach und nach Daten hinzufügen und beobachten, wie sich die Antworten verändern. Solange die Antworten besser werden, hat man das Stadium eines praktisch nicht lösbaren Problems höchstwahrscheinlich noch nicht erreicht.

Wenn die Fortschritte abnehmen, sollte man Bilanz ziehen und die Kosten möglicher Vorhaben gegen potenzielle Erfolge abwägen. Und es kann nicht schaden, Folgendes im Gedächtnis zu behalten: Der Versuch, das menschliche Verhalten allzu präzise vorherzusagen, könnte der Ursprung aller Unlösbarkeit sein.