Künstliche Intelligenz (KI) entwickelt sich zu einem absoluten Megatrend auch im Umfeld von Big Data. KI wird allerdings nach wie vor durch spektakuläre Berichte von Supercomputern geprägt. Im Dezember 2017 stellte die Google-Firma DeepMind die KI AlphaZero vor. Diese erlernte innerhalb weniger Stunden nacheinander die Spiele Schach, Go und Shogi und war dann besser als jede Software, die bislang entwickelt wurde und damit weit übermenschlich. AlphaZero wird nur trainiert durch das Einprogrammieren der Spielregeln. Daraufhin trainiert AlphaZero gegen sich selbst einige Stunden. Menschliche Spielstrategien werden der KI nicht gezeigt. Die KI entwickelt alle Spielstrategien eigenständig. Leider wird durch solche Meldungen so viel Wind aufgewirbelt, dass einige eher pragmatische Aspekte bislang noch wenig Beachtung finden. Und folglich ist es auch keine große Überraschung, wenn sich – bis auf die Nachahmungsforschung unserer Sinne in der Robotik – kaum jemand damit beschäftigt, wie unser Gehirn den direkten Zugriff auf wesentliche Ereignisse im Leben organisiert und wie wir aus diesen Prinzipien im Umfeld von Big Data einen entscheidenden Nutzen ziehen können.

Jeder kennt dieses Phänomen, bestimmte Erlebnisse vergisst man einfach nicht, andere dagegen geraten schon nach kürzester Zeit wieder in Vergessenheit. Und dies spricht ganz eindeutig gegen das lange verwendete Sprichwort vieler Hirnforscher „use it or loose it”. Aber welcher Mechanismus macht Ereignisse, wie beispielsweise ein selbst miterlebtes Erdbeben, so unvergesslich, dass sich sogar 86 Prozent einer untersuchten Gruppe von an Alzheimer Erkrankten noch 10 Wochen nach dem Erdbeben von Kōbe (Japan, 1995) ganz deutlich an die Schreckens-Szenarien dieser Katastrophe erinnern konnten?

Nach dem heutigen Stand der Forschung werden speziell Episoden, die Sie zusammen mit starken emotionalen Empfindungen erleben, vollkommen autonom in einer Zwischenebene im Mittelhirn in einer sehr schlanken Raster-Form abgespeichert. Diese neuronalen Vernetzungen bewirken, dass das Erlebte alleine schon durch einen bestimmten Duft, ein Bild oder eine Melodie innerhalb von Millisekunden wieder aufgerufen wird.

Gedächtniskünstler nutzen diesen Effekt übrigens ganz gezielt, um sich abstrakte Begriffe, Zahlenfolgen oder Formeln zu merken. Wir können uns diesen Vorgang in etwa so vorstellen, dass für einen unmittelbaren Zugriff auf sehr wichtige Ereignisse ein vereinfachtes Abbild aller entscheidenden Episoden im Mittelhirn aufgebaut wird – also quasi eine Art Ereignisregister. Evolutionsgeschichtlich waren dies zumeist überlebenswichtige Erfahrungen, die unsere Vorfahren davor bewahrt haben, auf dem Frühstücksteller des nächsten hungrigen Säbelzahntigers zu landen.

Ein auch heute noch nachvollziehbares Beispiel über den Sinn dieses sogenannten Episodengedächtnisses ist der berühmte Griff auf die heiße Herdplatte. Dieses mit heftigen Schmerzen verbundene Erlebnis führt dazu, dass zunächst direkt im Mandelkern (der Amygdala, im Schaubild oben rot eingefärbt), einem Teil des Limbischen Systems, besonders stabile Vernetzungen aufgebaut werden. Diese sind so unmittelbar mit unserem zentralen Nervensystem verschaltet, dass sie uns bei einer potentiellen Gefahr – ohne langes Überlegen, in Echtzeit – die Hand zurückziehen lassen, noch bevor es zu Verbrennungen kommt.

Wenn man sich diese unmittelbare Verschaltung und die spezifische Abspeicherung der emotional geladenen Erlebnisse in der Amygdala zu Nutzen macht, ergeben sich ganz fundamentale neue Chancen im Bereich von Big Data. Damit meinen wir Analysen über extrem große Datenmengen hinweg – und wir sprechen hier typischerweise von mehreren hundert Millionen oder Milliarden von Datensätzen, die fast immer über viele heterogene Systeme oder in der Cloud verteilt liegen. Was vorher fast unmöglich erschien, kann unter Zuhilfenahme der Anatomie dieses winzigen Teils unseres Gehirns innerhalb von wenigen Millisekunden die essentiellen Informationen herausfiltern – und dies ganz ohne kostspielige KI-Supercomputer.

Warum war der Echtzeit-Zugriffs-Mechanismus im Gehirn bislang noch kein relevantes Thema in der Informationstechnologie?

Über die letzten Jahrzehnte wurden viele der Herausforderungen der Massendatenverarbeitung durch die stetige Leistungsverbesserung der Speicherchips bis hin zu In-Memory-Datenbanken kompensiert. Aber heute, wo Milliarden von Menschen sofort und noch am Ort des Geschehens Antworten in Echtzeit erwarten, ist die Art und Weise, wie unser Gehirn in Echtzeit Antworten findet, womöglich ein entscheidendes Vorbild für eine neue Herangehensweise im Zeitalter von exponentiellem Datenwachstum, insbesondere getrieben durch das Internet der Dinge (IoT).

Bei Suchmaschinen, wie z. B. bei Google, werden Schlagwörter in riesigen Verzeichnisstrukturen hinterlegt, um in kürzester Zeit möglichst viele Ergebnisse zu liefern. Was gilt es aber zu beachten, wenn ich nicht über Googles gewaltige Rechnerkapazitäten verfüge und trotzdem auf sehr viele und größtenteils nicht öffentlich zugängliche Datenbestände zugreifen möchte? Stellen Sie sich vor, Sie wären ein Kundenbetreuer eines Breitbandanbieters, der einen total frustrierten Kunden in der Warteschleife hält, um ihn mit einem attraktiven Angebot noch rechtzeitig von seiner angedrohten Kündigung abzuhalten? Oder Sie organisieren ein Kinder-Open-Air Konzert oder einen Freizeitpark und wollen die Familien auf keinen Fall enttäuscht vom Gelände lassen, wenn sie trotz teurem Ticket plötzlich im Platzregen stehen. Wie stellen Sie das an, wenn Sie bislang über einen Tag lang auf aussagekräftige Auswertungsdaten durch die Korrelationen aus X-Datenquellen warten mussten?

Schlaue Algorithmen alleine nützen im Notfall reichlich wenig

Hier ist extrem schnelles Handeln angesagt. Wenn Sie jetzt kein Schmankerl, das genau den Kundenwünschen entspricht, aus dem Hut zaubern können – weil einige Quell-Systeme gerade mit sich selbst beschäftigt sind -, ist es vermutlich zu spät und Ihr Kunde ist die längste Zeit Ihr Kunde gewesen. Womöglich macht er seinem Frust gleich noch auf einer der bekannten Beschwerde-Plattformen Luft und das Bashing potenziert sich hin zu einem Kollateralschaden.

Zeitkritische Prozesse gibt es in jeder Organisation und größere Datenbestände häufen sich intern und in der Cloud teils ungezügelt auf. Selbst in kleineren Unternehmen sind diese Daten in unterschiedlichen Silos verteilt. Das Fatale dabei ist, dass die relevanten Informationen im Normalfall in produktiven Systemen versteckt sind und primär einem ganz anderen Geschäftszweck als den eben beschriebenen Notfällen dienen. So speichert Ihre CRM-Plattform die Kunden- und Verkaufsdaten und richtet sich nach den Berichtszyklen, ein eBusiness-System die Bestell-Transaktionen mit Ihren Lieferanten und vielleicht gibt es Teilelisten, die sich noch im Excel-Format auf einem Fileserver befinden. Dazu kommen noch Personaldaten, Finanzdaten, Produktionsdaten usw., usw.

Da diese Produktivsysteme darauf hin optimiert sind, das Tagesgeschäft, Ihre Fertigung und rechtlich verpflichtende Abschlüsse abzuwickeln, kann Sie ein Ausfall teuer zu stehen kommen. Will man nun die Daten anderweitig – fernab vom eigentlichen Geschäftszweck – benutzen, gilt es einiges zu beachten. Zum einen darf man die Daten nicht einfach zu x-beliebigen Zeiten extrahieren und zum anderen können Abfragen auf den Quell-Systemen zusätzliche Ressourcen beanspruchen und dadurch den originären Geschäftsprozess behindern oder zumindest verlangsamen. Zusätzlich müssen im Regelfall die Daten auch noch mit den Daten aus anderen Produktivsystemen, Sensor-Daten z.B. aus Smart Metern, POS- oder Maschinen-Daten, Wetterdaten, Tweets und vielem mehr verbunden und abgeglichen werden, damit sie effektiv als Entscheidungsgrundlage genutzt werden können.

Warum ETL oder Hadoop weit hinter unserem Gehirn her hinken

Seit mehreren Dekaden verfolgt man den klassischen Ansatz, diese Daten aus den unterschiedlichen Quellen vornehmlich nach Bedarf des BI-Systems komplett zu extrahieren (extract), diese dann in ein neues Datenmodell zu transferieren (transform) und anschließend in eine oftmals vielfach größere Datenplattform zu laden (load). Auch aktuell sehr beliebte Data Lakes mit Hadoop (ohne eine Transformation der Roh-Daten) laden alle Daten in eine Cluster Struktur, wodurch Analysen in Echtzeit ab mehreren Millionen Datensätzen nur noch mit sehr viel verteilter Rechnerkapazität und nach wie vor teurem Arbeitsspeicher möglich sind.  So stellen viele Executives die provokante Frage: Wird es mich übermorgen überhaupt noch interessieren, wenn ich dann erst erfahre, dass mein größtes Warenhaus heute um 12:00 Uhr schon 50 Prozent hinter seinen Umsatzvorgaben her hinkt?

Wie könnte eine an die Gehirnarchitektur angelehnte Daten-Systematik aussehen, mit der man die Last auf den Quell-Systemen soweit minimieren kann, dass aussagekräftige Ergebnisse nahezu in Echtzeit geliefert werden können? Wenn wir uns dazu nochmals das Grundprinzip des menschlichen Episodengedächtnisses verdeutlichen, so erstellt und aktualisiert es ganz eigenständig Meta-Informationen, ohne dabei unser bewusstes Denken zu beeinträchtigen. Neueste Forschungsergebnisse im Feld der „Connectomics” des Max-Planck-Instituts für Hirnforschung und des Bernstein-Zentrums der Humboldt-Universität lassen uns sogar zum Schluss kommen, dass die Nervenzellen selbst schon so präzise miteinander verschaltet sind, dass nur im Falle einer vertiefenden Rückfrage, zum Beispiel, wenn es sich um die räumliche Orientierung handelt, zusätzliche Informationen aus der Großhirnrinde abgefragt werden.

Wir wissen zwischenzeitlich auch, dass sich unser Gehirn kontinuierlich neu vernetzt und zu emotionalen Episoden eigenständig hoch performante Verknüpfungen aufbaut – quasi echte Hochgeschwindigkeitstrassen. Die sogenannte Plastizität des Gehirns lässt uns viele frühere Annahmen über die Spezialisierung und Abschottung bestimmter Gehirnareale von einander in Frage stellen. Heute haben die Forscher eine viel holistischere Betrachtungsweise und wir sehen für die zukünftigen Anforderungen im Big-Data-Umfeld ein sehr großes Potential für ein Mehr an Plastizität, um die Herausforderungen der Zukunft zu meistern.

Für eine Plastizität im Bereich von Realtime Big Data ist keine übergreifend neue Architektur erforderlich. Es handelt sich dabei eher um einen Layer – manche Experten haben dafür den Begriff Data Virtualization geprägt. Wir finden, dass dieser Begriff die Analogie mit dem Gehirn nicht gut genug umschreibt. Wir belassen die bestehenden Daten-Quellen, wie sie sind, schauen uns aber für die jeweilige Anforderung sehr dediziert an, wie häufig wir für eine Aktualisierung eine Verbindung aufbauen sollten. Wir definieren auch ganz präzise, welche Daten für die Meta-Verzeichnis-Struktur voraussichtlich relevant sind – allerdings immer unter der Maßgabe, dass weitere Daten-Quellen dynamisch angebunden werden können. Damit muss sich auch das Mapping ebenso über Micro-Services plastisch anpassen lassen.

Big Data geht auch in Realtime – dem Index sei Dank

Nochmals zusammengefasst, es verschlanken sich durch diese Systematik eine ganze Reihe entscheidender Faktoren:

  1. Die größten Hürden eines Datenanalyse-Projekts, sind das wachsende Daten-Volumen, sowie die Anzahl und das heterogene Format der Roh-Daten-Quellen. Durch das gezielte ‚Daten-Picken‘ verringert sich das Daten-Volumen im Index um ca. 90%. Somit wirken sich auch die Zugriffsdefinitionen und API’s auf die Daten-Quellen nur marginal auf die Integrationszeit aus.
  2. Die Analysen erfolgen schon wenige Tage nach dem Projektstart zu mehr als 95% über den Index, dies bedeutet, dass das massenhafte Extrahieren, Transformieren und Laden von Daten überflüssig wird und somit bleiben die Quell-Systeme auch bei sehr großen Daten-Volumina unbehelligt von belastenden Queries oder langwierigen Datentransfers.
  3. Diese neue „Brain-Aligned-Technology“ erfordert keine kostspieligen Supercomputer oder jahrelange Projektierungen, geschweige denn gewaltige Data-Warehouse-Plattformen. Sie ermöglicht den Zugriff auf die relevanten Informationen in Echtzeit.

Let’s move to Realtime Big Data! – denn Big Data geht auch in Realtime

 

Author Klaus Lindinger

Drop us a line!