Im vierten Kapitel ihres Big Data Buchs machen sich Mayer und Cukier daran, ihre zentrale These weiter zu untermauern. Gelingt es ihnen, einen Primat der Korrelation über die Kausalität plausibel zu machen?
Die Autoren konstatieren, dass die Suche nach Korrelationen im Rahmen konventioneller Statistik schon wichtig war – brillieren würden Korrelationen aber mit Big Data. Erkenntnisse liessen sich leichter, schneller und klarer gewinnen als mit konventionellen Analysen.
Diese These stützen sie mit Beispielen. So hat Amazon festgestellt, dass die so gewonnen Kaufempfehlungen den Umsatz steigern. Oder dass ein Logistikunternehmen mit riesigem Wagenpark den Zeitpunkt eines Unterhalts hinausschieben kann, ohne das Risiko eines Ausfalls zu erhöhen. Hier hat sich in der Diskussion die Frage gestellt, ob das überhaupt ein Big Data Konzept erfordert. Das kann insofern zutreffen, als eine Umwidmung von Daten stattfindet, sofern Weg- und Wetterdaten mit ausgewertet werden, die zu andern Zwecken erhoben wurden. Die Verwendung von nicht eigens dafür gesammelten Daten gilt als wichtiges Element von Big Data.
Die Diskussionsrunde ist sich einig, dass es eine Reihe von Fällen gibt, wo Big Data Korrelationen zu nützlichen Erkenntnissen führen, ohne dass die Problematik kausal modelliert oder konsistent verstanden werden kann. Allerdings trifft das eben nicht auf die meisten Problematiken zu, vor denen die Menschheit steht. Die Beispiele im Buch beziehen sich auf eng gefasste Fragestellungen in den Bereichen Marketing, Logistik oder Epidemiologie.
Von den Autoren wird zudem auch ausgeblendet, dass auch in diesen einfachen Fällen ein implizites Kontextwissen und modellartige Vorstellungen vorhanden sein müssen. Stellen wir uns vor, einer Versuchsperson werden mehre Datensets mit präsentiert, welche die Zuverlässigkeit der europäischen Stromversorgung betreffen. Dazu ein gut designtes Big Data Tool. Mit Ziehen und Klicken kann die Versuchsperson Korrelationssuchen konfigurieren und durchführen. Wird diese Person irgend eine sinnvolle Aussage zu Schwachstellen und Risiken treffen können?
Das Problem taucht in anderer Form in einem späteren Kapitel auf, wo das Entstehen einer neuen Branche und neuer Berufe skizziert wird. Beim Datenspezialisten lassen die Autoren offen, ob der nur Wissen über Tools und formale Aspekte haben muss, oder auch Kontextwissen über die bearbeiteten Probleme.
Damit sind wir bei einem weiteren Begründungsstrang, den Methodenfragen. Die Autoren greifen die konventionelle naturwissenschaftliche Methode an. Die besteht darin, ein Problem zu beschreiben und dann Hypothesen zu formulieren, die überprüft werden. So wird heute nicht nur in der Grundlagenforschung vorgegangen, sondern tendenziell auch in der Pharmaforschung und anderswo. Da, wo wirklich relevante Probleme der Menschheit angegangen werden und beispielsweise Krebs- oder Alzheimermedikamente entwickelt werden, deutet nichts auf einen relevanten Beitrag von Big Data hin. Von andern Problemkategorien wie Failed States oder ökologischen Herausforderungen ist im Buch schon gar nicht die Rede.
Der Versuch, eine methodische Überlegenheit von Big Data angesichts der aktuellen wissenschaftlichen Herausforderungen zu postulieren, scheitert. Da hilft es auch nicht, die durchaus interessante These des Psychologen und Nobelpreisträgers Kahnemann heranzuziehen, der eine spontane und auf Muster orientierte von einer langsameren und reflektierenden Strategie des Menschen ausgeht. Big Data findet ja nicht im situativen Umfeld des isolierten Individuums statt, sondern in Institutionen und längeren Projekten.
Trotz seiner Tendenz zum massiven Überdehnen der Grundthese gefällt uns das Buch gut, weil es prägnant auf relevante Entwicklungen hinweist. Ja, es gibt einen Trend zu massiven Datafizierung, zur Erzeugung und Verfügbarmachung von Daten – auch personenbezogenen. Die Autoren machen Führungskräfte eindringlich darauf aufmerksam, dass Daten ein wichtiger werdende Ressource ihres Unternehmens seien, die angemessen bewertet und genutzt werden sollte. Sie skizzieren das Entstehen einer spezialisierten Branche mit neuen Berufsfeldern. Da werden Daten, Tools und Methoden aufbereitet und gehandelt.
Vorerst skizziert der Text Felder, wo Daten nicht in einer personenbezogenen Weise behandelt werden. Im kommenden Kapitel über Risiken wird sich die Position der Autoren weiter klären. In der Diskussion erörtern wir schon mal die Möglichkeit, gegen den Sog des Big Business Kontrolle über persönliche Daten zu gewinnen und diese im Rahmen von Föderationsmodellen kontrolliert zugänglich zu machen.