Die Lesegruppe wendet sich der Revolution zu. Zumindest postuliert der Untertitel des Buchs „Big Data“ eine „Revolution That Will Transform How We Live, Work and Think“. Wie weit das plausibel ist, muss sich zeigen.
Mayer und Cukier stellen fest, dass es keine rigorose Definition von Big Data gebe. Sie zeigen vorerst eine erste, quantitative Dimension auf. Die verfügbaren und verarbeitbaren Datenmengen sind massiv gestiegen. Das ruft nach neuen Strategien, um diese Daten so aufzubereiten, dass sie parallel bearbeitet werden können. Dazu dient etwa Googles MapReduce. Das Buch liefert dazu kaum Informationen. Aufgrund der Lektüre war in der Lesegruppe offen, ob MapReduce auf diese Aufbereitung beschränkt ist, oder ob auch eine Aufbereitung nach inhaltlichen Mustern stattfindet.
Die explosionsartige Zunahme der verfügbaren Informationen wird von den Autoren mit ein paar eingängigen Hinweisen untermauert. 2013 sind etwa 1200 Exabytes an Informationen verfügbar gewesen, davon nur noch 2% in analoger Form. Zur Jahrtausendwende waren letztere mit drei Vierteln des Volumens noch dominant. Uns als Hardcore Neugierige würde natürlich interessieren, was hier mit Information gemeint ist. Sind informationstechnische oder semantisch kulturelle Informationen angesprochen?
Mayer und Cukier skizzieren eine Kulturgeschichte der Informationsmengen, wobei sie über die Erfindung des Buchdrucks bis zur antiken Bibliothek von Alexandria zurückgreifen. Das dient dazu, die Kernthese des Textes plausibel zu machen: Die Umwälzung der Kultur durch Big Data. Vorerst bemerken die Autoren, dass sich BD auf Dinge bezieht, die nur basierend auf einer grossen Datenmenge gemacht werden können und nicht auf einer bescheidenen Ebene. Das hat uns in der Diskussion eingeleuchtet.
Dann aber zünden die Autoren eine nächste Stufe und postulieren, BD würde die Art verändern, wie wir mit der Welt interagieren. Die Menschheit müsse dabei „die Obsession für Kausalität zugunsten von einfacher Korrelation“ fahren lassen. Die Herren lehnen sich weit aus dem Fenster: Wenige Jahre, nachdem die Finanzelite mit unverstandenen Modellen die Weltwirtschaft an den Rand des Abgrunds gefahren hat, wird die Devise „Numbercrunching statt Analyse“ ausgegeben. Der Text wird in späteren Kapiteln darauf zurückkommen, wir sind gespannt.
Wo sich der Text konkreteren Problemen zuwendet, fördert er durchaus interessante Sachverhalte an den Tag. So wird die Problematik erläutert, dass sorgfältig gestaltete Datensammlungen, etwa Telefonumfragen, dank dem Zufallsprinzip grosse Zuverlässigkeit erreicht haben. Weil sie aber sehr aufwändig und in manchen Fällen nicht realisierbar sind, gewinnt die Auswertung bereits vorhandener Datensammlungen an Gewicht, auch wenn diese „messy“ respektive ungeordnet sind und zu andern Zwecken erhoben wurden.