Kapitel 2 | Das Ende der Ordnung

Nun haben wir den Kontrollverlust phänomenologisch beschrieben und seine Treiber ausgemacht. Was sind jedoch die Ursachen dieser drei Treiber? Sie liegen zu einem Gutteil in den medientheoretischen, technischen und Informationstheoretischen Grundlagen der Technologie, mit der wir uns und die Gesellschaft ausgestattet haben.

„Jede hinreichend fortschrittliche Technologie ist von Magie nicht zu unterscheiden“, sagte der Science-Fiction-Autor Arthur C. Clarke. Indem wir nacheinander für jeden der Treiber erläutern, welche technischen Gegebenheiten ihm zugrunde liegen, werden wir den Leser mit diesem Kapitel in die Lage versetzen, die komplizierten Mechanismen hinter der Zauberei der digitalen Technologie zu verstehen. Beim ersten Treiber – der Weltverdatung – geht es um das Versprechen und das Konzept des Computers; beim zweiten Treiber – der Kopierbarkeit der Daten – stehen die Eigenschaften digitaler Daten und dezentraler Netze im Mittelpunkt; und beim dritten Treiber – der steigenden Aussagefähigkeit von vorhandenen Daten – beschäftigen wir uns mit dem Medienbruch, der durch die Erfindung moderner Datenbanksysteme und ihres zentralen Paradigmas, der Query (dt. Abfrage), ausgelöst wurde. Der Kontrollverlust erklärt sich aus dem Zusammenspiel all dieser Faktoren.

Aufschreibesystem U

Als Google 2010 für sein Streetview-Feature mit Kameras ausgestattete Autos durch deutsche Straßen fahren ließ, sorgte das für Aufruhr. Dass die Hausfassade – als begrenzende Außenseite dessen, was bis dahin als Privatsphäre verstanden wurde – im Internet abgebildet werden sollte, ging vielen zu weit. Datenschützerinnen entrüsteten sich, die BILD-Zeitung lancierte eine großangelegte Kampagne, und feuilletonistische Leitartikler geißelten Googles Datensammelwut. Schließlich lenkte das Unternehmen ein und ermöglichte es den deutschen Nutzerinnen, die eigene Hausfassade wieder aus dem Internet ausblenden zu lassen. So viele erzürnte Bürger nutzten diese Möglichkeit, dass Streetview – eine online begehbare Repräsentation vieler Städte – in Deutschland quasi unbenutzbar ist. Statt einer Stadt zeigt das virtuelle Deutschland triste Schluchten aus verschwommenen Anonymisierungsquadraten. In den USA wird seitdem gerne über „Blurmany“ gewitzelt.

Darüber, dass eine Abbildung der Hausfassade als Verletzung der Privatsphäre verstanden wurde, machte sich vor allem das englischsprachige Ausland lustig. Doch die Reaktion der Deutschen lässt sich auch anders erklären. Das Internet und die zunehmende Digitalisierung aller Lebensbereiche hatte 2010 bereits ein Ausmaß erreicht, das viele Menschen erschreckte. Sich dieser Welt zu verweigern, das eigene Offline-Dasein vielleicht sogar mit einem gewissen Stolz vor sich herzutragen, wurde immer schwerer. Wie lässt sich noch mit den Enkeln kommunizieren, wie der Urlaub buchen, wo werden Bücher gekauft, wenn die Buchläden alle dicht machen? Gibt es für dieses Gefühl – für diese Angst, gleichzeitig belagert zu sein und zurückgelassen zu werden – ein besseres Symbol als das Streetview-Auto von Google? Auf einmal steht das Internet vor der Haustür und macht Fotos.

Google Streetview ist ein sehr später Schritt in dem Prozess der Weltverdatung, der schon lange zuvor in Gang gesetzt wurde. Der argentinische Autor Jorge Luis Borges hatte die Entwicklung ganz undigital vorhergesehen, als er 1960 in seiner Erzählung „Von der Strenge der Wissenschaft“ eine Karte beschrieb, die die ganze Welt im Maßstab eins zu eins abbildet und sie folglich umspannt. Während eine solche Weltkarte in der Virtualität des Digitalen ganz wunderbar mit der echten Welt koexistieren kann, ergibt sie in der Welt des Analogen keinen Sinn. Doch auch Borges bezog sich gedanklich auf frühere Technologien der Weltverdatung: die Medien.

Mit Sprache, Schrift und Buchdruck standen den Menschen immer effizientere Werkzeuge zur Verfügung, um ihre Geschichten zu erzählen und Wissen zu verbreiten: Von „Medien“ wussten die Menschen nichts, eigentlich existierte nur Literatur. Im 19. und 20. Jahrhundert kamen mit Grammophon, Foto und Film technische Medien hinzu, die den Gattungsbegriff „Medien“ erst notwendig machten. Sie verdateten die Welt zum ersten Mal nicht über den Umweg der menschlichen Wahrnehmung, filterten sie – abgesehen von der Entscheidung über den Moment der Aufnahme und der Auswahl des Blickwinkels u.ä. – nicht durch gedankliche Verarbeitung. Wo sie nicht bewusst als Mittel kreativer Interpretation eingesetzt werden, bilden sie stur physische Gegebenheiten ab. Statt Worten oder Pinselstrichen speichern sie elektromagnetische Wellen und Schall. Die Welt drückt sich über den Umweg der jeweiligen Wellenform direkt in diesen Medien aus. Erst mit den technischen Medien wurden „die Medien“ überhaupt geschaffen. Wo alles Schrift, Druck und Wort war, brauchte es keinen Medienbegriff, da reichten die Literaturwissenschaften.

„Unser Schreibwerkzeug arbeitet an unseren Gedanken mit“,16 wusste Friedrich Nietzsche, der am Ende seines Schaffens halbblind anfing, auf einer der ersten Schreibmaschinen seine Texte zu verfassen. Es sollte aber bis in die 1960er-Jahre dauern, bis der Kanadier Marshall McLuhan die erste grundlegende Medientheorie formulierte. Dass Medien die technologische Grundlage unserer Kultur bilden und ihre Beschaffenheit diese Kultur wesentlich beeinflusst, ist eine der vielen Bedeutungen von McLuhans berühmtem Satz „Das Medium ist die Botschaft“.17

Medientheorie bedeutet, den Blick abzuwenden vom Reich der Ideen, das seit Platon als vorherrschendes Kulturparadigma regierte, hin zu den materiellen Grundlagen dieser Ideen: den Techniken des Schreibens, Druckens, Fotografierens und des Speicherns von Daten. Erst bei der Beschäftigung mit „Hardware“ als dem technischen Möglichkeitsraum von Äußerungen wird deutlich, wie diese Hardware um sich herum Systeme von Narrativen und Strukturen schafft, in deren Gewebe sich alles bewegt, was wir überhaupt denken können.

Der Medienphilosoph Friedrich Kittler hat diese Systeme „Aufschreibesysteme“ genannt und anhand des Einbruchs der technischen Medien in die Gesellschaft analysiert. In seinem Buch Aufschreibesysteme 1800/1900 zeigt er, dass sich mit dem Aufkommen der neuen Medientechniken nicht nur die publizistische Landschaft, sondern auch die gesellschaftlichen Strukturen und sogar das Denken selbst verändert haben. Der Begriff des Aufschreibesystems ist für unsere Zwecke zweifach wichtig: Erstens, weil er mehr ist als nur ein Synonym für „Medium“, sondern darüber hinaus das ganze Drumherum umfasst, das ein Medium bei seiner Einführung bewirkt – die kulturellen Praktiken, die Institutionen, die gesellschaftlichen Veränderungen. Die Betonung liegt hier auf „System“. Zweitens – die Betonung liegt nun auf dem „Aufschreiben“ – stellt der Begriff das Speichern, die Verdatung in den Mittelpunkt, um die es uns hier geht.

Die Psychoanalyse zum Beispiel hätte es unter den Bedingungen des „Aufschreibesystems 1800“ – in einer ausschließlich literarischen Kultur – nicht geben können. Im Gegensatz zu den Praktiken der Schriftkultur hat die Psychoanalyse nicht mehr den „Geist“ und die „Bedeutung“ als Gegenstand, sondern das „Gehirn“ und die „Spur“. Sie fragt nicht, was gedacht oder gemeint ist (wie zum Beispiel noch in der Hermeneutik), sondern: „Was geht in der Patientin vor?“ Wie ein Grammophon zeichnet der Analytiker dazu alles auf: jede Silbe, jeden Versprecher, jedes Räuspern, jedes Zaudern, jede sprachliche Fehlleistung. Welche Subroutinen des Unbewussten am Werk sind, wird nicht durch die Interpretation dessen erfahren, was die Kranke sagt, sondern durch genaue Beobachtung all dessen, was unwillkürlich geschieht. Und wo das Aufschreibesystem 1800 noch das erkennende Subjekt am Werk sieht, kann Freud im Aufschreibesystem 1900 feststellen, dass dieses nicht „Herr im eigenen Haus“ ist. Das Durchbrechen des Monopols der Schriftkultur war die notwendige Voraussetzung zur Entthronung einer bestimmten Vorstellung von „Geist“ und „Vernunft“ und damit auch einer bestimmten Vorstellung des Menschen.

Heute stecken wir wieder mitten in einem solchen Medienumbruch. Das Aufschreibesystem 1900 ist immer noch präsent, in einigen Bereichen sogar noch dominant, doch der Einbruch des Computers und des Digitalen bedroht es grundlegend. Wie lässt sich dieser Umbruch beschreiben? Was macht das Aufschreibesystem 2000 aus?

Waren die Computer in den Laboren der Universitäten und Unternehmen noch große Rechenungetüme zur Kalkulation komplexer wissenschaftlicher, technischer oder ökonomischer Probleme, verwandelten sie sich Ende der 1970er-Jahre in Medien. Texte konnten auf ihnen gelesen werden, nach und nach zeigten sie auch Grafiken und bald schon Fotos. Als die Prozessoren immer schneller wurden, ließen sich Musik und sonstige Tonaufnahmen auf ihnen abspielen und kurz darauf sogar Videos ansehen. Der Computer begann, das Familienalbum, den Plattenspieler und den Fernseher zu ersetzen. Mit dem Anschluss an das Internet und seinen nicht endenden Strom an Texten, Bildern und Videos ist endgültig das universelle Medium aus ihm geworden. Der Computer macht seitdem, was alle Medien vor ihm auch machten – nur schneller, billiger, einfacher und radikaler.

Diese Eigenschaft digitaler Technologie wird im Marketing „Medienkonvergenz“ genannt. Um zu klären, was das Aufschreibesystem 2000 ausmacht, müssen wir untersuchen, welche Sonderstellung der Computer als medialer Tausendsassa in der Mediengeschichte einnimmt. Ist er überhaupt ein Medium unter anderen? Er scheint sich zunächst Kittlers Medienarchäologie zu entziehen, denn der Blick auf die Hardware scheint zumindest nicht mehr auszureichen. Vielmehr ist es die Software – Bildbetrachtungsprogramme, Webbrowser und Mediaplayer –, die den Computer zu dieser konvergenten Medienmaschine macht.

In dem Aufsatz „Es gibt keine Software“ versucht Kittler solchen Überlegungen entgegenzutreten. Er will zeigen, dass der Computer in seiner scheinbaren Universalität eben doch auch, genauso wie seine Bruder- und Schwester-Medien, auf seine Hardware beschränkt ist. Und in der Tat: Ein realer Computer ist durch seine physische Ausgestaltung gewissen Beschränkungen unterworfen. Es gibt viel zu beachten: Wärmeentwicklung, elektromagnetische und elektrostatische Abstrahlung, Mindestleitfähigkeit und natürlich die Endlichkeit des Speichers. All dies beschränkt die Möglichkeiten der theoretisch universellen Maschine und macht aus dem Computer die endliche Hardware, die wir kennen. Software könne deswegen nie das Problem frontal lösen, sondern nur einen Bruchteil des Problems – das, was gerade noch mit der Technik machbar ist. Software sei nur das Schmieröl, mit dem die Maschine reibungsloser mit uns Menschen interagieren solle. Kittler behauptet: „Es gäbe sie [die Software] nicht, wenn Computersysteme nicht bislang in einer Umgebung aus Alltagssprachen koexistieren müssten.“ Und schimpft weiter: „Die sogenannte Philosophie der sogenannten Computergemeinschaft setzt im Gegenteil alles daran, Hardware hinter Software, elektronische Signifikanten hinter Mensch-Maschine-Schnittstellen zu verdecken.“18 Doch Kittler tut der Software unrecht. Um zu verstehen, was den Computer ausmacht, lohnt es sich, seinen Ursprung zu betrachten. Und der liegt nicht, wie es die in Deutschland populäre Legende will, bei Konrad Zuse, der 1941 in Berlin den ersten lauffähigen Computer baute, sondern bei dem Engländer Alan Turing und seiner 1936 erdachten Turingmaschine.

Ein unendliches Band aus Papier zuckt vor und zurück. Es ist unterteilt in quadratische Felder. Auf manchen stehen Symbole, Nullen und Einsen, in scheinbar zufälliger Verteilung auf das Band gedruckt. Manche Kästchen sind leer. Das Band läuft durch eine Maschine, in die es eingespannt ist. Die Maschine zieht das Band mal nach links, mal nach rechts. Ein Schreib-/Lesekopf konzentriert sich immer auf das aktuelle Kästchen in der Maschine. Mal schreibt die Maschine dann etwas auf, mal liest sie die beschriebenen Kästchen, und hier und da ist sie unzufrieden mit dem Inhalt. Sie radiert das Symbol weg, und ab und an ändert sie es in ein anderes. Das sind die grundlegenden Funktionen der Turingmaschine. Ebenfalls Teil der Maschine ist eine Tabelle, die definiert, was sie tun soll, wenn sie eine bestimmte Abfolge von Symbolen liest – ein Programm. Wenn die Maschine beispielsweise zuletzt eine 0 gelesen hat und auf der aktuellen Position eine 1 anzeigt, soll sie das Band drei Schritte nach rechts schieben und auf den Speicherplatz eine 1 schreiben; wenn das Band aber eine 0 anzeigt, soll sie die 0 gegen eine 1 austauschen. Turing nannte diese Abfolge von Instruktionen „State“. Heute würde sie als „Algorithmus“ bezeichnet.

Turings Maschine diente nur dem einzigen Zweck, zu beweisen, dass sie unfähig ist, alle denkbaren Zahlen zu berechnen. Um das verständlich zu machen, müssen wir etwas ausholen: Bereits zehn Jahre zuvor hatte der Mathematiker David Hilbert die Frage gestellt, ob es neben den entscheidbaren Problemen in der Mathematik und denen, für die wir noch keine Lösung haben, auch prinzipiell unentscheidbare Probleme gibt. Ein entscheidbares Problem ist zum Beispiel die Frage, welche die kleinste Primzahl ist (Lösung: 3). Ein Problem, bei dem Unsicherheit darüber bestand, ob es jemals lösbar sein würde, ist die Frage, was die größte Primzahl ist (Lösung: unentscheidbar). Auf der Mathematik lag die Hoffnung, eines Tages die eine vollständige und vollkommen widerspruchsfreie Welterklärungsformel liefern zu können.

Kurt Gödel hatte kurz darauf gezeigt, dass sich formale Systeme (Systeme wie Arithmetik und Algebra zur Umwandlung von Symbolen in Aussagen durch Regeln) in Zahlenfolgen ausgedrücken lassen, und konnte sie so zum Gegenstand ihrer eigenen Verarbeitung machen – woran sie scheiterten. Damit lieferte er einen Beweis, der die Geschichte der Mathematik verändert hat: Kein formales System mit einer gewissen „Mächtigkeit“ kann gleichzeitig vollständig und widerspruchsfrei sein. Nebenbei hatte er gezeigt, dass jedes formale System als Rechenproblem formulierbar ist. Für Turings Maschine bedeutet das: Die Tabelle mit den formalen Instruktionsfolgen braucht es gar nicht. Stattdessen lassen sich die Instruktionen einfach in Zahlen codieren und auf das Band schreiben. Am Ende steht die „universelle Turingmaschine“, die jede denkbare Turingmaschine simulieren kann. Turing nannte sie schlicht „U“, für universell. Und das heißt nichts anderes, als dass es zu jedem mathematisch entscheidbaren Problem eine solche Turingmaschine gibt, die das Problem in einer endlichen Abfolge von Rechenschritten lösen kann.

„U“ – die Antwort auf alle entscheidbaren Probleme in der Mathematik – steckt in begrenzter Form heute in unseren Hosentaschen. Die Turingmaschine ist das Vorbild für jede „Central Processing Unit“ (CPU), also das Herzstück jedes Computers und Smartphones. Der einzige, aber wesentliche Unterschied ist, dass ein Computer über begrenzten Speicher verfügt, während das Band der Turingmaschine U unendlich ist. Doch jede herkömmliche CPU ist universell programmierbar und kann alle jemals denkbaren deterministischen Maschinen simulieren – jedenfalls solange der Speicher reicht.

Erst die Software macht den Computer zum Medium. Und zu allem anderen. Turings Schritt, die Tabelle mit den Algorithmen in den Papierstreifen zu codieren, bedeutet die Ersetzung von Hardware durch Software. Der Vorgang sollte sich im Laufe der Computergeschichte noch etliche Male wiederholen. Noch in den 1990er-Jahren war Zusatzhardware, sogenannte MPEG-Karten, nötig, um mit dem Computer Videos anzusehen. (Heute wird lustigerweise wieder spezielle Hardwarebeschleunigung für Videos auf Grafikkarten gebaut). Schon bald war dieselbe Funktionalität in Software umsetzbar und ist heute in jedem Betriebssystem integriert.

In seinem Aufsatz „There is no Hardware“ zeigt der Medienwissenschaftler Caspar Clemens Mierau, wie mithilfe sogenannter Emulatoren alte Computerhardware in Software nachgestellt wird.19 Zum Beispiel lässt sich ein alter Commodore Amiga oder ATARI ST ohne Probleme auf einem Windows-PC emulieren – sodass all die alten Spiele für die Geräte wieder gespielt werden können, wie in alten Zeiten. Es ist auch möglich, neben der „normalen“ Software auf einem Rechner Software laufen zu lassen, die einen zweiten, virtuellen Computer im Computer simuliert. So erlauben es die sogenannten „Virtual Machines“, auf einem Mac parallel einen virtuellen Windows-PC hochzufahren. Die Turingmaschine kann nicht nur jede Software ausführen, sie kann auch selbst reine Software sein.

Und genau das war sie von Anfang an. Turing hat sie nämlich nie gebaut. (Sie lässt sich auch gar nicht bauen, da sich ein unendlich langes Band nun mal nicht herstellen lässt.) Sie war ein theoretisches Konstrukt, eine mathematische Überlegung. Das ist der Grund, weshalb hierzulande im Sinne der deutschen Ingenieursmentalität so gern Konrad Zuse als der Erfinder des Computers ausgerufen wird. Aber dieses Denken verfehlt das Wesen des Computers. Turing hatte die erste Maschine erfunden, die gar nicht gebaut werden musste, um zu funktionieren. Schon in seinem Kopf begann sie zu arbeiten, und dann, als Konzept auf Papier, revolutionierte sie die Mathematik. Das Elegante an der Turingmaschine ist, dass ihre Hardware komplett austauschbar ist: Sie läuft sogar auf der „Wetware“ des menschlichen Gehirns.

Dass „U“ trotz ihrer Unendlichkeit nicht in der Lage ist, alle Probleme der Mathematik zu lösen, zeigt, dass es durchaus grundsätzlich unlösbare Probleme in der Mathematik gibt. Wir wissen zwar immer noch nicht, welche Probleme das sind und welche Probleme zwar lösbar, aber noch nicht gelöst sind; wir wissen aber, dass die Turingmaschine die Grenze zwischen diesen beiden Problemgruppen markiert. Viele auf die Mathematik gesetzte Hoffnungen waren damit zunichte gemacht, doch die Menschheit hatte nun etwas anderes, eine neue Hoffnung, ein neues Versprechen: den Computer.

1965 veröffentlichte einer der Gründer des Chipherstellers Intel, Gordon Moore, einen wissenschaftlichen Aufsatz mit dem Titel „Cramming more components onto integrated circuits“.20 Er beschreibt darin die Beobachtung, dass sich die Größe der hergestellten Chips und der Preis ihrer Herstellung alle 18 bis 24 Monate um die Hälfte verringern. Und weil man sich mit schrumpfenden Chips nicht zufrieden gibt, sondern die vorhandene Fläche nutzt und einfach weitere Chips hinzubaut, erhöht sich die Leistungsfähigkeit des Computers im gleichem Maße. Das heißt: CPUs verdoppeln ihre Leistungsfähigkeit alle zwei Jahre. Diese Aussage ist bis heute, vierzig Jahre später, gültig. Und weil das Design der Computerprozessoren seit einigen Jahren an eine physische Grenze gelangt ist, werden den Prozessoren inzwischen mehrere Prozessorkerne spendiert, die parallel arbeiten. Während der Entstehung dieses Buches sind wir bei handelsüblichen 6- bis 8-Kern-Prozessoren im Highend-Bereich angekommen, 4-Kern-Prozessoren dominieren den Laptopbereich, und Smartphones laufen nach und nach ebenfalls auf 4 Kernen.

Während der letzten vierzig Jahre hat sich die Leistung etwa zwanzigmal verdoppelt. Heutige Prozessoren sind also über eine Million Mal schneller als diejenigen, die Gordon Moore damals für seine Betrachtungen heranzog. Die Kapazitäten der digitalen Datenspeicher sind gleichzeitig im selben Tempo gewachsen. Die Turingmaschine mag unendlich sein, der Computer jedoch holt in immer größeren Schritten auf.

Während wir durch Turing also wissen, dass nicht alles berechenbar ist, wissen wir seit Moore auch: „Alles, was berechenbar ist, wird berechnet werden.“ Wenn mit dem Computer ein neues Aufschreibesystem in die Welt tritt, dann ist die universelle Berechnung aller berechenbaren Probleme sein Kennzeichen. Das Aufschreibesystem U ist gekommen, um jede Maschine zu ersetzen, die jemals gebaut wurde und die überhaupt je denkbar ist. Und es tut dies mittels Software. „Software is Eating the World“ proklamierte der Investor Marc Andreessen und meinte damit nichts anderes, als dass die Hardware mehr und mehr bedeutungslos und durch Software ersetzt wird.21

Die Verdatung der Welt, der erste Treiber des Kontrollverlusts, ist das Einlösen dieses Versprechens und war von Anfang an im Computer angelegt. Die Welt wird immer enger mit digitaler Technologie erfasst, vermessen und berechnet, weil der Computer gekommen ist, um alles zu berechnen, was berechenbar ist. Das Aufschreibesystem U wird dabei nicht vor den Menschen und ihrem Bedürfnis nach Privatsphäre und ihren Konzepten vom geistigen Eigentum haltmachen. Es wird für immer weiterrechnen und dabei immer besser und schneller werden.

Das vernetzte Rauschen der Signale

In seiner Erzählung „Die Bibliothek von Babel“ beschreibt der Schriftsteller Jorge Luis Borges eine Welt, die nur aus einer riesigen Bibliothek besteht. In der Bibliothek stehen alle Bücher, die überhaupt denkbar sind. Jedes Buch hat 410 Seiten, 40 Zeilen pro Seite, jede Zeile hat 80 Zeichen, bestehend aus je 25 Buchstaben. Unter den 1,956 × 101.834.097 Büchern gibt es Bücher, die nur aus dem Buchstaben A bestehen, andere sind voller Bs. Dann gibt es welche nur mit As und irgendwo einem B dazwischen oder auch zwei. Die Bibliothek besteht aus allen Büchern mit allen Kombinationen von Buchstaben, die möglich sind. Alle Texte, die je geschrieben wurden und in Zukunft geschrieben werden könnten, befinden sich darin. Aber in erster Linie besteht die Bibliothek aus sinnlos bedrucktem Papier. 99,99 Prozent der Texte ergeben überhaupt keinen Sinn.

Datensammeln kostet nichts. 1981 mussten wir für ein Gigabyte Festplattenspeicher circa 300.000 US-Dollar hinlegen, 2004 nur noch einen einzigen. Heute sind wir schon bei einem Cent, und bald schon werden Gigabyte keine relevante Maßeinheit mehr sein, weil alle Welt nur noch in Terabyte denkt und speichert. Speichermedien werden in dem Maße billiger, wie Prozessoren schneller werden. Laut der Studie „Digital Universe“22 der Beratungsfirma EMC2 verdoppelt sich das weltweite Datenvolumen im Internet alle zwei Jahre. 2010 behauptete Eric Schmidt, der damalige CEO von Google, dass in 48 Stunden so viele Daten produziert würden wie seit Beginn der Menschheit bis 2003.23 Der Zustand der Welt wird zu jeder Sekunde in ständig steigender Auflösung erfasst und irgendwo gespeichert.

Es ist kein Zufall, dass wir uns mit zunehmender Digitalisierung der Welt dem Zustand aus Borges Bibliothek immer weiter anzunähern scheinen. Oft ist die Rede von der „Informationsflut“ oder gar vom „Informations-Tsunami“. Die direkte Sichtbarkeit der Komplexität der Welt, die die Medien und noch mehr das Netz geschaffen haben, führt zum Gefühl der Überforderung. Die Verdatung der Welt mithilfe der Turingmaschine ist eine Grundlage für den zweiten Treiber des Kontrollverlusts – den unkontrollierbaren Datenstrom. Als Erklärung reicht sie jedoch nicht aus – sie beantwortet noch nicht die Frage, warum digitale Daten so leicht kopiert und verteilt werden können.

Weitere Ursachen liegen im Wesen des Digitalen selbst. Hier herrschen besondere Gesetzmäßigkeiten, die für Menschen aus der analogen Welt zunächst kontraintuitiv erscheinen. Sind diese Gesetzmäßigkeiten einmal verstanden, erschließt sich auch die Rückwirkung der digitalen Technologie auf die Welt. Dazu müssen wir noch etwas tiefer hinabsteigen in die Informationstheorie sowie in die Funktionsweise von Computer und Internet. Es gilt zu klären, was Kommunikation, was Signal/Rauschen, was digital und was analog ist. Was macht eigentlich ein Prozessor, und warum liegt zwischen Turings Entdeckung (der Computer war viel mehr eine Entdeckung als eine Erfindung) und dem heutigen Zustand so wenig Zeit? Erst wenn wir die Antwort darauf kennen, können wir ergründen, wie zusammen mit dem Internet und seinem paketbasierten Routing der zweite Treiber des Kontrollverlusts unausweichlich wird.

Signal/Rauschen

Menschen kamen erst Anfang des letzten Jahrhunderts auf die Idee, sich zu fragen, was das überhaupt ist: Kommunikation. Die Frage wurde während des zweiten Weltkrieges sehr dringlich, als alle Kriegsparteien zunehmend mittels technischer Medien (Telegraph und Funk) zu kommunizieren begannen und diesen Weg gleichzeitig vor dem Mitlauschen des Feindes schützen wollten. Es musste ein mathematisches Modell von Kommunikation her, und Claude Shannon, Mathematiker bei den Bell Labs, dem Forschungs- und Entwicklungslabor des damaligen US-amerikanischen Telefonmonopolisten AT&T, hatte dafür die Lösung.

1948 veröffentlichte er seinen Aufsatz „A Mathematical Theory of Communication“.24 Sein Modell war einfach: Es gibt einen Sender, einen Kanal, über den kommuniziert werden soll, und einen Empfänger. Die Problemstellung der Kommunikation betrifft den Kanal, der nie ohne „Rauschen“ zu haben ist. Wer schon mal versucht hat, sich in der Nähe einer Baustelle zu unterhalten, kennt das Problem. Selbst der Kanal „direkte Rede“, ganz ohne vermittelndes Medium, ist anfällig für dieses Rauschen, und auch alle anderen Kanäle – Telegraphenleitungen, Aufnahmegeräte, Funkfrequenzen etc. – sind nie rauschfrei. Die Herausforderung bei jeder Kommunikation liegt darin, auf dem Weg von Sender zu Empfänger eine klare Trennung zwischen dem Signal und dem Rauschen hinzubekommen, d.h. den sogenannten Signal-Rausch-Abstand möglichst groß zu halten. Eine weitere Erfindung von Shannon war die Maßeinheit von Information, deren Elementareinheit er „Bit“ nannte. Bit drückt die binäre Unterscheidung von „wahr“ und „nicht wahr“ aus, von 1 und 0. Dass mit dieser einfachen Unterscheidung jede Information abgebildet werden kann, war schon lang bekannt. George Boole entwickelte auf Basis der Binarität eine eigene Algebra, die wegweisend wurde für die Implementierung in den real existierenden Computern. Aus diesem Wissen destillierte Shannon eine allgemeine Informationstheorie.

Dass Leibniz’ Rechenmaschine und unsere Computer bis heute das binäre System verwenden, um Informationen darzustellen, erklärt sich aus dem Signal-Rausch-Abstand. Das Dezimalsystem (und jedes andere Zahlensystem) eignet sich viel schlechter, weil es mehr Abstufungen erfordern würde. Die elektrischen Schaltungen müssten im Gegensatz zu der simplen Unterscheidung zwischen „Strom an“ (1) und „Strom aus“ (0) zehn Zustände abbilden: „Strom ein bisschen an“ (1), „Strom ein bisschen mehr an“ (2), „Strom noch ein bisschen mehr an“ (3) etc. Das wäre viel schwerer zu bauen, sehr viel fehleranfälliger und unnötig kompliziert.

Digital

„Digital“ bedeutet „abzählbar“, das lateinische Wort „digitus“ heißt Finger. Wenn wir davon sprechen, dass wir eine Information „digitalisieren“ oder dass sie „digital vorliegt“, bedeutet das, dass von ihr eine in ganzen Zahlen ausdrückbare Beschreibung vorliegt. Diese kann dann im Computer als binäre Zeichenfolge repräsentiert werden. Alles, was Übergang ist, undefinierbarer, ausgefranster Rand, und das Kontinuum, wo das eine in das andere übergeht: Das sind Phänomene der analogen Welt. Auf einem Quecksilberthermometer können wir oft nicht genau bestimmen, wo zwischen 37 und 38 Grad der gemessene Wert liegt, er bleibt unscharf. Das Digitalthermometer trifft eine Entscheidung und gibt 37,5 Grad an – wenn es ein gutes ist, vielleicht noch eine weitere Stelle hinter dem Komma. In der digitalen Welt hat alles einen konkreten Wert, es gibt nichts Ungefähres. In der digitalen Welt gibt es nur Unterscheidungen, scharfe Kanten und Pixel.

Während es immer schon einen ausgesuchten Meister brauchte, um ein Gemälde zu kopieren, war das mit Büchern schon im Mittelalter problemlos möglich – sogar durch Mönche, die selbst nicht lesen konnten. Es reichte die Fähigkeit, Buchstaben nachmalen zu können. Buchstaben sind digital, Bilder analog. Aus demselben Grund ist die digitale Kopie so leicht. Weil die digitale Beschreibung einer Sache trennscharf ist, lässt sie sich schnell, billig und verlustfrei kopieren.

Nach ihrem kurzen Ausflug in die analoge Materialität (Film, Foto, Phonograph) sind die Medien mit der Digitalität wieder zurückgekommen ins Reich des Er-Zählens. In der Schrift gibt es wie im Digitalen nur klar voneinander unterscheidbare Instanzen. Doch nicht mehr Geschichten und Narrative bilden die Superstruktur der digitalen Er-Zählungen, sondern die möglichst genaue Beschreibung der Welt durch ganzzahlige Repräsentation.

Wie die Mönche, die nicht lesen konnten, ist der Computer ein einfältiger Kopist. Er kennt keine Bedeutung und weiß nicht, was er tut. Das Umgehen mit digitalen – das heißt distinkten – Daten erlaubt ihm diese Stumpfheit, und das Binärsystem sorgt für genügend Signal-Rausch-Abstand, dass er dabei keine Fehler macht. So kommt er heute auf bis zu 3 Milliarden Kopieroperationen in der Sekunde.

CPU als Kopiermaschine

Warum ist der Computer aber eine Kopiermaschine? Der Aufbau einer real existierenden, das heißt begrenzten Turingmaschine kann trotz ihres universellen Prinzips sehr unterschiedlich ausfallen. Aber im Allgemeinen besteht ein Prozessor (CPU) aus vier grundsätzlichen Bestandteilen: Das „Steuerwerk“ kontrolliert die Ein- und Ausgänge der Anweisungen und hat alle Operationen im Blick. Die „Register“ sind prozessoreigene, sehr schnell ansprechbare Speicher, in die zum Beispiel Befehle zur Ausführung oder Werte zur aktuellen Verarbeitung geladen werden können. Das „Rechenwerk“ (auch „ALU“, für Arithmetic Logic Unit) ist für logische und arithmetische Operationen zuständig; und die „Datenleitungen“ verbinden den Prozessor mit dem Rest des Computers, wie der Festplatte und dem Arbeitsspeicher.

Die heute überall vorherrschende Prozessorarchitektur nennt sich RISC und zeichnet sich dadurch aus, sehr wenige, dafür aber besonders einfache und schnelle Befehle zu implementieren. Das führt dazu, dass die meiste Logik gar nicht auf der Prozessor-Ebene angesiedelt ist, sondern in der Software ausformuliert werden muss. Moderne Software wird in sogenannten „Hochsprachen“ wie Java oder Python geschrieben, also Programmiersprachen, die bereits eine Menge der nötigen Komplexität beinhalten und so dem Menschen Arbeit abnehmen. Nehmen wir eine einfache Addition:

5 + 6 = ?

In der höheren Programmiersprache könnte das so aussehen:

$× = 5 + 6;

So versteht der Computer den Auftrag aber noch nicht. Um ihm die Zeile zur Ausführung zu geben, müssen wir sie zunächst von einem Programm übersetzen lassen, das nur dafür da ist, Programmiersprache in Prozessorbefehle zu verwandeln – dem Compiler. Was dann beim Prozessor ankommt, sieht in etwa folgendermaßen aus:

Kopiere das Byte Nr. 3633 des Arbeitsspeichers in das Register A!

Kopiere das Byte Nr. 3634 des Arbeitsspeichers in das Register B!

Addiere Register A und Register B und schreibe das Ergebnis in das Register C!

Kopiere Register C in Byte Nr. 3633 des Arbeitsspeichers!

Aus der eigentlich einfachen arithmetischen Operation wird eine Kaskade von Befehlen, die vor allem eines tun: kopieren. Egal, worum es geht, der Prozessor ist den größten Teil seiner Zeit mit Kopieren beschäftigt. Alle Programme und Daten werden ständig von der Festplatte in den Arbeitsspeicher, vom Arbeitsspeicher in die Prozessorregister, von dort wieder in den Arbeitsspeicher und von dort in die Grafikkarte oder zurück in die Festplatte kopiert. Der Großteil der Befehlssätze eines Prozessors beschäftigt sich nicht mit Logik oder Rechenoperationen, sondern mit Kopier- und Transfer-Operationen. Der Computer wird zu Unrecht als „Rechenmaschine“ bezeichnet – „Kopiermaschine“ wäre treffender.

Kryder’s Law

2005, lange nach Gordon Moores Entdeckung der Verdoppelung der Rechenkapazitäten von integrierten Schaltkreisen alle 18 Monate, formulierte Mark Kryder, ein Manager beim Festplattenhersteller Seagate, eine ähnliche Beobachtung zur elektromagnetischen Datenspeicherung: Festplattenkapazitäten wachsen noch schneller, als es Moore’s Law besagt.25 Innerhalb von nur 15 Jahren (von 1990 bis 2005) habe sich die Festplattenkapazität mehr als vertausendfacht. Die Kapazitäten verdoppeln sich hier also nicht alle 18 Monate, sondern sogar alle 13 Monate. Wenn diese Entwicklung anhält, so Kryder, ist davon auszugehen, dass 2020 Festplatten 14 Terabytes an Daten speichern und etwa 40 Dollar kosten werden. Die stetig sinkenden Speicherkosten machen das Kopieren noch billiger, schneller und beiläufiger. Die Kopiermaschine beschleunigt ihre Fahrt.

TCP/IP

1964 veröffentlichte der Informatiker Paul Baran im Rahmen seiner Arbeit bei der RAND Corporation ein Paper unter dem Titel „On Distributed Communications“.26 Darin entwickelte er die ersten Ideen für vernetzte, computergestützte Kommunikation. Ziel war es, ein dezentrales Kommunikationsnetz zu entwerfen, das auch nach massiven Anschlägen eines Feindes auf die Infrastruktur eines Landes noch funktionsfähig wäre. Während Telefonkabel anfällig für Sabotage sind (da sie einfach durchgetrennt werden können, was die komplette Kommunikation zerstört), kann bei netzwerkbasierten Ansätzen (wie etwa einem Straßennetz) schon mal eine Leitung (oder eine Straße) kaputt gehen; meistens bleiben alternative Wege, um von A nach B zu kommen. Wenn eine Übertragung unterbrochen wird, können Daten verloren gehen, und die zu sendende Datei kommt nicht vollständig an. Das führt bei einem Telefongespräch zu ärgerlichen Lücken, ist bei der Übertragung digitaler Dokumente aber eine Katastrophe, da diese im Fall einer Datenlücke vollständig unlesbar sind.

Die Universitäten, die sich schließlich im Auftrag des Pentagon des Projekts annahmen, dachten sich dafür ein Prinzip aus: die Paketvermittlung. Die zu sendenden Daten werden in einzelne Pakete aufgeteilt, die genau durch die Datenleitung passen. Dann wird jedes Paket einzeln und unabhängig auf die Reise geschickt. (Eigentlich wird nur eine Kopie jedes Paketes geschickt. Wir erinnern uns: Alles ist eine Kopie im Digitalen.) Wie echte Pakete trägt jedes Paket eine Zieladresse und wird nun bei der nächsten Paketstation (die sich im Netz Internet-Gateway nennt und meist ein Computer beim Internetprovider ist) aufgegeben. Jeder Computerknoten im Internet ist eine solche Paketstation, die Pakete annimmt, die Zieladresse prüft und dann in einer Tabelle „nachsieht“, wo der nächste Computerknoten auf dem Weg zur Zieladresse ist. An den schickt der Computer das Paket dann weiter, und dort setzt sich der Vorgang fort, von Knoten zu Knoten. Auf diese Weise reisen die Datenpakete ein- und derselben Datei auf voneinander unabhängigen Wegen, bis sie an der Zieladresse angekommen sind. Dort setzt die Paketverwaltung die ankommenden Datenpakete wieder zusammen. Am Ende entscheidet eine Prüfsumme, ob alle Pakete angekommen sind. Sollten welche verloren gegangen sein, können sie beim Sender wieder angefragt und dort erneut losgeschickt werden – so lange, bis nachweisbar alle Datenpakete beieinander sind und zur Originaldatei zusammengesetzt werden können. Das Erstaunliche daran ist, dass dieses Gewimmel und Gewusel der Daten im Netz völlig ohne zentrale Steuerung auskommt. Die einzelnen Knoten leiten die Datenpakete nur stumpf immer weiter zum nächsten Knoten. Es handelt sich um ein System, das nicht einfach auszuschalten ist, und es lässt sich sehr einfach um weitere Knoten erweitern.

Diese Technologie arbeitet in ihrem Kern immer noch in allen Computern, die etwas mit dem Internet zu tun haben (also eigentlich allen). TCP (Transport Control Protocol) und IP (Internet Protocol) sind die beiden Internetprotokolle, die heute den Großteil aller Aktivitäten im Internet managen. Egal ob Google, Apple oder Spiegel Online: Sie alle tauschen ihre Daten über TCP/IP aus.

1981 bestand das Internet, das Netz aller Netze, aus nur 200 Knoten. 1990 waren es schon 313.000. 2004, in dem Jahr, in dem Facebook gegründet wurde, waren es 234 Millionen. Heute bewegen sich die Daten weltweit über eine Milliarde Knoten, und das Netz wächst ständig weiter.27

Fassen wir zusammen: Das Internet ist ein Verbund aus universellen Turing-Maschinen, die alles digital Darstellbare verlustfrei und ohne größeren Aufwand, dezentral und mit exponentiell steigender Geschwindigkeit durch die Gegend kopieren. Obwohl repressive Staaten auf der ganzen Welt jedes Jahr viele Milliarden Dollar investieren, um das Internet zu kontrollieren, schafft es auch in diesen Ländern jeder mit entsprechenden Tools und dem nötigen Know-how, an alle Informationen zu kommen und auf allen Kanälen zu publizieren, die es gibt. Ein einziger Nadelstich in den Zensurwall kann die komplette Aushebelung der Zensur bewirken. „Wenn das Internet auf Zensur stößt, interpretiert es sie als Beschädigung und routet um sie herum“ ist ein Satz, der dem Bürgerrechtsaktivisten und Gründer der Electronic Frontier Foundation (EFF) John Gilmore zugeschrieben wird.

Der zweite Treiber des Kontrollverlusts, die Kopiermaschine Internet, vervielfältigt, kopiert, versendet die Signale und umgeht jede Kontrolle, bis die Welt ein einziges Rauschen aus Signalen ist. Der Kontrollverlust ist dem Internet eingeschrieben – weil Datenströme dezentral fließen und nicht kontrollierbar sind. Niemand kann diese Kopiermaschine lückenlos und auf Dauer einhegen.

Die Emanzipation der Query

Jede Kommunikation muss darauf ausgelegt sein, vom Empfänger in Signal und Rauschen unterschieden werden zu können. Deshalb reden wir lauter, wenn wir uns an einer Baustelle unterhalten, deswegen arbeitet der Computer im Binärsystem, deswegen haben wir ein Schriftsystem mit Buchstaben, die sich möglichst eindeutig voneinander unterscheiden, deswegen drucken wir diese Buchstaben in schwarz auf weißes Papier, und deswegen bauen wir Bibliotheken, um das bedruckte Papier aufzubewahren und vorrätig zu haben – an einem bekannten Ort, auf den referenziert und der besucht werden kann, selbst in einer noch unbekannten Zukunft.

Doch die Stimme kann nur eine bestimmte Maximallautstärke erreichen, Papier vergilbt und Druckerschwärze verblasst, Schriftsysteme geraten in Vergessenheit, und Bibliotheken sind sowieso immer zu klein. Die Begrenztheit und Struktur des Mediums – der „Hardware“, wie Kittler sie nannte – bestimmt aus diesem Grund entscheidend die Mitteilung. Für den Empfänger ergibt sich daraus die Aufgabe, sich der vorgegebenen Struktur des Mediums zu unterwerfen. Ich muss manchmal mein Ohr näher an den Mund meiner Gesprächspartnerin halten; ein bestimmtes Schriftsystem lernen, um die Nachricht lesen zu können; Seiten umblättern, wenn ich ein Buch lese; die Architektur und Struktur einer Bibliothek kennen oder mich wenigstens mit dem Bibliothekar gut stellen, um an die Information zu kommen.

Der dritte Treiber des Kontrollverlustes – die Unvorhersehbarkeit der Informationen, die in Daten stecken – kann folglich erst voll einsetzen, wenn die Struktur des Mediums nicht mehr die Grenze seiner Möglichkeiten bildet. Dann bekommen die Senderin, das Medium, der Bibliothekar und jede Form des Gatekeepers den Kontrollverlust zu spüren. Er ist gekommen, um das Verhältnis zwischen Sender und Empfänger umzudrehen. Nicht mehr der Sender soll definieren, was der Empfänger für Signal und was er für Rauschen zu halten habe, sondern der Empfänger soll dies in Zukunft selbst entscheiden, ohne den Sender überhaupt zu fragen.

Früher waren Datenbanken nichts anderes als Verzeichnisstrukturen. In einer hierarchischen Taxonomie wurden Kategorien und Unterkategorien gebildet, die durchlaufen musste, wer eine Information finden wollte. In einer Bibliotheksdatenbank führte der Weg beispielsweise in die Kategorie „Sachbücher“, dort in die Unterkategorie „Elektronische Datenverarbeitung“, um dort in die Unterkategorie „Datenbanken“ zu gelangen, wo ein Buch über die Entstehung der Datenbank zu finden war. Wer fälschlicherweise in dem Pfad /Sachbücher/Fachliteratur/IT/ landete, wurde schon nicht mehr fündig, obwohl dieser Ort ebenso logisch wäre. Das hatte zur Folge, dass immer nur Experten die Datenbanken bedienen konnten. Nicht nur, dass spezifische, technische Fähigkeiten nötig waren, um die Datenbank zu bedienen; genaue Kenntnisse der Struktur der Daten waren ebenso unverzichtbar, um sich in ihrem komplexen Aufbau zurechtzufinden.

Mit diesem Zustand wollte der Mathematiker Ted Codd aufräumen. Der Umgang mit Datenbanken sollte in den Händen derer liegen, die täglich mit den Daten arbeiten – Managerinnen, Unternehmer oder sogar Privatpersonen, die ihre Kochrezepte damit verwalten. Dafür musste ein Weg gefunden werden, die Daten auf eine Weise abrufbar zu machen, ohne dass der Prozess des Speicherns der Information diese bereits vorgibt. Es brauchte ein neues System von Ordnung. „Zukünftige Nutzer großer Datenbanken sollen nicht wissen müssen, wie die Daten in der Maschine organisiert sind (ihre interne Repräsentation)“, schreibt Codd 1970 in seinem Paper „A Relational Model of Data for Large Shared Data Banks“.28 Damit ist die Zielsetzung eines Prozesses vorgegeben, die zur Entwicklung der sogenannten relationalen Datenbank führen wird. Die zentrale Neuerung dieser Datenbank ist, dass der Vorgang des Speicherns gelöst ist davon, wie die Daten später abgerufen werden.

In relationalen Datenbanken werden Informationen nicht mehr hierarchisch in Kategorien und Unterkategorien, sondern vergleichsweise lose in Tabellen gespeichert. Um sie effektiv durchsuchen zu können, ist eine speziell entwickelte Sprache zur Befragung der Daten erforderlich: SQL – „Structured Query Language“. Führt man eine solche SQL-Abfrage aus, werden die passenden Daten aus den verschiedenen Tabellen zusammengeführt und in eine für diese Abfrage frisch generierte Tabelle zurückgespielt. Es gab sie vorher nicht, sie war nicht vorhergesehen oder geplant, sondern sie wird erst im laufenden Prozess generiert. In einer angenommenen Bibliotheksdatenbank mit den Tabellen „Bücher“ und „Kategorien“ könnte eine einfache Abfrage lauten:

WÄHLE titel VON bücher WO erscheinungsdatum GRÖSSER ALS “01.07.1993”;

Diese Abfrage würde alle Buchtitel der Tabelle „Bücher“ ausgeben, die nach dem 1. Juli 1993 erschienen sind, und in einer Tabelle abbilden. Stellen wir uns zusätzlich eine vorgegebene Tabelle vor, die die Verknüpfungen von „Bücher“ und „Kategorien“ gespeichert hat, die wir „Kategorienverknüpfung“ nennen. Dann können wir folgende Abfrage machen:

WÄHLE titel VON bücher VERBINDE TABELLE kategorieverknüpfung ANHAND DER WERTE kategorienverknüpfung.bücher = artikel.id WO kategorienverknüpfung.kategorie = “datenbanken” UND bücher.erscheinungsdatum GRÖSSER ALS “01.07.1993” GEORDNET NACH erscheinungsdatum;

Damit erhalten wir eine Tabelle mit allen Buchtiteln, die nach dem 1. Juli 1993 in der Kategorie „Datenbanken“ erschienen sind, sortiert nach Erscheinungsdatum. Dass sich der Programmierer oder der Systemarchitekt vorher darüber Gedanken gemacht hat, dass genau diese Abfrage eines Tages einmal gestellt werden könnte, ist sehr unwahrscheinlich. Und dennoch ist sie möglich. Die schiere Fülle an möglichen Abfragen ist im Voraus nicht mehr zu überblicken. Welche Kategorien von Büchern enthalten die wenigsten Hardcover? Eine Liste mit Verlagen, die Bücher aus in den Kategorie „Gartenbau“ und „Recht“ veröffentlicht haben.

All das kann mit der relationalen Datenbank grundsätzlich abgefragt werden. Dennoch ist die SQL-Eingabeaufforderung heute selten anzutreffen. Doch hinter den meisten Formularen im Web stecken solche Datenbankabfragen. Mit SQL löste sich der Prozess des Abfragens ein großes Stück weit vom Prozess des Speicherns, das machte das Prinzip revolutionär. Was seither mit einer Datenbank möglich ist, wird immer weniger bestimmt von der Ordnung derjenigen, die die Datenbank installieren, strukturieren und befüllen, sondern vor allem von denen, die sie abfragen.

Und genau hier – im Moment der Abfrage – findet sich der Urgrund des Kontrollverlustes. Hier kippt die Kontrolle der Ordnung aus den Händen der Schreiberinnen, Sender, Archivarinnen und Gatekeeper in die Hände der Abfragerinnen. Das bedeutet: Wir haben es nicht mit einem neuen Aufschreibesystem zu tun, sondern mit dem Ende der Aufschreibesysteme. Es heißt nicht, dass die Aufschreibesysteme weg sind oder nichts mehr aufgeschrieben wird. Im Gegenteil. Alles wird aufgeschrieben. Aber das bestimmende Moment der Informationsstrukturierung findet nicht mehr beim Aufschreiben statt, sondern bei der Abfrage.

Diese Umkehrung entwertet Vorkehrungen, Institutionen, Strukturen, Kanäle und Taxonomien der Aufschreibesysteme. Der Redakteur, die Bibliothekarin, die Wissensordnung nach Kategorien, die Chronologie der Geschichte, die alphabetische Sortierung, das Album, der Katalog, das Werk: Sie alle werden durch die Query umgangen, überformt oder obsolet gemacht. Der Kontrollverlust ist der Kontrollverlust des Senders und hat seine Ursache in der Emanzipation der Query. Die Query, die algorithmisch verknüpfende und ordnende Abfrage an ein mehr oder weniger strukturiertes Set an Daten, ist Ausdruck eines Paradigmenwechsels der Ordnung: erstens von einem festgefügten, allgemeinen Schema hin zu einer agilen und situativen Momentaufnahme sowie zweitens von einem Privileg des Senders hin zu der Gestaltungsfreiheit der Empfängerin.

In Borges’ Geschichte „Die Bibliothek von Babel“ beginnen einige Menschen in ihrer Verzweiflung das zu tun, was Empfänger auf die eine oder andere Weise immer schon tun müssen: Sie scheiden Signal von Rauschen. Sie beginnen damit, alle Bücher zu vernichten, die keinen Sinn ergeben. Das brauchen wir nicht zu tun. Eine Query, wenn sie nur mächtig genug wäre, könnte selbst die Bibliothek von Babel in Echtzeit ordnen.

Queryology

In der Erzählung „Der Zeitscanner – Das arbiträre Bewusstsein“29 von 1997 entwickelt Jostein Gaarder ausgehend von der tatsächlichen Entwicklung der Medientechnologien eine Zukunftsvision. Darin sind Bilder, Texte und Informationen jederzeit verfügbar, seit 2030 kann jeder Mensch auf sämtliche Informationen zugreifen. Die Menschen beginnen nun nach und nach, alle Plätze mit Videokameras zu bestücken, auf die alle Zugriff haben. Die Leute beobachten über ihre Bildschirme die ganze Welt von zu Hause aus. Niemand geht mehr aus dem Haus, aus Angst, etwas zu verpassen. Die Verdatung der Welt schreitet voran, doch dann ereignet sich eine noch viel radikalere Medienrevolution. Mithilfe bahnbrechender Erkenntnisse aus der Physik gelingt es den Menschen, den Traum vom Laplace’schen Dämon Realität werden zu lassen. Im 18. Jahrhundert hatte sich der französische Mathematiker Simon-Pierre Laplace in einem Gedankenexperiment ein Wesen vorgestellt, das über alle Informationen im Universum verfügt. Das Wissen um den genauen Ort, den Vektor und die Geschwindigkeit eines jeden Teilchens im Universum würde diesen Dämon in die Lage versetzen, jeden zukünftigen und jeden vergangen Zustand des Universums zu rekonstruieren.

Die Vision von Laplace markiert gewissermaßen den Endpunkt aller Weltverdatung. Das Universum selbst wird zur Datenbank. In Gaarders Erzählung ist der „Zeitscanner“ das Interface, das die Menschen bauen, um diese Datenbank zu befragen. Alle Ereignisse und Informationen seit dem Urknall stehen über den Zeitscanner zur Verfügung und können auf einem Bildschirm angesehen werden. Um das Jahr 2150 herum werden schließlich auch alle Haushalte an den Zeitscanner angeschlossen. Doch das Zurechtfinden in einer solchen Datenmasse stellt die Menschen vor neue Herausforderungen. Die beiden Regler „Zeitsucher“ und „Raumsucher“ sind für die zu durchsuchenden Datenmassen nur begrenzt hilfreich. Es werden also nach und nach sogenannte „Suchschlüssel“ entwickelt und verbreitet, mithilfe derer man einen bestimmten Ort anpeilen kann und in „Zeit und Raum genau das einstellen, was man erleben möchte“. Neben pädagogischen Schlüsseln wie „Große Maler und ihre Meisterwerke“, „Die Pyramiden“ und „Entwicklung der Nuklearwaffen“ gibt es auch „Das Sexualleben berühmter Männer“, „Frauen im Bade“ und „Lasterhafte Mönche“. Der Zeitscanner bedeutet das endgültige Ende der Privatsphäre, doch die ist angesichts der umfassenden Überwachung nicht mehr der Rede wert.

In dem Jahr, in dem Jostein Gaarder seine Geschichte schrieb, benannten Larry Page und Sergey Brin ihre experimentelle Suchmaschine „BackRup“ um in „Google“. Google war angelehnt an Googol, die Bezeichnung für 10100, also eine Zahl mit 100 Nullen. „Big Data“ war noch vor der Erfindung des Begriffs das erklärte Ziel der beiden Google-Gründer.

Bevor Suchmaschinen die zentrale Rolle übernahmen, die sie heute haben, war Yahoo das populärste Portal. Yahoo verzichtete lange Zeit auf eine eigene Suchfunktion und bot stattdessen einen hierarchischen Index an. Wie in den frühen, vorrelationalen Datenbanken konnte man sich auf Yahoo durch Kategorien und Unterkategorien klicken, um dort auf Linksuche zu gehen. Yahoos Index, auch „Ontologie“ genannt, war durchaus erstaunlich reichhaltig, besonders angesichts der Tatsache, dass er bis 2002 redaktionell gepflegt und erweitert wurde. Doch gegen das Wachstum des Webs war Yahoos Konzept chancenlos. Anfang des Jahrtausends machte sich Google daran, alle anderen Suchkonzepte machtvoll zu verdrängen.

Die zentrale Rolle dabei spielte der PageRank-Algorithmus. Im Grunde überträgt er die Idee der wissenschaftlichen Reputation auf Websites. Wird ein Wissenschaftler häufig zitiert, genießt er in seiner Disziplin eine gewisse Reputation. Nach diesem Prinzip funktioniert auch Google: Wird eine Website oft verlinkt, bedeutet das, dass die Seite wichtig ist. Zusätzlich wird berücksichtigt, ob die Websites, die die Links gesetzt haben, als relevant gelten. Links von wenig verlinkten Websites zählen weniger als welche von viel verlinkten. So ergibt sich ein komplexes Netz an Relevanzen und hebt, zumindest in der Theorie, die besten Suchergebnisse für die Nutzerinnen hervor.

Querys durchwalten unseren Alltag, nicht nur wenn wir googeln. Bei Twitter oder Facebook ordnen sie unseren Blick auf die Welt. Die Nachrichten jedes Freundes und jedes Menschen, dem wir auf Twitter folgen, werden in einer kumulierenden Query abgefragt und in unseren Nachrichtenstrom verwandelt. Wenn wir bei Amazon einkaufen, empfiehlt die Query uns Produkte, indem sie Ähnlichkeiten zwischen einzelnen Produkten errechnet. Die Query entscheidet, welche Werbung uns angezeigt wird, wenn wir eine Website aufrufen. Die Query bringt uns von A nach B, wenn wir das Navigationsgerät – oder heute vermehrt die App – aktivieren und unseren Standort sowie unser Ziel angeben. Wir müssen die jeweilige Anfrage nicht aktiv stellen. Ohne unser Zutun werden all unsere Einstellungen auf allen Services, die wir nutzen, von einer Query geladen und verwandeln die Dienste im Sinne unserer Präferenzen. Wir selbst – unsere Vorlieben, Interessen und biometrischen und sozialen Eigenschaften – werden zu einer Query, unter der sich die Welt unseren Bedürfnissen gemäß zeigt.

Die Query erschafft eine neuartige Struktur von Öffentlichkeit. Es ist nicht die Öffentlichkeit des Marktplatzes, und ebensowenig ist es die Öffentlichkeit der BILD-Schlagzeile oder der Tagesschau. Die Öffentlichkeit der Query funktioniert andersherum. Wenn jemand etwas über mich im Internet schreibt, dann findet das vielleicht ein Publikum; vielleicht die zwanzig Leserinnen eines Blogs. In der Logik der alten Medien wäre eben das schon die Öffentlichkeit dieser Information gewesen. Aber heute wird dieses Posting jeder finden, der bei Google nach meinem Namen sucht, also ein spezielles Interesse an meiner Person hat – ein Interesse, das sich in der Eingabe meines Namens in dem Suchfeld von Google ausdrückt und somit Öffentlichkeit jenseits eines klassischen Begriffs von Reichweite herstellt. Den Eintrag sehen also möglicherweise nicht viele, aber diejenigen, die ein spezifisches Interesse daran haben.

Die Ordnung der Query ist vielgestaltig. In seinem Buch „Das Ende der Schublade“ unterscheidet der Medienphilosoph David Weinberger drei verschiedene Ordnungstypen: Die erste Ordnung der Ordnung ist die Ordnung der Reihenfolge und des Ortes von Dingen, etwa wie ich mein Bücherregal sortiert habe. Autorinnen, deren Name mit A anfängt, stehen vor denen, die mit B anfangen, die vor denen mit C stehen, etc. Die zweite Ordnung der Ordnung entsteht, wenn wir statt den Dingen selbst ihre Metadaten sortieren. Wenn wir zu jedem Buch eine Karteikarte mit Autorennamen, Titel, Kurzbeschreibung und Standort in der Bibliothek anlegen, können wir diese Metadaten in Karteikästen oder Katalogen nach einem völlig anderen Prinzip sortieren als die Bücher. Man gewinnt die Möglichkeit einer zweiten Ordnungsebene. Die Bücher lassen sich in der ersten Ordnung der Ordnung etwa nach der thematischen Zuordnung oder der Ausleihhäufigkeit sortieren, während in der zweiten Ordnung der Ordnung die Karteikarten zum Beispiel zusätzlich nach Autorinnennamen sortiert werden.30

In beiden Ordnungen hat alles einen festen Platz. Es gibt Hierarchien, Nachbarschaften und Metakonzepte, die sich verzweigen und wieder verzweigen und an denen die Informationen wie Blätter an Ästen eines Baumes hängen, so Weinberger. In der dritten Ordnung der Ordnung gibt es keine feste Ordnung mehr. Ein Blatt kann an vielen Ästen hängen, und es kann für jeden Betrachter an einem anderen Ast hängen. Es kann den Ast wechseln, und es ist auch möglich, dass viele Äste an einem Blatt hängen. In der dritten Ordnung der Ordnung sind die Beziehungen unter den Dingen frei, denn alle können selbst bestimmen, wie sie die Welt sehen wollen. Zumindest in der Theorie.

In der physischen Welt können Dinge nur eine einzige Ordnung haben, da sie sich nur an jeweils einem Ort befinden können. Das führt dazu, dass ein Ordnungsvorschlag zu allen anderen in Rivalität steht. Im Gegensatz dazu wird in der dritten Ordnung der Ordnung meine Query und ihre spezifische Ordnung niemanden davon abhalten, eine ganz andere Ordnung geltend zu machen. Die Ordnung der Query ist nicht rivalisierend. Die Möglichkeiten an Ordnungen können nur noch künstlich limitiert werden. Jede Ordnung gilt in Jetztzeit, temporär und individuell, ohne Auswirkungen auf die Ordnung des anderen. Die Query-Ordnung selber rivalisiert aber durchaus mit festen Ordnungsparadigmen, also der ersten und zweiten Ordnung der Ordnung. In der relationalen Datenbank werden strukturierte Daten abgelegt. Das heißt, dass vorher festgelegte Felder für Name, Adresse, Familienstand etc. definiert sind, um sie hinterher gezielter abfragen zu können.

Das ist nichts generell Neues: Schon immer war jede Speicherung auf den Moment ihrer Abfrage hin ausgerichtet. Wenn ich ein Messer in die Besteckschublade lege, dann tue ich das in der Antizipation der Query: Messer = Besteck => suche es in der Besteckschublade. Doch je besser mein Gedächtnis ist, je mehr Verknüpfungen ich mir merken kann, desto freier kann ich das Messer positionieren. Mit zunehmender Mächtigkeit – durch verbesserte Algorithmen und größere Kapazitäten entsprechend Moore’s Law – braucht die Query immer weniger Struktur. Das führt zu einem Widerspruch: Einerseits ist die Query auf strukturierte Daten angewiesen. Und andererseits schränkt jede vorgegebene Struktur sie in ihren Möglichkeiten ein. Einerseits hat es die Query leichter, je „normalisierter“, d.h. je homogener die Daten strukturiert sind (je klarer die Schubladen sind). Andererseits steht jede vorgegebene Struktur ihren Möglichkeiten im Weg; denn je weniger Struktur vorgegeben ist, desto freier kann eine Query walten – desto mächtiger muss sie aber auch sein. Eine hinreichend mächtige Query braucht nicht erzählt zu bekommen, dass ein Name ein Name ist, sondern erkennt ihn von alleine als solchen.

Big-Data-Datenbanktechnologien haben sich weiter in Richtung Entformalisierung und Entstrukturierung ihres inneren Aufbaus bewegt. Immer mehr Ordnungslogik wurde aus den Daten in die Query transferiert. Gespeichert werden nicht mehr Tabellen, sondern Dokumente mit nunmehr frei definierbaren Key-Value-Paaren. Im bisherigen Datenbankdesign mussten die zu speichernden Arten von Werten bei der Erstellung der Datenbank bereits feststehen, bei neueren Designs können im laufenden Betrieb neue Datenarten hinzukommen. Wenn ich in meiner Besteckschublade ein Fach für Messer, Gabeln und Löffel habe, musste ich früher einen neuen Besteckkasten kaufen, um eine neue Art Besteck (zum Beispiel die Fischgabel) zu integrieren. Beim neuen Design kann ich einfach den Besteckkasten um den Key „Fischgabel“ erweitern. Das erlaubt eine enorme Flexibilität der Struktur, weil man sich noch weniger auf ein Datenmodell festlegen muss. Beim von Google entwickelten MapReduce-Algorithmus wird die Query zu einem mehrstufigen Prozess. In der Map-Phase werden die Daten miteinander je nach Abfrage zu neuen Key-Value-Paaren verknüpft, in der Reduce-Phase werden diese Zwischenergebnisse sortiert und reduziert. Das erlaubt es, hochkomplexe, heterogene und vor allem große Datenmassen zu befragen. Es ist die technische Grundlage von Big Data.

Heute muss niemand mehr E-Mails löschen. Die Durchsuchbarkeit hat dazu geführt, dass ein Mailarchiv immer weiter anwachsen kann, ohne dass wir dadurch die Übersicht verlieren. Es findet eine andauernde Emanzipation der Query statt, die tendenziell alle vorhandenen Ordnungen infrage stellt. Mit zunehmender Rechenpower wird sie sich jede Ordnung einverleiben, denn durch ihre Flexibilität, Vielgestaltigkeit und Nicht-Rivalität hat sie unschlagbare Vorteile gegenüber allen bekannten Ordnungssystemen.

Die Query ermittelt schon jetzt unsere Kreditwürdigkeit und unser Krebsrisiko; sie bestimmt, welche Medikamente wir im Krankenhaus bekommen und ob wir einen Telefontarif erhalten. Sie überwacht Kreditkartenzahlungen weltweit und sucht darin nach Mustern für Betrugsfälle. Die Query ist es, die aus medizinischen Daten und sequenzierten Gendaten die Kriterien für neue Medikamente berechnet. Sie macht den Verkehr effizienter, Transport billiger, und sie optimiert Energiedistribution in die Haushalte.

Big Data bedeutet einen Paradigmenwechsel bei der statistischen Arbeit mit Daten. Früher war dabei das erste Hindernis, an Daten zu kommen. Die mussten erst aufwendig erstellt werden, mit Testreihen oder Befragungen. Und schon dabei kann viel schief laufen; allein eine repräsentative Stichprobe von 1.000 Befragten anzufertigen, erfordert viel wissenschaftliches Know-how. Heute kann oft einfach so auf große, bereits vorhandene Datenmengen zugegriffen werden. Statt über eine Stichprobe von 1.000 Datensätzen verfügt man auf einmal über eine Grundgesamtheit von vielen Millionen Datensätzen oder sogar noch viel mehr. Dadurch verändert sich das Vorgehen bei der Datenauswertung. Wenn in 1.000 Datensätzen eine Messungenauigkeit enthalten ist, kann das die Ergebnisse bereits massiv verfälschen. Bei vielen Millionen Datensätzen spielen ein paar Ungenauigkeiten keine so große Rolle. Die Fehlertoleranz ist höher, die Daten sind oft „unsauberer“.

Das wirkt sich auf das Erkenntnisinteresse aus. Während die klassische Wissenschaft eine Hypothese formulierte und diese durch Ursache-Wirkung-Verhältnisse nachzuweisen suchte, kommt bei Big Data die Query häufig vor der Hypothese. Warum nicht einfach mal ein paar Datensätze korrelieren und schauen, ob sich dabei etwas Interessantes findet? Bei Big Data geht es immer weniger um Kausalität, sondern um Korrelation. Findet sich ein signifikanter Zusammenhang, kann diesem nachgespürt und nach einer Erklärung gesucht werden. Die Query ist nicht einfach nur ein Algorithmus. Um eine Korrelation zu finden, müssen Daten mit Daten befragt werden. Die Query nimmt also Datenpunkte oder ganze Datensätze in sich auf, um damit andere Datensätze zu verknüpfen. Je mehr Daten sie zur Befragung nutzt, desto spezifischer und komplexer kann die Fragestellung geraten.

David Weinberger wurde einmal gefragt, was wir brauchen, um mit den Datenfluten umzugehen. Seine Antwort war: „Mehr Daten.“ Je besser Daten mit anderen Daten verknüpft werden, desto mehr Aussagen lassen sich ihnen entlocken; desto mehr Signal findet die Query im Rauschen. Rauschen wiederum ist alles, was die Query noch nicht erfassen kann. Während es lange Zeit darum ging, den Signal-Rausch-Abstand in den Medien zu vergrößern – wie schaffen wir es, verstanden zu werden? Wie können wir Daten senden, speichern und übertragen, sodass ein Empfänger mit der Nachricht etwas anfangen kann? –, dreht die Query die Fragestellung um: Was Signal und was Rauschen ist, entscheidet sich durch die Ausrichtung und Mächtigkeit der Query. Und nicht zuletzt entscheidet es sich dadurch, wer Zugriff auf die Daten hat.

Wenn wir bisher von der wunderbaren Emanzipation durch die Query sprachen, müssen wir das jetzt zu einem Großteil wieder relativieren. Denn die Query-Technologie fällt nicht vom Himmel. Sie wird bereitgestellt. Obwohl es einen Großteil der Query-Technogie als Open-Source-Software für jeden frei installierbar gibt, ist auch die Query bislang ein Machtinstrument der Wenigen. Natürlich können wir alle die Google-Suchfunktion nutzen und könnten uns sogar selber Query-Technologien bauen. Doch wir wissen weder, welche Einschränkungen und eingebauten Interpretationstendenzen in den externen Querys stecken, noch können wir diese einfach nachbilden. Für Letzteres fehlen uns neben dem Know-how in erster Linie die Daten. Das hebt die neue Ermächtigung des Einzelnen nicht auf. Die Dampflokomotive erhöhte die Mobilität der Menschen, obwohl sie nicht über den Fahrplan mitbestimmen durften.

Genauso vergrößert die Query-Technologie die Macht des Einzelnen, während sie gleichzeitig erneut Macht konzentriert; diesem Thema widmet sich das Kapitel „Aufstieg der Plattformen“. Durch die Query können wir heute mehr wissen, zielgerichteter suchen, uns besser informieren und auch besser vernetzen. Doch wir sind größtenteils darauf angewiesen, dass diejenigen, die die Daten und die Datencenter besitzen, uns nichts vormachen.

Im Aufschreibesystem 1900 ging es darum, dass durch die Einführung neuer Medien die Literaturwissenschaft ihre Deutungshoheit über die Vorgänge gesellschaftlicher Sinnproduktion verlor. Die Medienwissenschaft hatte die umfassendere Analyse und den weiteren Blick anzubieten. Doch auch die Medienwissenschaften sind zu ihrem Ende gekommen. Medien sind allgegenwärtig und verdaten die Welt durch das Aufschreibesystem U. Die Frage nach der gesellschaftlichen Sinnproduktion muss heute anders gestellt werden. Sie ist die Frage nach der Frage, die alles infrage stellt. Zum Beispiel: Wenn heute alle ihre eigene Ordnung haben können, wozu brauchen wir dann noch eine allgemeine Ordnung?

Es geht uns wie den hyperintelligenten, pandimensionalen Wesen in Douglas Adams’ Roman „Per Anhalter durch die Galaxis“. Nachdem ihr Supercomputer Deep Thought nach siebeneinhalb Millionen Jahren Berechnung auf die „ultimative Frage“ die Antwort „42“ ausgibt, kann niemand etwas damit anfangen. Der Grund ist einfach: Niemand weiß, was die ultimative Frage ist. Das ist unsere Situation. Die Antworten auf viele der Fragen haben wir vielleicht längst. Das Aufschreibesystem U muss sie sicher hier irgendwo hingeschrieben haben, auf eine dieser zig Milliarden Festplatten. Und wenn nicht, wird es sie morgen aufschreiben. Was wir nun brauchen, ist eine Wissenschaft der Frage. Eine Queryology.

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>