Montag, 23. November 2009

Claude Shannon/Warren Weaver (Marco)

Die mathematische Theorie der Kommunikation (1949)

Warren Weavers Vorwort zum Text von Claude E. Shannon


Einleitung

Claude Elwood Shannons "mathematische Theorie der Kommunikation", auch kurz als Informationstheorie bezeichnet, ist sehr abstrakt und äußerst komplex. Deshalb kann ich hier nur einen oberflächlichen Einblick in seinen Denkansatz geben und ich werde, wie Warren Weaver auch, nur auf eine seiner Gleichungen eingegehen, nämlich die zur Berechnung der Entropie. Zum tiefergehenden Einstieg in die Informationstheorie ist ein umfassendes mathematisches Rüstzeug vonnöten. Ich hoffe aber, Shannons medienwissenschaftliche Relevanz deutlich machen zu können.

1. Das Kommunikationssystem

Man kann beim Vorgang der Kommunikation drei Problemebenen unterscheiden: Ebene A: Das "technische Problem" betrifft allein den Vorgang der Informationsübertragung. Ebene B: Des "semantische Problem" behandelt, inwiefern der Empfänger einer Nachricht diese auch in der vom Sender beabsichtigten Bedeutung interpretiert. Ebene C: Das "Effektivitätsproblem" bezieht sich darauf, ob eine Nachricht beim Empfänger ein vom Sender beabsichtigtes Verhalten bewirkt. Man liest bisweilen auch von Synthax (A), Semantik (B) und Pragmatik (C) der Kommunikation. Die Ebenen B und C sind dabei nicht klar voneinander zu trennen und sind zudem abhängig vom Gelingen der Kommunikation auf Ebene A. Shannon befasst sich in seiner Theorie ausschließlich mit der technischen Ebene, also allein mit dem Vorgang der Übermittlung, was ihm vor allem seitens der Semiotiker Kritik eingebracht hat. Diese Kritik ist meiner Meinung nach unberechtigt, da Shannons Zielsetzung auf der Optimierung des Kanals bzw. der Übertragung im Kanal beruhte, unabhängig von deren Inhalt. Aufgrund dieser Vorgaben musste die Semantik gezwungenermaßen außen vor gelassen werden.

Der schematische Aufbau eines Kommunikationssystems stellt sich dabei wie folgt dar, als Beispiel sei hier das Sprechen gewählt: Die Nachrichtenquelle (das Gehirn) schickt die Nachricht an den Sender (die Stimmbänder). Dieser übersetzt die Nachricht in ein Signal (Schallwellen), das über den Kanal (Luft) zum Empfänger (dem Trommelfell meines Gesprächspartners) gelangt, wieder in die Nachricht umgewandelt wird und in das Nachrichtenziel (Gehirn des Gesprächspartners) erreicht. Alles, was dabei auf das im Kanal befindliche Signal einwirkt, z.B. Fremdgeräusche, bezeichnet man als Störquelle oder Rauschen.
Wie schon erwähnt, ist das Gesagte hier nicht von Belang. Wichtig ist, dass der Empfänger das Signal wieder in
die eigentliche Nachricht zurückwandeln kann, also dass die Systeme von Sender und Empfänger übereinstimmen.


2. Information


Da nur Ebene A behandelt wird, darf man bei Shannons Theorie Information nicht in Verbindung mit Bedeutung (also der semantischen Ebene) bringen. Information ist ein Maß für die Freiheit der Wahl von einer Nachricht aus einer endlichen Menge anderer Nachrichten. Der Inhalt der Nachrichten ist bedeutungslos. Ob ich also ein Rilke-Gedicht oder völliges Kauderwelsch übermittle, ist von diesem Standpunkt aus egal. Der Begriffs des Informationsgehalts kann am Beispiel des Münzwurfs sehr gut veranschaulicht werden. Das Ergebnis eines Wurfs soll jeweils übermittelt werden: Kopf wäre Nachricht A und Zahl Nachricht B.
Zur Übermittlung der Nachricht denkt man sich ein Relais mit zwei möglichen Zuständen 1 und 0. So wäre Nachricht A Zustand 1 und Nachricht B Zustand 0.
Wirft man zwei Münzen gleichzeitig, ergeben sich vier mögliche Nachrichten (Kopf/Kopf, Kopf/Zahl, usw.). Man bräuchte jetzt zwei solcher Relais, um jeder Nachricht einen Zustand (11,00,10 oder 01) zuzuordnen. Bei drei Münzen gäbe es acht Nachrichten und man bräuchte drei Relais, usw. Der Zusammenhang, der sich zwischen der Anzahl der Nachrichten und der Anzahl der Relais ergibt, ist logarithmisch zur Basis 2, da die Anzahl der übermittelbaren Nachrichten sich mit jedem weiteren Relais verdoppelt. Dieses "gedachte Relais" heißt "bit" (abgeleitet von "binary digit") und ist als Maßeinheit für den Informationsgehalt einer Situation definiert.
Kleiner Einschub: Der Logarithmus einer Zahl y zur Basis x ist die Zahl mit der man x potenzieren muss, um y zu erhalten. Also z.B. log3 9 = 2 , da 3² = 9.


Gibt es z.B. 16 Wahlmöglichkeiten, so rechnet man log2 16 = 4bit. Diese Situation hat also einen Informationsgehalt von 4bit. Bei 26 Wahlmöglichkeiten bzw. Zeichen: log2 26 =(rund) 4,7bit. Nicht-ganzzahlige Bits sind zwar im Hinblick auf den Relaisgedanken absurd, aber bei abstrakten Rechenoperationen vonnöten. Diese Situation entspricht zwar der Übermittlung eines der 26 Zeichen unseres Alphabets, allerdings tritt hier das Problem der unterschiedlichen Wahrscheinlichkeiten der einzelnen Wahlmöglichkeiten auf. Shannon führt hier den Begriff der Entropie in die Informationstheorie ein.


3. Die Entropie

Bisher wurde wir mit dem Münzwurf nur der seltene Fall betrachtet, dass alle Nachrichten gleich wahrscheinlich sind. Am Beispiel eines Skatblattes soll nun der weitaus häufigere Fall einer Ungleichverteilung der Wahrscheinlichkeiten beschrieben werden. Man stelle sich eine Farbe (z.B.Pik) vor. Es gibt vier Zahlenkarten, zwei männliche Karten (Bube, König), eine Dame und ein Ass. Die Übermittlung beinhaltet je nach gezogener Karte folgende Nachricht: (Z)ahl, (M)ann, (D)ame oder (A)ss. Diese treten mit folgenden Wahrscheinlichkeiten p = Anzahl der jew. Kartenart / Gesamtzahl der Karten auf.

p(Z)=0,5 p(M)=0,25 p(D)=0,125 p(A)=0,125

Die von Shannon entwickelte Gleichung zur Berechnung das Informationsgehalts dieses Ereignisses (H) sieht nun folgendermaßen aus:

H = -( p(Z)*log2 p(Z) + p(M)*log2 p(M) + p(D)*log2 p(D) + p(A)*log2 p(A) )

Die einzelnen Glieder dieser Summe repräsentieren den Informationsgehalt der einzelnen Nachrichten, aber ins Verhältnis der Wahrscheinlichkeit ihres Auftretens gesetzt. Zur näheren Erklärung sehen wir uns den Summanden mit der Dame an. Ihre Auftrittswahrscheinlichkeit ist p = 1/8 , d.h. in einem von acht Fällen wird sie, statistisch gesehen, gezogen. Oder anders gesagt, sie wäre (ideell) eine von acht gleichwahrscheinlichen Nachrichten. Somit beträgt ihr Informationsgehalt

log2 8 = 3bit . Oder auf p bezogen (Das Reziproken der Wahrscheinlichkeit entspricht der Anzahl der Karten, die man stat. ziehen muss, um eine Dame zu erhalten): log2 1/p Mit Hilfe der Logarithmusgesetze umgeformt: -log2 p also: -log2 1/8 = 3bit Durch diese Umformung erklärt sich auch das Minus vor der Klammer. Dieser Informationsgehalt der Dame von 3bit wird durch Multiplikation mit ihrer Auftrittswahrscheinlichkeit ins Verhältnis zu den Informationsgehalten der weiteren möglichen Nachrichten gesetzt: 1/8*3bit = 0,375bit
Nach Berechnung aller Summanden der oben beschriebenen Situation ergibt sich: H = 1,75bit
Die Größe H bezeichnet Shannon als die Entropie. Er entlehnt diesen Begriff aus der Thermodynamik. Dort ist er, stark vereinfacht gesagt, ein Mass für die Unordung, also die Vermischung eines Systems. Gibt es verschiedene Temperaturpotentiale, ist die Entropie niedriger als nach deren Ausgleich. In der Informationstechnik kann man die Entropie als den durchschnittlichen Informationsgehalt einer Nachricht deuten. In diesem Fall also 1,75bit.

4. Die Redundanz



Als Analogie zur Thermodynamik ist bei einer Gleichverteilung der Wahrscheinlichkeiten die Entropie am Höchsten. Man spricht auch von der
maximalen Entropie Hmax. Beim obigen Beispiel hätte dann jede Karte eine Wahrscheinlichkeit von 1/4, das ergibt:
Hmax= log2 4 = 2bit Diese Gleichung lässt sich relativ einfach aus allgemeinen Gleichung für H herleiten, indem man für alle Glieder dieselbe Wahrscheinlichkeit einsetzt. Die Differenz zwischen der tatsächlichen und der maximalen Entropie nennt man Redundanz. In unserem Fall beträgt sie 0,25bit oder in Prozent ausgedrückt 12,5. Die Übermittlung der Kartenziehungen wäre also zu 12,5% redundant, was erstmal sehr abstrakt ist, aber deutlicher wird, wenn man z.B. Text übermitteln will.

Beim Text kommen noch weitere wichtige Phänomene hinzu. Zum einen treten die Buchstaben des Alphabets mit verschiedener Wahrscheinlichkeit auf. Das wurde bereits geklärt. Aber noch dazu stehen die einzelnen Zeichen untereinander Wechselseitig in Wahrscheinlichkeitsabhängigkeiten. So ist es im Deutschen sehr gewiss, dass nach einem "q" ein "u" folgt oder nach einem "c" ein "h" bzw. "k". Man bezeichnet diese Abhängigkeiten allgemein als "Markoff-Prozesse" und deren Spezialfall als "ergodische Prozesse". Letztere repräsentieren bei einer genügend großen Probe immer die Eigenschaften des Ganzen. So kann ein kleiner Teil der zu übermittelnden Daten Aufschluß über die nachrichtentechnischen Spezifika der gesamten Datenmenge geben.

Diese beschriebenen Eigenschaften von z.B. Text bringen natürlich noch mehr "Ordnung (thermodynamisch gesprochen) in den Prozess der Nachrichten- bzw. Zeichenübermittlung und verringern somit die Entropie, was eine Erhöhung der Redundanz zur Folge hat. Nochmal: Information ist ein Maß für die Freiheit der Wahl. Shannon schätzt z.B. die Redundanz der englischen Sprache auf ca. 50%. Das heißt, die Hälfte der Zeichen ist nicht frei gewählt sondern steht in Abhängigkeiten und könnte somit weggelassen und wieder rekonstruiert werden. Die Redundanz hat somit Bedeutung für die Übermittlung in gestörten Kanälen (und kein Kanal ist ideal störungsfrei). Wäre unsere Sprache z.B. zu 0% redundant würde jede kleine akustische Störung ein Gespräch unmöglich machen, da wir unseren Gesprächspartner nicht mehr verstünden. Stattdessen können wir aber auch durch eine verrauschte Leitung bis zu einem gewissen Grad noch relativ gut telefonieren, da wir das nicht Verstandene anhand der Redundanz rekonstruieren. Die Redundanz ist also wichtig zur Optimierung des Kanals sowie für die Datenkompression.


Fazit



Das hier Dargestellte kann nur einen sehr vereinfachten Einblick in Shannons "Mathematische Theorie der Kommunikation" bieten, aber ich hoffe, dass zumindest ein guter Einstieg geboten wird.
Die Relevanz dieser Theorie ist, obwohl sie bereits in den 40er Jahren entstand, immer noch enorm, da sie das Fundament für die elektronische Datenverarbeitung gelegt hat. Datenübermittlung, Signalkodierung und -kompression beruhen zu einem guten Teil auf Shannons Gleichungen. Zudem wird die Informationstheorie auch in anderen Wissenschaftsgebieten angewandt, z.B. der Kybernetik, der Psychologie oder in der Systemtheorie, was ihre Universalität und ihren hohen Grad an Abstraktion zeitigt.

Keine Kommentare:

Kommentar veröffentlichen