Redundanz

Ein weiteres wichtiges Mass in der Informationstheorie ist der Anteil einer Nachricht der keine Information erhält, die Redundanz R (Überfluss). Diese erhält man, indem man die relative Entropie von 1 abzieht. Sie gibt den Teil des Aufbaus der Nachricht an der nicht durch die Wahlfreiheit der Quelle, sondern eher von angenommenen statistischen Regeln bestimmt wird. Diesen Teil der Nachricht könnte man weglassen und die Nachricht wäre im wesentlichen immer noch vollständig oder könnte vervollständigt werden. Die Redundanz ist somit die Grundlage für die Datenkompression
In einem Binärcode gibt die Redundanz direkt an, um wieviele bit die verschlüsselte Nachricht die minimale Anzahl benötigter Zeichen überschreitet.

 

Beispiel: Entropie der deutschen Sprache

Der mittlere Informationsgehalt der Summe aller Buchstaben inkl. Zwischenraum der deutschen Sprache ist 4,9bit, wenn die Buchstaben und der Zwischenraum gleichverteilt sind. Berücksichtigt man jedoch die Wahrscheinlichkeitsverteilung der Buchstabenfolgen in Tabelle 1 und die Häufigkeiten der Di- und Trigramme in Tabelle 2 und 3 (Tabellen aus [3]. Literatur ), so erhält man H von nur 1,6bit. Die Redundanz der deutschen Schriftsprache ist somit 4,9bit - 1,6bit = 3,3bit. Dies bedeutet, dass ein Text auch dann noch lesbar wäre wenn jedes zweite Zeichen fehlen würde.

 

Die Redundanz an einem deutschen Text soll in folgenden Schaubild verdeutlicht werden, durch schrittweise Reduzierung der Redundanz bleibt der Text immer noch lesbar:

er 409 ge 147
en 400 es 140
ch 242 ne 122
de 227 un 119
ei 193 st 116
nd 187 re 112
te 185 he 102
in 168 an 102
ie 163 be 101

Tabelle 2: Die häufigsten Digramme der deutschen Sprache (Häufigkeiten in %%)

 

ein 122 sch 66 ind 46 sse 39 nic 31
ich 111 cht 61 enw 45 aus 36 sen 31
nde 89 den 57 ens 44 ers 36 ene 30
die 87 ine 53 ies 44 ebe 35 nda 30
und 87 nge 52 ste 44 erd 33 ter 30
der 86 nun 48 ten 44 enu 33 ass 29
che 75 ung 48 ere 43 nen 32 ena 29
end 75 das 47 lic 42 rau 32 ver 29
gen 71 hen 47 ach 41 ist 31 wir 29

Tabelle 3: Die häufigsten Trigramme der deutschen Sprache (Häufigkeiten in %%)

 

Die Redundanz an einem deutschen Text soll in folgenden Schaubild verdeutlicht werden, durch schrittweise Reduzierung der Redundanz bleibt der Text immer noch lesbar:

Wird die Redundanz reduziert ist das Lesen viel mühsamer
WIRD DIE REDUNDANZ REDUZIERT IST DAS LESEN VIEL MÜHSAMER
WIRDDIEREDUNDANZREDUZIERTISTDASLESENVIELMÜHSAMER
WI DD ER DU DA ZR DU IE TI TD SL SE VI LM HS ME