Ein weiteres wichtiges Mass in der Informationstheorie ist der Anteil einer Nachricht der keine Information erhält, die Redundanz R (Überfluss). Diese erhält man, indem man die relative Entropie von 1 abzieht. Sie gibt den Teil des Aufbaus der Nachricht an der nicht durch die Wahlfreiheit der Quelle, sondern eher von angenommenen statistischen Regeln bestimmt wird. Diesen Teil der Nachricht könnte man weglassen und die Nachricht wäre im wesentlichen immer noch vollständig oder könnte vervollständigt werden. Die Redundanz ist somit die Grundlage für die Datenkompression
In einem Binärcode gibt die Redundanz direkt an, um wieviele bit die verschlüsselte Nachricht die minimale Anzahl benötigter Zeichen überschreitet.
Der mittlere Informationsgehalt der Summe aller Buchstaben inkl. Zwischenraum der deutschen Sprache ist 4,9bit, wenn die Buchstaben und der Zwischenraum gleichverteilt sind. Berücksichtigt man jedoch die Wahrscheinlichkeitsverteilung der Buchstabenfolgen in Tabelle 1 und die Häufigkeiten der Di- und Trigramme in Tabelle 2 und 3 (Tabellen aus [3]. Literatur ), so erhält man H von nur 1,6bit. Die Redundanz der deutschen Schriftsprache ist somit 4,9bit - 1,6bit = 3,3bit. Dies bedeutet, dass ein Text auch dann noch lesbar wäre wenn jedes zweite Zeichen fehlen würde.
Die Redundanz an einem deutschen Text soll in folgenden Schaubild verdeutlicht werden, durch schrittweise Reduzierung der Redundanz bleibt der Text immer noch lesbar:
er 409 | ge 147 |
en 400 | es 140 |
ch 242 | ne 122 |
de 227 | un 119 |
ei 193 | st 116 |
nd 187 | re 112 |
te 185 | he 102 |
in 168 | an 102 |
ie 163 | be 101 |
Tabelle 2: Die häufigsten Digramme der deutschen Sprache (Häufigkeiten in %%)
ein 122 | sch 66 | ind 46 | sse 39 | nic 31 |
ich 111 | cht 61 | enw 45 | aus 36 | sen 31 |
nde 89 | den 57 | ens 44 | ers 36 | ene 30 |
die 87 | ine 53 | ies 44 | ebe 35 | nda 30 |
und 87 | nge 52 | ste 44 | erd 33 | ter 30 |
der 86 | nun 48 | ten 44 | enu 33 | ass 29 |
che 75 | ung 48 | ere 43 | nen 32 | ena 29 |
end 75 | das 47 | lic 42 | rau 32 | ver 29 |
gen 71 | hen 47 | ach 41 | ist 31 | wir 29 |
Tabelle 3: Die häufigsten Trigramme der deutschen Sprache (Häufigkeiten in %%)
Die Redundanz an einem deutschen Text soll in folgenden Schaubild verdeutlicht werden, durch schrittweise Reduzierung der Redundanz bleibt der Text immer noch lesbar:
Wird die Redundanz reduziert ist das Lesen viel mühsamer |
WIRD DIE REDUNDANZ REDUZIERT IST DAS LESEN VIEL MÜHSAMER |
WIRDDIEREDUNDANZREDUZIERTISTDASLESENVIELMÜHSAMER |
WI DD ER DU DA ZR DU IE TI TD SL SE VI LM HS ME |