Informationstheorie enthüllt die Größe des Kommunikationsrepertoires von Walen und Delfinen

Einer der großen unbesungenen Helden der Physik des 20. Jahrhunderts ist Claude Shannon, der in den 1940er Jahren mehr oder weniger im Alleingang die Informationstheorie erfand. Shannon nutzte seine Theorie, um die grundlegenden Grenzen der Komprimierbarkeit von Daten sowie der Zuverlässigkeit der Speicherung und des Versands auszuloten.





Shannon begann sofort, seine Theorie anzuwenden, um den Informationsgehalt der englischen Sprache zu studieren. Ein Ansatz bestand darin, Freiwillige zu verwenden, um die fehlenden Buchstaben in Wörtern zu erraten, um ihren Informationsgehalt zu ermitteln. Aus diesem Studium der Größe und Anzahl häufig verwendeter Wörter konnte Shannon die Komplexität der menschlichen Sprache abschätzen.

Heute schlägt Reginald Smith, ein unabhängiger Forscher der Citizen Scientists League in Rochester, New York, einen interessanten neuen Weg zur Analyse der Tierkommunikation vor. Sein Ansatz besteht darin, den Ansatz von Shannon umgekehrt zu verfolgen – mit einem Maß für die Komplexität der Sprache zu beginnen und daraus die Größe und Anzahl der verschiedenen Wörter zu berechnen, die sie enthält. Das Ergebnis ist eine interessante Schätzung der Repertoires, die verschiedene Tiere zur Kommunikation verwenden.

In den 1940er Jahren revolutionierte Shannon das Studium von Informationen. Insbesondere untersuchte er die bedingte Entropie, die Informationsmenge, die ein einzelner Buchstabe vermittelt, wenn er auf einen anderen Buchstaben oder eine Folge von Buchstaben folgt.



Für das englische Alphabet mit 26 Buchstaben plus Leerzeichen berechnete Shannon, dass ein einzelner Buchstabe etwas mehr als vier Informationsbits enthält, wenn er auf einen anderen einzelnen Buchstaben folgt. Für einen Buchstaben nach einer Zwei-Buchstaben-Folge beträgt die Entropie 3,56 Bit und für einen Brief nach einer 3-Buchstaben-Folge 3,3 Bit. Diese Werte werden als Entropien erster, zweiter und dritter Ordnung bezeichnet.

Diese Entdeckung hatte eine tiefgreifende Wirkung auf Biologen, die sehr neugierig auf den Informationsgehalt der Tierkommunikation waren. Seitdem haben viele Gruppen verschiedene Arten der Tierkommunikation erfasst und deren Informationsgehalt berechnet.

Die Ergebnisse zeigen deutlich, dass Tierkommunikation erhebliche Informationsmengen beinhaltet. Zum Beispiel beträgt die Informationsentropie von Bienentänzen 2,54 Bit.



Die Komplexität der Tierkommunikation ist jedoch nicht so klar. Im Allgemeinen hängt die Komplexität von der Reihenfolge der Abhängigkeiten ab. Viele Vogelrufsequenzen weisen beispielsweise einen hohen Informationsgehalt für die Abhängigkeit erster Ordnung auf, während der Informationsgehalt für die Abhängigkeiten zweiter und dritter Ordnung deutlich abfällt.

Das scheint darauf hinzudeuten, dass die Komplexität der Vogelrufkommunikation relativ gering ist. Smith weist jedoch darauf hin, dass die Ergebnisse stark von der Größe des Vogelrepertoires abhängen. Dies ist eindeutig ein Problem, wenn nur eine kleine Menge an experimentellen Daten vorhanden ist, mit denen gearbeitet werden kann.

Wenn Vögel beispielsweise ein großes Repertoire an verschiedenen Wörtern mit 2 und 3 Buchstaben haben, erfordert eine ordnungsgemäße Analyse eine wesentlich größere Stichprobe von Vogelrufen, als wenn ihr Repertoire klein ist.



Eine wichtige Frage ist also, wie groß diese Tierrepertoires sind.

Smiths neue Erkenntnis ist, dass es noch eine andere Möglichkeit gibt, die Größe des Repertoires verschiedener Wortlängen zu bestimmen. Er weist darauf hin, dass die Entropie erster Ordnung einer Sprache eng mit der genauen Anzahl möglicher Wortlängenkombinationen verknüpft ist.

Wenn man also ein Maß für die Entropie erster Ordnung einer Sprache gibt, ist es möglich, dieses kombinatorische Verfahren zu verwenden, um das wahrscheinliche Repertoire unterschiedlicher Wortlängen zu berechnen.



Smith nutzt diese Erkenntnisse, um die gesammelten Daten für verschiedene Tierarten wie Große Tümmler, Buckelwale und verschiedene Arten von Staren, Drosseln und Feldlerchen erneut zu untersuchen. Für jede Art berechnet er das maximale und minimale Repertoire an 1-Buchstaben-, 2-Buchstaben- und 3-Buchstaben-Silben, die in den Daten vorkommen.

Die Ergebnisse sorgen für eine interessante Lektüre. Smith berechnet, dass Große Tümmler ein Repertoire von 27 Einzelbuchstabensilben, fünf 2-Buchstabensilben und vier oder fünf 3-Buchstabensilben haben. Im Gegensatz dazu haben Buckelwale ein Repertoire von nur sechs Einzelbuchstaben-Silben, verwenden aber siebzehn oder achtzehn 2-Buchstaben-Silben (die Daten sind nicht umfangreich genug, um das Repertoire von 3-Buchstaben-Silben aufzudecken).

Die Vögel scheinen einen viel größeren Wortschatz zu haben. Europäische Stare zum Beispiel verwenden über 100 Einzelbuchstabensilben, können aber bis zu 78 3-Buchstabensilben oder nur 6 verwenden.

Die vielleicht wichtigste Erkenntnis von Smith ist, dass die Menge an Informationen, die er über die Repertoires extrahieren kann, durch die Größe der Datensätze stark eingeschränkt wird und dass mehr Arbeit erforderlich ist, um sie zu erweitern. Letztendlich ist der beste Weg, um die Repertoire-Größen, insbesondere für Delfine und Buckelwale, genau zu messen, eine viel größere Messung von Sequenzen durchzuführen, schlussfolgert er.

Das ist eine interessante Arbeit. Es kann zwar nicht die Absicht oder mögliche Bedeutung dieser Tierkommunikation enthüllen, aber es enthüllt sicherlich einen Teil seiner Komplexität.

Und Smith hat hohe Erwartungen an die Zukunft, wenn mehr Daten gesammelt werden können. Der Autor hofft, dass informationstheoretische Analysen dazu beitragen können, die Komplexitätsschichten abzulösen, um zu zeigen, wie sehr eine solche Tierkommunikation mit der menschlichen Sprache übereinstimmt oder sich von ihr unterscheidet, sagt er.

Ref: arxiv.org/abs/1308.3616 : Komplexität in der Tierkommunikation: Abschätzen der Größe von N-Gramm-Strukturen

verbergen