Dieser Algorithmus kann erkennen, welche Zahlenfolgen ein Mensch interessant finden wird

Eine der merkwürdigen Eigenschaften der Mathematik ist ihre Schönheit. Aber was Mathematiker mit Schönheit genau meinen, ist schwer zu erfassen.





Das vielleicht berühmteste Beispiel ist die Eulersche Beziehung, z ich π + 1 = 0, was eine tiefe Verbindung zwischen scheinbar nicht verwandten Bereichen der Mathematik offenbart. Beispiel: |_+_| Kommt aus der Geometrie, Und und ich stammen aus der Algebra und die Primitive 0 und 1 sowie die Operationen + und = aus der Zahlentheorie. Dass sie auf so einfache und unerwartete Weise zusammenhängen, ist eines der großen Wunder der mathematischen Welt.

Und das weist auf eine weitere Komponente mathematischer Schönheit hin: Mathematische Muster müssen auf irgendeine Weise interessant sein. Das Erkennen dieser interessanten Muster war schon immer eine einzigartige menschliche Fähigkeit.



Aber in den letzten Jahren haben sich Maschinen zu äußerst leistungsfähigen Werkzeugen zur Mustererkennung entwickelt. Tatsächlich haben sie begonnen, Menschen bei Gesichtserkennung, Objekterkennung und einer Vielzahl von Rollen beim Spielen zu übertreffen.

Und das wirft eine interessante Möglichkeit auf: Können maschinelle Lernalgorithmen interessante oder elegante Muster in der Mathematik erkennen? Könnten sie sogar Schiedsrichter von mathematischer Schönheit sein?

Heute erhalten wir dank der Arbeit von Chai Wah Wu vom TJ Watson Research Center von IBM im Bundesstaat New York eine Art Antwort. Wu hat einen Algorithmus für maschinelles Lernen entwickelt, der gelernt hat, bestimmte Arten von Eleganz in mathematischen Strukturen zu identifizieren, und ihn verwendet, um interessante Sequenzen aus völlig zufälligen herauszufiltern.



Die Technik verwendet eine ungewöhnliche Datenbank namens the Online-Enzyklopädie ganzzahliger Folgen , ursprünglich in den 1960er Jahren vom Mathematiker Neil Sloane entwickelt und 1996 ins Internet gestellt.

Eine Ganzzahlfolge ist eine Reihe von Zahlen, die nach einer Regel geordnet sind. Berühmte Beispiele sind die Primzahlen – Zahlen, die nur durch sich selbst und 1 ( A000040 ); die Fibonacci-Folge, in der jeder Term die Summe der beiden vorherigen Terme ist ( A000045 ); und sogar triviale Beispiele wie die Folge ungerader Zahlen oder die Primzahlen, die mit einer 7 beginnen.

Tatsächlich durchforsten die Mathematiker, die das OEIS betreiben, das Netz auf der Suche nach interessanten Sequenzen und haben so eine breite Palette von Beispielen mit rein kultureller Bedeutung aufgenommen. Dazu gehören Primzahlen, die die Folge 666 enthalten, die sogenannte Zahl des Tieres.



Die Datenbank enthält sogar die Folge von Primzahlen, die die Zahl 667 enthalten ( A138563 ). Diese Nummer wurde als bedeutend erachtet, da die Leute, als Faxgeräte üblich waren, oft eine Faxnummer hatten, die ihre Telefonnummer plus 1 war. Mit anderen Worten, wenn ihre Telefonnummer 123-4567 wäre, wäre ihre Faxnummer 123-4568. Nach dieser Denkweise ist 667 die Faxnummer des Tieres und damit von kultureller Bedeutung (die Redakteure sind schließlich Menschen).

Heute enthält die Integer Sequence-Datenbank etwa 300.000 Folgen, und jeden Tag werden neue von Amateuren und Fachleuten gleichermaßen eingereicht, von denen viele auf neue und interessante Probleme in der Mathematik hinweisen.

Die Aufgabe, die Wu übernahm, bestand darin, einen Weg zu finden, diese interessanten Sequenzen von zufällig generierten zu unterscheiden. Und seine Idee war es, empirische Gesetze zu finden, die als Maß für die Interessantheit dienen können, die sie von uninteressanten unterscheiden könnten.



Empirische Gesetze sind keine mathematischen Theoreme an sich sondern empirische Beobachtungen von Zusammenhängen, die für viele natürliche und vom Menschen geschaffene Datensätze zu gelten scheinen, sagt Wu. Beispiele sind das Mooresche Gesetz in der Elektrotechnik und das 80/20-Pareto-Prinzip in der Wirtschaftswissenschaft. Warum diese Gesetze gelten, ist nicht vollständig verstanden, aber sie gelten trotzdem.

Ein empirisches Prinzip, das für viele Datensätze gilt, ist das Benfordsche Gesetz. Dies wurde 1881 vom kanadischen Mathematiker und Astronomen Simon Newcomb entdeckt. Newcomb stellte fest, dass die früheren Seiten in Büchern mit Logarithmentabellen stärker mit den Fingern versehen waren als spätere Seiten, was darauf hindeutet, dass Logarithmen, die mit der Ziffer 1 beginnen, häufiger waren.

Dies veranlasste ihn, das Prinzip zu formulieren, dass in jedem Datensatz mehr Zahlen mit 1 beginnen würden als jede andere Zahl. Dieselbe Idee wurde in den 1930er Jahren von Frank Benford wiederentdeckt und populär gemacht.

Das Benfordsche Gesetz gilt für eine Vielzahl von Datensätzen wie Stromrechnungen, Straßenadressen, Aktienkurse usw. Es ist so vorhersehbar, dass es verwendet werden kann, um Betrug in Finanzkonten zu erkennen. Aber es gilt nicht für zufällige Sequenzen. Warum genau, ist nicht klar verstanden.

In der Tat ist es ein Rätsel, dass Mathematiker herausgefunden haben, dass das Benfordsche Gesetz auf einige ganzzahlige Folgen anwendbar ist. Aber wie weit ist es in diesen Sequenzen anwendbar?

Um dies herauszufinden, hat Wu gemessen, wie gut das Gesetz die Verteilung der ersten Ziffern in 40.000 zufällig aus der OEIS-Datenbank ausgewählten Sequenzen vorhersagt.

Es stellt sich heraus, dass Benfords Gesetz viel häufiger auftaucht als erwartet. Die Ergebnisse zeigen, dass viele, aber nicht alle Sequenzen bis zu einem gewissen Grad Benfords Gesetz erfüllen, sagt Wu, der herausfand, dass ein weiteres empirisches Prinzip namens Taylors Gesetz ebenfalls weit verbreitet war.

Die nächste Frage war einen einfachen Schritt weiter: Könnten Benfords Gesetz und Taylors Gesetz verwendet werden, um zufällige Sequenzen von denen im OEIS zu unterscheiden?

Um das herauszufinden, generierte Wu 40.000 Folgen von zufälligen ganzen Zahlen und fügte diese zu den 40.000 Folgen hinzu, die aus dem OEIS ausgewählt wurden. Anschließend trainierte er einen maschinellen Lernalgorithmus, um OEIS-Sequenzen mithilfe von Benfords Gesetz und Taylors Gesetz zu erkennen und sie von zufälligen Sequenzen zu unterscheiden.

Die Ergebnisse sind beeindruckend. Der Algorithmus arbeitete mit einer Genauigkeit von 0,999 und einer Präzision von 0,9984. Das ist wichtig, weil es die Möglichkeit eines automatisierten Prozesses zum Erkennen interessanter Sequenzen eröffnet.

Eine Anwendung fällt sofort ins Auge. Rund 10.000 Eingaben müssen die Mathematikerinnen und Mathematiker, die das OEIS betreiben, derzeit jährlich bearbeiten. Eine Möglichkeit, automatisch die interessantesten zu finden, könnte also nützlich sein.

Der Ansatz weist jedoch einige erhebliche Einschränkungen auf. Mathematiker haben viele interessante und wichtige Folgen definiert, die unendlich viele Terme haben, aber schwer zu berechnen sind. Folglich enthält die Datenbank nur eine Handvoll dieser Begriffe. Diese sind für diese Art der maschinellen Analyse offensichtlich nicht geeignet.

Die umfassendere Frage ist, ob dieser Ansatz Eleganz oder Schönheit in der Mathematik identifizieren kann. Wie Wu fragt: Kann maschinelles Lernen qualitative Attribute wissenschaftlichen Wissens identifizieren; D.h. können wir sagen, ob ein wissenschaftliches Ergebnis elegant, einfach oder interessant ist?

Dieses Ziel ist möglicherweise nicht ganz vergeblich. Wenn empirische Gesetze wie die von Benford und Taylor ein Indikator für Interessantheit sind, wie diese Arbeit nahelegt, dann kann dieser Algorithmus vielleicht zumindest auf einer gewissen Ebene als Schiedsrichter für Eleganz angesehen werden.

Euler, der gleichnamige Verwandte und einer der größten Mathematiker der Geschichte, wäre sicherlich fasziniert.

Ref: https://arxiv.org/abs/1805.07431 Kann maschinelles Lernen interessante Mathematik identifizieren? Eine Untersuchung mit empirisch beobachteten Gesetzmäßigkeiten

verbergen