Deep-Learning-Maschine schlägt Menschen im IQ-Test

Vor etwas mehr als 100 Jahren führte der deutsche Psychologe William Stern den Intelligenzquotiententest als Methode zur Bewertung der menschlichen Intelligenz ein. Seitdem sind IQ-Tests zum Standard des modernen Lebens geworden und werden verwendet, um die Schultauglichkeit von Kindern und die Berufsfähigkeit von Erwachsenen festzustellen.





Diese Tests beinhalten in der Regel drei Kategorien von Fragen: logische Fragen wie Muster in Bildfolgen, mathematische Fragen wie das Finden von Mustern in Zahlenfolgen und verbale Argumentationsfragen, die auf Analogien, Klassifikationen sowie Synonymen und Antonyme basieren.

Es ist diese letzte Kategorie, die Huazheng Wang und seine Freunde von der University of Science and Technology of China und Bin Gao und seine Freunde von Microsoft Research in Peking interessiert hat. Darin waren Computer noch nie gut. Stellen Sie einer Verarbeitungsmaschine für natürliche Sprache eine Frage zum verbalen Denken, und ihre Leistung wird schlecht sein, viel schlechter als die durchschnittliche menschliche Fähigkeit.

Heute ändert sich das dank Huazheng und seinen Freunden, die zum ersten Mal eine Deep-Learning-Maschine gebaut haben, die die durchschnittliche menschliche Fähigkeit übertrifft, Fragen zum verbalen Denken zu beantworten.



In den letzten Jahren haben Informatiker Data-Mining-Techniken verwendet, um riesige Textkorpusse zu analysieren, um die Verbindungen zwischen den darin enthaltenen Wörtern zu finden. Dies gibt ihnen insbesondere einen Überblick über die Statistik von Wortmustern, z. B. wie oft ein bestimmtes Wort neben anderen Wörtern vorkommt. Daraus lässt sich, wenn auch in einem riesigen Parameterraum, ableiten, wie sich Wörter zueinander verhalten.

Das Endergebnis ist, dass Wörter in diesem hochdimensionalen Parameterraum als Vektoren betrachtet werden können. der Vorteil ist, dass sie dann mathematisch behandelt werden können: verglichen, addiert, subtrahiert wie andere Vektoren. Das führt zu Vektorbeziehungen wie dieser: König – Mann + Frau = Königin.

Dieser Ansatz war sehr erfolgreich. Google verwendet es für die automatische Sprachübersetzung, indem es davon ausgeht, dass Wortfolgen in verschiedenen Sprachen, die durch ähnliche Vektoren dargestellt werden, in ihrer Bedeutung gleichwertig sind. Sie sind also Übersetzungen voneinander.



Aber dieser Ansatz hat einen bekannten Mangel: Er geht davon aus, dass jedes Wort eine einzige Bedeutung hat, die durch einen einzigen Vektor dargestellt wird. Das ist nicht nur oft nicht der Fall, verbale Tests neigen dazu, sich auf Wörter mit mehr als einer Bedeutung zu konzentrieren, um die Fragen schwieriger zu machen.

Huazheng und seine Freunde gehen dies an, indem sie jedes Wort nehmen und nach anderen Wörtern suchen, die oft in einem großen Textkorpus in der Nähe auftauchen. Sie verwenden dann einen Algorithmus, um zu sehen, wie diese Wörter geclustert werden. Der letzte Schritt besteht darin, die verschiedenen Bedeutungen eines Wortes in einem Wörterbuch nachzuschlagen und dann die Cluster jeder Bedeutung zuzuordnen.

Dies kann automatisch erfolgen, da die Wörterbuchdefinition Beispielsätze enthält, in denen das Wort auf unterschiedliche Weise verwendet wird. Indem man also die Vektordarstellung dieser Sätze berechnet und sie mit der Vektordarstellung in jedem Cluster vergleicht, ist es möglich, sie abzugleichen.



Das Gesamtergebnis ist eine Möglichkeit, die vielen verschiedenen Bedeutungen zu erkennen, die einige Wörter haben können.

Huazheng und seine Freunde haben einen weiteren Trick im Ärmel, um es einem Computer einfacher zu machen, Fragen zum verbalen Denken zu beantworten. Dies liegt daran, dass diese Fragen in mehrere Kategorien fallen, die leicht unterschiedliche Lösungsansätze erfordern.

Ihre Idee ist es also, zunächst die Kategorie jeder Frage zu identifizieren, damit der Computer dann weiß, welche Antwortstrategie er anwenden soll. Dies ist einfach, da die Fragen in jeder Kategorie ähnliche Strukturen haben.



Fragen, die Analogien beinhalten, lauten also wie folgt:

Ist die Isotherme zur Temperatur wie die Isobare? (i) Atmosphäre, (ii) Wind, (iii) Druck, (iv) Breitengrad, (v) Strömung.

und

Identifizieren Sie zwei Wörter (eines aus jeder Reihe von Klammern), die eine Verbindung (Analogie) bilden, wenn sie mit den Wörtern in Großbuchstaben gepaart werden: KAPITEL (Buch, Vers, Lesen), ACT (Bühne, Publikum, Theaterstück).

Fragen zur Wortklassifikation lauten wie folgt:

Welches ist das Ungerade? (i) ruhig, (ii) ruhig, (iii) entspannt, (iv) gelassen, (v) ungerührt.

Und Fragen, die nach Synonymen und Antonyme suchen, lauten wie folgt:

Welches Wort kommt IRRATIONAL am nächsten? (i) unnachgiebig, (ii) uneinlösbar, (iii) unsicher, (iv) verloren, (v) unsinnig.

Und

Welches Wort ist das Gegenteil von MUSICAL? (i) disharmonisch, (ii) laut, (iii) lyrisch, (iv) verbal, (v) wohlklingend.

Das Erkennen jeder Art von Frage ist für einen maschinellen Lernalgorithmus relativ einfach, da genügend Beispiele vorhanden sind, aus denen man lernen kann. Und genau so machen es Huazheng und Co.

Nachdem Huazheng und seine Freunde die Art der Frage identifiziert haben, entwickeln sie einen Algorithmus zur Lösung jeder Frage mit den Standard-Vektormethoden, aber auch mit dem von ihnen entwickelten Multi-Sense-Upgrade.

Sie vergleichen diese Deep-Learning-Technik mit anderen algorithmischen Ansätzen für verbale Argumentationstests und auch mit der Fähigkeit des Menschen, dies durchzuführen. Dazu stellten sie die Fragen 200 Menschen, die über die Crowdsourcing-Einrichtung Mechanical Turk von Amazon gesammelt wurden, zusammen mit grundlegenden Informationen über ihr Alter und ihren Bildungshintergrund.

Und die Ergebnisse sind beeindruckend. Zu unserer Überraschung ist die durchschnittliche Leistung der Menschen etwas niedriger als die unserer vorgeschlagenen Methode, sagen sie.

Die menschliche Leistung bei diesen Tests korreliert tendenziell mit dem Bildungshintergrund. So schneiden Personen mit einer höheren Schulbildung tendenziell am schlechtesten ab, während diejenigen mit einem Bachelor-Abschluss besser und diejenigen mit einer Promotion am besten abschneiden. Unser Modell kann das Intelligenzniveau zwischen den Leuten mit dem Bachelor-Abschluss und denen mit dem Master-Abschluss erreichen, sagen Huazheng und Co.

Das ist eine faszinierende Arbeit, die das Potenzial von Deep-Learning-Techniken offenbart. Huazheng und Co. sind hinsichtlich der zukünftigen Entwicklung eindeutig optimistisch. Durch den angemessenen Einsatz der Deep-Learning-Technologien könnten wir der wahren menschlichen Intelligenz einen weiteren Schritt näher kommen.

Deep-Learning-Techniken fegen derzeit wie ein Lauffeuer durch die Informatik, und die Revolution, die sie schaffen, steckt noch in den Kinderschuhen. Es ist nicht abzusehen, wohin uns diese Revolution führen wird, aber eines ist sicher: William Stern würde staunen.

Ref: arxiv.org/abs/1505.07909 : Lösen von verbalen Verständnisfragen im IQ-Test durch wissensbasierte Worteinbettung

verbergen