211service.com
Kurzweil antwortet: Unterschätzen Sie die Singularität nicht
Obwohl Paul Allen mein Buch von 2005 umschreibt, Die Singularität ist nahe , im Titel seines Essays (zusammen mit seinem Kollegen Mark Greaves geschrieben), scheint es, dass er das Buch nicht wirklich gelesen hat. Sein einziges Zitat ist ein Aufsatz, den ich 2001 geschrieben habe (The Law of Accelerating Returns), und sein Artikel erkennt meine Argumente, die ich tatsächlich in dem Buch vorstelle, nicht an und antwortet auch nicht darauf.

Kredit: Technologieüberprüfung
Als mein Buch von 1999 Das Zeitalter der spirituellen Maschinen, veröffentlicht und ein paar Jahre später durch den Aufsatz von 2001 ergänzt, führte zu mehreren Kritikpunkten, wie z Das Mooresche Gesetz wird enden, die Hardware-Fähigkeit kann exponentiell wachsen, aber die Software steckt im Schlamm fest, das Gehirn ist zu kompliziert, es gibt Fähigkeiten im Gehirn, die von Natur aus nicht in Software repliziert werden können, und einige andere. Ich habe speziell geschrieben Die Singularität ist nahe um auf diese Kritik zu antworten.
Ich kann nicht sagen, dass Allen unbedingt von den Argumenten überzeugt wäre, die ich in dem Buch vortrage, aber zumindest hätte er auf das antworten können, was ich tatsächlich geschrieben habe. Stattdessen bietet er wieder Argumente, als ob nie etwas geschrieben worden wäre, um auf diese Fragen zu antworten. Allens Beschreibungen meiner eigenen Positionen scheinen aus meinem zehn Jahre alten Aufsatz zu stammen. Während ich weiterhin zu diesem Aufsatz stehe, fasst Allen meine Positionen selbst in diesem Aufsatz nicht richtig zusammen.
Allen schreibt, dass das Gesetz der Beschleunigung der Rendite (LOAR) … kein physikalisches Gesetz ist. Ich möchte darauf hinweisen, dass die meisten wissenschaftlichen Gesetze keine physikalischen Gesetze sind, sondern sich aus den emergenten Eigenschaften einer großen Anzahl von Ereignissen auf einer feineren Ebene ergeben. Ein klassisches Beispiel sind die Gesetze der Thermodynamik (LOT). Wenn Sie sich die dem LOT zugrunde liegende Mathematik ansehen, modellieren sie jedes Partikel als einem Random Walk folgend. Per Definition können wir also nicht vorhersagen, wo sich ein bestimmtes Teilchen zu einem zukünftigen Zeitpunkt befindet. Die Gesamteigenschaften des Gases sind jedoch gemäß den Rechtsvorschriften der Thermodynamik. So ist es mit dem Gesetz der beschleunigten Renditen. Jedes Technologieprojekt und jeder Mitwirkende ist unvorhersehbar, aber der Gesamtverlauf, quantifiziert durch grundlegende Preis-Leistungs- und Kapazitätskennzahlen, folgt dennoch bemerkenswert vorhersehbaren Pfaden.
Wenn Computertechnologie nur von einer Handvoll Forschern betrieben würde, wäre sie tatsächlich unvorhersehbar. Aber es wird von einem ausreichend dynamischen System wettbewerbsorientierter Projekte verfolgt, dass ein grundlegendes Maß wie Anweisungen pro Sekunde pro konstantem Dollar einem sehr glatten exponentiellen Weg folgt, der bis zur amerikanischen Volkszählung von 1890 zurückreicht. Ich diskutiere die theoretischen Grundlagen des LOAR ausführlich in meinem Buch, aber die stärksten Argumente sind die umfangreichen empirischen Beweise, die ich und andere vorlegen.
Allen schreibt, dass diese „Gesetze“ funktionieren, bis sie es nicht mehr tun. Hier verwechselt Allen Paradigmen mit der fortlaufenden Entwicklung eines grundlegenden Bereichs der Informationstechnologie. Wenn wir den Trend zur Entwicklung immer kleinerer Vakuumröhren untersuchten, das Paradigma für die Verbesserung der Berechnung in den 1950er Jahren, dann ist es wahr, dass dieser spezielle Trend so lange anhielt, bis er es nicht mehr tat. Aber als das Ende dieses speziellen Paradigmas klar wurde, wuchs der Forschungsdruck für das nächste Paradigma. Die Transistortechnologie hielt den zugrunde liegenden Trend des exponentiellen Wachstums des Preis-Leistungs-Verhältnisses aufrecht und führte zum fünften Paradigma (Mooresches Gesetz) und zur kontinuierlichen Komprimierung von Funktionen auf integrierten Schaltkreisen. Es gab regelmäßig Vorhersagen, dass das Mooresche Gesetz ein Ende nehmen wird. Der Roadmap der Halbleiterindustrie mit dem Titel Projekte im Sieben-Nanometer-Bereich bis Anfang der 2020er Jahre. Zu diesem Zeitpunkt werden die wichtigsten Merkmale die Breite von 35 Kohlenstoffatomen sein, und es wird schwierig sein, sie weiter zu verkleinern. Intel und andere Chiphersteller unternehmen jedoch bereits die ersten Schritte in Richtung des sechsten Paradigmas, der Berechnung in drei Dimensionen, um die exponentielle Verbesserung der Preisleistung fortzusetzen. Intel prognostiziert, dass dreidimensionale Chips in den Teenagerjahren Mainstream sein werden. Es wurden bereits dreidimensionale Transistoren und dreidimensionale Speicherchips eingeführt.
Dieses sechste Paradigma wird den LOAR in Bezug auf die Preisleistung von Computern bis zu einem Punkt am Laufen halten, an dem später in diesem Jahrhundert tausend Dollar an Rechenleistung Billionen Mal stärker sein werden als das menschliche Gehirn. [eins] Und es scheint, dass Allen und ich uns zumindest darin einig sind, welche Rechenleistung erforderlich ist, um das menschliche Gehirn funktionell zu simulieren. [zwei]
Allen fährt dann mit dem Standardargument fort, dass Software nicht in der gleichen exponentiellen Weise wie Hardware voranschreitet. In Die Singularität ist nahe , gehe ich ausführlich auf dieses Thema ein und nenne verschiedene Methoden zur Messung von Komplexität und Leistungsfähigkeit von Software, die ein ähnliches exponentielles Wachstum zeigen. In einer aktuellen Studie (Report to the President and Congress, Designing a Digital Future: Federally Funded Research and Development in Networking and Information Technology by the President’s Council of Science and Technology) heißt es:
Noch bemerkenswerter – und noch weniger verstanden – ist, dass in vielen Bereichen Leistungsgewinne aufgrund von Verbesserungen der Algorithmen haben selbst die dramatischen Leistungsgewinne aufgrund der erhöhten Prozessorgeschwindigkeit bei weitem übertroffen . Die Algorithmen, die wir heute für die Spracherkennung, für die Übersetzung in natürliche Sprache, für das Schachspiel, für die Logistikplanung verwenden, haben sich in den letzten zehn Jahren bemerkenswert weiterentwickelt … Hier nur ein Beispiel von Professor Martin Grötschel vom Konrad-Zuse-Zentrum für Informationstechnik Berlin. Grötschel, Experte für Optimierung, stellt fest, dass ein mit linearer Programmierung gelöstes Benchmark-Produktionsplanungsmodell 1988 mit den Computern und den Algorithmen der linearen Programmierung 82 Jahre gedauert hätte, um es zu lösen. Fünfzehn Jahre später – im Jahr 2003 – konnte das gleiche Modell in etwa einer Minute gelöst werden, eine Verbesserung um den Faktor 43 Millionen. Davon entfiel ein Faktor von etwa 1.000 auf die höhere Prozessorgeschwindigkeit, während ein Faktor von etwa 43.000 auf Verbesserungen der Algorithmen zurückzuführen war! Grötschel nennt auch eine algorithmische Verbesserung von etwa 30.000 für die Mixed-Integer-Programmierung zwischen 1991 und 2008. Der Entwurf und die Analyse von Algorithmen sowie die Untersuchung der inhärenten rechnerischen Komplexität von Problemen sind grundlegende Teilgebiete der Informatik.
Ich zitiere viele andere Beispiele wie dieses in dem Buch. [3]
Was KI angeht, tut Allen Watson von IBM schnell als schmal, starr und spröde ab. Ich habe das Gefühl, dass Allen jede Demonstration ohne gültiges Bestehen des Turing-Tests ablehnen würde. Ich möchte darauf hinweisen, dass Watson nicht so eng ist. Es behandelt ein breites Spektrum menschlichen Wissens und ist in der Lage, mit subtilen Formen der Sprache umzugehen, einschließlich Wortspielen, Gleichnissen und Metaphern. Es ist nicht perfekt, aber Menschen auch nicht, und es war gut genug, um eine höhere Punktzahl zu erreichen als die beiden besten Menschen Gefahr! Spieler zusammen.
Allen schreibt, dass Watson von den Wissenschaftlern selbst zusammengestellt wurde und jede Verbindung von engem Wissen in bestimmten Bereichen aufbaute. Obwohl einige Bereiche von Watsons Wissen direkt programmiert wurden, hat sich Watson laut IBM den größten Teil seines Wissens durch das Lesen natürlichsprachlicher Dokumente wie Enzyklopädien selbst angeeignet. Das ist seine entscheidende Stärke. Es versteht nicht nur die verschlungene Sprache in Gefahr! Abfragen (Antworten auf der Suche nach einer Frage), aber es erwarb sein Wissen durch das Lesen großer Mengen natürlichsprachlicher Dokumente. IBM arbeitet jetzt mit Nuance (einer Firma, die ich ursprünglich als Kurzweil Computer Products gegründet habe) zusammen, um Watson Zehntausende von medizinischen Artikeln lesen zu lassen, um einen medizinischen Diagnostiker zu schaffen.
Ein Wort zur Natur von Watsons Verständnis ist hier angebracht. Es wurde viel darüber geschrieben, dass Watson mit statistischem Wissen arbeitet und nicht mit wahrem Verständnis. Viele Leser interpretieren dies so, dass Watson lediglich Statistiken über Wortfolgen sammelt. Der Begriff statistische Information bezieht sich im Fall von Watson auf verteilte Koeffizienten in selbstorganisierenden Verfahren wie den Markov-Modellen. Genauso gut könnte man auf die verteilten Neurotransmitterkonzentrationen im menschlichen Kortex als statistische Information zurückgreifen. Tatsächlich lösen wir Mehrdeutigkeiten auf ähnliche Weise wie Watson, indem wir die Wahrscheinlichkeit unterschiedlicher Interpretationen eines Satzes berücksichtigen.
Allen schreibt: Jede Struktur [im Gehirn] wurde durch Millionen von Jahren der Evolution präzise geformt, um eine bestimmte Sache zu tun, was auch immer es sein mag. Es ist nicht wie ein Computer mit Milliarden identischer Transistoren in regulären Speicherarrays, die von einer CPU mit wenigen verschiedenen Elementen gesteuert werden. Im Gehirn wurde jede einzelne Struktur und jeder neuronale Schaltkreis individuell durch Evolution und Umweltfaktoren verfeinert.
Allens Aussage, dass jede Struktur und jeder neuronale Schaltkreis einzigartig ist, ist einfach unmöglich. Das würde bedeuten, dass das Design des Gehirns Hunderte von Billionen Bytes an Informationen erfordern würde. Doch das Design des Gehirns (wie der Rest des Körpers) ist im Genom enthalten. Und obwohl die Übersetzung des Genoms in ein Gehirn nicht einfach ist, kann das Gehirn nicht mehr Designinformationen haben als das Genom. Beachten Sie, dass epigenetische Informationen (wie die Peptide, die die Genexpression steuern) die Informationsmenge im Genom nicht nennenswert erhöhen. Erfahrung und Lernen tragen erheblich zur Informationsmenge bei, aber dasselbe gilt für KI-Systeme. ich zeige in Die Singularität ist nahe dass nach verlustfreier Komprimierung (aufgrund massiver Redundanz im Genom) die Menge an Designinformationen im Genom etwa 50 Millionen Byte beträgt, von denen etwa die Hälfte auf das Gehirn entfällt. [4] Das ist nicht einfach, aber es ist ein Komplexitätsgrad, mit dem wir umgehen können und der weniger Komplexität darstellt als viele Softwaresysteme in der modernen Welt.
Wie kommen wir aus nur zig Millionen Byte Designinformationen in die Größenordnung von 100 Billionen Verbindungen im Gehirn? Offensichtlich ist die Antwort durch Redundanz. Es gibt in der Größenordnung von einer Milliarde Mustererkennungsmechanismen im Kortex. Sie sind auf komplizierte Weise miteinander verbunden, aber selbst bei den Verbindungen gibt es eine massive Redundanz. Das Kleinhirn hat auch Milliarden von sich wiederholenden Mustern von Neuronen. Zwar lernen die sich massiv wiederholenden Strukturen im Gehirn im Laufe des Lernens und der Erfahrung unterschiedliche Informationen, aber das gleiche gilt für künstlich-intelligente Systeme wie Watson.
Dharmendra S. Modha, Manager Cognitive Computing bei IBM Research, schreibt : …Neuroanatomen haben kein hoffnungslos verworrenes, willkürlich verbundenes Netzwerk gefunden, das dem Gehirn jedes Einzelnen völlig eigen ist, sondern viel sich wiederholende Struktur innerhalb eines einzelnen Gehirns und viel Homologie zwischen Spezies … Die erstaunliche natürliche Rekonfigurierbarkeit gibt Hoffnung dass die Kernalgorithmen der Neurocomputation unabhängig von den spezifischen sensorischen oder motorischen Modalitäten sind und dass ein Großteil der beobachteten Variation der kortikalen Struktur über die Bereiche hinweg eine Verfeinerung eines kanonischen Schaltkreises darstellt; es ist in der Tat diese kanonische Schaltung, die wir zurückentwickeln möchten.
Allen artikuliert, was ich in meinem Buch als den Pessimismus des Wissenschaftlers beschreibe. Wissenschaftler, die an der nächsten Generation arbeiten, kämpfen unweigerlich mit diesen nächsten Herausforderungen. Wenn also jemand beschreibt, wie die Technologie in 10 Generationen aussehen wird, werden seine Augen glasig. Einer der Pioniere integrierter Schaltkreise beschrieb mir kürzlich die Bemühungen, vor über 30 Jahren von Strukturgrößen von 10 Mikron (10.000 Nanometer) auf 5 Mikrometer (5.000 Nanometer) zu kommen. Sie waren von diesem Ziel vorsichtig überzeugt, aber als die Leute vorhersagten, dass wir eines Tages tatsächlich Schaltungen mit Strukturgrößen unter einem Mikrometer (1.000 Nanometer) haben würden, hielten die meisten Wissenschaftler, die sich abmühen, auf fünf Mikrometer zu kommen, das zu wild, um darüber nachzudenken. Es wurden Einwände gegen die Zerbrechlichkeit von Schaltkreisen auf diesem Präzisionsniveau, thermische Effekte usw. erhoben. Nun, heute beginnt Intel, Chips mit 22-Nanometer-Gate-Längen zu verwenden.
Den gleichen Pessimismus sahen wir beim Genomprojekt. Nach der Hälfte des 15-jährigen Projekts war nur 1 Prozent des Genoms gesammelt worden, und Kritiker schlugen grundlegende Grenzen dafür vor, wie schnell das Genom sequenziert werden könnte, ohne die empfindlichen genetischen Strukturen zu zerstören. Aber das exponentielle Wachstum sowohl bei der Kapazität als auch bei der Preisleistung hielt an (beide ungefähr verdoppelt sich jedes Jahr), und das Projekt wurde sieben Jahre später abgeschlossen. Das Projekt zum Reverse-Engineering des menschlichen Gehirns macht ähnliche Fortschritte. Erst kürzlich haben wir beispielsweise mit nicht-invasiven Scantechniken eine Schwelle erreicht, bei der wir in Echtzeit sehen können, wie sich einzelne intereuronale Verbindungen bilden und feuern.
Allens Komplexitätsbremse verwechselt den Wald mit den Bäumen. Wenn Sie eine Bauchspeicheldrüse verstehen, modellieren, simulieren und neu erstellen möchten, müssen Sie nicht jede Organelle in jeder Inselzelle der Bauchspeicheldrüse neu erstellen oder simulieren. Stattdessen möchten Sie eine Inselzelle vollständig verstehen, dann ihre grundlegende Funktionalität abstrahieren und diese dann auf eine große Gruppe solcher Zellen erweitern. Dieser Algorithmus ist in Bezug auf Inselzellen gut bekannt. Inzwischen werden künstliche Bauchspeicheldrüsen, die dieses Funktionsmodell nutzen, getestet. Obwohl es im Gehirn sicherlich viel mehr Komplexität und Variation gibt als in den massiv wiederholten Inselzellen der Bauchspeicheldrüse, gibt es dennoch eine massive Wiederholung von Funktionen.
Allen beschreibt meinen Vorschlag falsch, etwas über das Gehirn zu lernen, indem man das Gehirn scannt, um seine Feinstruktur zu verstehen. Es ist nicht mein Vorschlag, ein ganzes Gehirn von unten nach oben zu simulieren, ohne die Funktionen der Informationsverarbeitung zu verstehen. Wir müssen die Funktionsweise einzelner Neuronentypen im Detail verstehen und dann Informationen darüber sammeln, wie funktionale Module verbunden sind. Die daraus abgeleiteten funktionalen Methoden können dann die Entwicklung intelligenter Systeme leiten. Grundsätzlich suchen wir nach biologisch inspirierten Methoden, die die Arbeit in der KI beschleunigen können, von denen viele ohne nennenswerte Erkenntnisse darüber, wie das Gehirn ähnliche Funktionen ausführt, vorangekommen sind. Aus meiner eigenen Arbeit in der Spracherkennung weiß ich, dass unsere Arbeit stark beschleunigt wurde, als wir Erkenntnisse darüber gewannen, wie das Gehirn auditive Informationen aufbereitet und umwandelt.
Diese massiv redundanten Strukturen im Gehirn unterscheiden sich durch Lernen und Erfahrung. Der aktuelle Stand der KI ermöglicht es Systemen jedoch auch, aus eigenen Erfahrungen zu lernen. Die selbstfahrenden Google-Autos (die über 140.000 Meilen durch kalifornische Städte und Gemeinden gefahren sind) lernen aus ihrer eigenen Fahrerfahrung sowie von Google-Autos, die von menschlichen Fahrern gefahren werden. Wie ich bereits erwähnt habe, hat Watson das meiste seines Wissens durch eigenständiges Lesen gelernt.
Es ist wahr, dass Watson in seiner Fähigkeit, menschliche Sprache zu verstehen, nicht ganz auf menschlichem Niveau ist (wenn es so wäre, wären wir jetzt auf dem Turing-Testniveau), aber es war in der Lage, die besten Menschen zu besiegen. Dies liegt an der inhärenten Geschwindigkeit und Zuverlässigkeit des Arbeitsspeichers von Computern. Wenn ein Computer also menschliches Niveau erreicht, was meiner Meinung nach Ende der 2020er Jahre der Fall sein wird, wird er in der Lage sein, ins Web zu gehen und Milliarden von Seiten zu lesen sowie Erfahrungen in virtuellen Online-Welten zu sammeln. Die Kombination der Mustererkennung auf menschlicher Ebene mit der inhärenten Geschwindigkeit und Genauigkeit von Computern wird sehr mächtig sein. Aber dies ist keine außerirdische Invasion von Geheimdienstmaschinen – wir entwickeln diese Werkzeuge, um uns selbst schlauer zu machen. Ich denke, Allen wird mir zustimmen, dass dies das Einzigartige an der menschlichen Spezies ist: Wir bauen diese Werkzeuge, um unsere eigene Reichweite zu vergrößern.
Ray Kurzweil ist Erfinder und Autor. Sein letztes Stück für Technologieüberprüfung war über den Alterungsprozess bekämpfen .
[eins] Kapitel 2, Die Singularität ist nahe von Ray Kurzweil, Viking, 2005.
[zwei] Siehe Endnote 2 in The Singularity Is't Near von Paul G. Allen und Mark Greaves.
[3] Kapitel 9, Die Singularität ist nahe.
[4] Kapitel 4, Die Singularität ist nahe.