211service.com
Kann man KI gerechter machen als einen Richter? Spielen Sie unser Gerichtssaal-Algorithmus-Spiel

Selman-Design
Schon als Kind entwickelt man ein Gespür dafür, was Fairness bedeutet. Es ist ein Konzept, das Sie früh lernen, wenn Sie sich mit der Welt um Sie herum auseinandersetzen. Etwas fühlt sich entweder fair an oder nicht.
Aber zunehmend haben Algorithmen begonnen, Fairness für uns zu vermitteln. Sie entscheiden, wer Wohnungsanzeigen sieht, wer eingestellt oder gefeuert wird und sogar wer ins Gefängnis kommt. Folglich werden die Leute, die sie erstellen – Softwareingenieure – aufgefordert, zu artikulieren, was es bedeutet, in ihrem Code fair zu sein. Aus diesem Grund beschäftigen sich Regulierungsbehörden auf der ganzen Welt jetzt mit einer Frage: Wie kann man Fairness mathematisch quantifizieren?
Diese Geschichte versucht, eine Antwort zu geben. Und dazu brauchen wir Ihre Hilfe. Wir werden einen echten Algorithmus durchgehen, der verwendet wird, um zu entscheiden, wer ins Gefängnis kommt, und Sie bitten, seine verschiedenen Parameter zu optimieren, um seine Ergebnisse fairer zu gestalten. (Keine Sorge – dazu gehört nicht das Anschauen von Code!)
Der Algorithmus, den wir untersuchen ist als COMPAS bekannt und eines von mehreren verschiedenen Risikobewertungsinstrumenten, die im US-amerikanischen Strafrechtssystem verwendet werden.
Auf hoher Ebene soll COMPAS den Richtern dabei helfen zu entscheiden, ob ein Angeklagter im Gefängnis bleiben oder während des Wartens auf den Prozess entlassen werden sollte. Es trainiert auf historischen Daten von Angeklagten, um Korrelationen zwischen Faktoren wie dem Alter und der Geschichte einer Person mit dem Strafrechtssystem zu finden und ob die Person erneut festgenommen wurde oder nicht. Anschließend verwendet es die Korrelationen, um die Wahrscheinlichkeit vorherzusagen, dass ein Angeklagter während der Wartezeit für das Verfahren wegen eines neuen Verbrechens festgenommen wird.1
Fußnote
1. Verhaftungen vs. Verurteilungen
Dieser Prozess ist sehr unvollkommen. Die Tools verwenden Verhaftungen als Stellvertreter für Verbrechen, aber es gibt tatsächlich große Diskrepanzen zwischen den beiden, da die Polizei in der Vergangenheit überproportional rassische Minderheiten festgenommen und Daten manipuliert hat. Darüber hinaus werden Festnahmen häufig wegen technischer Verstöße vorgenommen, wie z. B. Nichterscheinen vor Gericht, und nicht wegen wiederholter krimineller Aktivitäten. In dieser Geschichte vereinfachen wir uns zu sehr, um zu untersuchen, was passieren würde, wenn Verhaftungen tatsächlichen Verbrechen entsprächen.
Diese Vorhersage ist als Risikobewertung des Angeklagten bekannt und als Empfehlung gedacht: Angeklagte mit hohem Risiko sollten inhaftiert werden, um zu verhindern, dass sie der Gesellschaft potenziellen Schaden zufügen; Angeklagte mit geringem Risiko sollten vor ihrem Prozess freigelassen werden. (In Wirklichkeit, Richter nicht immer folgen diese Empfehlungen, aber die Risikobewertungen bleiben einflussreich.)
Befürworter von Risikobewertungsinstrumenten argumentieren, dass sie das Strafrechtssystem gerechter machen. Sie ersetzen die Intuition und Voreingenommenheit der Richter – insbesondere rassistische Vorurteile – durch eine scheinbar objektivere Bewertung. Das können sie auch die Praxis der Hinterlegung einer Kaution ersetzen in den USA, die von den Angeklagten eine Geldsumme für ihre Freilassung verlangt. Kaution diskriminiert arme Amerikaner und betrifft unverhältnismäßig schwarze Angeklagte, die im Strafrechtssystem überrepräsentiert sind.
Fußnote
2. Die Methodik von ProPublica
Bei Angeklagten, die vor dem Prozess inhaftiert waren, untersuchte ProPublica, ob sie innerhalb von zwei Jahren nach ihrer Freilassung erneut festgenommen wurden. Es verwendete dies dann, um ungefähr zu ermitteln, ob die Angeklagten vor dem Prozess erneut festgenommen worden wären, wenn sie nicht inhaftiert worden wären.
Wie gesetzlich vorgeschrieben, bezieht COMPAS die Rasse nicht in die Berechnung seiner Risikobewertungen ein. Im Jahr 2016 jedoch a ProPublica-Untersuchung argumentierte, dass das Werkzeug war still voreingenommen gegenüber Schwarzen. ProPublica stellte fest, dass unter den Angeklagten, die nie erneut festgenommen wurden, schwarze Angeklagte mit doppelt so hoher Wahrscheinlichkeit als weiße Angeklagte von COMPAS.2 als Hochrisiko eingestuft wurden
Unsere Aufgabe ist es nun, zu versuchen, COMPAS besser zu machen. Bereit?
Beginnen wir mit der gleichen Datensatz die ProPublica in seiner Analyse verwendet hat. Es umfasst jeden Angeklagten, der von 2013 bis 2014 vom COMPAS-Algorithmus in Broward County, Florida, bewertet wurde. Insgesamt sind das über 7.200 Profile mit dem Namen, dem Alter, der Rasse und dem COMPAS-Risikowert jeder Person, wobei angegeben wird, ob die Person letztendlich entweder danach erneut festgenommen wurde vor Gerichtsverfahren freigelassen oder inhaftiert werden.
Um die Daten besser sichtbar zu machen, haben wir 500 schwarze und weiße Angeklagte aus dem gesamten Satz zufällig ausgewählt.
Wir haben jeden Angeklagten als Punkt dargestellt.
Denken Sie daran: Alle diese Punkte sind Personen, die eines Verbrechens angeklagt (aber nicht verurteilt) sind. Einige werden vor dem Prozess inhaftiert; andere werden sofort freigelassen. Einige werden nach ihrer Freilassung erneut festgenommen; andere nicht. Wir möchten zwei Dinge vergleichen: die Vorhersagen (welche Angeklagten hohe bzw. niedrige Risikobewertungen erhalten haben) und die realen Ergebnisse (welche Angeklagten eigentlich wurde nach seiner Freilassung erneut festgenommen).
COMPAS bewertet Angeklagte auf einer Skala von 1 bis 10, wobei 1 ungefähr einer Wahrscheinlichkeit von 10 % für erneute Festnahmen entspricht, 2 bis 20 % und so weiter.
Schauen wir uns an, wie COMPAS alle bewertet hat.
Fußnote
3. Ergebnisse von COMPAS
COMPAS wurde entwickelt, um aggregierte Vorhersagen über Gruppen von Menschen mit ähnlichen Merkmalen zu treffen, anstatt Vorhersagen über bestimmte Personen zu treffen. Die Methodik hinter den Scores und die Empfehlungen für deren Verwendung sind komplizierter, als wir präsentieren konnten; Sie können darüber unter dem obigen Link lesen.
Obwohl COMPAS nur eine statistische Wahrscheinlichkeit angeben kann, dass ein Angeklagter vor dem Prozess erneut festgenommen wird, müssen die Richter natürlich eine Alles-oder-Nichts-Entscheidung treffen: ob der Angeklagte freigelassen oder festgenommen wird. Für die Zwecke dieser Geschichte werden wir die Hochrisikoschwelle von COMPAS, eine Punktzahl von 7 oder höher, verwenden, um eine Empfehlung zur Inhaftierung eines Angeklagten darzustellen.3
Von nun an sind Sie verantwortlich. Ihre Aufgabe ist es, die letzte Stufe dieses Algorithmus neu zu gestalten, indem Sie einen gerechteren Ort finden, um die Schwelle für hohes Risiko festzulegen.
So sieht Ihre Schwelle aus. Versuchen Sie, darauf zu klicken und es herumzuziehen.
Stellen wir uns also zunächst das Best-Case-Szenario vor: Alle Angeklagten, die Ihr Algorithmus mit einer hohen Risikobewertung etikettiert, werden erneut festgenommen, und alle Angeklagten mit einer niedrigen Risikobewertung werden nicht festgenommen. Unten zeigt unsere Grafik, wie das aussehen könnte. Die ausgefüllten Kreise sind erneut festgenommene Angeklagte; die leeren Kreise sind diejenigen, die es nicht waren.
Verschieben Sie nun den Schwellenwert, um Ihren Algorithmus so fair wie möglich zu gestalten.
(Mit anderen Worten, nur erneut festgenommene Angeklagte sollten inhaftiert werden.)
Toll! Das war einfach. Ihre Schwelle sollte zwischen 6 und 7 liegen. Niemand wurde unnötig festgenommen, und niemand, der freigelassen wurde, wurde erneut festgenommen.
Aber dieses Idealszenario tritt natürlich nie ein. Es ist unmöglich, das Ergebnis für jede Person perfekt vorherzusagen. Das bedeutet, dass die gefüllten und leeren Punkte nicht so sauber getrennt werden können.
Hier ist also, wer tatsächlich erneut festgenommen wird.
Verschieben Sie nun den Schwellenwert erneut, um Ihren Algorithmus so fair wie möglich zu gestalten.
(Hinweis: Sie möchten die Genauigkeit maximieren.)
Sie werden feststellen, dass es, egal wo Sie die Schwelle platzieren, niemals perfekt ist: Wir sperren immer einige Angeklagte ein, die nicht erneut festgenommen werden (leere Punkte rechts neben der Schwelle), und lassen einige Angeklagte frei, die erneut festgenommen werden (gefüllte Punkte bis links der Schwelle). Dies ist ein Kompromiss, mit dem sich unser Strafrechtssystem immer befasst hat, und es ist nicht anders, wenn wir einen Algorithmus verwenden.
Um diese Kompromisse deutlicher zu machen, sehen wir uns den Prozentsatz der falschen Vorhersagen an, die COMPAS macht jede Seite des Schwellenwerts, anstatt nur die Gesamtgenauigkeit zu messen. Jetzt können wir explizit sehen, ob unser Schwellenwert es vorzieht, Menschen unnötig im Gefängnis zu halten oder Menschen freizulassen, die dann erneut festgenommen werden.4 Beachten Sie, dass der Standardschwellenwert von COMPAS letzteres bevorzugt.
Fußnote
4. Technische Definitionen
Diese beiden Fehlerprozentsätze sind auch als Falsch-Negativ-Rate (die wir als freigelassen, aber erneut festgenommen bezeichnet haben) und Falsch-Positiv-Rate (die wir als unnötig inhaftiert bezeichnet haben) bekannt.
Wie sollten wir diesen Kompromiss fair ausgleichen? Es gibt keine allgemeingültige Antwort, aber in den 1760er Jahren schrieb der englische Richter William Blackstone: „Es ist besser, dass zehn Schuldige entkommen, als dass ein Unschuldiger leidet.
Das Verhältnis von Blackstone ist in den USA bis heute sehr einflussreich. Also lassen Sie uns davon inspirieren.
Verschieben Sie die Schwelle dahin, wo der Prozentsatz der Freigelassenen, aber erneuten Festnahmen etwa das Zehnfache des Prozentsatzes der unnötig inhaftierten Personen beträgt.
Sie sehen bereits zwei Probleme mit einem Algorithmus wie COMPAS. Erstens kann eine bessere Vorhersage immer dazu beitragen, die Fehlerraten auf breiter Front zu senken, aber sie kann sie niemals vollständig eliminieren. Egal wie viele Daten wir sammeln, zwei Personen, die für den Algorithmus gleich aussehen, können am Ende immer unterschiedliche Entscheidungen treffen.
Das zweite Problem ist, dass selbst wenn Sie die Empfehlungen von COMPAS konsequent befolgen, jemand – ein Mensch – zuerst entscheiden muss, wo die Hochrisikoschwelle liegen soll, sei es anhand der Blackstone-Ratio oder etwas anderem. Das hängt von allen möglichen Überlegungen ab – politischen, wirtschaftlichen und sozialen.
Jetzt kommen wir zu einem dritten Problem. Hier beginnen unsere Erkundungen der Fairness interessant zu werden. Wie unterscheiden sich die Fehlerquoten zwischen verschiedenen Gruppen? Gibt es bestimmte Arten von Menschen, die eher unnötig inhaftiert werden?
Mal sehen, wie unsere Daten aussehen, wenn wir die Rasse der Angeklagten betrachten.
Verschieben Sie nun jeden Schwellenwert, um zu sehen, wie er sich unterschiedlich auf schwarze und weiße Angeklagte auswirkt.
Rasse ist ein Beispiel für eine geschützte Klasse in den USA, was bedeutet, dass Diskriminierung auf dieser Grundlage illegal ist. Andere geschützte Klassen umfassen Geschlecht, Alter und Behinderung.
Jetzt, da wir schwarze und weiße Angeklagte getrennt haben, haben wir festgestellt, dass, obwohl die Rasse nicht zur Berechnung der COMPAS-Risiko-Scores verwendet wird, die Scores unterschiedliche Fehlerquoten für die beiden Gruppen aufweisen. Bei der standardmäßigen COMPAS-Schwelle zwischen 7 und 8 wurden 16 % der schwarzen Angeklagten, die nicht erneut festgenommen wurden, unnötig inhaftiert, während dies nur für 7 % der weißen Angeklagten gilt. Das scheint überhaupt nicht fair zu sein! Genau das ist ProPublica hervorgehoben in seiner Untersuchung.
Okay, also lass uns das beheben.
Verschieben Sie jede Schwelle, damit weiße und schwarze Angeklagte unnötigerweise mit ungefähr der gleichen Rate inhaftiert werden.
(Es gibt eine Reihe von Lösungen. Wir haben eine ausgewählt, aber Sie können versuchen, andere zu finden.)
Wir haben versucht, das Verhältnis von Blackstone erneut zu erreichen, also kamen wir zu folgender Lösung: Weiße Angeklagte haben einen Schwellenwert zwischen 6 und 7, während schwarze Angeklagte einen Schwellenwert zwischen 8 und 9 haben. Wer nicht erneut festgenommen wird, wird unnötigerweise inhaftiert, während 75 % derjenigen, die dies tun, erneut festgenommen werden, nachdem sie keine Zeit im Gefängnis verbracht haben. Gute Arbeit! Ihr Algorithmus scheint jetzt viel fairer als COMPAS zu sein.
Aber warte – ist es? Beim Abgleich der Fehlerquoten zwischen den Rassen haben wir etwas Wichtiges verloren: Unsere Schwellenwerte für jede Gruppe liegen an unterschiedlichen Stellen, sodass unsere Risikowerte für weiße und schwarze Angeklagte unterschiedliche Dinge bedeuten.
Weiße Angeklagte werden bei einer Risikopunktzahl von 7 inhaftiert, aber schwarze Angeklagte werden bei der gleichen Punktzahl freigelassen. Dies scheint wieder einmal nicht fair zu sein. Zwei Personen mit der gleichen Risikobewertung haben die gleiche Wahrscheinlichkeit, erneut festgenommen zu werden, sollten sie also nicht die gleiche Behandlung erhalten? In den USA kann die Verwendung unterschiedlicher Schwellenwerte für verschiedene Rassen auch zu komplizierten rechtlichen Problemen führen Probleme mit dem 14. Zusatzartikel die Gleichschutzklausel der Verfassung.
Versuchen wir es also noch einmal mit einem einzigen Schwellenwert, der von beiden Gruppen geteilt wird.
Verschieben Sie die Schwelle erneut, damit weiße und schwarze Angeklagte unnötigerweise mit der gleichen Rate inhaftiert werden.
Wenn Sie frustriert sind, hat das einen guten Grund. Es gibt keine Lösung.
Wir haben Ihnen zwei Definitionen von Fairness gegeben: Halten Sie die Fehlerquoten zwischen den Gruppen vergleichbar und behandeln Sie Personen mit denselben Risikowerten auf die gleiche Weise. Beide Definitionen sind völlig vertretbar! Aber beide gleichzeitig zu befriedigen, ist unmöglich.
Der Grund dafür ist, dass schwarze und weiße Angeklagte mit unterschiedlichen Raten erneut festgenommen werden. Während 52 % der schwarzen Angeklagten in unseren Daten aus Broward County erneut festgenommen wurden, waren es nur 39 % der weißen Angeklagten. Es gibt einen ähnlichen Unterschied in vielen Gerichtsbarkeiten in den USA, teilweise aufgrund der Geschichte des Landes, dass die Polizei überproportional auf Minderheiten abzielt (wie wir bereits erwähnt haben).
Vorhersagen spiegeln die Daten wider, die zu ihrer Erstellung verwendet wurden – ob durch Algorithmen oder nicht. Wenn schwarze Angeklagte in der realen Welt häufiger verhaftet werden als weiße Angeklagte, werden sie auch eine höhere Rate an vorhergesagten Verhaftungen haben. Das bedeutet, dass sie im Durchschnitt auch höhere Risikobewertungen haben und ein größerer Prozentsatz von ihnen als hohes Risiko eingestuft wird. sowohl richtig als auch falsch . Das ist wahr Egal welcher Algorithmus wird verwendet, solange es so konzipiert ist, dass jeder Risikowert unabhängig von der Rasse dasselbe bedeutet.
Dieser seltsame Konflikt der Fairness-Definitionen beschränkt sich nicht nur auf Risikobewertungsalgorithmen im Strafrechtssystem. Die gleichen Paradoxien gelten für Kreditwürdigkeits-, Versicherungs- und Einstellungsalgorithmen. In jedem Kontext, in dem ein automatisiertes Entscheidungsfindungssystem Ressourcen oder Strafen auf mehrere Gruppen verteilen muss, die unterschiedliche Ergebnisse haben, werden sich unterschiedliche Definitionen von Fairness unweigerlich als gegenseitig ausschließend erweisen.
Es gibt keinen Algorithmus, der dies beheben kann; das ist nicht mal ein algorithmisch Problem, wirklich. Menschliche Richter sind zur Zeit die gleichen erzwungenen Kompromisse einzugehen – und das im Laufe der Geschichte.
Aber hier ist was für ein Algorithmus hat geändert. Auch wenn Richter nicht immer transparent sind, wie sie zwischen verschiedenen Vorstellungen von Fairness wählen, können Menschen ihre Entscheidungen anfechten. Im Gegensatz dazu ist COMPAS, das von der Privatfirma Northpointe hergestellt wird, ein Geschäftsgeheimnis, das nicht öffentlich überprüft oder abgefragt werden kann. Angeklagte können die Ergebnisse nicht länger in Frage stellen, und Regierungsbehörden verlieren die Fähigkeit, den Entscheidungsprozess zu hinterfragen. Es gibt keine öffentliche Rechenschaftspflicht mehr.
Was also sollten Regulierungsbehörden tun? Der vorgeschlagene Algorithmic Accountability Act von 2019 ist ein Beispiel für einen guten Anfang, sagt Andrew Selbst, Rechtsprofessor an der University of California, der sich auf KI und Recht spezialisiert hat. Der Gesetzentwurf, der darauf abzielt, Voreingenommenheit in automatisierten Entscheidungssystemen zu regulieren, weist zwei bemerkenswerte Merkmale auf, die als Vorlage für künftige Rechtsvorschriften dienen. Erstens müssten Unternehmen ihre maschinellen Lernsysteme in einer Folgenabschätzung auf Voreingenommenheit und Diskriminierung prüfen. Zweitens gibt es keine Definition von Fairness.
Mit einer Folgenabschätzung zeigst du sehr transparent, wie du als Unternehmen die Fairness-Frage angehst, sagt Selbst. Das bringt die öffentliche Rechenschaftspflicht wieder in die Debatte. Da Fairness in verschiedenen Zusammenhängen unterschiedliche Bedeutungen hat, fügt er hinzu, ermöglicht die Vermeidung einer bestimmten Definition diese Flexibilität.
Aber ob Algorithmen überhaupt zur Schlichtung von Fairness eingesetzt werden sollten, ist eine komplizierte Frage. Algorithmen für maschinelles Lernen werden anhand von Daten trainiert, die durch Geschichten von Ausgrenzung und Diskriminierung produziert wurden, schreibt Ruha Benjamin, außerordentliche Professorin an der Princeton University, in ihrem Buch Rennen nach Technologie . Tools zur Risikobewertung sind nicht anders. Die größere Frage bei der Verwendung von ihnen – oder von Algorithmen, die zur Einstufung von Menschen verwendet werden – ist, ob sie bestehende Ungleichheiten verringern oder sie verschlimmern.
Selbst empfiehlt, vorsichtig vorzugehen: Wenn man philosophische Fairness-Begriffe in mathematische Ausdrücke umwandelt, verlieren sie ihre Nuance, ihre Flexibilität, ihre Formbarkeit, sagt er. Das soll nicht heißen, dass sich einige der damit verbundenen Effizienzgewinne letztendlich nicht lohnen werden. Ich habe nur meine Zweifel.
Wörter und Code von Karen Hao und Jonathan Stray. Designberatung von Emily Luong und Emily Caulfield. Redaktion von Niall Firth und Gideon Lichfield. Besonderer Dank an Raschida Richardson von AI Now, Mutale Nkonde vom Berkman Klein Center und Wilhelm Isaak von DeepMind für ihre Überprüfung und Beratung.
Korrektur: Eine frühere Version des Artikels war mit Informationen über ein anderes Risikobewertungstool als COMPAS verknüpft. Es wurde entfernt, um Verwirrung zu vermeiden.