Die Produktivitätseffekte generativer künstlicher Intelligenz

Automatisierungstechnologien – Maschinen, die anstelle menschlicher Arbeitskräfte produktive Aufgaben ausführen können – haben seit der industriellen Revolution eine enorme Rolle in der Wirtschaftsgeschichte der Menschheit gespielt. Von der Automatisierung der Textilproduktion im 19. Jahrhundert bis zur Mechanisierung der Landwirtschaft im frühen 20. Jahrhundert führten historische Automatisierungswellen zu enormen sektoralen Umverteilungen von Arbeitskräften und trugen dazu bei, die Urbanisierung und massive soziale Veränderungen voranzutreiben. Diese Automatisierungswellen waren kurz- und mittelfristig alles andere als vorteilhaft (Acemoglu und Johnson 2023), trugen aber letztendlich zu einem immensen Wachstum der Produktion und des Lebensstandards in den Industrieländern bei.

Zwischen den 1970er und frühen 2020er Jahren blieb die Geschichte der Automatisierung in Ländern mit hohem Einkommen ziemlich konstant (Autor 2015). Fortschritte in der Maschinentechnik, der Aufstieg von Computern und die Verbreitung digitaler Technologien führten zur schrittweisen Automatisierung von Aufgaben „mittlerer Qualifikation“, die von Fließbandaufgaben in der Fabrik bis hin zu Buchhaltungs- und Buchhaltungsaufgaben reichen (Autor et al. 2003). Diese Aufgaben – bestehend aus diskreten, formalisierbaren Schrittfolgen – könnten zunehmend in immer billigere Computer und Maschinen programmiert werden und den Menschen aus vielen Berufen verdrängen.

Diese schrittweisen Wellen der „routinemäßigen“ Automatisierung trugen zu einer viel diskutierten „Polarisierung“ des Arbeitsmarktes bei: Produktions- und Büroberufe im mittleren Lohnsegment verschwanden langsam, während neue Arbeitsplätze in Niedriglohnberufen in den Bereichen Reinigung, Einzelhandel und Körperpflege entstanden sowie hochvergütete leitende, technische und berufliche Berufe. Infolgedessen nahm die Lohn- und Einkommensungleichheit in diesem Zeitraum dramatisch zu, wobei demografische Gruppen, die sich einst auf Berufe konzentrierten, die von der Automatisierung betroffen waren, zurückfielen (Acemoglu und Restrepo 2022), während Fachkräfte mit höherem Einkommen und Kapitaleigentümer die Nase vorn hatten (Moll et al. 2022).

Ab den 2010er-Jahren beobachteten Ökonomen, dass das aufkeimende Feld des maschinellen Lernens die Automatisierung in eine neue Richtung lenken könnte. Bisher konnten Aufgaben nur automatisiert werden, wenn sie in explizite Schrittfolgen zerlegt werden konnten, die einem Computer oder einer Maschine formal erklärt werden konnten. Viele Aufgaben, die Kreativität oder stillschweigendes, schwer zu formalisierendes Wissen erforderten – vom Schreiben über medizinische Diagnosen bis hin zum Grafikdesign – konnten daher nicht automatisiert werden. Doch in den 2010er Jahren stellten Ökonomen fest, dass neue „Deep-Learning“-Techniken, die Computer induktiv anhand großer vorhandener Datensätze trainierten, anstatt explizite Anweisungen zu geben, letztendlich die Automatisierung selbst kreativer oder auf stillschweigendem Wissen basierender Aufgaben ermöglichen könnten.

Die erste Welle von auf maschinellem Lernen basierenden Automatisierungstechnologien zielte auf „vorhersagende“ Aufgaben wie Kautionsentscheidungen, Einstellungsentscheidungen oder medizinische Diagnosen ab (Kleinberg et al. 2018, Chalfin et al. 2016, Mullainathan und Obermeyer 2022). Algorithmen für maschinelles Lernen wurden immer besser darin, binäre Vorhersagen aus hochdimensionalen Eingabedaten zu treffen, was Anlass zur Sorge über die Zukunft von Berufen wie der Radiologie gab. Aber kreative Aufgaben schienen immer noch sicher vor der Bedrohung durch Automatisierung geschützt zu sein.

Dies änderte sich mit der Veröffentlichung beeindruckender „generativer“ künstlicher Intelligenzsysteme Mitte bis Ende 2022. Diese Systeme wurden mithilfe von Deep-Learning-Techniken darauf trainiert, große zusammenhängende Textkörper oder gut produzierte Bilder als Reaktion auf schriftliche Eingabeaufforderungen zu generieren leistungsfähiger als alle bereits vorhandenen Chatbots oder Bildgenerierungstools. Zum ersten Mal schien es, dass kreative Schreib- oder Designaufgaben bald einer weitreichenden Automatisierung unterliegen könnten.

In einem aktuellen Artikel (Noy und Zhang 2023) berichten wir über die Ergebnisse eines von uns durchgeführten Online-Experiments, das einen ersten Einblick in die potenziellen Produktivitäts- und Arbeitsmarktauswirkungen textbasierter generativer KI-Systeme, insbesondere ChatGPT 3.5, bietet.

Wir haben das Experiment auf Prolific durchgeführt, einer Umfrageplattform, die eine tragende Säule der akademischen sozialwissenschaftlichen Forschung darstellt. Wir haben Zehntausende von Befragten auf der Plattform überprüft, um eine Untergruppe von Befragten mit Hochschulabschluss in den für uns interessanten Berufen zu identifizieren – Manager, Personalfachleute, Stipendiaten, Vermarkter, Berater und Datenanalysten – die aufgrund unserer Fähigkeiten ausgewählt wurden Überlegen Sie sich realistische, berufsspezifische Schreibaufgaben von 20 bis 30 Minuten, die wir im Rahmen einer Online-Umfrage bearbeiten können. Manager und HR-Experten wurden damit beauftragt, eine sensible E-Mail zu verfassen, Marketingfachleute mit der Erstellung einer Pressemitteilung für ein hypothetisches Produkt, Fördermittelautoren mit der Erstellung eines Fördermittelantrags, Berater mit der Erstellung eines kurzen Berichts und Datenanalysten mit der Erstellung eines Analyseplans. Etwa 85 % der Teilnehmer bewerteten die Aufgaben als „realistische“ oder „sehr realistische“ Nachbildung realer Aufgaben in ihrem Beruf.

Vielbefragte, die unsere Screening-Phase bestanden hatten, wurden eingeladen, an einer einstündigen Umfrage mit zwei berufsspezifischen Schreibaufgaben teilzunehmen. Die Teilnehmer erhielten eine Grundvergütung von 10 US-Dollar und hatten einen starken Anreiz, die Aufgaben gut zu erfüllen: Ihre Aufgabeneinsendungen wurden von anderen Prolific-Befragten bewertet, die in denselben Berufen arbeiteten, und sie erhielten Bonuszahlungen in Höhe von bis zu 14 US-Dollar basierend auf ihren Noten. Die durchschnittliche Gesamtvergütung in unserer Stichprobe betrug 17 US-Dollar pro Stunde und lag damit deutlich über den typischen 12 US-Dollar pro Stunde bei Prolific. Unsere Kombination aus über dem Marktdurchschnitt liegenden Gehältern und leistungsstarken Anreizen löste bei den Teilnehmern erfolgreich erhebliche Anstrengungen aus, die durchschnittlich 27 Minuten mit der ersten Aufgabe verbrachten.

Zwischen der ersten und zweiten Aufgabe wurden die Teilnehmer randomisiert einer Behandlungs- oder Kontrollgruppe zugeteilt. Die behandelten Teilnehmer wurden aufgefordert, sich bei ChatGPT anzumelden und mehrere Beispielaufforderungen einzugeben, um ihnen den Umgang mit der Technologie zu zeigen. Den Kontrollteilnehmern wurde gesagt, dass sie sich für Overleaf anmelden sollten (um die Befragungszeit zwischen Behandlung und Kontrolle so ähnlich wie möglich zu halten und selektive Fluktuationen zu minimieren, nutzten fast keine Kontrollteilnehmer Overleaf für die zweite Aufgabe). Den behandelten Teilnehmern wurde gesagt, dass sie ChatGPT für die zweite Aufgabe verwenden dürften, wenn sie es hilfreich fanden.

Die Behandlungsgruppe entschied sich mit überwältigender Mehrheit für die Verwendung von ChatGPT bei der zweiten Aufgabe: 87 % derjenigen, die sich erfolgreich für ein Konto angemeldet hatten, nutzten es. Die behandelten Teilnehmer waren von der Technologie sehr beeindruckt und gaben ihr eine durchschnittliche Nützlichkeitsbewertung von 4,4 von 5,0. Fast alle Benutzer haben die Aufgabenaufforderung einfach in ChatGPT eingefügt und eine unbearbeitete oder leicht bearbeitete Version der Ausgabe übermittelt. Entgegen den Erwartungen entschieden sich nur wenige Teilnehmer dafür, ChatGPT auf andere Weise zu nutzen, beispielsweise zum Bearbeiten ihres eigenen Entwurfs, zum Brainstorming von Ideen oder zum Schreiben eines Rohentwurfs, bevor sie die Ausgabe stark bearbeiteten.

Folglich sank die Zeit, die für die zweite Aufgabe aufgewendet wurde, in der Behandlungsgruppe im Vergleich zur Kontrollgruppe für die zweite Aufgabe steil um 40 % (Abbildung 1, Tafel A). Die Durchschnittsnoten stiegen um 18 % (Abbildung 1, Tafel B). Der Anstieg der Noten spiegelte größtenteils die hohe Meinung der Bewerter zum reinen ChatGPT-Ergebnis im Vergleich zum rein menschlichen Ergebnis wider und scheint keinen Mehrwert seitens der behandelten Teilnehmer selbst widergespiegelt zu haben.

Abbildung 1Produktivitätseffekte

Warum haben die Teilnehmer die ChatGPT-Ausgabe so wenig bearbeitet? Eine Möglichkeit besteht darin, dass sie offensichtliche Mängel in der Ausgabe oder Bereiche mit potenzieller Verbesserung erkannten, die Aufgabe aber so schnell wie möglich erledigen wollten. Nach dieser Interpretation nutzten die Teilnehmer ChatGPT lediglich als zeitsparendes Gerät und ignorierten dessen Ausgabequalität, wodurch die externe Validität unseres Experiments auf die reale Welt mit höheren Einsätzen reduziert wurde.

Drei Beweise widersprechen dieser Interpretation. Zunächst wurden 40 % unserer Teilnehmer in ein „konvexes“ Anreizsystem randomisiert, das ihnen eine beträchtliche zusätzliche Bonuszahlung für den Erhalt einer hohen Note von 6 oder 7 von 7 versprach. Dies bot einen zusätzlichen Anreiz, die Rohdaten von ChatGPT zu korrigieren oder zu verbessern Allerdings verbrachten die Befragten dieser Gruppe im Durchschnitt nicht mehr Zeit mit der Bearbeitung als die Befragten unserer Hauptgruppe mit „linearem“ Anreiz und erhielten keine höheren Noten. Zweitens erhielten Befragte, die sich für die Bearbeitung entschieden (oder länger mit der Bearbeitung beschäftigt waren), keine besseren Noten als diejenigen, die unbearbeitete Ergebnisse einreichten. Drittens waren viele Befragte eindeutig der Meinung, dass ChatGPT nicht nur zeitsparend, sondern auch ein leistungsverbesserndes Gerät sei. Am Ende der Umfrage erhielten einige behandelte Befragte die Möglichkeit, ihre vor der Behandlung eingereichten Aufgaben mithilfe von ChatGPT zu überarbeiten oder zu ersetzen. 19 % ersetzten ihren Eintrag vollständig durch die Ausgabe von ChatGPT und weitere 17 % nutzten ChatGPT als Editor. Unsere allgemeine Interpretation ist, dass die Teilnehmer die Ergebnisse von ChatGPT als qualitativ hochwertig ansahen und es an offensichtlichen Verbesserungsmöglichkeiten mangelte.

Als Folge der weitgehend einheitlichen Nutzung von ChatGPT in der Behandlungsgruppe verringerte sich die Produktivitätsungleichheit zwischen den Teilnehmern dramatisch, wie in Abbildung 2 dargestellt. Durch den ChatGPT-Zugriff konnte fast jeder in der behandelten Gruppe genauso gute Leistungen erbringen wie die besten Menschen in der Kontrollgruppe.

Figur 2Die Notenungleichheit nimmt ab

Wie reagierten die Teilnehmer auf die Einführung in diese verblüffend produktive Technologie? Wir haben die Teilnehmer nach ihrer Freude an jeder Aufgabe gefragt; Wie Abbildung 3, Tafel A zeigt, stieg der Genuss in der Behandlungsgruppe im Vergleich zur Kontrollgruppe um 0,5 Standardabweichungen. Die Bedenken der Teilnehmer hinsichtlich der Verdrängung von Arbeitskräften durch KI in ihrem Beruf nahmen in der Behandlungsgruppe zu, ebenso wie die Begeisterung darüber, dass KI Arbeitskräfte in ihrem Beruf verdrängt, während der allgemeine Optimismus in Bezug auf KI leicht zunahm. Die Befragten begrüßten die Technologie daher insgesamt begeistert, jedoch nicht ohne Bedenken. Diese Lücken verschwanden bei der anschließenden Neuvermessung.

Figur 3Arbeitszufriedenheit, Selbstwirksamkeit und Überzeugungen zur Automatisierung

Wir haben die Teilnehmer zwei Wochen und dann zwei Monate nach dem Experiment erneut befragt, um die Verbreitung von ChatGPT in ihren tatsächlichen Berufen zu verfolgen. Zwei Wochen später hatten 34 % der behandelten und 18 % der Kontrollteilnehmer ChatGPT in der vergangenen Woche beruflich genutzt; Zwei Monate später lagen diese Zahlen bei 42 % bzw. 27 %. Der langsame Anstieg der Nutzung und die anhaltende Lücke zwischen Behandlung und Kontrolle deuten darauf hin, dass die Verbreitung von ChatGPT in realen Berufen weiterhin etwas langsam ist und durch Informationskonflikte behindert wird. Befragte, die ChatGPT nicht in ihrem Hauptberuf nutzen, gaben eine Mischung aus Gründen an: mangelnde Vertrautheit, mangelnder Zugang am Arbeitsplatz oder mangelnde Nützlichkeit von ChatGPT aufgrund der Bedeutung kontextspezifischer Kenntnisse und Stile für ihre Arbeit.

ChatGPT hat einen erheblichen Einfluss auf die Produktivität bei professionellen Schreibaufgaben auf mittlerem Niveau, indem es Geschwindigkeit und Qualität erhöht und die Kluft zwischen Autoren mit höheren und niedrigeren Fähigkeiten verringert. Seine Gesamtauswirkungen werden jedoch von komplexen Überlegungen zum allgemeinen Gleichgewicht abhängen, auf die unser Experiment nicht eingehen kann. Wie wir in dem Papier besprechen, werden eine Reihe von Faktoren – angefangen von der Elastizität der Nachfrage nach ChatGPT-relevanten Diensten, den besonderen Fähigkeiten, die ChatGPT am besten ergänzt, und der Art optimaler Produktionsstrukturen mit ChatGPT – die Auswirkungen von ChatGPT-ähnlichen Technologien bestimmen zu Beschäftigung, Beruf und Lohnstrukturen.

Acemoglu, D und P Restrepo (2022), „Tasks, Automation, and the Rise in US Wage Inequality“, Econmetrica 90(5).

Acemoglu, D und S Johnson (2023), Macht und Fortschritt: Unser 1000-jähriger Kampf um Technologie und Wohlstand, New York: Public Affairs.

Autor, D, F Levy und R Murnane (2003), „The Skill Content of Recent Technological Change: An Empirical Exploration“, Quarterly Journal of Economics 118(4).

Autor, D (2015), „Why Are There Still So Many Jobs? The History and Future of Workplace Automation“, Journal of Economic Perspectives 29(3).

Chalfin, A, O Danieli, A Hillis, Z Jelveh, M Luca, J Ludwig und S Mullainathan (2016), „Productivity and Selection of Human Capital with Machine Learning“, American Economic Review 106(5).

Kleinberg, J, H Lakkaraju, J Leskovec, J Ludwig und S Mullainathan (2018), „Human Decisions and Machine Predictions“, Quarterly Journal of Economics 133(1).

Moll, B, L Rachel und P Restrepo (2022), „Uneven Growth: Automation’s Impact on Income and Wealth Inequality“, Econmetrica 90(6).

Mullainathan, S und Z Obermeyer (2022), „Diagnosing Physician Error: A Machine Learning Approach to Low-Value Healthcare“, Quarterly Journal of Economics 137(2).

Noy, S und W Zhang (2023), „Experimental Evidence on the Productivity Effects of Generative Artificial Intelligence“, Arbeitspapier.

Abbildung 1 Abbildung 2 Abbildung 3