Laut einer neuen Studie des Complexity Science Hub (CSH) lautet die Antwort: "Noch nicht." GPT-4 Turbo konnte die meisten Fragen nicht korrekt beantworten und erreichte eine balancierte Genauigkeit von 46 %.
[Wien, 21.01.2025] Der Komplexitätswissenschafter Peter Turchin arbeitet seit einem Jahrzehnt mit Kolleg:innen daran, Wissen über die Menschheitsgeschichte so aktuell und strukturiert wie möglich an einem Ort zu sammeln: der Seshat Global History Databank. Im vergangenen Jahr begann er gemeinsam mit der Informatikerin Maria del Rio-Chanona zu untersuchen, ob KI-gestützte Chatbots Historiker:innen und Archäolog:innen dabei unterstützen könnten, diese Daten zu sammeln und die Vergangenheit besser zu verstehen. In einem ersten Schritt wollten sie ihr Verständnis von historischem Wissen überprüfen.
In Zusammenarbeit mit einem internationalen Team von Expert:innen bewerteten sie das historische Wissen fortschrittlicher KI-Modelle wie ChatGPT-4, Llama und Gemini.
"Große Sprachmodelle (Large Language Models, LLMs) wie ChatGPT waren in einigen Bereichen enorm erfolgreich – zum Beispiel bei der Unterstützung von Rechtsanwaltsgehilf:innen, die sie mitunter auch bereits ersetzen. Doch wenn es darum geht, die Charakteristika vergangener Gesellschaften zu beurteilen, insbesondere außerhalb Nordamerikas und Westeuropas, sind ihre Fähigkeiten deutlich begrenzter", erklärt Turchin, der die Forschungsgruppe Social Complexity and Collapse am CSH leitet.
KÜNSTLICHE „INTELLIGENZ“ IST BEREICHSSPEZIFISCH
"Ein überraschendes Ergebnis dieser Studie war, wie schlecht diese Modelle tatsächlich abschnitten. Das zeigt, dass künstliche 'Intelligenz' sehr bereichspezifisch ist. LLMs erzielen in einigen Kontexten gute Ergebnisse, in anderen – insbesondere im Vergleich zu Menschen – jedoch sehr schlechte", fügt Turchin hinzu.
Die Ergebnisse der Studie wurden kürzlich auf der NeurIPS-Konferenz, einem der bedeutendsten jährlichen Treffen der KI-Community, in Vancouver präsentiert. GPT-4 Turbo, das leistungsstärkste Modell, erzielte bei einem Multiple-Choice-Test mit vier Antwortmöglichkeiten eine Trefferquote von 46 %. Laut Turchin und seinem Team sind diese Ergebnisse zwar besser als die Zufallsrate von 25 %, verdeutlichen aber dennoch erhebliche Lücken im historischen Verständnis aktueller KI-Modelle.
"Ich dachte, die KI-Chatbots würden deutlich besser abschneiden", sagt auch Ko-Autorin del Rio-Chanona, die externes Fakultätsmitglied des CSH und Assistenzprofessorin am University College London ist. "Geschichte wird oft als eine Sammlung von Fakten betrachtet, doch manchmal ist Interpretation erforderlich, um sie sinnvoll zu erfassen", ergänzt sie.
BENCHMARK FÜR LLMs
Diese neue Bewertung, die erste ihrer Art, testete KI-Systeme mit Fragen auf Graduiert:innen- und Expert:innenniveau – ähnlich den Fragen, die in der Seshat-Datenbank beantwortet werden (und die Forschenden nutzten das Wissen in Seshat, um die Genauigkeit der KI-Antworten zu testen). Seshat ist eine umfangreiche, evidenzbasierte Datenbank, die historisches Wissen über 600 Gesellschaften weltweit mit mehr als 36.000 Datenpunkten und über 2.700 wissenschaftlichen Referenzen umfasst.
"Wir wollten einen Benchmark festlegen, um bewerten zu können, wie gut die Fähigkeit dieser LLMs ist, mit historischem Fachwissen umzugehen“, erklärt Erstautor Jakob Hauser, Wissenschafter am CSH. "Die Seshat-Datenbank ermöglicht es uns, über 'Allgemeinwissen' hinauszugehen. Eine Schlüsselkomponente unseres Benchmarks ist, dass wir nicht nur testen, ob diese LLMs korrekte Fakten identifizieren können, sondern auch, ob Fakten bewiesen oder aus indirekten Beweisen abgeleitet werden können.”
UNTERSCHIEDE ZWISCHEN EPOCHEN UND REGIONEN
Der Benchmark zeigte auch andere wichtige Erkenntnisse über die Fähigkeiten aktueller Chatbots. Insgesamt wurden sieben Modelle der Familien Gemini, OpenAI und Llama getestet. Sie waren besonders treffsicher bei Fragen zur Frühgeschichte, insbesondere aus der Zeit zwischen 8.000 v. Chr. und 3.000 v. Chr. Die Genauigkeit nahm jedoch bei jüngeren Epochen deutlich ab, mit den größten Lücken ab 1.500 n. Chr. bis in die Gegenwart.
Die Ergebnisse zeigen auch Leistungsunterschiede je nach geografischer Region. Die Modelle von OpenAI schnitten in Lateinamerika und der Karibik besser ab, während Llama in Nordamerika am besten abschnitt. Beide Modellfamilien zeigten jedoch schwächere Leistungen für Afrika südlich der Sahara. Llama zeigte zudem eine geringere Genauigkeit für Ozeanien. Diese Unterschiede könnten auf Verzerrungen in den Trainingsdaten hinweisen, die bestimmte historische Narrative bevorzugen und andere vernachlässigen, so die Studie.
BESSER BEIM RECHTSSYSTEM, SCHLECHTER BEI DISKRIMINIERUNG
Der Benchmark zeigte auch Unterschiede in der Leistung je nach Themenkategorie. Die Modelle waren am stärksten bei Fragen zu Rechtssystemen und sozialer Komplexität. "Sie hatten jedoch Schwierigkeiten mit Themen wie Diskriminierung und sozialer Mobilität", sagt del Rio-Chanona.
„Die zentrale Erkenntnis dieser Studie ist, dass LLMs trotz beeindruckender Fähigkeiten noch nicht über das tiefgreifende Verständnis verfügen, das für fortgeschrittene Geschichtsforschung auf PhD-Niveau erforderlich ist. Sie eignen sich hervorragend für die Vermittlung grundlegender Fakten, aber wenn es um eine differenziertere historische Untersuchung geht, sind sie der Aufgabe noch nicht gewachsen", fügt del Rio-Chanona hinzu. Dem Benchmark zufolge schnitt das Modell GPT-4 Turbo mit einer balancierten Genauigkeit von 46 % am besten ab, während das Modell Llama-3.1-8B mit 33,6 % am schwächsten war.
NÄCHSTE SCHRITTE
Del Rio-Chanona und die anderen Forschenden – vom CSH, der Universität Oxford und dem Alan Turing Institute – setzen sich dafür ein, den Datensatz zu erweitern und den Benchmark weiter zu verbessern. Sie beabsichtigen, mehr Daten aus unterrepräsentierten Regionen einzubeziehen und komplexere historische Fragestellungen zu integrieren, so Hauser.
"Wir planen, den Benchmark weiter zu verfeinern, indem wir zusätzliche Datenpunkte aus diversen Regionen, insbesondere dem Globalen Süden, integrieren. Zudem möchten wir neuere LLM-Modelle wie o3 testen, um zu sehen, ob sie die in dieser Studie identifizierten Lücken schließen können", erklärt Hauser.
Der CSH-Wissenschafter betont, dass die Ergebnisse des Benchmarks sowohl für Historiker:innen als auch für KI-Entwickler:innen wertvoll sind. Für Historiker:innen, Archäolog:innen und Sozialwissenschaftler:innen können sie helfen, die Stärken und Schwächen von KI-gestützten Chatbots in der historischen Forschung besser einzuschätzen. Für KI-Entwickler:innen zeigen diese Ergebnisse verbesserungswürdige Bereiche auf, insbesondere bei der Reduktion regionaler Verzerrungen und der Fähigkeit, komplexes historisches Wissen zu verarbeiten.
ÜBER DIE STUDIE
Die Studie "Large Language Models’ Expert-level Global History Knowledge Benchmark (HiST-LLM)" von J. Hauser, D. Kondor, J. Reddish, M. Benam, E. Cioni, F. Villa, J. S. Bennett, D. Hoyer, P. François, P. Turchin und R. M. del Rio-Chanona wurde im Dezember auf der NeurIPS-Konferenz in Vancouver präsentiert.
ÜBER DEN COMPLEXITY SCIENCE HUB
Der Complexity Science Hub (CSH) ist Europas wissenschaftliches Zentrum zur Erforschung komplexer Systeme. Wir übersetzen Daten aus einer Reihe von Disziplinen – Wirtschaft, Medizin, Ökologie, Sozialwissenschaften – in anwendbare Lösungen für eine bessere Welt. Gegründet im Jahr 2016, forschen heute über 70 Wissenschafter:innen am CSH, getragen von der wachsenden Notwendigkeit für ein fundiertes Verständnis der Zusammenhänge, die unserer Gesellschaft zugrunde liegen – vom Gesundheitswesen bis zu Lieferketten. Mit unseren interdisziplinären Methoden entwickeln wir die Kompetenzen, um Antworten auf heutige und zukünftige Herausforderungen zu finden.
Mitglieder des CSH sind AIT Austrian Institute of Technology, BOKU University, Central European University (CEU), IT:U Interdisciplinary Transformation University Austria, Medizinische Universität Wien, TU Wien, TU Graz, Universität für Weiterbildung Krems, Vetmeduni Wien, WU (Wirtschaftsuniversität Wien) und Wirtschaftskammer Österreich (WKO).
csh.ac.at
Mitglieder des CSH sind AIT Austrian Institute of Technology, BOKU University, Central European University (CEU), IT:U Interdisciplinary Transformation University Austria, Medizinische Universität Wien, TU Wien, TU Graz, Universität für Weiterbildung Krems, Vetmeduni Wien, WU (Wirtschaftsuniversität Wien) und Wirtschaftskammer Österreich (WKO).
csh.ac.at