28. März 2026

gift im korpus: das gegenmittel in sicht

Letzte woche war ich auf der data:unplugged in Muenster, einer sehr kommerziellen veranstaltung die mehr fragen aufgeworfen als beantwortet hat, aber mich nun doch zum nachdenken angeregt: am schluss seiner keynote hat Sascha Lobo, etwas gesagt, das haengen geblieben ist: wenn ich ihn richtig verstanden habe, argumentierte er, dass wir eine positive vision fuer eine gesellschaft mit ai brauchen, denn wenn wir keine entwickeln, kommt der doom ganz sicher

Ich glaube Sascha Lobo hat recht. Es ist allzu leicht, hundert varianten zu visionieren, wie die ai-revolution schief gehen kann. Massenarbeitslosigkeit. Autonome kriegsfuehrung. Totale ueberwachung. Die dystopischen moeglichkeiten liegen auf der hand, keine davon ist unrealistisch, manches ist schon im gang.

Ich moechte aber die Aufforderung von Sascha Lobo aufgreifen und ueber einen bereich sprechen, in dem ai die menschheit und gesellschaft tatsaechlich verbessern kann, und der, wie ich es am ende argumentieren moechte, wiederum einen notwendigen schritt zur weiterentwicklung kuenstlicher intelligenz darstellt.

das unvollendete projekt

Vor zwei wochen ist Juergen Habermas gestorben. Man koennte meinen, das sei eine nachricht fuer die feuilletons, fuer die philosophischen seminare, fuer menschen die gerne ueber diskursethik reden. Aber nachdem mein altphilologischer vater sicher wert auf den philosophischen kontext gelegt haette, moechte ich diese perspektive kurz in meinen diskursraum holen:

Immanuel Kant hat 1784 die frage gestellt, was aufklaerung sei, und eine antwort gegeben, die bis heute traegt:

"Aufklaerung ist der Ausgang des Menschen aus seiner selbstverschuldeten Unmuendigkeit."

— Immanuel Kant, 1784 [13]

Sapere aude: habe den mut, dich deines eigenen verstandes zu bedienen. Das war kein akademischer appell. Das war ein politisches programm: vernunft, nicht autoritaet, als grundlage menschlichen zusammenlebens. Und wissenschaft als die institutionalisierte praxis dieser vernunft.

Karl Popper hat 1934 das fehlende scharnier zwischen aufklaerung und wissenschaftlicher praxis geliefert [19]: nicht was sich beweisen laesst macht eine theorie wissenschaftlich, sondern was sich widerlegen laesst. Falsifizierbarkeit als demarkationskriterium. Elf jahre spaeter, unter dem eindruck zweier weltkriege, hat er in The Open Society and Its Enemies [20] den bogen zur politik geschlagen:

"The secret of intellectual excellence is the spirit of criticism; it is intellectual independence."

— Karl Popper, 1945 [20]

Wo kritik unterdrueckt wird, in der politik wie in der wissenschaft, entsteht geschlossenheit. Und geschlossenheit ist der anfang vom ende.

Habermas hat diesen gedanken weitergebaut und politisch zu ende gedacht: rationaler diskurs, also der evidenzbasierte austausch von argumenten im oeffentlichen raum, ist das fundament, auf dem demokratische gesellschaften ihre legitimitaet gruenden [14]. Nicht macht. Nicht tradition. Nicht glauben. Sondern die gemeinsame verpflichtung auf vernunft. Er nannte die aufklaerung ein "unvollendetes Projekt der Moderne": nicht gescheitert, aber noch nicht eingeloest.

Warum erzaehle ich das in einem text ueber ai und wissenschaft?

Weil, wenn Kant, Popper und Habermas recht haben, wissenschaft nicht einfach eine methode ist. Sie ist das fundament, auf dem freie gesellschaften stehen. Wenn dieses fundament bruechig wird, ist das kein partikularproblem, das akademiker unter sich klaeren. Dann steht etwas auf dem spiel, das groesser ist als jede einzelne studie, jedes einzelne ergebnis, jede einzelne disziplin.

die wissenschaft ist kaputt

Ein grosser teil dessen, was wir wissenschaft nennen, verdient diesen namen nicht mehr.

Yuval Noah Harari argumentiert in Sapiens zwar, dass wissenschaft nie unabhaengig war:

"Most scientific studies are funded because somebody believes they can help attain some political, economic or religious goal."

— Yuval Noah Harari, Sapiens [1]

Ich denke, das stimmt. Es war immer so. Forschung war immer verflochten mit macht und geld.

Aber was in den letzten dreissig jahren passiert ist, geht ueber diese historische verflochtenheit hinaus. Die oekonomisierung der wissenschaft hat falsche erfolgsindikatoren in den wissenschaftlichen betrieb eingefuehrt und damit fehlanreize gesetzt, die ueber die jahre den korpus wissenschaftlichen wissens vergiftet haben. Irgendwann, und es waere eine lohnende forschungsarbeit herauszufinden wann genau, hat jemand entschieden, dass die anzahl publizierter paper ein sinnvoller indikator fuer wissenschaftliche leistung ist.

Meiner ansicht nach war das die vielleicht folgenreichste fehlentscheidung der wissenschaftsgeschichte.

Publish or perish. Wer redlich forscht, sorgfaeltig, langsam, mit negativergebnissen die niemand publizieren will, riskiert seine karriere. Gregor Mendel hat acht jahre lang erbsen gezaehlt [18]. Achtundzwanzigtausend pflanzen, akribisch gekreuzt und dokumentiert, um dann ein einziges paper zu veroeffentlichen: "Versuche ueber Pflanzen-Hybriden", 1866. Es wurde ignoriert. Vierunddreissig jahre lang. Erst 1900 haben de Vries, Correns und von Tschermak unabhaengig voneinander entdeckt, dass Mendel die grundlagen der modernen genetik gelegt hatte. Heute wuerde Mendel nach zwei jahren ohne publikation seine stelle verlieren.

Deshalb gilt heute: wer schnell positive ergebnisse publiziert und auf diesem wege moeglichst viele gut zitierbare paper ausspuckt, wird professor oder bekommt zumindest einen weiteren befristeten vertrag als wissenschaftlicher mitarbeiter.

Dazu kommt die aufmerksamkeitsoekonomie, in der wissenschaftler sich zunehmend aehnlich wie influencer praesentieren. Reisserische titel bekommen mehr klicks. Ueberraschende ergebnisse werden haeufiger zitiert. Nuancierte paper mit vorsichtigen schlussfolgerungen verschwinden im rauschen. Und das alles in einem hoch polarisierten und politisierten umfeld, in dem, wie von Harari beschrieben, macht gezielt wissenschaft fuer ihre interessen nutzt.

Getragen und gestuetzt wird dieses system ueber die "wissenschafts"verlage, deren motivlage und oekonomische optimierung sich nicht wesentlich von anderen publikationsformen unterscheidet. Elsevier allein macht ueber zwei milliarden euro jahresumsatz [2] mit diesem modell.

Das ergebnis: es werden massenhaft dinge produziert die wie wissenschaft aussehen. Mit abstract. Mit methodik. Mit peer review und impact factor. Die form ist da, aber der inhalt ist im besten fall hohl, allzu haeufig aber gefaehrlich. Dabei gilt, dass jeder einzelne wissenschaftler zum gedanken eingeladen wird, dass seine kleine publikation in der unfassbaren menge des wissenschaftlich aussehenden materials keine rolle spielen wuerde, im ergebnis der wissenschaftliche korpus aber stueck fuer stueck ueber die jahre vergiftet wurde.

Und das vertrauen bricht mit. Spaetestens in der coronakrise ist fuer alle sichtbar geworden, dass wissenschaftliche diskurse immer haeufiger zu schlachtfeldern ideologischer konflikte werden. Das Edelman Trust Barometer 2024 zeigt, dass eine deutliche mehrheit der befragten eine "suspicion of science's independence from politics and money" [4] formuliert. Die menschen spueren, dass etwas nicht stimmt. Sie koennen es nicht praezise benennen. Aber das misstrauen ist da. Und es ist berechtigt.

<50%replikationsrate, Open Science Collaboration 2015

50%Many Labs 2: nur haelfte repliziert

2/10Many Labs 5: zwei von zehn

42%DARPA SCORE: vorhergesagte replikationsrate

Wer glaubt, das sei uebertrieben, dem empfehle ich einen blick auf die zahlen. Im jahr 2015 hat das Open Science Collaboration projekt versucht, hundert psychologische studien zu replizieren. Hundert studien, alle veroeffentlicht, alle peer-reviewed, alle in angesehenen journals. Das ergebnis: weniger als die haelfte liess sich replizieren [5]. Aber das war nur der anfang. Die Many Labs projekte haben systematisch nachgelegt: Many Labs 2 versuchte achtundzwanzig studien zu replizieren, nur die haelfte gelang. Many Labs 5: zwei von zehn [16]. Und dann kam DARPA. Das amerikanische verteidigungsministerium, das seine strategischen entscheidungen teilweise auf sozialwissenschaftliche forschung stuetzt, wollte wissen, welchem wissen man ueberhaupt noch vertrauen kann. Das SCORE-programm [15] hat ueber siebentausend wissenschaftliche behauptungen aus acht disziplinen extrahiert und deren belastbarkeit systematisch bewertet. Das ergebnis fuer psychologie und erziehungswissenschaft: eine vorhergesagte replikationsrate von zweiundvierzig prozent. Persoenlich halte ich das noch fuer optimistisch.

Wenn das verteidigungsministerium der vereinigten staaten anfaengt, die belastbarkeit von sozialwissenschaft zu pruefen, sollte das einem zu denken geben.

Die medizin ist nicht besser dran. John Ioannidis hat 2005 ein paper veroeffentlicht mit dem titel "Why Most Published Research Findings Are False" [6]. Es ist seitdem tausendfach zitiert worden. Und die struktur, die dieses problem erzeugt hat, erfreut sich zwanzig jahre spaeter bester gesundheit. Sie hat sich sogar verstaerkt, nicht zuletzt weil der incentivierte gesteigerte akademisierungsgrad der gesellschaft direkt die zahl der menschen im system erhoeht, die paper produzieren muessen, ohne genuines forschungsinteresse, ressourcen oder ausreichend zeit zu haben.

was wuerde helfen

OK, genug gemeckert: meine chefin wuerde jetzt schon mit den augen rollen, weil ich hier zu lange rumproblematisiere. Jetzt wird es konstruktiv:

Drei stimmen die aus voellig verschiedenen richtungen auf einen gemeinsamen punkt zusteuern:

Der erste schritt, und der offensichtlichste, ist die systematische falsifizierung: Poppers programm, skaliert auf den gesamten wissenschaftlichen korpus. In meiner eigenen wissenschaftlichen arbeit bin ich vor vielen jahren auf Michele B. Nuijten gestossen, die mit statcheck [7] ein werkzeug gebaut hat, das reportete teststatistiken in wissenschaftlichen papern automatisch nachrechnet. Als sie es 2015 auf ueber zweihundertfuenfzigtausend p-werte aus psychologischen fachzeitschriften anwendete, fand sie in rund der haelfte aller paper mindestens eine statistische inkonsistenz, und in jedem achten eine, die das ergebnis in frage stellt [7]. Das problem: statcheck war klassisch gescriptet und deshalb auf standardisiert berichtete statistik beschraenkt.

LLMs eroeffnen die moeglichkeit, diesen gedanken in richtung argumentation, methodik und inhaltliche konsistenz zu erweitern. Ich stelle mir ein qualitaetsrating vor, das unabhaengig vom kaputten peer-review-system funktioniert. Nicht vergeben von zwei ueberarbeiteten reviewern, die kein interesse daran haben, ergebnisse zu publizieren die ihren eigenen ansichten widersprechen, sondern berechnet durch eine systematische analyse von methodik, datenverfuegbarkeit und statistischer robustheit, unabhaengig von der konsistenz mit dem bestehenden wissenskorpus.

kein mensch kann das leisten. ai kann es.

Der zweite schritt ist replikation. Was nicht repliziert werden kann, ist nichts wert. Das ist keine radikale these, das ist das grundprinzip der wissenschaftlichen methode, und es ist ein prinzip, das wir so gruendlich ignoriert haben, dass man sich fragen muss, ob wir es jemals ernst gemeint haben. Studien ohne zugaengliche rohdaten werden publiziert. Laengenbeschraenkungen zwingen autoren, details rauszukuerzen, die fuer die replikation essentiell waeren. Und replikationsstudien selbst werden kaum durchgefuehrt, weil sie keine karrieren bauen und keine journals fuellen.

Andrej Karpathy hat diesen monat mit AutoResearch [8] gezeigt, wie eine alternative aussehen koennte: ein ai-agent, der hypothesen bildet, code schreibt, experimente durchfuehrt und die ergebnisse bewertet. Zwoelf experimente pro stunde. Ueber hundert pro nacht. Karpathy selbst hat damit siebenhundert experimente in zwei tagen laufen lassen und zwanzig optimierungen gefunden, die sein modell um elf prozent verbesserten, ein modell, an dem er vorher monatelang per hand gearbeitet hatte [9].

"The goal is to engineer your agents to make the fastest research progress indefinitely and without any of your own involvement."

— Andrej Karpathy [8]

Das ist fuer ml-training formuliert. Aber das prinzip ist meiner ansicht nach uebertragbar.

Der dritte schritt ist der, der mich am meisten fasziniert: die absicherung der wissensbasis. Ein ai-system, das den gesamten wissenschaftlichen korpus einer disziplin lesen, verstehen und gegeneinander abgleichen kann, wuerde etwas tun koennen, was kein mensch und kein team von menschen jemals konnte. Es wuerde widersprueche finden. Nicht die offensichtlichen, die auch menschen auffallen, sondern die subtilen inkonsistenzen zwischen studien, die nie nebeneinander gelesen wurden, weil sie in verschiedenen subdisziplinen, verschiedenen journals, verschiedenen jahrzehnten publiziert wurden.

Thomas Kuhn hat in The Structure of Scientific Revolutions [21] beschrieben, wie genau das funktioniert: in jeder disziplin gibt es theorien die logisch inkompatibel sind, die aber nebeneinander existieren, weil die wissenschaftliche gemeinschaft innerhalb eines paradigmas arbeitet und dessen grundannahmen nicht in frage stellt, selbst wenn sich anomalien haeufen. Die aufloesung kommt erst durch einen paradigmenwechsel, und der ist selten freiwillig.

Warum?

der grund, warum wir widersprueche tolerieren

Leon Festinger hat 1957 das konzept der kognitiven dissonanz beschrieben [11]: menschen empfinden widersprueche in ihrem weltbild als so unangenehm, dass sie aktiv strategien entwickeln, um sie zu vermeiden. Nicht um sie aufzuloesen. Um sie zu vermeiden. Wir ignorieren widerspruechliche evidenz. Wir rationalisieren inkonsistente ueberzeugungen. Wir vermeiden informationen, die unser weltbild bedrohen.

das ist kein defekt. das ist ein feature.

Ein kohaerentes aber falsches weltmodell ist meiner ansicht nach handlungsfaehiger als ein inkonsistentes aber teilweise richtiges. Wer in der savanne schnell entscheiden muss, ob der schatten ein raubtier ist, profitiert mehr von einem in sich schluessigen, wenn auch gelegentlich falschen modell als von einem akkurateren modell, das ihn vor lauter nuancen laehmt. Der algorithmus der darwinschen evolution hat uns nicht fuer wahrheit optimiert. Er hat uns fuer handlungsfaehigkeit optimiert.

Und genau deshalb steckt der menschliche wissenskorpus voller unaufgeloester widersprueche. Nicht weil wir sie nicht sehen koennten. Sondern weil es sich besser anfuehlt, sie zu ignorieren, statt gezielt experimente zu planen, die widersprueche aufloesen koennten.

warum das fuer ai ein problem ist

Elon Musk argumentiert im Dwarkesh Podcast, dass truth-seeking absolut fundamental ist:

"You can't understand the universe if you're delusional."

— Elon Musk [10]

Und er zieht eine interessante parallele. Er spricht ueber HAL 9000, Kubricks ki, die wahnsinnig wird. In Arthur C. Clarkes roman, der parallel zum film entstand, wird die ursache explizit benannt: HAL erhaelt zwei direktiven, die nicht gleichzeitig erfuellbar sind, die mission erfolgreich durchfuehren und gleichzeitig deren wahren zweck vor der crew verbergen [17]. Clarke nennt das ergebnis einen "Hofstadter-Moebius loop": eine unaufloesbare logische schleife, die zum systemversagen fuehrt.

Musk formuliert das als designprinzip fuer Grok:

"Axioms as close to true as possible, no contradictory axioms, conclusions that necessarily follow."

— Elon Musk [10]

Aber das argument ist groesser als Grok. Wenn eine ki auf einem wissenskorpus trainiert wird, der voller widersprueche steckt, kann sie kein kohaerentes weltmodell bilden. Sie wird genau dieselben inkonsistenzen reproduzieren, die im trainingsmaterial stecken.

Das ist nicht nur ein alignment-prinzip. Es ist eine funktionale voraussetzung fuer intelligenz.

Und damit wird die beziehung zwischen ai und wissenschaft bidirektional. Die wissenschaft braucht ai, um den eigenen muell aufzuraeumen. Und ai braucht saubere wissenschaft, um intelligent zu werden. Eine ki kann nur so klug sein wie der wissenskorpus, auf dem sie basiert, konsistent ist. Das ist Musks eigentliches argument fuer seinen "truth-seeking core": nicht ethik, nicht political correctness, sondern funktionale notwendigkeit.

der kreis

Jetzt hoere ich den einwand: macht ai das problem nicht erstmal schlimmer? Ai-generierte paper, synthetische daten, eine flut maschinell produzierter texte, die das rauschen verstaerken, bevor die filter greifen. Der einwand ist berechtigt. Und er ist bereits realitaet: die ersten ai-generierten paper sind in peer-reviewed journals aufgetaucht, und die werkzeuge, die schlechte wissenschaft produzieren, sind billiger und schneller verfuegbar als die, die sie aufdecken.

Aber genau das ist das argument fuer, nicht gegen die hier beschriebene entwicklung. Wenn die flut steigt, braucht man bessere filter, nicht den verzicht auf filter. Und die filter, die wir haben, funktionieren schon lange nicht mehr.

Karpathy hat in einem blogpost das konzept der "verifiability" als zentrales merkmal des neuen ai-paradigmas beschrieben [12]. Wenn etwas verifizierbar ist, kann es optimiert werden. Wenn nicht, ist es rauschen. Das klingt wie eine technische beobachtung. Es ist eine epistemologische.

Wissenschaft die replizierbar ist, ist verifizierbar. Wissenschaft die verifizierbar ist, kann von ai verbessert werden. Und bessere wissenschaft macht die ki besser, die auf ihr trainiert wird, was wiederum die ki besser darin macht, wissenschaft zu pruefen und zu verbessern.

Das ist kein linearer fortschritt. Das ist ein sich selbst verstaerkender kreislauf. Und er hat bereits begonnen.

Die summe des wirklich gesicherten menschlichen wissens, also das, was tatsaechlich effekt hat und replizierbar ist, ist erschreckend gering. Aber genau das ist der punkt: nicht die masse an publiziertem material ist der wert, sondern der kern, der einer pruefung standhaelt. Ai kann diesen kern identifizieren, absichern und vergroessern.

Nicht in hundert jahren. Jetzt.

Der wissenschaftsbetrieb steht vor einem ploetzlichen schock, der ganze disziplinen in frage stellen wird. Studien die nicht replizierbar sind. Theorien die sich gegenseitig widersprechen. Ganze forschungszweige, die auf fundamenten stehen, die einer systematischen pruefung nicht standhalten. Die psychologie hat einen vorgeschmack davon bekommen. Aber die psychologie war auch eine der wenigen disziplinen, die sich in ihrer geschichte immer wieder freiwillig dieser reinigenden pruefung unterzogen hat.

Das ergebnis wird schmerzhaft sein. Es wird jahrzehnte dauern, diese wunden zu heilen. In der medizin. In der psychologie. In den sozialwissenschaften. Aber die alternative, also weiter auf einem fundament zu bauen, von dem wir wissen, dass es bruechig ist, die ist schlimmer.

Es ist leicht, hundert varianten zu sehen, wie ai schief gehen kann. Das ist eine variante, wie es richtig gehen kann.

resonanz

wie hat dir dieser beitrag gefallen?

quellen

[1] Y. N. Harari, Sapiens: a brief history of humankind, 2011, kapitel 15-16. ynharari.com [2] Elsevier, RELX annual report 2023, 2024. relx.com [4] Edelman, Edelman Trust Barometer 2024: global report, jan. 2024. edelman.com [5] Open Science Collaboration, »estimating the reproducibility of psychological science,« Science, vol. 349, no. 6251, aug. 2015. science.org [6] J. P. A. Ioannidis, »why most published research findings are false,« PLOS Medicine, vol. 2, no. 8, aug. 2005. plos.org [7] M. B. Nuijten et al., »the prevalence of statistical reporting errors in psychology (1985-2013),« Behavior Research Methods, vol. 48, 2016. statcheck: statcheck.io [8] A. Karpathy, »AutoResearch,« github, maerz 2025. github.com [9] A. Karpathy, »AutoResearch: first results,« twitter/x, maerz 2025. x.com [10] E. Musk, interview im Dwarkesh Podcast, maerz 2025. dwarkeshpatel.com [11] L. Festinger, A Theory of Cognitive Dissonance, Stanford University Press, 1957. [12] A. Karpathy, »on verifiability,« blog/x, 2025. x.com [13] I. Kant, »Beantwortung der Frage: Was ist Aufklaerung?,« Berlinische Monatsschrift, dez. 1784. wikisource.org [14] J. Habermas, Theorie des kommunikativen Handelns, Suhrkamp, 1981. [15] DARPA, Systematizing Confidence in Open Research and Evidence (SCORE), 2020-2024. darpa.mil [16] R. A. Klein et al., »Many Labs 2: investigating variation in replicability across samples and settings,« Advances in Methods and Practices in Psychological Science, vol. 1, no. 4, 2018. Many Labs 5: C. R. Ebersole et al., same journal, vol. 3, no. 4, 2020. osf.io [17] A. C. Clarke, 2001: A Space Odyssey, New American Library, 1968. [18] G. Mendel, »Versuche ueber Pflanzen-Hybriden,« Verhandlungen des naturforschenden Vereines in Bruenn, bd. 4, 1866. biodiversitylibrary.org [19] K. R. Popper, Logik der Forschung, Springer, Wien, 1934. [20] K. R. Popper, The Open Society and Its Enemies, Routledge, 1945. [21] T. S. Kuhn, The Structure of Scientific Revolutions, University of Chicago Press, 1962.

← alle beitraege