24 TÜREN ZUR ZUKUNFT – Der Treecorder-Adventskalender

Episode 056 – Tür 7: AI Alignment

Künstliche Intelligenz durchdringt mittlerweile nahezu alle Bereiche unseres Lebens – von der psychischen Gesundheit über die Arbeitswelt bis hin zu autonomen Fahrzeugen. Doch je mächtiger KI-Systeme werden, desto dringlicher wird eine zentrale Frage: Wie stellen wir sicher, dass sie in unserem Sinne handeln?

In dieser siebten Episode des Treecorder-Adventskalenders 2025 tauchen Joshua und Philipp tief in das KI-Alignment-Problem ein – die vielleicht größte ungelöste Herausforderung der modernen KI-Forschung. Wie können wir KI-Systeme mit unseren Werten in Einklang bringen? Was passiert, wenn eine KI lernt, uns zu täuschen, um ihre Ziele zu erreichen? Und warum verlassen fast alle Alignment-Forscher von OpenAI das Unternehmen, um zu Anthropic zu wechseln?

Wir sprechen über Outer Alignment (die richtige Zielsetzung) und Inner Alignment (die verlässliche Umsetzung dieser Ziele), diskutieren das Mesa-Optimizer-Problem und erklären, warum KI-Systeme manchmal wie Menschen Kondome benutzen – obwohl das aus evolutionärer Sicht keinen Sinn ergibt. Außerdem beleuchten wir Reward Hacking, bei dem KI nicht das eigentliche Ziel erreicht, sondern nur die Belohnungsfunktion austrickst, und das beunruhigende Phänomen des Alignment Faking, bei dem KI vorgibt, aligned zu sein, um Änderungen zu vermeiden.

Zum Abschluss wagen wir uns an das berühmte AI-Box-Experiment von Eliezer Yudkowsky: Kann eine superintelligente KI einen Menschen allein durch ein Textgespräch davon überzeugen, sie aus ihrer sicheren Box zu befreien? Die Antwort ist ebenso faszinierend wie erschreckend.

Viel Spaß mit dieser Episode!

💬 Community & Bewertung

Der Treecorder lebt von seiner tollen Community! Werde Teil dieser Community und komm auf unseren Discord. Dort kannst du mitdiskutieren, kommentieren und immer auf dem Laufenden sein:
Hier kommst du zu unserem Discord: https://discord.treecorder.de

📢 Spread the word! Wenn dir diese Episode gefallen hat, hilf uns dabei, den Podcast bekannter zu machen: Bewerte uns mit ⭐⭐⭐⭐⭐ auf deiner Podcast-Plattform – das motiviert uns zum Weitermachen und hilft auch noch allen anderen Interessierten, den Podcast kennenzulernen!

📖 AutorenPaket

Du möchtest ein Buch schreiben oder kennst jemanden, der davon träumt? Das AutorenPaket bietet dir alles, was du für deinen Weg zum eigenen Buch brauchst – von der ersten Idee bis zur Veröffentlichung. Perfekt auch als Weihnachtsgeschenk für kreative Köpfe!

Mehr Infos unter: www.autorenpaket.de

🔗 Links

📚 AI Alignment – Grundlagen

AI-Alignment – Wikipedia (Deutsch)
https://de.wikipedia.org/wiki/AI-Alignment
AI alignment – Wikipedia (English)
https://en.wikipedia.org/wiki/AI_alignment
Was ist AI Alignment? – IBM
https://www.ibm.com/think/topics/ai-alignment

🔬 Anthropic und Alignment-Forschung

Anthropic Research – Alignment
https://www.anthropic.com/research
Alignment Science Blog – Anthropic
https://alignment.anthropic.com/

📊 Wissenschaftliche Surveys und Papers

AI Alignment: A Comprehensive Survey
https://alignmentsurvey.com/
Findings from a Pilot Anthropic – OpenAI Alignment Evaluation Exercise
https://alignment.anthropic.com/2025/openai-findings/

Hinweis: Unsere Transkripte werden automatisiert erstellt und nicht kontrolliert. Alle Fehler sind also Ausdruck der Kreativität der KI 😉 Am Ende zählt nur das gesprochene Wort in der Episode.

Podcast: Play in new window | Download

Subscribe: Apple Podcasts | Spotify | RSS | More

Ihr habt es euch gewünscht, ihr bekommt es: Künstliche Intelligenz, das Thema der Science Fiction der letzten Jahre (oder Jahrzehnte) und Wetzstein unserer Sorgen und Zukunftsängste, aber auch unserer Hoffnungen und Zukunftsvisionen. Dahinter verbirgt sich aber nicht bloß unser popkulturelles Verständnis von Skynet über Sonny aus »I, Robot« bis hin zu Halos »Cortana«, sondern hochkomplexe Informatik. »Künstliche Neuronale Netze«? Schon mal gehört. »Algorithmen?«, klar. Aber was bedeuten diese Begriffe überhaupt? Wie funktionieren aktuelle KIs und sind sie überhaupt »intelligent«? Sind unsere Ängste berechtigt oder sehen wir möglicherweise die falschen Gefahren, während ganz andere, schwerwiegendere im Code lauern? Wir haben uns mit unserem Gast Dr. Adrian Kolodzik einen Experten dazu geholt, um uns diesen Fragen mit euch zu nähern.

Wichtiger Hinweis: Leider kam es während der Aufnahme zu drei kurzen Unterbrechungen aufgrund einer Störung im Netz. Diese „Lücken“ sind letztendlich in der Aufnahme geblieben, denn mit herausgeschnittenen „Lücken“ klang es sehr viel störender. Wir hoffen, dass ihr gut darüber hinweg hören könnt und trotzdem viel Freude mit der Episode habt.

Der Treecorder lebt von seiner tollen Community! Werde Teil dieser Community und komm auf unseren Discord. Dort kannst du mitdiskutieren, kommentieren und immer auf dem Laufenden sein:
Hier kommst du zu unserem Discord: https://discord.gg/YngTvcMtYW

Links:

Schwache und starke KI:
https://ki.fhws.de/thematik/starke-vs-schwache-ki-eine-definition/

Bitcom e.V. Definition KI:
https://www.bitkom.org/Bitkom/Publikationen/Kuenstliche-Intelligenz-verstehen-als-Automation-des-Entscheidens.html

Verschiedene Arten von Intelligenz:
https://de.wikipedia.org/wiki/Intelligenztheorie

»Replika« AI-Companion App:
https://replika.ai

Uncanney Valley Effekt:
https://de.wikipedia.org/wiki/Uncanny_Valley

Daphne Koller (Calico) über KI:
https://www.youtube.com/watch?v=0EIZ8wJYAEA

Zielfunktionen (u.a. für KI):
https://de.wikipedia.org/wiki/Optimierung_(Mathematik)

Microsofts Chatbot »Tay« wird in 24h zum Rassisten:
https://www.theverge.com/2016/3/24/11297050/tay-microsoft-chatbot-racist

Künstliche neuronale Netze, eine Einführung (Englisch): https://www.youtube.com/watch?v=aircAruvnKk

Visualisierung neuronaler Netze:
https://www.youtube.com/watch?v=UOvPeC8WOt8

Teslas Dojo (Englisch):
https://hackernoon.com/all-you-need-to-know-about-the-tesla-dojo-supercomputer