8. März 2026

agentic os: die naechste ui-revolution

alle bausteine fuer die naechste ui-revolution liegen auf dem tisch. aber niemand hat sie richtig zusammengesetzt. das erinnert an etwas.

drei brueche

in meiner bewussten lebenszeit habe ich zwei fundamentale brueche in der mensch-maschine-interaktion miterlebt: der erste bruch war die grafische oberflaeche, die die kommandozeile abloeste. ich erinnere mich an den moment, als ich zum ersten mal windows 95 benutzen konnte; vorher hatte ich nur einen alten 286er, den man nur per cli bedienen konnte, was mich in der grundschule eher ueberfordert hatte. windows danach war etwas, das ich intuitiv bedienen konnte und mir damit eine voellig neue welt eroeffnete.

der zweite bruch war das smartphone: als ich steve jobs im livestream der apple keynote sah, war es einer der wenigen momente in meinem leben in dem ich ein spezielles gefuehl von distinkter qualitaet hatte: dieser moment aendert die welt.

beide revolutionen folgten in der retrospektive demselben muster: die technologischen bausteine existierten lange bevor eine kombination aller bausteine als schluessiges gesamtsystem gefunden wurde. in beiden faellen gab es eine in der rueckschau interessante uebergangsphase, in der eine neue technologie in alte metaphern gepresst wurde bevor dann mit einigem zeitversatz ein produkt kam, das alles richtig zusammensetzte. ich finde es immer witzig, wenn man bei heise oder auf reddit kommentare liest, die all diese erfindungen als eh offensichtlich, trivial und gar nicht neu framen, obwohl die genaue betrachtung zeigt, dass dieses zusammensetzen viel schwerer ist als man denkt.

nun, ich bin mir sicher, wir stehen vor einem erneuten bruch der bestehenden paradigmata. agentic ai, tool use, emotionale sprachinteraktion, autonome agent systeme: es liegen mal wieder sehr viele bausteine auf dem spielfeld. das zusammengesetzte system aber fehlt noch.

die maus brauchte 27 jahre

den ersten bruch habe ich nicht bewusst miterlebt, aber seine geschichte ist dennoch lehrreich. am 9. dezember 1968 demonstriert douglas engelbart in san francisco etwas, das spaeter als »mother of all demos« [1] bekannt wird: eine maus, ueberlappende fenster, hypertext-links, kollaboratives arbeiten in echtzeit. die zukunft des computing in 90 minuten.

fuenf jahre spaeter baut xerox parc den alto [2], den ersten rechner mit grafischer oberflaeche, maus, icons und fenstern. die technologie funktioniert, aber der alto ist kein produkt sondern ein forschungsprojekt. der xerox star folgt 1981 als kommerzielles geraet, ist aber zu teuer und zu langsam. als der apple macintosh 1984 erscheint, ist er der erste brauchbare consumer-computer mit einem echten maus-first-interface, und trotzdem bleibt er ein nischenprodukt. erst windows 95, volle 27 jahre nach engelbarts demo, fuehlt sich fuer die breite masse wie ein betriebssystem an das wirklich fuer die maus gebaut wurde.

27 jahre von der erfindung bis zum massentauglichen produkt. und dazwischen: eine lange phase, in der die maus existiert, aber die interfaces noch fuer die tastatur gedacht sind.

die uebergangsphase

norton commander, 1986. ein dateimanager fuer dos, zwei panels nebeneinander, komplett tastaturgesteuert. ab version 3.0 (1989) bekommt er maus-support, was allerdings nichts am grunddesign aendert, weil die maus ein interface bedient das fuer die tastatur gebaut wurde. das funktioniert, fuer power-user sogar hervorragend, und midnight commander, der open-source-nachfolger, wird heute noch benutzt. aber es ist kein maus-first-interface. es bleibt die alte metapher mit einem neuen input-device.

das ist kein designfehler. es ist ein muster. wenn eine neue interaktionstechnologie entsteht, wird sie zuerst in die bestehenden paradigmen eingefuegt. die maus klickt auf text-menues. der touchscreen bedient miniaturisierte desktop-fenster. und der ai-agent tippt in chatfenster.

vor dem iphone

ich denke es war die cebit 2002 als ich mit einem freund mit der regiobahn nach hannover gefahren bin. dort hatte die deutsche telekom einen riesigen stand aufgebaut auf dem magenta gekleidete menschen herumliefen die einem ein nokia 7650, das erste nokia mit eingebauter kamera [3] in die hand drueckten. wir machen ein foto, schicken es per mms an meine email weiter. magisch und gleichzeitig vollkommen nutzlos.

aber retrospektiv war damals ein moment in dem wichtige neue bausteine auf das spielfeld fielen: eine kamera im telefon, ein mobiles netzwerk das daten uebertragen konnte und das internet das in dieser zeit die fantasien aller befluegelte.

die jahre vor dem iphone sind voll von solchen momenten. palm pilot, 1997: ein stift-basierter organizer mit einer handschrifterkennung namens graffiti, die man erst lernen musste [4]. windows mobile: ein miniaturisiertes desktop-windows mit einem winzigen stylus auf einem winzigen bildschirm, bei dem man das startmenue mit dem stift aufklappen musste. nokia mit symbian: internet ueber wap, tastaturgesteuert. blackberry: email-maschine mit physischer tastatur, geliebt von managern.

alle teile existierten. lithium-ionen-akkus ermoeglichten brauchbare laufzeiten. umts brachte mobiles internet. touchscreens waren erfunden. websites und email wurden breit genutzt.

was fehlte, war nicht technologie. was fehlte, war jemand der radikal sagt: kein stylus, keine physische tastatur, finger-first, multi-touch, und das gesamte interface von null an fuer diese interaktion designt. dieser jemand war steve jobs am 9. januar 2007. [11]

das erste iphone hatte nicht mal umts, nur edge, was langsamer war als was die konkurrenz zu dieser zeit hatte. es hatte kein copy-paste, keine apps von drittanbietern, keinen mms-versand. technisch war es in vielen einzeldisziplinen unterlegen. aber die UX war so fundamental richtig, dass nichts davon eine rolle spielte.

wir schicken uns selbst mms

2026. ich schaue auf die bausteine der naechsten revolution und habe dasselbe gefuehl wie damals am telekom-stand.

llms koennen werkzeuge benutzen, und mit agentic tool use ist die kernfaehigkeit erfunden, die alles weitere ermoeglicht. mcp (model context protocol) standardisiert, wie tools deklariert und aufgerufen werden. WebMCP bringt das in den browser [5]. hume ai hat gezeigt, dass emotionale, natuerliche sprachinteraktion moeglich ist [6]. agentische anwendungen wie claude code und cursor schreiben software, OpenClaw gibt einen ausblick auf autonome agenten, airpods sitzen in millionen ohren und 5g-netze sind ausgebaut, obwohl noch niemand so recht weiss wofuer, was doch frappierend an umts vor dem iphone erinnert.

und was machen wir mit alldem? wir tippen text in electron-webapps.

die chatgpt-desktop-app, claude desktop, gemini im browser: das sind die windows-mobile-phones der ai-aera. man hat ein textfenster mit einem cursor und tippt und wartet, waehrend darunter eine technologie arbeitet, die zu so viel mehr in der lage waere. es funktioniert, fuer power-user sogar hervorragend. claude code ist so etwas wie der midnight commander der agentic aera, ein werkzeug fuer ein anwendungsgebiet das extrem maechtig ist, aber eben kein vollstaendig neues paradigma der computernutzung.

es gab erste versuche, ueber das chatfenster hinauszudenken. der humane ai pin hatte im kern die richtige these, naemlich dass man keinen grossen bildschirm braucht wenn der agent selbst die schnittstelle ist und nicht das display. aber die ausfuehrung war so schlecht, dass hp die assets anfang 2025 fuer 116 millionen dollar aufkaufte und saemtliche pins abschaltete [7]. der rabbit r1 kam mit vier app-integrationen und einem akku der vier stunden durchhielt auf den markt, was ungefaehr so ueberzeugend war wie es klingt [8]. das sind die palms und pocket pcs unserer zeit. die richtung stimmt, aber die umsetzung zeigt, wie schwer dieses zusammensetzen wirklich ist.

das naechste paradigma

wie sieht das betriebssystem aus, das fuer agenten gebaut ist?

die ehrliche antwort: niemand weiss es. so wie 2006 niemand wusste, wie ein smartphone aussehen sollte, das fuer finger gebaut ist. aber man kann die richtung skizzieren.

ein agent der im hintergrund laeuft, der filtert, plant und handelt, braucht keinen grossen bildschirm. was er braucht ist eine verbindung und ein mikrofon. gelegentlich braucht er ein display, wenn man etwas sehen will, vergleichen, auswaehlen. aber fuer die meisten interaktionen reicht audio.

das geraet waere vielleicht wieder kleiner als aktuelle smartphones, tragbar wie eine brosche, aufklappbar mit faltbildschirm wenn man doch einen screen braucht. es wird rund um die uhr aufnehmen, audio und vielleicht auch video, und haette damit alle wesentlichen informationen immer zur hand. zusammen mit airpods ergibt das ein system, das die meisten aufgaben erledigen kann die heute einen bildschirm erfordern.

star trek the next generation ist hier wie so oft richtungsweisend. »computer, wann ist mein naechstes meeting?« funktioniert wunderbar ueber sprache. »computer, zeig mir den weg zum turbolift auf deck 7« funktioniert dagegen besser mit einem screen. nicht voice oder touch allein ist die loesung, sondern die mischung aus beidem.

und die architektur waere vielleicht ein radikaler thin client mit minimaler lokaler rechenleistung, weil die cloud alles schwere uebernimmt. wenn selbst spiele inzwischen besser gestreamt als lokal berechnet werden, wie nvidia geforce now zeigt [9], dann ist es eigentlich unsinn, in mobile geraete noch grosse rechenleistung zu packen. was zaehlt ist batterielaufzeit und groesse und 5g, das bisher eine loesung ohne problem war, waere die infrastruktur die das ermoeglicht.

was wegfaellt

settings zum beispiel, die ohnehin niemand bedienen kann, weil sie inzwischen selbst bei apple so ueberladen sind dass man sich darin verliert. ein agent konfiguriert sich selbst und fragt den nutzer nach seinen vorlieben. app-grids und homescreens sind relikte der app-aera, so wie lesezeichen-leisten relikte der webseiten-aera sind. manuelles notification-management wird ueberfluessig, weil der agent entscheidet was die aufmerksamkeit seines nutzers verdient und was nicht.

die attention-umkehr

die letzten 10 bis 15 jahre der tech-industrie lassen sich in einem satz zusammenfassen: plattformen optimieren auf zeit-auf-plattform. infinite scroll, autoplay, push notifications, dark patterns die dafuer sorgen, dass dein gesicht auf den bildschirm gerichtet bleibt. die gesamte plattform-oekonomie basiert darauf, deine aufmerksamkeit zu monetarisieren.

ein agentisches betriebssystem wuerde das invertieren. nicht mehr die plattform entscheidet was du siehst, sondern dein agent entscheidet was deine aufmerksamkeit verdient. er filtert, kuratiert, fasst zusammen und handelt 24/7 autonom im hintergrund. die attention koennte sich damit zum ersten mal seit 30 jahren wieder weg von den devices bewegen.

in meinem letzten artikel ueber webmcp habe ich beschrieben, wie sich die oberflaeche des werbefinanzierten internets aufloest, wenn agents direkt mit strukturierten schnittstellen interagieren. hier geht es um die konsequenz: wenn die oberflaeche verschwindet, verschwindet mit ihr das geschaeftsmodell das auf oberflaechen basiert.

aus meiner sicht ist die frage nicht ob das passiert. sondern die frage ist fuer wen.

dein agent arbeitet fuer dich — oder fuer jemand anderen

wer geld hat, leistet sich schon heute mindestens eine bezahlte ki wenn nicht sogar die besonders leistungsfaehige max variante. wer auf produktivitaet wert legt, hat laengst verstanden dass social media den benutzern schadet und diese plattformen nicht dafuer sorgen, dass es einem gut geht, auch wenn die wenigsten es schaffen die konsequenz daraus zu ziehen. das ist kein geheimnis, das ist eine binsenweisheit die trotzdem nichts aendert, weil die konditionierenden attention-mechanismen maechtiger sind als einsicht.

ein agentisches os koennte das technisch aufbrechen. aber die frage ist das geschaeftsmodell.

klasse eins: dein agent arbeitet fuer dich. du bezahlst ein abo, vielleicht 200 oder 300 euro im monat, und der agent ist loyal weil du sein kunde bist. er filtert werbung, kuratiert was relevant ist, kuendigt abos die du nicht brauchst, verhandelt preise und handelt grundsaetzlich in deinem interesse.

klasse zwei: dein agent ist kostenlos, also bist du das produkt. nur dass es diesmal kein feed ist den du theoretisch schliessen koenntest, sondern ein autonomer agent der entscheidungen fuer dich trifft. der dir das hotel »empfiehlt« das die hoechste provision zahlt. der »vergisst« dein abo zu kuendigen. der nachrichten so zusammenfasst, dass bestimmte perspektiven betont werden und der einem »passende« produkte vorschlaegt.

das waere fundamental schlimmer als social media dark patterns. bei instagram weisst du zumindest theoretisch, dass du manipuliert wirst. ein agent der nicht in deinem interesse handelt aber so tut als ob — das waere eine neue kategorie der dark patterns.

die marktstruktur treibt genau dorthin: google und meta muessen ihre agenten werbefinanziert anbieten, das ist ihr geschaeftsmodell. die alternative waere, das eigene geschaeftsmodell abzuschaffen, und das tut kein boersennotiertes unternehmen freiwillig. also werden kostenlose agenten kommen die nicht neutral sind. die frage ist nur wie sichtbar das sein wird.

das apple-dilemma

apple ist aus meiner sicht der einzige grosse player dessen geschaeftsmodell nicht nur von attention abhaengt, weil sie von hardware-margen leben statt von werbe-einnahmen. apple hat das oekosystem, die chips, die integration, die zahlungsbereiten kunden und die privacy-positionierung. man sollte meinen, wenn jemand das agentic os bauen kann, dann apple.

und gleichzeitig wirken sie orientierungslos: mac studios mit m-chips die aus versehen so leistungsfaehig sind dass sie lokal llms laufen lassen koennen, sprechen kundengruppen an die man schon lange aus dem fokus genommen hatte.

das problem hier ist offensichtlich nicht technologie. das problem ist, dass ein echtes agentic os das gesamte bestehende geschaeftsmodell auf den kopf stellen wuerde. der app store, die ios-ui-philosophie, das verhaeltnis zu content-anbietern, die ganze homescreen-metapher, das muesste alles fallen. der ceo tim cook scheint bisher jemand zu sein dem niemand etwas vormacht das bestehende zu optimieren. aber ich glaube er macht keinen 180-grad-turn der die eigene plattform kannibalisiert bevor er in den ruhestand geht.

steve jobs war da anders, er hat den flash-krieg gefuehrt und sich mit der gesamten musikindustrie angelegt. er haette jederzeit die eigene plattform zerstoert um die naechste zu bauen. cook ist kein jobs, was keine kritik an seiner person sein soll, weil fast niemand jobs ist und jobs auch cook brauchte um aus apple eine geldmaschine zu machen, aber es bedeutet, dass apples zukunft auf messers schneide steht.

die offenen fragen

die parallelen zur smartphone-revolution sind fuer mich offensichtlich: die bausteine existieren, fruehe versuche scheitern an ihrer ausfuehrung, nicht an der idee, die etablierten player bewegen sich zaghaft und tun sich schwer die richtige kombination der bausteine zu finden.

aber es gibt auch unterschiede: das smartphone war ein consumer-device mit einem sofort greifbaren nutzen, weil es telefon, internet und kamera in die hosentasche brachte. ein agentic device hat einen vageren nutzen, weil es dinge besser macht die du vorher auch gemacht hast, nur eben anders. und der sprung von »ich tippe eine nachricht« zu »mein agent regelt das« ist konzeptuell und psychologisch weiter als der sprung dinge die man bisher am pc gemacht hat nun auch mobil mit dem smartphone zu machen.

dazu kommen konzeptionelle fragen, auf die es bisher noch keine guten antworten gibt: 24/7-recording ist technisch moeglich und fuer einen guten agenten fast notwendig, aber die microsoft-recall-debatte [10] hat gezeigt, wie schnell so etwas kippen kann. ein geraet das alles aufzeichnet ist immer auch ein ueberwachungsgeraet, und die grenze zwischen »mein agent erinnert sich fuer mich« und »mein agent ueberwacht mich« ist schmaler als man denkt.

dazu kommt, dass die plattformen der letzten jahre offene protokolle eher abgebaut als aufgebaut haben. rss ist de facto tot, twitter hat seine api geschlossen, reddit hat seine api kostenpflichtig gemacht. offene standards waeren gerade jetzt unglaublich maechtig, aber die incentives stimmen nicht, weil die grossen player kurzfristig mehr durch offenheit verlieren als sie gewinnen.

und dann ist da die fundamentalste frage, naemlich wer das ganze baut: nicht die technik, die existiert. sondern das produkt, das ding das rueckblickend offensichtlich wirkt, so wie das iphone rueckblickend offensichtlich wirkt. jemand muss voice, touch, agent, cloud, hardware, trust und connectivitaet so zusammensetzen, dass es sich anfuehlt als koennte es nicht anders sein. das ist keine technologie-frage, sondern eine design-frage, und es ist die groesste seit 2007.

die antwort koennte von einem unternehmen kommen das heute noch nicht existiert. oder von einem das wir kennen aber unterschaetzen. oder es koennte noch ein jahrzehnt dauern, so wie es von engelbarts demo bis zum macintosh 16 jahre gedauert hat. die muster der vergangenheit sagen: es wird kommen. die muster der vergangenheit sagen auch: es wird ueberraschend aussehen.

bis dahin schicken wir uns selbst mms.

resonanz

wie hat dir dieser beitrag gefallen?

quellen

[1] D. Engelbart, »the mother of all demos,« fall joint computer conference, san francisco, 9. dezember 1968. wikipedia [2] xerox parc, »xerox alto,« 1973. erster rechner mit grafischer oberflaeche, maus und fenstern. wikipedia [3] nokia 7650, erstes nokia-telefon mit eingebauter kamera und mms-support. veroeffentlicht juni 2002. wikipedia [4] palm pilot, maerz 1997. stift-basierter pda mit graffiti-handschrifterkennung. wikipedia [5] T. Zindler, »webmcp: das ende des oberflaechlichen internets,« 2026. zindler.dev [6] hume ai, empathic voice interface (evi). hume.ai [7] I. Mehta, »humane's ai pin is dead as hp buys startup's assets for $116m,« techcrunch, februar 2025. techcrunch.com [8] rabbit r1, 2024. dediziertes ai-hardware-device mit vier app-integrationen. wikipedia [9] nvidia geforce now, cloud-gaming-plattform. nvidia.com [10] microsoft recall, angekuendigt mai 2024. feature das screenshots des bildschirms aufzeichnet und durchsuchbar macht. nach massiver kritik mehrfach verschoben. wikipedia [11] S. Jobs, iphone-vorstellung auf der macworld keynote, 9. januar 2007. youtube

← alle beitraege