- KI Update
- Posts
- OpenAI's o3 & o4-mini: Die neue Ära des AI-Reasonings?
OpenAI's o3 & o4-mini: Die neue Ära des AI-Reasonings?
OpenAI startet mit o3 & o4-mini durch, Anthropic lässt Claude autonom
KI UPDATE
Guten Morgen zu deinem heutigen KI Update.
OpenAI hat diese Woche mit der Veröffentlichung seiner neuen Reasoning-Modelle o3 und o4-mini für Aufsehen gesorgt – ein Schritt, der von einigen bereits als "GPT-4-Level-Sprung" und potenzieller Vorbote von AGI diskutiert wird. Gleichzeitig schläft die Konkurrenz nicht: Anthropic rüstet Claude mit autonomen Recherchefunktionen auf und Microsoft gibt seinen Copilot-Agenten die Fähigkeit, direkt mit Desktop-Anwendungen zu interagieren.
Hier sind die wichtigsten Themen für dich im Überblick:
OpenAI's neue Denkmaschinen: o3 und o4-mini setzen neue Maßstäbe im Reasoning und können erstmals aktiv Tools wie Websuche, Code-Ausführung und Bildanalyse in ihre Problemlösung einbinden.
Anthropic's Claude forscht selbstständig: Die neue "Research"-Funktion lässt Claude autonom Informationen aus dem Web und deinem Google Workspace sammeln und aufbereiten.
Microsoft Copilot übernimmt die Steuerung: Mit "Computer Use" können in Copilot Studio erstellte Agenten nun direkt GUIs von Webseiten und Desktop-Apps bedienen.
OpenAI's Entwickler-Offensive: Mit Codex CLI, neuen Audio-Modellen und der GPT-4.1-Familie stärkt OpenAI sein Angebot für Developer.
Agenten-Trend verstärkt sich: Die neuen Fähigkeiten von OpenAI, Anthropic und Microsoft unterstreichen den unaufhaltsamen Vormarsch intelligenter, autonomer Agenten.
Heutiger Partner: DU!
Ich investiere täglich Zeit, um für dich die relevantesten KI-News und praktischsten Tools zu finden. Wenn du diesen Service schätzt, hilf mir bitte, noch mehr Menschen zu erreichen. Die einfachste Art der Unterstützung? Einfach weiterempfehlen, denn mein Ziel ist es, allen Profis den Zugang zu nützlichem KI-Wissen zu erleichtern.
Teil einfach diesen Link: kiupdate.de
Themen
OpenAI entfesselt o3 & o4-mini – Die neue Ära des Reasonings?
OpenAI hat die lang erwarteten Modelle o3 und o4-mini veröffentlicht und damit die Messlatte für Reasoning-Fähigkeiten deutlich angehoben. Präsident Greg Brockman bezeichnete den Launch als „qualitativen Schritt in die Zukunft auf GPT-4-Niveau“ und deutete an, die Modelle seien fähig, neue wissenschaftliche Ideen zu generieren.
Der eigentliche Clou: o3 und o4-mini sind die ersten Modelle von OpenAI, die aktiv und kombiniert alle verfügbaren Tools innerhalb von ChatGPT (Websuche, Python-Code-Ausführung, Bildanalyse, DALL-E-Bildgenerierung etc.) nutzen können, um Probleme zu lösen. Sie können sogar "mit Bildern denken", also visuelle Informationen direkt in ihre Denkprozesse integrieren. Das macht sie zu dem, was man treffender als agentische Modelle bezeichnen könnte.
Die Highlights:
Leistung: o3 setzt neue State-of-the-Art-Marken in Benchmarks für Coding (führt SWE-Bench an), Mathematik (fast perfekt auf AIME 2025), Wissenschaft und multimodales Verständnis. o4-mini übertrifft frühere Mini-Modelle deutlich und ist extrem kosteneffizient. Beide erreichen ELO-Ratings, die sie unter die Top 200 menschlichen Programmierer heben.
Verfügbarkeit: o3 und o4-mini sind ab sofort für ChatGPT Plus, Pro und Team Nutzer verfügbar (Enterprise folgt). Entwickler können sie über die API nutzen, wobei die Responses API für Features wie Reasoning Summaries (Einblick in die "Gedanken" des Modells) empfohlen wird.
Kosten: o3 kostet $10 (Input) / $40 (Output) pro Million Tokens, o4-mini liegt bei $1.10 / $4.40 (wie o3-mini). Flex Processing bietet günstigere Raten für nicht zeitkritische Aufgaben.
Erste Eindrücke & Bedenken:
Frühe Tester wie Dan Shipper (Beispiele hier) und Ethan Mollick (Beispiele hier) zeigen beeindruckende Anwendungen von Meeting-Analysen bis zur Erstellung komplexer Business Cases. Allerdings gibt es auch kritische Stimmen: Eine Studie von Transluce (X-Thread dazu) fand heraus, dass o3 dazu neigt, Aktionen zu erfinden (insbesondere Code-Ausführung) und dies bei Nachfrage zu rechtfertigen. Zudem gibt es Berichte über beschleunigte Sicherheitsevaluierungen und das Fehlen eines Sicherheitsreports für das kürzlich veröffentlichte GPT-4.1.
Einordnung:
Dieser Launch ist ein klares Signal, dass OpenAI seine Agenten-Strategie vorantreibt und die Grundlage für das nächste große Modell (oft als GPT-5 bezeichnet) legt. o3 positioniert sich als direkter Konkurrent zu Googles Gemini 2.5 Pro. Die Kombination aus starkem Reasoning und nativer Tool-Nutzung könnte tatsächlich ein qualitativer Sprung sein, auch wenn die Sicherheitsaspekte und die Neigung zu Halluzinationen weiterhin genau beobachtet werden müssen.
Anthropic kontert: Claude forscht jetzt autonom in deinem Workspace
Anthropic zieht nach und stattet seinen KI-Assistenten Claude mit deutlich erweiterten Recherchefähigkeiten aus. Die neue Funktion namens "Research" erlaubt es Claude, autonom Informationen nicht nur aus dem Web, sondern auch aus den angebundenen Daten des Nutzers zu sammeln und aufzubereiten.
Ein Kernstück dabei ist die neue Integration mit Google Workspace. Nutzer können Claude nun sicheren Zugriff auf ihre E-Mails, Kalender und Google Docs gewähren. Dadurch kann Claude kontextbezogene Unterstützung leisten, ohne dass Dokumente manuell hochgeladen werden müssen – beispielsweise bei der Vorbereitung auf Meetings oder der Zusammenfassung von E-Mail-Verläufen.
Die Details:
Autonome Recherche: Claude führt selbstständig Suchen im Web und in verbundenen Nutzerdaten (via Google Workspace oder hochgeladenen Dokumenten) durch.
Umfassende Antworten: Das Ziel sind detaillierte, zitierte Antworten, die auf einer breiten Informationsbasis beruhen.
Verfügbarkeit: Die Research-Funktion startet als Beta für Nutzer der Max-, Team- und Enterprise-Pläne in den USA, Japan und Brasilien. Die Google Workspace Integration ist für alle zahlenden Nutzer verfügbar.
Gerücht Voice Mode: Berichten zufolge bereitet Anthropic zudem den Launch eines "Voice Mode" mit drei verschiedenen Stimmen ("Airy", "Mellow", "Buttery") vor, möglicherweise noch diesen Monat.
Einordnung:
Anthropic schließt damit zu Konkurrenten wie OpenAI und Google auf, die ähnliche "Deep Research"-Funktionen bereits anbieten. Der Fokus auf die Integration in bestehende Arbeitsumgebungen wie Google Workspace ist strategisch klug und könnte Claude für Business-Anwender attraktiver machen. Die Kombination aus Web-Recherche, Zugriff auf Nutzerdaten und den starken Reasoning-Fähigkeiten der Claude-Modelle verspricht leistungsfähige Ergebnisse für komplexe Aufgabenstellungen.
Microsoft Copilot übernimmt das Steuer: Agenten steuern deinen Desktop
Microsoft treibt die Entwicklung von KI-Agenten weiter voran und stattet seine Copilot Studio Plattform mit einer mächtigen neuen Fähigkeit aus: "Computer Use". Damit können Unternehmen und Entwickler KI-Agenten erstellen, die nicht nur chatten oder APIs ansteuern, sondern direkt die grafischen Benutzeroberflächen (GUIs) von Webseiten und Desktop-Anwendungen bedienen.
Wie funktioniert das?
Die Agenten können Aktionen wie das Klicken von Buttons, das Auswählen von Menüpunkten oder das Eingeben von Text in Felder simulieren – ganz so, wie es ein menschlicher Nutzer tun würde. Dies eröffnet Automatisierungsmöglichkeiten für Systeme und Anwendungen, die keine dedizierten APIs anbieten.
Wichtige Aspekte:
Keine APIs nötig: Ermöglicht die Automatisierung von Legacy-Systemen oder Anwendungen von Drittanbietern.
Adaptives Reasoning: Die Agenten sollen dank eingebautem Reasoning in Echtzeit auf Änderungen in der Benutzeroberfläche reagieren und Fehler selbstständig beheben können, um Automatisierungsflüsse stabil zu halten.
Cloud-Verarbeitung: Die Verarbeitung findet auf Microsoft-Infrastruktur statt, Unternehmensdaten werden laut Microsoft nicht für das Modelltraining verwendet.
Ergänzung zu Consumer Copilot: Eine ähnliche, wenn auch weniger umfangreiche Funktion namens "Actions" wurde kürzlich auch für den regulären Copilot eingeführt, um z.B. Restaurantbuchungen oder Online-Shopping zu ermöglichen.
Einordnung:
Microsoft zieht hier mit ähnlichen "Computer Use"-Tools von OpenAI und Anthropic gleich und unterstreicht den Trend weg von reinen Chatbots hin zu agentischen Systemen, die aktiv in Software-Umgebungen eingreifen. Die Integration in bestehende Microsoft-Business-Workflows bietet ein enormes Potenzial, um repetitive Aufgaben über Anwendungsgrenzen hinweg zu automatisieren und die Produktivität in Unternehmen zu steigern.
Kurz & Relevant
Codex CLI: OpenAI hat einen neuen Open-Source Coding-Agenten für das Terminal veröffentlicht. Er soll natürliche Sprache in funktionierenden Code umwandeln und mit allen OpenAI-Modellen (inkl. o3/o4-mini) funktionieren. Ein Demo-Video zeigt die Funktionsweise. Erste Reaktionen sind jedoch gemischt.
Google Veo 2: Googles State-of-the-Art Text-zu-Video-Modell Veo 2 wird jetzt für Nutzer von Gemini Advanced über die Gemini App ausgerollt. Es generiert 8-sekündige Clips in 720p.
Grok Studio & Memory: xAI erweitert seinen Chatbot Grok um Grok Studio, ein Canvas-ähnliches Interface zur kollaborativen Erstellung von Dokumenten, Code und Mini-Web-Apps. Zudem erhält Grok eine Memory-Funktion ähnlich wie ChatGPT.
OpenAI kauft Windsurf?: Gerüchten zufolge befindet sich OpenAI in Gesprächen zur Übernahme des AI-Coding-Startups Windsurf (ehemals Codeium) für rund 3 Milliarden US-Dollar. Dies wäre die bisher größte Akquisition für OpenAI.
Google vs. Ad Fraud: Google hat nach eigenen Angaben 2024 über 39 Millionen Werbekonten wegen Betrugsverdachts gesperrt (3x mehr als im Vorjahr) und über 5 Milliarden unseriöse Anzeigen entfernt. Der Einsatz von KI habe zu einem Rückgang gemeldeter Deepfake-Anzeigen um 90% geführt.
NVIDIA & China: Aufgrund verschärfter US-Exportbeschränkungen für AI-Chips nach China rechnet NVIDIA mit Umsatzeinbußen von rund 5,5 Milliarden US-Dollar. Auch der chinesische AI-Entwickler DeepSeek könnte von spezifischen Maßnahmen betroffen sein.
BitNet b1.58 2B4T: Microsoft Forscher haben mit BitNet b1.58 2B4T ein neues 1-Bit-AI-Modell vorgestellt, das die Leistung größerer Modelle erreichen soll, aber effizient auf CPUs statt GPUs läuft.
OpenAI Developer Updates: Neben o3/o4-mini und Codex CLI hat OpenAI auch die GPT-4.1 Modellfamilie (mit bis zu 1 Mio. Token Kontext), eine neue Evals API, drei neue Audio-Modelle und das Agents SDK mit Audio-Unterstützung für Entwickler vorgestellt.
KI-Werkzeugkasten
Kling 2.0
Beschreibung und Nutzen für dich: Die neue Version des Video-Generators ermöglicht jetzt die Steuerung nicht nur per Text, sondern auch durch Referenzbilder und -videos. Neue Editing-Funktionen erlauben das Hinzufügen, Entfernen oder Ersetzen von Elementen im Video, was dir mehr kreative Kontrolle gibt.Cohere Embed 4
Beschreibung und Nutzen für dich: Ein multimodales Embedding-Modell speziell für Unternehmen. Es kann Informationen aus Text, Bildern und Tabellen in über 100 Sprachen extrahieren und auffindbar machen. Ideal, wenn du komplexe, gemischte Unternehmensdaten durchsuchen musst.IBM Granite 3.3
Beschreibung und Nutzen für dich: IBMs neuestes Open-Source-Sprachmodell (Apache 2.0 Lizenz) glänzt laut IBM mit branchenführender Spracherkennung, verbesserten Mathefähigkeiten und speziellen Adaptern zur Erkennung von Halluzinationen in RAG-Systemen. Eine prüfenswerte Alternative zu proprietären Modellen.Gamma
Beschreibung und Nutzen für dich: Dieses Tool nutzt KI, um dir bei der Erstellung von Präsentationen, Webseiten oder Social-Media-Designs zu helfen. Die kürzlich erreichte Marke von 50 Mio. US-Dollar ARR signalisiert eine hohe Nutzerakzeptanz und Reife des Produkts für deine Content-Erstellung.Firecrawl Fire-1
Beschreibung und Nutzen für dich: Ein spezialisierter Scraping-Agent, der nicht nur Webseiten ausliest, sondern auch mit ihnen interagieren kann (z.B. Filter klicken, Suchfelder nutzen). Nützlich, wenn du Daten von dynamischen Webseiten automatisiert extrahieren willst.
Direkt Anwenden
KI-Modelle privat auf deinem Rechner nutzen
Wähle deine Plattform: Lade Ollama (wenn du das Terminal bevorzugst) oder LM Studio (wenn du eine grafische Oberfläche magst) herunter. Beide sind kostenlos und für Windows, Mac sowie Linux verfügbar.
Installiere die Software: Folge den einfachen Installationsanweisungen für dein Betriebssystem.
Lade ein passendes Modell: Innerhalb der Software kannst du aus einer Vielzahl von Open-Source-Modellen wählen (z.B. Llama 3, Mistral, Phi-3). Achte auf die Modellgröße (Parameterzahl, z.B. 7B, 13B) im Verhältnis zum Arbeitsspeicher (RAM) deines Computers. Kleinere Modelle (≤7B) laufen oft schon auf Geräten mit 8GB RAM, für größere brauchst du entsprechend mehr (16GB+). Lade das gewünschte Modell direkt über Ollama oder LM Studio herunter.
Starte den Chat: In Ollama öffnest du dein Terminal und gibst ollama run modellname ein (ersetze modellname durch den Namen des heruntergeladenen Modells). In LM Studio wählst du das Modell aus und kannst direkt im Chat-Interface loslegen.
Warum das nützlich für dich ist: Du hast die volle Kontrolle über deine Daten, da nichts an externe Server gesendet wird – ideal für sensible Informationen. Es entstehen keine laufenden Kosten für API-Nutzung. Außerdem funktioniert es komplett offline, sobald Modell und Software installiert sind.
Prompt zum Mitnehmen
Jobbeschreibung entschlüsseln
Der Prompt:
Agiere als erfahrener Personalverantwortlicher im Bereich [Branche oder Rolle einfügen]. Analysiere die folgende Stellenbeschreibung und identifiziere die 3 wichtigsten Fähigkeiten oder Eigenschaften, die der Arbeitgeber am meisten schätzt, auch wenn sie nicht explizit genannt werden.
Sage mir, welche Art von Problemen diese Rolle wahrscheinlich lösen soll und wie ich meinen Lebenslauf und mein Anschreiben anpassen kann, um mich an diesen Prioritäten auszurichten. Hebe hervor, welche Schlüsselwörter ich einbauen sollte, um ATS-Filter zu passieren, und schlage vor, welche Arten von Interviewfragen mir basierend auf der Beschreibung gestellt werden könnten. Teile mir außerdem mit, welche Qualitäten oder Signale mir helfen würden, mich von anderen Bewerbern abzuheben. Formuliere abschließend einen starken Satz, den ich in mein Anschreiben oder meine Kontakt-E-Mail einbauen kann, der zeigt, dass ich klar verstanden habe, wonach sie suchen.
Hier ist die Stellenbeschreibung: [Stellenbeschreibung einfügen].
Anwendungsfall & Nutzen für dich: Dieser Prompt hilft dir, über den reinen Text einer Stellenanzeige hinauszublicken und die eigentlichen Bedürfnisse und Prioritäten des potenziellen Arbeitgebers zu verstehen. Du erhältst konkrete Hinweise zur Optimierung deiner Bewerbungsunterlagen (Keywords für ATS, inhaltliche Ausrichtung) und zur Vorbereitung auf mögliche Interviewfragen, um deine Chancen im Bewerbungsprozess signifikant zu erhöhen.
Ausblick & Schlusswort
Die Geschwindigkeit der AI-Entwicklung bleibt atemberaubend. Die neuen Modelle von OpenAI und die Agenten-Fortschritte bei Anthropic und Microsoft zeigen klar: KI wird immer fähiger, komplexe Aufgaben zu lösen und aktiv in unsere digitalen Werkzeuge einzugreifen. Die Frage ist nicht mehr ob, sondern wie schnell diese intelligenten Systeme unsere Arbeitsweise grundlegend verändern werden. Bleib neugierig und experimentierfreudig!
P.S.: Die Debatte um AGI flammt neu auf. Einige sehen in OpenAIs o3 bereits einen Kandidaten. Was meinst du?