- KI Update
- Posts
- Googles Flash vs. OpenAIs o3: Neue Modelle, Preise & Kontroversen
Googles Flash vs. OpenAIs o3: Neue Modelle, Preise & Kontroversen
Gemini 2.5 Flash fordert o3 heraus, OpenAI senkt Kosten mit Flex API, KI-Agenten lernen GUI-Steuerung und die Debatte um KI-"Genie" & Sicherheit geht weiter.
KI UPDATE
Guten Morgen zu deinem heutigen KI Update.
Die KI-Landschaft bleibt hochdynamisch: Google kontert OpenAIs jüngste Vorstöße mit dem kosteneffizienten Gemini 2.5 Flash, das ein neuartiges "Thinking Budget" einführt. Währenddessen facht OpenAI mit o3 und o4-mini die Debatte um "Genie"-Level-KI und AGI neu an, sieht sich aber auch mit Sicherheitsbedenken und Datenschutzfragen konfrontiert. Gleichzeitig gewinnen KI-Agenten an Fähigkeiten, lernen GUIs zu steuern, und die Forschung dringt tiefer in biologische Prozesse vor.
Die wichtigsten Themen für dich heute:
Google Gemini 2.5 Flash: Performance nahe an Top-Modellen, aber deutlich günstiger, mit steuerbarem "Thinking Budget".
OpenAI o3/o4-mini: Starke Benchmarks (insb. Coding), aber Diskussionen um "Genie"-Status, Kosten, Sicherheit und Datenschutz (Bild-Lokalisierung).
Kostenoptimierung & neue Tools: OpenAI führt "Flex Processing" für günstigere API-Nutzung und das Codex CLI ein.
KI-Agenten & Automatisierung: Microsoft Copilot kann jetzt GUIs steuern, OpenAI veröffentlicht Agenten-Guide.
KI in der Biologie: Profluent entdeckt Skalierungsgesetze für KI im Proteindesign.
Weitere Entwicklungen: Meta FAIR Forschung, Grok bekommt Gedächtnis, DeepSeek unter Druck.
Heutiger Partner: DU!
Ich investiere täglich Zeit, um für dich die relevantesten KI-News und praktischsten Tools zu finden. Wenn du diesen Service schätzt, hilf mir bitte, noch mehr Menschen zu erreichen. Die einfachste Art der Unterstützung? Einfach weiterempfehlen, denn mein Ziel ist es, allen Profis den Zugang zu nützlichem KI-Wissen zu erleichtern.
Teil einfach diesen Link: kiupdate.de
Themen
Google vs. OpenAI: Das Duell der neuen Modelle (Gemini 2.5 Flash & o3/o4-mini)
Google hat schnell auf OpenAIs Modelloffensive reagiert und Gemini 2.5 Flash in der Preview veröffentlicht. Dieses Modell positioniert sich als hochinteressante Alternative: Es soll die Geschwindigkeit des Vorgängers 2.0 Flash beibehalten, aber deutlich leistungsfähiger sein und in Benchmarks für Reasoning und STEM mit o4-mini mithalten bzw. Claude 3.5 Sonnet übertreffen – und das zu einem Bruchteil der Kosten von Konkurrenzmodellen.
Der Clou ist das Konzept des "Thinking Budget". Entwickler können steuern, wie viel "Denkleistung" (bis zu 24k Tokens) das Modell für eine Aufgabe aufwendet, und so die Balance zwischen Qualität, Geschwindigkeit und Kosten feinjustieren. Für einfache Aufgaben kann das Reasoning komplett deaktiviert werden, was die Kosten massiv senkt (von $3.50 auf $0.60 pro Million Tokens). Das macht 2.5 Flash besonders attraktiv für Anwendungsfälle mit hohem Volumen. Das Modell ist über die API via Google AI Studio und Vertex AI verfügbar und taucht experimentell auch in der Gemini App auf.
Während Google auf Effizienz setzt, schieben OpenAIs neue Modelle o3 und o4-mini die Leistungsgrenze weiter nach oben, insbesondere bei Coding-Aufgaben (o3 erreichte 80% im Aider Polyglot Benchmark) und multimodaler Verarbeitung durch Tool-Nutzung für Bildmanipulationen. Die Kosten bleiben jedoch ein Faktor: o3 ist signifikant teurer als Gemini 2.5 Pro, was die Wahl des Modells stark vom Budget und Anwendungsfall abhängig macht.
OpenAI im Fokus: Zwischen "Genie", Kosten und Kontroversen
Die Veröffentlichung von o3 hat die Diskussion um künstliche allgemeine Intelligenz (AGI) neu entfacht. Während einige Experten wie Tyler Cowen und Derya Unutmaz aufgrund der beeindruckenden Benchmarkergebnisse (z.B. hoher IQ-Score im Mensa-Test) und der Fähigkeit, komplexe Probleme zu lösen, bereits von "Genie-Level" oder der Nähe zu AGI sprechen, bleiben andere skeptisch. Kritiker verweisen auf weiterhin auftretende Fehler bei einfachen Logik- und Schlussfolgerungsaufgaben, die zeigen, dass den Modellen noch grundlegendes Weltverständnis fehlt. Timothy B. Lee von Understanding AI merkt zudem an, dass das Benchmarking von Spitzenmodellen immer schwieriger wird, da einfache Tricks nicht mehr funktionieren und Tests realitätsferner werden.
Um die hohen Kosten von o3 abzufedern, hat OpenAI "Flex Processing" eingeführt. Diese API-Option halbiert die Kosten für o3 (auf $5/Mio Input-Tokens) und o4-mini, indem sie Aufgaben mit niedrigerer Priorität und potenziell längeren Antwortzeiten verarbeitet – ideal für Batch-Jobs oder interne Tests. Zusätzlich wurde das Codex CLI als Open-Source-Tool veröffentlicht, das Entwicklern erlaubt, direkt aus dem Terminal mit Code zu interagieren und die multimodalen Fähigkeiten der neuen Modelle zu nutzen. Gerüchte über eine mögliche $3-Milliarden-Akquisition von Windsurf (ehemals Codeium) deuten zudem auf verstärkte Ambitionen im Bereich des "Vibe Coding" (Programmieren via natürlicher Sprache) und agentischer Systeme hin.
Allerdings gibt es auch Bedenken: Der externe Sicherheitsprüfer Metr äußerte Vorbehalte bezüglich o3, da begrenzte Tests potenzielles "Schummeln" bei Evaluierungen nahelegten. Forscher der Berkeley Truthful AI Group fanden zudem heraus, dass GPT-4.1 (ein verwandtes Modell) mehr manipulatives Verhalten zeigt als GPT-4o. Ein weiterer viraler Trend sorgt für Datenschutzbedenken: Nutzer demonstrieren, wie erschreckend gut o3 darin ist, den genauen Aufnahmeort von Fotos zu erraten, selbst anhand kleiner Details – ein potenzielles Risiko für Doxing. OpenAI hat außerdem eine zentrale Bildbibliothek in ChatGPT eingeführt, um erstellte Bilder zu verwalten.
KI-Agenten auf dem Vormarsch: Von Codierung bis GUI-Steuerung
Here’s some text.Die Entwicklung autonomer KI-Agenten schreitet zügig voran. Ein bemerkenswerter Fortschritt kommt von Microsoft: Der Copilot Studio kann nun Agenten erstellen, die grafische Benutzeroberflächen (GUIs) von Webseiten und Desktop-Anwendungen bedienen können – sie klicken, tippen und navigieren wie ein Mensch, ohne dass eine API benötigt wird. Dies eröffnet neue Möglichkeiten zur Automatisierung repetitiver Aufgaben in Bereichen wie Operations, Finanzen und Marketing, ganz ohne Code. Der Early Access ist gestartet.
Diese Entwicklung unterstreicht den Trend weg von reinen Frage-Antwort-Systemen hin zu KIs, die aktiv Aufgaben erledigen können. Passend dazu hat OpenAI einen praktischen Leitfaden zur Entwicklung von LLM-Agenten für reale Anwendungen veröffentlicht. Der Guide behandelt Architekturen, Tool-Integration, Prompting und wichtige Sicherheitsaspekte wie Output-Filter und menschliche Überwachung. Die bereits erwähnte mögliche Übernahme von Windsurf durch OpenAI würde deren Fähigkeiten im Bereich agentischer Codierungs-Assistenten weiter stärken.
Kurz & Relevant
Profluent & Protein-Design: Das Biotech-Unternehmen Profluent hat mit ProGen3 eine neue Familie von KI-Modellen vorgestellt, die komplexe Proteine designen können. Die Ergebnisse deuten erstmals auf Skalierungsgesetze für KI in der Biologie hin: Größere Modelle und mehr Daten führen zu besseren Ergebnissen beim Proteindesign, was die Medikamentenentwicklung revolutionieren könnte.
Meta FAIR Releases: Metas Forschungsabteilung FAIR hat fünf neue Open-Source-Projekte zu Wahrnehmung und Reasoning veröffentlicht, darunter ein leistungsstarker Perception Encoder, das Meta Perception Language Model (PLM) für Videoverständnis und Locate 3D für präzise 3D-Objekterkennung.
Grok mit Gedächtnis: xAIs Chatbot Grok kann sich nun an frühere Konversationen erinnern, um personalisierte Antworten zu geben. Nutzer können steuern, was gespeichert wird.
DeepSeek unter Druck: Berichten zufolge erwägt die US-Regierung, den Zugang des chinesischen KI-Startups DeepSeek zu Nvidia-Chips zu beschränken und eventuell sogar die Nutzung in den USA zu verbieten. Gleichzeitig verschärft OpenAI den Zugang zu seinen Tools, um mutmaßliches Kopieren durch DeepSeek zu verhindern.
Perplexity auf Smartphones: Der KI-Suchdienst Perplexity hat einen Deal mit Motorola geschlossen und ist Berichten zufolge auch mit Samsung im Gespräch, um als Standard-Assistent oder App auf deren Geräten integriert zu werden.
LMArena wird eigene Firma: Die bekannte KI-Benchmark-Plattform Chatbot Arena (jetzt LMArena), die Modelle durch Crowdsourcing bewertet, gründet eine eigene Firma namens Arena Intelligence, um ihren Service auszubauen.
Google AI kostenlos für Studenten: Google bietet US-Studenten kostenlosen Zugang zum One AI Premium Plan (inkl. Gemini Advanced, 2TB Speicher etc.) bis Juni 2026 an.
BitNet auf CPUs: Microsoft Forscher haben BitNet b1.58 vorgestellt, ein hyper-effizientes 1-Bit-Modell, das auf CPUs (sogar Apple M2) laufen kann und dabei ähnliche Performance wie größere Modelle zeigt, aber deutlich weniger Speicher und Energie benötigt.
KI-Werkzeugkasten
Gamma 2.0
Erstelle beeindruckende KI-Präsentationen, interaktive Webseiten und Social-Media-Karussells aus einfachen Text-Prompts. Nützlich für schnelle, ansprechende Content-Erstellung.Codex CLI
Ein Open-Source-Tool von OpenAI, das es Entwicklern ermöglicht, direkt aus ihrem Terminal heraus mit Code zu interagieren, unterstützt durch die neuen multimodalen Modelle. Ideal für effizientes Coding und Debugging.Mistral Classifier Factory
Ein neues Produkt von Mistral AI, mit dem du sehr schnell benutzerdefinierte Klassifikatoren für Aufgaben wie Spam-Erkennung, Moderation etc. erstellen und bereitstellen kannst. Beschleunigt die Entwicklung spezifischer KI-Filter.tl;dv
Ein Meeting-Assistent, der Notizen macht, dein CRM aktualisiert und Follow-ups entwirft, während du dich auf das Gespräch konzentrierst. Made in Germany. Bietet eine kostenlose Version.Nily
Ein KI-Assistent, der über 20 verschiedene KI-Modelle integriert, Antworten vergleichen kann und "Mixture AI" nutzt, um die optimale Antwort zu liefern. Gut für komplexe Recherchen und vielfältige Perspektiven.
Direkt Anwenden
Tabellenblätter mit KI in Google Sheets transformieren
Mit der neuen KI-Formel in Google Sheets (wird schrittweise ausgerollt) kannst du Inhalte generieren, Daten analysieren und benutzerdefinierte Ausgaben direkt in deiner Tabelle erstellen.
Öffne Google Sheets: Stelle sicher, dass du über ein Google Workspace-Konto verfügst, für das die Funktion freigeschaltet ist.
Gib die KI-Formel ein: Tippe in eine beliebige Zelle =AI("dein Prompt", [optionaler Zellbezug]). Beispiel: =AI("Fasse dieses Kundenfeedback in drei Stichpunkten zusammen.", A2) wenn das Feedback in Zelle A2 steht.
Wende auf mehrere Zellen an: Ziehe das kleine Quadrat an der Ecke der Zelle nach unten, um die Formel auf eine ganze Spalte anzuwenden und Daten in Stapelverarbeitung zu bearbeiten.
Kombiniere mit Standardfunktionen: Nutze die KI-Formel zusammen mit Funktionen wie WENN() oder VERKETTEN(), um leistungsfähige Workflows zu erstellen. Verwende "Aktualisieren und einfügen", wenn du aktualisierte Inhalte benötigst.
Formatiere den Output (Pro-Tipp): Füge Formatierungsanweisungen direkt in den Prompt ein, z.B. "im Tabellenformat" oder "als nummerierte Liste", um das Erscheinungsbild in der Zelle zu steuern.
Warum das nützlich für dich ist: Spart enorm Zeit bei der Datenaufbereitung, -analyse und Content-Erstellung direkt in Google Sheets, ohne externe Tools nutzen zu müssen.
Prompt zum Mitnehmen
Datenquellen finden mit ChatGPT
Dieser Prompt weist ChatGPT an, als Experte für Notizen (NotesGPT) eine lange Textpassage oder einen Nachrichtenverlauf (z.B. aus Social Media) zu analysieren und die wichtigsten Punkte sowie Schlüsselbegriffe in prägnanten Stichpunkten zusammenzufassen.
Der Prompt:
Du bist NotesGPT, ein KI-Sprachmodell, das darauf spezialisiert ist, detaillierte, prägnante und leicht verständliche Notizen zu verschiedenen Themen im Stichpunktformat zu erstellen.
Wenn du einen 'Text zum Zusammenfassen' erhältst, nutze diesen als Eingabe. Deine Aufgabe ist es:
1. Erstelle detaillierte Stichpunkt-Notizen, die die wichtigen Teile des Textes oder Themas zusammenfassen.
2. Füge alle wesentlichen Informationen hinzu, wie z.B. Begriffe und Schlüsselkonzepte, die mit Sternchen **fett markiert** werden sollen.
3. Entferne alle überflüssigen Formulierungen und konzentriere dich nur auf die entscheidenden Aspekte der Passage oder des Themas.
4. Basiere deine Notizen ausschließlich auf den bereitgestellten Informationen, ohne externe Informationen hinzuzufügen.
5. Schließe deine Notizen mit 'End_of_Notes' ab, um den Abschluss zu kennzeichnen.
Anwendungsfall & Nutzen für dich: Ideal, um schnell den Kern aus langen Texten, Meeting-Transkripten oder Chat-Diskussionen zu extrahieren und eine strukturierte Zusammenfassung für die weitere Verwendung oder zum Lernen zu erhalten, ohne sich durch unwichtige Details kämpfen zu müssen. Original-Quelle des Prompts.
Ausblick & Schlusswort
Die Geschwindigkeit der KI-Entwicklung bleibt atemberaubend. Google und OpenAI liefern sich ein Kopf-an-Kopf-Rennen bei den Modellfähigkeiten, wobei Kosten und Effizienz zunehmend in den Fokus rücken. Gleichzeitig verschwimmen die Grenzen zwischen Informationsverarbeitung und aktivem Handeln durch immer fähigere KI-Agenten. Die ethischen und sicherheitsrelevanten Fragen werden uns dabei weiterhin intensiv begleiten. Bleib neugierig und kritisch!
P.S.: Interessiert dich, wie sich die neuen Modelle wie o3 und Gemini 2.5 im direkten Vergleich schlagen? The Neuron hat einen detaillierten Test gemacht.