- KI Update
- Posts
- KI-Benchmarks unter Beschuss, Microsofts Phi-4 & Claudes neue Skills
KI-Benchmarks unter Beschuss, Microsofts Phi-4 & Claudes neue Skills
Studie stellt LMArena in Frage, Microsoft kontert mit starken Kleinmodellen, Anthropic erweitert Claude und Meta automatisiert die Werbung.
KI UPDATE
Guten Morgen zu deinem heutigen KI Update.
Das Ansehen von KI-Modellen hängt oft von ihrer Platzierung auf Leaderboards ab. Doch eine neue Studie behauptet, dass die Spielregeln zugunsten der Tech-Giganten manipuliert sein könnten, was die Glaubwürdigkeit gängiger Benchmarks erschüttert. Gleichzeitig treiben Microsoft und Anthropic die Fähigkeiten ihrer Modelle weiter voran, während Meta die Werbewelt automatisieren will.
Die wichtigsten Themen heute für dich:
Studie stellt führenden KI-Benchmark LMArena in Frage.
Microsoft veröffentlicht neue, kleine aber starke Reasoning-Modelle (Phi-4).
Anthropic erweitert Claude um App-Integrationen und Forschungsmodus.
Meta plant vollautomatisierte, KI-generierte Werbekampagnen.
Amazons neues Top-Modell Nova Premier dient auch als "Lehrer".
Nvidia und Anthropic streiten über US-Chip-Exportregeln.
Heutiger Partner: DU!
Ich investiere täglich Zeit, um für dich die relevantesten KI-News und praktischsten Tools zu finden. Wenn du diesen Service schätzt, hilf mir bitte, noch mehr Menschen zu erreichen. Die einfachste Art der Unterstützung? Einfach weiterempfehlen, denn mein Ziel ist es, allen Profis den Zugang zu nützlichem KI-Wissen zu erleichtern.
Teil einfach diesen Link: kiupdate.de
Themen
Vertrauenskrise bei KI-Benchmarks? Studie nimmt LMArena ins Visier
Das Prestige auf Leaderboards kann über Erfolg oder Misserfolg eines KI-Modell-Launches entscheiden. Eine neue Studie von Forschern von Cohere Labs, MIT, Stanford und anderen Institutionen behauptet nun jedoch, dass LMArena, der führende Crowdsourcing-Benchmark für KI-Modelle, großen Technologieunternehmen unfaire Vorteile verschafft und somit die vielbeachteten Rankings verzerren könnte.
Die Kernpunkte der Studie:
Privates Testen: Anbieter wie Meta, Google und OpenAI testen demnach privat mehrere Modellvarianten auf der Arena, um nur die leistungsstärksten zu veröffentlichen.
Bevorzugung: Modelle von Top-Laboren (insbesondere Google und OpenAI mit über 60% aller Interaktionen) wurden bei der Stichprobenauswahl gegenüber kleineren/offenen Modellen bevorzugt.
Overfitting statt Fähigkeit: Experimente zeigten, dass der Zugang zu Arena-Daten die Leistung bei Arena-spezifischen Aufgaben steigert, was eher auf eine Überanpassung der Modelle an den Benchmark als auf echte Fähigkeitssteigerungen hindeutet.
Intransparente Entfernungen: Die Forscher stellten fest, dass 205 Modelle stillschweigend von der Plattform entfernt wurden, wobei Open-Source-Modelle überproportional häufig betroffen waren.
LMArena hat die Studie auf X (Twitter) zurückgewiesen und behauptet, das Leaderboard spiegele echte Nutzerpräferenzen wider. Dennoch könnten diese Vorwürfe die Glaubwürdigkeit der Plattform beschädigen, die maßgeblich die Wahrnehmung von KI-Modellen prägt. Zusammen mit früheren Unstimmigkeiten bei Benchmarks unterstreicht dies, dass die Bewertung von KI-Fähigkeiten nicht immer so objektiv ist, wie sie scheint.
Microsofts Offensive: Kleine Modelle mit großer Reasoning-Power (Phi-4)
Microsoft hat drei neue, auf Reasoning spezialisierte Open-Weights-Modelle seiner Phi-Familie vorgestellt. Diese Modelle übertreffen trotz ihrer geringen Größe teils deutlich größere Konkurrenten bei komplexen Schlussfolgerungsaufgaben und sind klein genug, um auf Smartphones und Laptops zu laufen.
Die neuen Modelle im Detail:
Phi-4-reasoning: Das Flaggschiff mit nur 14B Parametern übertrifft OpenAIs o1-mini und erreicht bei Schlüssel-Benchmarks die Leistung von DeepSeeks 671B-Modell.
Phi-4-mini-reasoning: Eine kleinere 3.8B-Parameter-Version, die auf mobilen Geräten laufen kann und bei Mathematik-Benchmarks mit größeren 7B-Modellen mithält.
Phi-4-reasoning-plus: Eine verfeinerte Version des 14B-Modells mit nochmals verbesserter Leistung.
Alle Modelle sind auf Effizienz ausgelegt und sollen starke Reasoning-Fähigkeiten in ressourcenbeschränkte Umgebungen wie Edge-Geräte und die neuen Copilot+ PCs bringen. Sie sind Open-Source unter permissiven Lizenzen verfügbar, was uneingeschränkte kommerzielle Nutzung und Modifikation ermöglicht.
Microsoft setzt damit den Trend fort, die Leistungsfähigkeit kleiner Modelle massiv zu steigern. Insbesondere die Fähigkeit zu komplexem Reasoning auf Gerätegröße ist ein wichtiger Schritt, um KI tiefer in Betriebssysteme und Alltagsanwendungen zu integrieren. Die Copilot+ PCs könnten von diesem Schub direkt profitieren.
Anthropic rüstet auf: Claude wird zum integrierten Arbeitsassistenten
Anthropic hat bedeutende Upgrades für seinen Chatbot Claude veröffentlicht, die ihn weit über eine reine Chat-Funktion hinausheben und stärker in Richtung eines agentenähnlichen KI-Assistenten entwickeln.
Die Neuerungen umfassen:
Integrations: Claude kann sich nun direkt mit externen Anwendungen und Diensten verbinden (z.B. Atlassian Confluence, Zapier, Square, Cloudflare). Über das sogenannte MCP-Protokoll (Remote Model Control Protocol) kann Claude auf Daten aus Geschäftstools, Content-Repositories oder Entwicklungsumgebungen zugreifen und diese analysieren, um Aufgaben kontextbezogen zu erledigen. Dies soll einfacher sein als das Aufsetzen eigener MCP-Server. Entwickler können zudem eigene App-Server erstellen und hosten.
Advanced Research: Ein neuer Modus (für Abonnenten von Max, Team, Enterprise; Pro folgt) ermöglicht Claude tiefgehende Recherchen. Der Bot kann Hunderte von Quellen (intern, extern, lokal) durchsuchen, Anfragen in Teilprobleme zerlegen und umfassende Berichte (5-45 Minuten) mit zitierten Quellen erstellen.
Web-Suche & Tool-Nutzung: Claude kann nun das Web durchsuchen und Werkzeuge von Drittanbietern nutzen, um komplexere Aufgaben zu lösen.
Diese Updates positionieren Claude stärker als direkten Konkurrenten zu ChatGPT Enterprise und Microsoft Copilot im professionellen Umfeld, indem der Fokus auf die Integration in bestehende Workflows und die Fähigkeit zu komplexer, quellenbasierter Recherche gelegt wird.
Metas Vision: Die vollautomatisierte KI-Werbemaschine
Meta-CEO Mark Zuckerberg hat in einem Interview mit Stratechery eine radikale Vision für die Zukunft der Werbung auf seinen Plattformen skizziert, die die traditionelle Werbebranche grundlegend verändern könnte.
Zuckerbergs Plan sieht eine vollständige Automatisierung durch KI vor:
KI übernimmt alles: Anstatt dass Unternehmen ihre eigenen Werbemittel (Bilder, Videos, Texte) und Strategien entwickeln, soll Metas KI zukünftig den gesamten Prozess übernehmen.
Von der Idee zur Auswertung: Die KI generiert die Creatives, schreibt die Texte, erstellt Videos, übernimmt die Zielgruppenausrichtung, führt die Kampagnen durch, optimiert die Leistung und liefert die Ergebnisse.
Aufgabe des Werbetreibenden: Lediglich das Ziel definieren und das Budget bereitstellen.
Dieses Konzept, teils als "infinite creative" bezeichnet, stößt in der Werbebranche auf erhebliche Bedenken. Werbeexperten kritisieren den Mangel an Kontrolle, die Risiken für die Markensicherheit und bezweifeln, dass Kunden Meta bei der Überprüfung seiner eigenen Leistung vertrauen werden ("Meta checking its own homework"). Die über Jahre entwickelten Schutzmechanismen und unabhängigen Audits würden ausgehebelt.
Für kleine Unternehmen und Einzelunternehmer ohne große Marketingbudgets könnte dieser Ansatz jedoch eine Chance sein, einfacher und effektiver zu werben und mit größeren Wettbewerbern mitzuhalten.
Gleichzeitig plant Meta eine kostenpflichtige Premium-Stufe für seine Meta AI App und sammelt über seine Ray-Ban Smart Glasses standardmäßig Sprachdaten zur Verbesserung seiner KI-Modelle, was erneut Datenschutzbedenken aufwirft.
Kurz & Relevant
Amazon Nova Premier: Amazon hat sein bisher leistungsfähigstes KI-Modell, Nova Premier, vorgestellt. Das multimodale Modell verarbeitet Text, Bilder und Videos mit einem Kontextfenster von 1 Million Token. Es soll nicht nur komplexe Aufgaben lösen, sondern auch als "Lehrer" dienen, um kleinere Modelle durch Destillation zu trainieren und deren Leistung um bis zu 20% zu steigern. In Benchmarks liegt es jedoch noch hinter Top-Modellen wie Gemini 2.5 Pro zurück.
OpenAI GPT-4 geht in Rente: Das Modell, das die aktuelle KI-Welle maßgeblich mit ausgelöst hat, wurde am 30. April 2025 offiziell aus ChatGPT entfernt und durch neuere Versionen wie GPT-4o ersetzt. Entwickler können es weiterhin über die API nutzen. Sam Altman würdigte das Modell als Start einer Revolution.
Nvidia vs. Anthropic: Nvidia hat Anthropic scharf dafür kritisiert, dass es die US-Exportbeschränkungen für KI-Chips nach China unterstützt. Nvidia argumentiert, US-Firmen sollten sich auf Innovation statt auf protektionistische Politik konzentrieren, die die Wettbewerbsfähigkeit einschränke. Anthropic hatte zuvor strengere Kontrollen gefordert, um Schmuggel zu verhindern.
Google AI Mode erweitert: Google hat den Zugang zum AI Mode in der Suche für alle Labs-Nutzer in den USA geöffnet und neue Funktionen für visuelles Shopping und lokale Planung eingeführt. Zudem gibt es neue KI-Experimente für Sprachenlernen ("Little Language Lessons").
AI2 Olmo 2: Das Allen Institute for AI hat mit Olmo 2 1B ein sehr kleines (1 Mrd. Parameter), aber leistungsfähiges Open-Source-Modell veröffentlicht, das laut Benchmarks ähnlich große Modelle von Google, Meta und Alibaba übertrifft. Es wird mit vollständigen Trainingsdaten und Code bereitgestellt.
Midjourney v7 & Omni-Reference: Midjourney hat Version 7 seines Bildgenerators ausgerollt, die verbesserte Bildqualität, Prompt-Treue und Darstellung von Händen/Körpern verspricht. Neu ist auch Omni-Reference, eine Funktion, mit der Nutzer bestimmte Elemente (Charaktere, Objekte) über Bilder hinweg konsistent halten können.
Duolingo verdoppelt Kurse mit KI: Die Sprachlern-App Duolingo hat nach eigenen Angaben dank KI die Anzahl ihrer Sprachkurse auf 148 verdoppelt und die Entwicklungszeit von Jahren auf Monate reduziert.
Runway Gen-4 References: RunwayML hat mit Gen-4 References eine Funktion eingeführt, mit der sich konsistente Charaktere und Szenen in generierten Videos erstellen lassen.
Suno v4.5: Die KI-Musikplattform Suno hat Version 4.5 veröffentlicht, die neue Genres, bessere Prompt-Umsetzung und längere Songs (bis 8 Minuten) ermöglicht.
OpenAI Finanzen: Ein Bericht legt nahe, dass OpenAI trotz hoher Nutzerzahlen massiv Geld verbrennt (ca. 2,25 $ Ausgaben pro 1 $ Einnahme) und bis 2030 hunderte Milliarden Dollar benötigen könnte, was Fragen zur langfristigen wirtschaftlichen Tragfähigkeit aufwirft.
FutureHouse AI Scientist: Das Startup FutureHouse hat eine Plattform mit KI-Agenten gestartet, die Wissenschaftler bei der Recherche und sogar bei der Planung neuer Chemie-Experimente unterstützen sollen.
Xiaomi MiMo-7B: Xiaomi hat mit MiMo-7B ein eigenes kleines (7 Mrd. Parameter), aber leistungsfähiges Open-Source Reasoning-Modell vorgestellt.
KI-Werkzeugkasten
Microsoft Phi-4 Modelle: Eine Familie neuer, kleiner (3.8B & 14B Parameter) Open-Source-Modelle von Microsoft, die überraschend starke Reasoning-Fähigkeiten bieten und auf Laptops/Smartphones laufen können. Ideal für Entwickler, die leistungsstarke KI lokal oder ressourcenschonend einsetzen wollen.
FutureHouse Platform: Eine neue, öffentlich zugängliche Plattform mit spezialisierten KI-Agenten für die wissenschaftliche Forschung. Hilft dir beim Durchsuchen von Literatur und kann sogar bei der Konzeption neuer Experimente (Chemie) unterstützen.
Claude Integrations: Die neue Fähigkeit von Anthropic's Claude, sich direkt mit deinen Arbeits-Apps (Zapier, Atlassian etc.) zu verbinden, um kontextbezogene Analysen und Aufgaben zu erledigen. Macht Claude zu einem potenteren Arbeitsassistenten.
Runway Gen-4 References: Ermöglicht es dir, konsistente Charaktere, Objekte oder Stile über mehrere Szenen hinweg in KI-generierten Videos mit RunwayML zu erzeugen. Ein wichtiger Schritt für kohärentere Videoerstellung.
Ein neues Text-to-Speech-Modell, das laut Anbieter hyperrealistische menschliche Sprache inklusive Lachen, Akzenten, Zögern und Atmen erzeugen kann. Lässt sich per API nutzen und im Browser testen.
Direkt Anwenden
Websites erstellen mit ChatGPT o3 und Canvas (ohne Code!)
Vorbereitung: Gehe zu ChatGPT und wähle das "o3"-Modell aus. Aktiviere die 'Canvas'-Option (falls verfügbar und für diese Funktion benötigt – Hinweis: Canvas ist ein spezifisches Feature, die Beschreibung könnte sich auch auf die generelle Fähigkeit von o3 beziehen, Code zu generieren).
Detaillierter Prompt: Formuliere einen ausführlichen Prompt, der deine gewünschte HTML-Webanwendung beschreibt. Nenne Zweck, Funktionen, Designvorstellungen und benötigte Funktionalitäten (z.B. Eingabefelder, Buttons, lokale Speicherung für Daten).
Generierung & Test: Lasse ChatGPT den HTML-, CSS- und JavaScript-Code generieren. Nutze die Vorschau-Funktion ("Preview"), um die Anwendung zu testen.
Anpassung: Fordere bei Bedarf Änderungen oder Korrekturen an, bis die Anwendung deinen Vorstellungen entspricht.
Speichern: Speichere den generierten Code als HTML-Datei (z.B. index.html).
Deployment (kostenlos): Lade die HTML-Datei bei einem Dienst wie Cloudflare Pages hoch. Navigiere dort zu Workers & Pages, wähle "Create using direct upload" und lade deine Datei hoch, um sie live zu schalten.
Warum das nützlich für dich ist: Du kannst schnell und ohne Programmierkenntnisse funktionale Web-Prototypen oder kleine Anwendungen (z.B. Rechner, Notiz-Tools) erstellen und kostenlos online verfügbar machen. Anwendungen mit lokaler Speicherung behalten Nutzerdaten sogar zwischen Sitzungen bei.
Prompt zum Mitnehmen
Der Annahmen-Jäger
Dieser Prompt hilft dir, versteckte Annahmen in deinen Plänen oder Strategien aufzudecken und deren Risiko zu bewerten, bevor sie zum Problem werden.
Der Prompt:
Analysiere diesen Plan: [Füge hier deinen Plan oder deine Strategie ein]
Liste jede Annahme auf, auf die sich der Plan stützt. Für jede Annahme:
- Bewerte das Risiko (niedrig / mittel / hoch)
- Schlage eine spezifische Methode vor, um sie zu validieren oder das Risiko zu mindern.
Anwendungsfall & Nutzen für dich: Nutze diesen Prompt, bevor du einen neuen Produktlaunch, eine Marketingkampagne oder ein Projekt startest. ChatGPT agiert als kritischer Sparringspartner und deckt potenzielle Schwachstellen (z.B. unrealistische Marktannahmen, unterschätzte Konkurrenzreaktionen) auf, die du sonst vielleicht übersehen hättest. Das hilft dir, fundiertere Entscheidungen zu treffen und Risiken proaktiv zu managen.
Ausblick & Schlusswort
Die heutigen Nachrichten zeigen eindrücklich die Dynamik im KI-Sektor: Während die Messlatte für Modellfähigkeiten (insbesondere bei kleineren Modellen wie Phi-4) kontinuierlich höher gelegt wird und Tools wie Claude immer stärker in unsere Arbeitsabläufe integriert werden, wachsen gleichzeitig die Fragen nach Transparenz, Vertrauen (siehe LMArena) und den wirtschaftlichen Grundlagen (siehe OpenAI Kosten). Metas Vorstoß zur Automatisierung der Werbung könnte zudem weitreichende Folgen für eine ganze Branche haben. Es bleibt spannend zu beobachten, wie sich diese technologischen Sprünge und die damit verbundenen Herausforderungen auf unseren Alltag und die Wirtschaft auswirken werden.
P.S. War das heutige KI Update nützlich für dich? Hast du Themenwünsche oder spezielle KI-Tools, über die ich berichten soll? Nutze die Umfrage unten oder antworte mir direkt – ich lese jede Nachricht und freue mich über dein Feedback!
Wie fandest du das heutige KI Update? |
Login oder Abonnieren um an umfragen teilzunehmen. |