Wir nutzen Cookies, um Ihnen die bestmögliche Browsing-Erfahrung zu bieten. Näheres erfahren Sie in unserenDatenschutzbestimmungen.
DeepSeek-R1: eine neue Ära der Open-Source-LLMs
Sophia Antonin Senior UX Data Scientist • Technology Manager AI/ Data Science
Björn Busch-Geertsema Head of Development
Stefan Schulz UX Director • Head of Site Munich
14.02.2025 • 5 Minuten Lesezeit
Ein Wendepunkt in der KI-Landschaft?
Ein kleines Start-up veröffentlicht ein neues Modell – und plötzlich sind die Börsen und die Tech-Welt in großer Unruhe. Technologieaktien wie Nvidia und Microsoft verzeichnen deutliche Kursverluste. Was ist genau passiert?
Der Grund für die Aufregung ist DeepSeek-R1. Dieses chinesische Reasoning-Modell kann mit führenden KI-Modellen wie OpenAIs o1 mithalten. Das allein ist schon bemerkenswert, aber zwei Dinge machen diese Errungenschaft noch herausragender:
DeepSeek behauptet, seine Modelle mit deutlich geringeren Ressourcen als westliche Konkurrenten trainiert zu haben.
Das Modell benötigt in der Anwendung erheblich weniger Rechenleistung als vergleichbare Systeme.
Das stellt eine bisher als unumstößlich geltende Annahme infrage: Bessere KI braucht immer mehr Ressourcen. Gibt es doch technologische Abkürzungen, die diesen Trend brechen?
Doch nicht nur die Effizienz sorgt für Diskussionen. Mehrere Länder, darunter Australien, Südkorea und Taiwan, haben DeepSeek auf Regierungsgeräten eingeschränkt oder verboten. Der Grund: Bedenken hinsichtlich Datensicherheit und möglicher Verbindungen zur chinesischen Regierung.
DeepSeek-R1 wirft also entscheidende Fragen auf – über die Zukunft des KI-Trainings, die Rolle Chinas in der globalen KI-Forschung und die geopolitischen Konsequenzen neuer Technologien.
Technologische Fortschritte von DeepSeek-R1
DeepSeek-R1 basiert auf einer Mixture-of-Experts (MoE)-Architektur. Das bedeutet, dass bei jeder Anfrage nur 37 Milliarden der insgesamt 671 Milliarden Parameter aktiv sind. Statt das gesamte Modell zu nutzen, werden gezielt spezialisierte “Experten” für bestimmte Aufgaben aktiviert. Dadurch kombiniert es die Vorteile großer, leistungsstarker Modelle mit der Effizienz kleinerer Modelle.
Das R1-Modell wurde in vier Phasen trainiert, basierend auf dem im Dezember veröffentlichten V3-Modell. Dabei kam eine Mischung aus Fine-Tuning und Reinforcement Learning (RL) zum Einsatz. Diese Methoden halfen dem Modell, logisches Denken und Schlussfolgerungen zu lernen. Besonders in Mathematik und Programmierung erzielt es dadurch herausragende Ergebnisse.
Eine zentrale Technik ist Chain-of-Thought (CoT). Hierbei zerlegt das Modell komplexe Probleme in kleine, logische Schritte. Es denkt also strukturiert bis zur Lösung, anstatt direkt eine Antwort zu raten. Dieser Prozess geschieht automatisch, ohne dass er explizit vorgegeben werden muss. Das macht DeepSeek-R1 besonders präzise bei Aufgaben, die eine klare, nachvollziehbare Herleitung erfordern.
Chancen und Herausforderungen
Ein großer Vorteil von DeepSeek-R1 ist seine offene Verfügbarkeit. DeepSeek hat sowohl den Quellcode als auch die Modellgewichte unter der MIT-Lizenz veröffentlicht. Dadurch kann das Modell frei genutzt, angepasst und für kommerzielle Zwecke eingesetzt werden. Sogar neue Modelle dürfen auf dem Output von R1 trainiert werden. Dies ermöglicht eine breitere Weiterentwicklung der KI-Technologie und ist ein wichtiger Schritt hin zu offenen KI-Modellen.
Im Vergleich zu OpenAIs o1 (und nun auch o3-mini) fehlt R1 noch die Integration in große Enterprise-Features, die bereits intensiv getestet wurden. Trotzdem setzt es die etablierten KI-Anbieter unter Druck. Es erreicht eine beeindruckende Leistungsfähigkeit – und das bei deutlich geringeren Trainingskosten.
LLM Landschaft
Impact: Neue Akteure verändern das KI-Ökosystem
DeepSeek-R1 treibt die Demokratisierung der KI voran. Es zeigt sich, dass nicht nur große Ressourcen entscheidend sind, sondern auch durch innovative Ansätze und effiziente Methoden, um Spitzenleistungen erzielen zu können. Dies ermutigt Unternehmer, Risiken einzugehen und auf Innovation statt Ressourcenwettlauf zu setzen. Mittelfristig könnte dies das Angebot an Anbietern und Lösungen erweitern und zugleich den energieintensiven Ressourcenhunger der KI bändigen – ein entscheidender Faktor für Nachhaltigkeit und die Energiewirtschaft. Gleichzeitig sollten Unternehmen die geopolitischen und datenschutzrechtlichen Implikationen sorgfältig abwägen, bevor sie solche Modelle integrieren.
Nachhaltige KI-Strategien: Innovation mit Weitblick
DeepSeek-R1 markiert zweifellos einen bedeutenden Innovationsschub und verdient die Aufmerksamkeit von Entscheidern, die moderne KI-Methoden in ihrem Unternehmen verankern wollen. Doch verändert es wirklich alles?
Angesichts des hohen Ressourcenbedarfs von LLMs bleibt weiterhin eine sorgfältige Abwägung zwischen angestrebter Qualität und Effizienz entscheidend. Während sich die Rahmenbedingungen stetig wandeln, bleiben Zeit- und Kosteneffizienz zentrale Faktoren. Lokale Betriebsoptionen gewinnen an Relevanz, doch ihre Implementierung bleibt oft komplex. (Infos zu den Grundlagen von LLMs und den nötigen Abwägungen findest Du im ersten Teil dieses Artikels) Die Erfahrungen aus dem Cloud-Computing-Trend lassen sich auch auf KI übertragen. Open-Source-Lösungen fördern Innovation, doch für Unternehmen wird vor allem die einfache Zugänglichkeit und Nutzbarkeit im Fokus stehen.
Auch in der Anpassung für spezifische Anwendungen wird der Trend zur Demokratisierung und Innovation neue Ansätze hervorbringen. Dennoch bleiben die beschriebenen Kernprinzipien weiterhin die entscheidenden Ansatzpunkte für eine gezielte Spezialisierung im Unternehmenskontext. Bei Ergosign haben wir bereits KI, menschliche Interaktionen und ERP miteinander verbunden, das kannst du in der Case Study zu unserem Projekt mit schrempp edv nachlesen.
Bleibt die Frage: Wie zukunftssicher ist eine heute getroffene Architekturentscheidung? Eine Glaskugel haben wir nicht – aber wir sind überzeugt, dass Entscheidungen, die sich an den genannten Kriterien orientieren, auch in einem hochdynamischen Umfeld Bestand haben werden.
Sophia Antonin hat 2019 ihren Master in Computerlinguistik an der LMU München abgeschlossen. Seither realisiert sie erfolgreich Projekte in den Bereichen Natural Language Processing und Generative KI. Mit ihrer Expertise und Leidenschaft für Künstliche Intelligenz entwickelt sie bei Ergosign innovative Lösungen und gestaltet die digitale Zukunft mit.
Sophia AntoninTechnology Manager AI/ Data Science
Du willst mehr? Dann melde dich zu einem unserer kostenlosen Webinare an.