In letzter Zeit wurde viel über DeepSeek geschrieben – was das Unternehmen getan hat, was nicht, warum es alles oder gar nichts verändert und warum es viele Aktienkurse purzeln ließ. Ich möchte tiefer in einige der weniger offensichtlichen Triebkräfte eintauchen und diese für ein nicht-technisches Publikum erklären. Das Verständnis dieser Faktoren hilft dabei, nachzuvollziehen, warum die gesamte Diskussion in der KI-Branche für so viel Aufsehen sorgt.

Lernen durch Wachstum

In den frühen 2010er Jahren standen KI-Modelle, die auf die Objekterkennung in Bildern spezialisiert waren, vor der Herausforderung, Katzen von Hunden zu unterscheiden – eine damals sehr grundlegende Aufgabe. Mit leistungsfähigerer Computerhardware entdeckten KI-Forscher neue Wege, diese Leistung zu nutzen, um ihre Modelle zu verbessern. Hier wurde das sogenannte „Scaling Law“ (Skalierungsgesetz) geboren: Größeres KI-Modell + mehr Trainingsdaten + mehr Hardware zum Trainieren = besseres KI-Modell.

Dieser Ansatz ermöglichte es der KI, nicht nur Katzen von Hunden zu unterscheiden, sondern eine riesige Vielfalt an Objekten auf Bildern zu erkennen. Darüber hinaus hat er die Art und Weise geprägt, wie Tech-Unternehmen die Entwicklung von großen Sprachmodellen (LLMs) angehen. Letztendlich ermöglichte dies die hochleistungsfähigen KI-Tools, auf die wir heute Zugriff haben.

Zudem ist dies der Grund für das Rennen um immer größere Modelle: von GPT-3 mit 175 Milliarden Parametern bis hin zu GPT-4 mit geschätzten 1,8 Billionen. Die Logik schien klar: Wer bahnbrechende Leistung will, muss massiv in Hardware, Rechenzentren und Rechenleistung investieren.

Der GenAI-Hype

Mit der Einführung von ChatGPT Ende 2022 wurde auch der breiten Öffentlichkeit bewusst, welche Fähigkeiten und Möglichkeiten die neuesten LLMs bieten. Parallel dazu floss durch das Interesse von Risikokapitalgebern Milliarden von Dollar in Tech-Unternehmen mit KI-Fokus. Dieses Geld wurde in die Entwicklung größerer Modelle und der dafür notwendigen Recheninfrastruktur investiert.

Wie hat DeepSeek zum GenAI-Hype beigetragen? Betrachten wir es aus einer anderen Perspektive: Wenn Sie als Mensch ein neues Thema lernen wollen, suchen Sie nach den besten Büchern und Videos, um tief in die relevanten Aspekte einzutauchen. Sie beginnen damit, das beste Lernmaterial auszuwählen, um sich Wissen effizient anzueignen.

DeepSeek hat sich darauf konzentriert, den Lernprozess selbst zu verbessern. Sie haben Techniken angewandt, um das Lernmaterial effizienter zu verarbeiten. Dank einer verbesserten Lernstrategie benötigten sie zudem weniger „Gehirnkapazität“. So haben sie die KI schneller und effizienter lernen lassen.

Man kann sich neues Wissen jedoch auch aneignen, indem man alle Artikel auf Wikipedia durchliest. Auf diesem Weg werden Sie das spezifische Wissen ebenfalls erwerben – aber Sie werden noch so viel mehr als nur dieses eine Thema lernen. Genau das tun die großen LLMs von OpenAI und anderen Tech-Giganten. Deshalb kann man sie nutzen, um über absolut alles zu chatten.

Was das für Unternehmen bedeutet

Kurz gesagt: Man kann sagen, dass die führenden Tech-Unternehmen so viel wie möglich lernen, was enorme Investitionen erfordert. DeepSeek wiederum hat sich darauf konzentriert, in spezifischen Aspekten mit so geringen Investitionen wie möglich exzellent zu werden. Der Wirbel um DeepSeek bedeutet nicht, dass sie ein KI-Modell geschaffen haben, das in jeder Hinsicht besser ist als die von OpenAI, Meta, Google & Co. Es verdeutlicht jedoch, dass es mehr Wege gibt, LLMs für spezifische Anforderungen zu optimieren, als Modelle einfach nur größer und teurer zu machen.

Diese Erkenntnis wurde einem breiteren Publikum bewusst, als DeepSeek sein KI-Modell veröffentlichte. Da dies die Grundlagen des „Scaling Law“ untergräbt, gerieten die Tech-Unternehmen (und insbesondere deren Aktienkurse) unter Druck.

Es gibt nicht die eine richtige Antwort darauf, welches LLM für einen Anwendungsfall am besten geeignet ist – es kommt immer auf die Details an. Es ist jedoch gut zu wissen, dass es zahlreiche Optionen gibt, von denen viele kostengünstiger sind, als standardmäßig auf die neuesten und größten LLMs zu setzen.

Das große Ganze

Bedeutet das nun, dass die Milliardeninvestitionen in generative KI nutzlos werden? Nein, das bedeutet es nicht.

Niemand kann sagen, ob die Tech-Unternehmen, die während des KI-Hypes gewachsen sind, in drei Jahren noch existieren werden. Was jedoch bleiben wird, ist die geschaffene Recheninfrastruktur.

Wir werden viele neuartige Anwendungen finden, die durch generative KI angetrieben werden und weit über die Textverarbeitung in Chatbots hinausgehen. Ein Ausblick in die Zukunft geben beispielsweise Forscher, die KI nutzen, um besser zu verstehen, wie Proteine im menschlichen Körper funktionieren. Der Punkt ist: Bahnbrechender Fortschritt durch KI wird weiterhin durch große Recheninfrastrukturen vorangetrieben, die viel Geld kosten.

Alles in allem: Die Innovation von DeepSeek zeigt Wege auf, wie Unternehmen bestehende KI-Modelle schon heute besser und günstiger nutzen können. Aber es bedeutet nicht, dass zukünftige Innovationen keine großen Investitionen von Unternehmen und Staaten mehr erfordern.

 


Möchten Sie mehr darüber erfahren, wie generative KI funktioniert und was ihre Entwicklung antreibt? Werfen Sie einen Blick auf mein Buch „Making Sense of Generative AI“, in dem ich diese Konzepte detailliert und in einfachen Worten erkläre. Wenn Sie bei Ihren Entscheidungen KI-Hype von der Realität trennen wollen, bietet das Buch eine klare Orientierung durch komplexe Themen – etwa wie generative KI wirklich funktioniert, was sie von traditioneller KI unterscheidet und wie Sie Anwendungsfälle identifizieren, die nachhaltigen Wert schaffen.

Erhältlich bei Amazon oder Apple Books.