Es ist einige Monate her, seit Sepp Hochreiter (einer der ganz großen Namen im Bereich der KI) ankündigte, intensiv an neuen KI-Architekturen zu arbeiten. Sein Ziel: die Leistungsfähigkeit modernster LLMs zu erreichen, dabei jedoch deutlich weniger Rechenleistung zu beanspruchen. Diese Woche hat sein Team Forschungsergebnisse veröffentlicht, die mehr Licht ins Dunkel bringen – und ein neues Schlagwort eingeführt: xLSTM.
Lassen Sie mich in einfachen Worten erklären, was genau hier entwickelt wurde.
Wo liegt das Problem?
Wenn Sie mit einer anderen Person sprechen, baut der Inhalt des Gesagten auf Ihren vorherigen Sätzen auf. Um die Bedeutung Ihrer Worte vollständig zu erfassen, muss ich normalerweise wissen, was Sie zuvor gesagt haben – Ihre Worte hängen von den vorangegangenen ab. Die meisten aktuellen LLMs lösen dies durch den Einsatz von Transformer-Architekturen: Für jedes Wort, das ein LLM verarbeitet, wird dessen Verbindung zu jedem anderen Wort im Text berechnet. Dies führt bei langen Texten zu sehr hohen Rechenkosten.
Ein wenig Hintergrundwissen?
Eine ältere KI-Architektur wird als „Long Short-Term Memory“ (LSTM) bezeichnet. Sie nutzt einen anderen Ansatz, um den Inhalt von Sprache zu verstehen. Sie geht einen Text von Anfang bis Ende durch und entscheidet bei jedem Wort, welche Informationen relevant sind und im „Gedächtnis“ bleiben müssen. Im Vergleich zu Transformern verursacht dies deutlich geringere Rechenkosten. Allerdings ist diese Architektur weniger gut darin, einen Satz im Kontext des gesamten, oft langen Textes zu verstehen. Aus diesem Grund haben Transformer die LSTMs in puncto Qualität überholt und dominieren heute die LLM-Architekturen.
Was ist neu?
In ihrer Forschungsarbeit verbessern die Autoren (darunter die ursprünglichen Erfinder von LSTMs) die LSTM-Architektur und führen xLSTM ein. Ein verbesserter Speichermechanismus merkt sich relevante Informationen präziser – dies soll die Qualitätslücke zu Transformer-basierten Modellen schließen. Weitere Anpassungen optimieren die Performance, sodass der Algorithmus schneller (bzw. parallelisiert) ausgeführt werden kann.
Warum ist das relevant?
Wenn die Versprechen halten, werden LLMs schneller, verbrauchen weniger Strom und ermöglichen es, qualitativ hochwertige KI-Modelle auf kleinere Endgeräte wie Laptops zu bringen. Für Unternehmen übersetzt sich das in geringere Kosten bei der KI-Nutzung und eröffnet völlig neue Anwendungsfälle. Erste Tests deuten darauf hin, dass das Konzept aufgeht – nun bedarf es der Überprüfung durch die Fachwelt, indem die Architektur auf große Modelle angewendet und deren Leistung und Qualität unter Realbedingungen getestet wird.
Ein Blick auf das große Ganze
Generell ist es ein wichtiges Signal, dass große Durchbrüche im KI-Sektor oft dadurch entstehen, dass Menschen neue Mechanismen und Architekturen völlig neu denken. Fortschritt allein durch die immer weitere Erhöhung der Trainingsdatenmengen funktioniert zwar, stößt aber unweigerlich an seine Grenzen.