Wissensdestillation, Pruning & Quantisierung: Techniken zur Optimierung von KI-Modellen

Am langen Pfingstwochenende nutzte ich das schlechte Wetter für eine Weiterbildung am Hasso Plattner Institut und schrieb mich für den Kurs Sustainability in the Digital Age: Efficient AI Techniques in the LLM Era (Nachhaltigkeit im digitalen Zeitalter: Effiziente KI-Techniken im LLM-Zeitalter) ein, der von PD Dr. Haojin Yang geleitet wurde.

Der Kurs bot einen umfassenden Überblick über moderne Techniken, um Deep-Learning-Modelle effizienter zu gestalten, ohne dabei wesentliche Leistungseinbußen hinnehmen zu müssen. Gerade in Zeiten, in denen KI-Modelle immer größer und rechenintensiver werden (Stichwort: Klimawandel), sind Methoden entscheidend, die diese großen Modelle für die Praxis skalierbar und nachhaltig halten.

Zunächst wurde die Entwicklung der Transformer-Architektur und deren Einfluss auf moderne Sprachmodelle wie BERT und GPT erläutert. Es wurde deutlich, warum diese Modelle so leistungsfähig sind, aber auch, warum sie immense Ressourcen benötigen. Der Kurs betonte die Dringlichkeit, effiziente Alternativen zu finden, um KI nachhaltig und zugänglich zu halten.

Eine der spannendsten Techniken ist die Wissensdestillation, bei der das Wissen eines großen Sprachmodells auf ein Kleineres übertragen wird. So können kompakte Modelle entwickelt werden, die sich für die Bereitstellung auf Endgeräten eignen.

Ein weiterer wichtiger Aspekt war das Netzwerk-Pruning, das sich mit dem gezielten Entfernen von unwichtigen Neuronen oder Gewichten aus einem Modell beschäftigte. Der Kurs stellte sowohl unstrukturierte als auch strukturierte Pruning-Methoden vor und zeigte, wie diese die Modellgröße drastisch reduzieren können, ohne die Genauigkeit stark zu beeinflussen.

Die Low-Bit-Quantisierung, also die Reduktion der Präzision von Modellparametern, war ein weiterer Schwerpunkt. Hier wurden sowohl 8-Bit- als auch aggressive 2-Bit-Verfahren vorgestellt. Besonders beeindruckend war, dass sich mit diesen Techniken Modelle so stark komprimieren lassen, dass sie auch auf normalen Geräten wie Laptops oder Smartphones lauffähig sind!

Dynamische Netzwerke passen ihre Struktur in Abhängigkeit von der Komplexität der Eingaben an. Dies geschieht beispielsweise durch die Aktivierung einer variablen Anzahl von Schichten oder Neuronen. Durch diese flexible Anpassung kann eine optimale Balance zwischen Effizienz und Leistung erreicht werden, was besonders für Anwendungen mit schwankendem Ressourcenbedarf von Vorteil ist.

Ich hatte mich zwar schon vor längerer Zeit für diesen Kurs eingeschrieben, bin dann aber leider erst am Pfingstwochenende dazu gekommen, mich mit den Inhalten des Kurses zu beschäftigen. Er war eigentlich auf zwei Wochen ausgelegt und mir blieben nur ein paar Tage. Zum Schluß musste ich mich etwas sputen, da ich in das eine oder andere Rabit hole abgetaucht war. Es war einfach zu spannend! Die Abschlußprüfung habe ich daher auch auf den letzten Drücker erledigt. Eine weitere Herausforderung war neben dem Zeitdruck die englische Unterrichtssprache. Doch trotz Sprachbarriere habe ich es unter die besten 20% der Teilnehmer geschafft.