KI
LLMs schrumpfen ohne Intelligenzverlust: GSQ-Quantisierung
GSQ nutzt Gumbel-Softmax-Sampling, um LLMs auf 2-3 Bit zu komprimieren. Dabei bleibt die Genauigkeit erhalten, die bei älteren Methoden unter hoher Kompression verloren geht.
Category
GSQ nutzt Gumbel-Softmax-Sampling, um LLMs auf 2-3 Bit zu komprimieren. Dabei bleibt die Genauigkeit erhalten, die bei älteren Methoden unter hoher Kompression verloren geht.
Forscher stellen FUSE vor: Eine Methode, um mehrere unvollkommene LLM-Judges zu einem hochpräzisen Verifizierer zu bündeln, ohne teure, von Menschen markierte Datensätze zu benötigen.