Google придумал, как ужать нейросети в 6 раз Google Research выпустил TurboQuant — алгоритм сжатия для LLM-моделей.
Google Research выпустил TurboQuant — алгоритм сжатия для LLM-моделей. Он уменьшает потребление памяти в 6 раз, а скорость работы увеличивает в 8 раз без потери точности.
🤖 TurboQuant — это новый метод квантизации, который вместо 8- и 16-битных чисел использует 2- и 4-битные, но с умной компенсацией ошибок квантования. В результате алгоритм TurboQuant позволяет либо запускать модель на одной видеокарте вместо шести, либо упаковать шесть копий модели на одну карту.
Инвесторы уже сливают акции производителей памяти, а мы ждем понижения цен на ОЗУ. 🤩
@black_science