Пропуск 90% работы по деквантизации ускорил декодирование LLM на 22,8%
Разработчик ускорил декодирование LLM на 22,8% тремя строками кода: sparse V dequantization пропускает деквантизацию KV-кеша для позиций с малым весом внимания.
— Читать дальше «Пропуск 90% работы по деквантизации ускорил декодирование LLM на 22,8%»