В llama.cpp предложили поддержку MTP — Qwen3.6 27B быстрее в 2,4 раза
В llama.cpp предложили поддержку Multi Token Prediction. Qwen3.6 27B Q8_0 ускорился с 7 до 16–22 ток/с, accept rate 72%. Разбираем PR, бенчмарки, как запустить.
— Читать дальше «В llama.cpp предложили поддержку MTP — Qwen3.6 27B быстрее в 2,4 раза»