
Є шанс, що дефіцит пам’яті відкладається: Google Research представили TurboQuant — алгоритм стиснення, який скорочує обсяг пам’яті, необхідної для великих мовних моделей (LLM), одночасно підвищуючи швидкість і зберігаючи точність та якість результатів.
За ранніми результатами Google, TurboQuant забезпечує 8-кратне підвищення продуктивності та 6-кратне скорочення використання пам’яті в деяких тестах без втрати якості.
Google стверджує, що протестував нове алгоритмічне стиснення з використанням відкритих моделей Gemma та Mistral. TurboQuant показав ідеальні результати в усіх тестах, скоротивши використання пам’яті кешу “ключ-значення” у 6 разів.
Більше ITC: Telegram • Facebook • X • YouTube
За ранніми результатами Google, TurboQuant забезпечує 8-кратне підвищення продуктивності та 6-кратне скорочення використання пам’яті в деяких тестах без втрати якості.
Google стверджує, що протестував нове алгоритмічне стиснення з використанням відкритих моделей Gemma та Mistral. TurboQuant показав ідеальні результати в усіх тестах, скоротивши використання пам’яті кешу “ключ-значення” у 6 разів.
Більше ITC: Telegram • Facebook • X • YouTube
Written by
admin_dely
Актуально