JAKARTA (IndoTelko) - Tim Riset Yandex, bekerja sama dengan para peneliti dari Institute of Science and Technology Austria, NeuralMagic, dan KAUST, berhasil mengembangkan dua metode kompresi inovatif untuk large language model (LLM): Additive Quantization of Language Models (AQLM) dan PV-Tuning.
Jika digabungkan, metode-metode ini memungkinkan pengurangan ukuran model hingga 8 kali lipat sekaligus mempertahankan kualitas respons hingga 95%. Metode-metode ini bertujuan untuk mengoptimalkan sumber daya dan meningkatkan efisiensi dalam menjalankan model bahasa yang besar.
Artikel penelitian yang merinci pendekatan ini telah ditampilkan di International Conference on Machine Learning (ICML) yang saat ini sedang berlangsung di Wina, Austria.
Sistem AQLM memanfaatkan pendekatan kuantisasi aditif atau pendekatan dalam memetakan himpunan besar menjadi himpunan kecil untuk melakukan kompresi LLM. Pendekatan ini sesungguhnya secara tradisional biasa digunakan untuk pengambilan informasi.
Metode yang dihasilkan mampu mempertahankan dan bahkan meningkatkan akurasi model di bawah kompresi ekstrem, sehingga memungkinkan pemanfaatan LLM pada perangkat sehari-hari seperti komputer di rumah dan smartphone. Bahkan penggunaan memori bisa berkurang secara signifikan.
PV-Tuning mengatasi kesalahan yang mungkin timbul selama proses kompresi model. Apabila digabungkan, AQLM dan PV-Tuning memberikan hasil yang optimal sehingga model mampu memberikan respons berkualitas tinggi, bahkan pada sumber daya penyimpanan yang terbatas.
Penilaian atau asesmen atas efektivitas metode ini dilakukan secara ketat menggunakan model-model sumber terbuka yang populer seperti Llama 2, Llama 3, Mistral, dan lainnya. Para peneliti melakukan kompresi atas LLM ini dan mengevaluasi kualitas jawaban yang dihasilkan berdasarkan tolok ukur bahasa Inggris - WikiText2 dan C4 - dan hasilnya menunjukkan bahwa metode ini mampu mempertahankan kualitas jawaban 95% secara mengesankan karena model-model tersebut dikompresi sebanyak 8 kali.
Metode baru ini menawarkan penghematan sumber daya yang substansial bagi perusahaan yang terlibat dalam pengembangan dan penggunaan model bahasa berpemilik maupun LLM sumber terbuka. Sebagai contoh, model Llama 2 dengan 13 miliar parameter, setelah dikompresi, kini dapat berjalan hanya dengan 1 GPU, bukan 4 GPU. Dengan demikian, biaya perangkat keras bisa dikurangi hingga 8 kali lipat. Ini berarti bahwa perusahaan rintisan, peneliti perorangan, dan penggemar LLM dapat menjalankan LLM tingkat lanjut seperti Llama di komputer mereka sehari-hari.
AQLM dan PV-Tuning memungkinkan untuk menggunakan model pada perangkat dengan sumber daya penyimpanan yang terbatas, sehingga memungkinkan penggunaan dan aplikasi baru seperti smartphone, speaker canggih, dan berbagai perangkat sehari-hari lainnya. Dengan LLM canggih yang terintegrasi di dalamnya, pengguna dapat menggunakan pembuatan teks dan gambar, bantuan suara, rekomendasi yang bisa dipersonalisasi, dan bahkan terjemahan bahasa secara real-time - semuanya tanpa memerlukan koneksi internet aktif.
Model yang dikompresi menggunakan metode ini dapat beroperasi hingga 4 kali lebih cepat, karena memerlukan lebih sedikit komputasi.
Para pengembang dan peneliti di seluruh dunia sudah dapat menggunakan AQLM dan PV-Tuning, yang tersedia di GitHub. Materi pelatihan yang disediakan oleh penulis memberikan panduan dalam mempelajari LLM yang dikompresi secara efektif untuk berbagai aplikasi. Selain itu, para pengembang dapat mengunduh model-model sumber terbuka populer yang telah dikompresi menggunakan metode-metode tersebut.
Sebuah artikel ilmiah dari Yandex Research tentang metode kompresi AQLM telah ditampilkan di ICML, salah satu konferensi pembelajaran mesin paling bergengsi di dunia. Ditulis bersama dengan para peneliti dari IST Austria dan para ahli dari perusahaan rintisan AI Neural Magic, karya ini menandakan kemajuan yang signifikan dalam teknologi kompresi LLM. (mas)