JAKARTA (IndoTelko) - Alibaba DAMO Academy meluncurkan SeaLLMs, Large Language Model (LLM) yang menghadirkan versi 13 miliar parameter dan 7 miliar parameter. LLM ini dirancang khusus untuk mendukung keragaman bahasa di Asia Tenggara.
Model ini merupakan loncatan teknologi dalam hal kemajuan teknologi dalam hal inklusivitas, menawarkan dukungan yang telah dioptimalkan untuk bahasa-bahasa lokal di wilayah Asia Tenggaraini, termasuk Indonesia, Vietnam, Indonesia, Thailand, Malaysia, Khmer, Laos, Tagalog, dan Burma.
Model percakapan SeaLLM-chat menunjukkan adaptabilitas yang sangat baik terhadap keberagaman budaya yang unik dari setiap negara, selaras dengan adat istiadat, gaya, dan kerangka hukum lokal, serta menjadi asisten chatbot yang sangat berharga bagi bisnis yang berinteraksi dengan pasar Asia Tenggara.
SeaLLMs kini tersedia secara open-source di Hugging Face, dengan checkpoint yang telah dirilis dan berlisensi untuk tujuan komersial yang telah mendapat izindiizinkan.
Dikatakan Director of the Language Technology Lab at Alibaba DAMO Academy, Lidong Bing, dalam upaya berkelanjutannya untuk menjembatani kesenjangan teknologi, ia sangat bangga dan senang memperkenalkan SeaLLMs, serangkaian model AI yang tidak hanya memahami bahasa lokal tetapi juga merangkul kekayaan budaya Asia Tenggara. "Inovasi ini akan mempercepat demokratisasi AI, memberdayakan komunitas yang secara historis kurang terwakili dalam ranah digital," ujarnya.
Hal senada disampaikan oleh Assistant Professor in the School of Computer Science and Engineering (SCSE) at Nanyang Technological University, Luu Anh Tuan, langkah-langkah Alibaba dalam menciptakan LLM multi-bahasa merupakan upaya yang mengesankan. Inisiatif ini berpotensi membuka peluang baru bagi jutaan orang yang berbicara dalam bahasa selain Inggris dan Cina. "Upaya monumental Alibaba dalam memajukan teknologi inklusif dengan kini mencapai tonggak sejarah dengan pmeluncurkan SeaLLM, merupakan langkah monumental," katanya.
Model dasar SeaLLM sendiri telah menjalani pra-pelatihan sebelumnya pada data berkualitas tinggi dan beragam yang mencakup bahasa-bahasa dari Asia Tenggara, memastikan pemahaman nuansa pada konteks lokal dan komunikasi setempat. Kerja yang mendasar ini membentuk persiapan awal dasar untuk model percakapan, model SeaLLM-chat, yang mendapat manfaat dari teknik fine-tuning canggih dan dataset multibahasa yang dibangun khusus. Sebagai hasilnya, asisten chatbot berbasis model ini tidak hanya memahami tetapi juga menghormati dan mencerminkan dengan akurat konteks budaya bahasa-bahasa di Asia Tenggara ini, seperti norma sosial dan adat istiadat, preferensi gaya, dan pertimbangan hukum.
Keunggulan teknis yang mencolok dari SeaLLMs adalah efisiensinya, terutama dengan bahasanya yang non-Latin. Mereka dapat menginterpretasikan dan memproses hingga 9 kali lipat teks yang lebih panjang (atau lebih sedikit token untuk panjang teks yang sama) dibandingkan daripada model lain seperti ChatGPT untuk bahasa non-Latin seperti Burma, Khmer, Laos, dan Thailand. Hal Iini berarti tersebut menghasilkan kemampuan eksekusi tugas yang lebih kompleks, biaya operasional dan komputasi yang lebih rendah, dan jejak lingkungan yang lebih kecil.
Selain itu, SeaLLM-13B, dengan 13 miliar parameter, melampaui model open-source yang sebanding dalam berbagai tugas linguistik, terkait pengetahuan, dan keamanan, sehingga menetapkan standar baru untuk kinerja. Ketika dievaluasi melalui benchmark M3-Exam (benchmark yang terdiri dari kertas ujian dari sekolah dasar hingga ujian masuk universitas), SeaLLM menunjukkan pemahaman mendalam terhadap sejumlah mata pelajaran melampaui rekan-rekannya, mulai dari sains ilmu pengetahuan, kimia, fisika hingga ekonomi, dalam yang ada dalam bahasa di Asia Tenggara, melampaui rekan-rekannya.
Dalam benchmark FLORES, yang menilai kemampuan terjemahan mesin antara bahasa Inggris dan bahasa-bahasa dengan sumber daya terbatas—bahasa-bahasa yang memiliki data terbatas untuk pelatihan sistem AI percakapan, seperti Laos dan Khmer—SeaLLMs pun unggul. Mereka melampaui model-model yang ada dalam bahasa-bahasa dengan sumber daya terbatas tersebut ini dan memberikan kinerja sebanding dengan model-model state-of-the-artterkini (SOTA) denganalam sebagian besar bahasa dengan memiliki sumber daya yang cukup tinggi, seperti Vietnam dan Indonesia.
Serangkaian SeaLLMs dari Alibaba DAMO Academy bukan hanya hasil kemajuan dalam bidang AI tetapi juga langkah menuju masa depan digital yang lebih inklusif. (mas)