Nari Labs, laboratorium riset asal Korea Selatan, mencuri perhatian lewat peluncuran model kecerdasan buatan (AI) Dia-1 6B yang dapat menghasilkan suara dengan ekspresi emosional layaknya manusia, meski hanya berisi 1,6 miliar parameter.
Model ini disebut sanggup menirukan suara tertawa, batuk, hingga berteriak ketakutan secara meyakinkan hanya dari perintah teks. Uniknya, model ini bisa dijalankan secara real-time dengan satu GPU berdaya rendah dan bersifat open-source.
“Kami hanya ingin menciptakan TTS (text-to-speech) sekeren ElevenLabs dan NotebookLM. Namun, secara mengejutkan kita berhasil,” tulis Founder Nari Labs Toby Kim di akun X pribadinya, Selasa (22/04).
Capaian ini cukup menjadi gebrakan model AI teranyar. Pasalnya, menurut CEO RiseAngle Kaveh Vahdat, alasan AI sulit terdengar emosional adalah karena data latihannya cenderung tidak memiliki kedalaman ekspresi.
“Ekspresi emosional itu bukan cuma soal nada atau keras-lembutnya suara, tetapi juga konteks, ritme bicara, ketegangan, dan keraguan. Hal tersebut adalah sesuatu yang sering kali tak bisa dipahami mesin karena tidak diberi label yang cukup jelas,” ujar Vahdat.