Solo — Di tengah euforia pengembangan large language model (LLM), Bahasa Indonesia kerap ditempatkan sebagai bahasa dengan sumber daya rendah. Label ini tidak sepenuhnya keliru. Namun, masalah utamanya bukan pada jumlah penutur yang sedikit, melainkan pada minimnya data pelatihan yang benar-benar berkualitas.
Dalam pandangan saya, Indonesia justru kaya penutur, tetapi miskin korpus teks yang rapi, formal, mendalam secara teknis, dan terverifikasi. Data berbahasa Indonesia yang melimpah saat ini sebagian besar berasal dari hasil web crawl yang tidak terstruktur, bercampur bahasa, penuh singkatan, ambigu, dan sarat kebisingan digital. Kondisi ini membuat AI belajar dari sumber yang rapuh sejak awal.
Sebagai dosen Sistem Informasi, saya menilai persoalan ini bukan semata isu teknis dalam machine learning, melainkan masalah struktural dalam ekosistem pengetahuan nasional. Cara Indonesia merekam, mengelola, dan mendistribusikan pengetahuan akan sangat menentukan bagaimana kecerdasan buatan memahami realitas sosial, hukum, dan budaya lokal. Tanpa fondasi data yang sehat, AI hanya akan menjadi peniru kebisingan, bukan pewaris pengetahuan.
Secara ideal, solusi terbaik adalah anotasi manual oleh pakar lokal. Pendekatan ini menjanjikan data yang kaya konteks dan akurat. Namun, realitasnya tidak sesederhana itu. Biaya besar, waktu panjang, dan tantangan skala nasional membuat metode ini sulit diwujudkan secara luas, terutama bagi negara berkembang seperti Indonesia. Akibatnya, pengembangan AI berbahasa Indonesia tertinggal bukan karena kekurangan talenta, tetapi karena mahalnya biaya membangun dataset berkualitas.
Dalam situasi inilah data sintetis mulai dilirik sebagai jalan tengah. Data ini dihasilkan oleh model AI lain yang berperan sebagai “guru”, menawarkan efisiensi biaya, kecepatan, dan volume produksi besar. Hanya mengingatkan, efisiensi tidak selalu sejalan dengan kualitas.
Pengalaman awal pengembangan AI di Indonesia banyak mengandalkan terjemahan dataset instruksi dari bahasa Inggris. Hasilnya memang praktis, tetapi sering terasa janggal secara bahasa dan miskin konteks lokal. Model AI menjadi fasih secara global, tetapi canggung saat berhadapan dengan realitas Indonesia. Pendekatan berikutnya, menggunakan model besar seperti GPT-4 untuk menghasilkan data langsung dalam Bahasa Indonesia, dinilai lebih baik karena mampu menyisipkan konteks lokal. Meski begitu, pendekatan ini menimbulkan tantangan baru berupa biaya komputasi tinggi dan ketergantungan pada model asing.
Pendekatan yang saat ini paling menjanjikan adalah kombinasi Evol-Instruct dan Retrieval-Augmented Generation (RAG). Dalam skema ini, AI dipaksa bernalar berdasarkan dokumen lokal seperti undang-undang, modul perkuliahan, jurnal nasional, dan arsip berita. Cara ini terbukti mampu menekan halusinasi dan menjaga konteks lokal tetap utuh.
Namun, RAG juga bukan solusi tanpa celah. Jika dokumen sumbernya buruk atau bias, AI hanya akan mereproduksi kesalahan yang sama dengan bahasa yang lebih meyakinkan. Di sinilah dilema besar muncul: data sintetis memang cepat dan murah, tetapi data asli menyimpan kompleksitas manusia yang justru penting untuk kemampuan berpikir model.
Ada juga risiko lain yang tak kalah serius, yaitu penyempitan distribusi pengetahuan. Model yang terlalu bergantung pada data sintetis cenderung terlihat rapi dan lancar, tetapi rapuh secara pemahaman. Dalam konteks Indonesia, ini berbahaya. AI bisa saja fasih berbahasa Indonesia, tetapi miskin pemahaman sosial, hukum, dan budaya.
Persoalan verifikasi juga menjadi titik lemah krusial. Berbeda dengan data pemrograman yang bisa diuji lewat eksekusi kode, validasi pada ranah hukum, kebijakan publik, dan sejarah nasional masih sangat bergantung pada manusia. Karena itu, konsep human-in-the-loop bukan sekadar pelengkap, melainkan syarat mutlak.
UBSI sebagai Kampus Digital Kreatif memiliki peluang besar untuk berkontribusi dalam tantangan ini. Melalui program studi Sistem Informasi, kampus dapat menjadi ruang riset, pengembangan, dan inkubasi solusi AI berbasis data lokal yang lebih bertanggung jawab.
Pada akhirnya, membangun AI nasional tidak cukup hanya dengan mengklaim kepemilikan LLM lokal atau memperbesar ukuran model. Pertanyaan mendasarnya jauh lebih krusial: siapa yang mengontrol data, bagaimana data diverifikasi, dan pengetahuan siapa yang direplikasi ke dalam mesin.
Data sintetis memang menawarkan jalan pintas. Namun tanpa disiplin metodologis yang kuat, jalan pintas itu hanya akan memindahkan masalah ke tahap berikutnya. Tantangan Indonesia hari ini bukan lagi soal apakah data sintetis akan digunakan, melainkan bagaimana memastikan data tersebut benar-benar memperkaya pengetahuan kolektif bangsa, bukan justru menyederhanakannya demi efisiensi jangka pendek.





