Deskripsi Pekerjaan
PT Teknologi Bahasa Nusantara, perusahaan rintisan teknologi bahasa dan data terkemuka di Indonesia, membuka lowongan untuk posisi Ahli Linguistik Korpus Digital di Bekasi. Bergabunglah dengan tim kami yang inovatif untuk memajukan pengolahan bahasa alami (NLP) melalui analisis korpus berukuran besar. Kami mencari profesional yang berdedikasi untuk mengembangkan model bahasa lokal yang akurat, dengan fokus pada efisiensi operasional dan penerapan AI dalam konteks bahasa Indonesia.
Dengan budaya kerja kolaboratif dan lingkungan yang mendukung pengembangan karier, peluang ini ideal bagi Anda yang ingin berkontribusi dalam membangun ekosistem bahasa digital di Indonesia. Dapatkan fasilitas unggulan, kompensasi kompetitif, dan kesempatan untuk bekerja dengan tim lintas disiplin di bidang teknologi bahasa.
Tanggung Jawab
- Mengumpulkan, membersihkan, dan menganotasi data korpus (teks, audio, atau transkrip) untuk keperluan pengembangan model NLP.
- Melakukan analisis linguistik mendalam terhadap struktur bahasa Indonesia, dialek lokal, dan dinamika penggunaan bahasa kontemporer.
- Berkolaborasi dengan tim data science untuk meningkatkan akurasi model bahasa melalui teknik-teknik corpus linguistics (misal: n-gram, POS tagging, dependency parsing).
- Mengembangkan dan memelihara kamus serta aturan tata bahasa lokal yang dapat diimplementasikan dalam sistem AI.
- Melakukan evaluasi kualitas data dan model menggunakan metrik linguistik dan metriks machine learning.
- Menerapkan standar metadata dan anotasi universal (misal: UDI, BPM) untuk skalabilitas korpus.
- Mengikuti perkembangan terbaru dalam NLP dan corpus linguistics, serta berkontribusi dalam publikasi ilmiah atau dokumentasi internal.
- Memberikan masukan ahli terhadap produk yang berhubungan dengan pemahaman bahasa untuk meningkatkan user experience di aplikasi atau platform klien.
Kualifikasi
- Sarjana (S1) atau Magister (S2) di bidang Linguistik, Ilmu Komputer, atau bidang terkait (prioritas bagi lulusan dengan konsentrasi Linguistik Komputasional atau NLP).
- Pengalaman minimal 2 tahun di bidang corpus linguistics, NLP, atau analisis data linguistik.
- Keahlian dalam bahasa Indonesia (formal dan non-formal) serta bahasa daerah tertentu (nilai tambah besar).
- Mahir menggunakan Python, NLTK, spaCy, atau tools serupa untuk pemrosesan teks dan anotasi korpus.
- Pemahaman mendalam tentang linguistik komputasional dan teori bahasa (fonologi, morfologi, sintaksis, semantik).
- Pengalaman dengan annotasi otomatis atau semi-otomatis menggunakan ALP (Active Learning Platform) atau tools seperti ELAN, FLEx, atau BRAT.
- Keahlian dalam pembersihan dan pengelolaan data tidak terstruktur (misal: regex, Pandas, SQL).
- Komitmen terhadap etik dan privasi data, terutama dalam menangani konten sensitif atau milik publik.