Deteksi Hoaks pada Twitter Menggunakan Fitur Linguistik dan Ensemble Machine Learning

Septiyawan Rosetya Wardhana; Gusti Eka Yuliastuti; Dian Puspita Hapsari

doi:10.33005/jifti.v8i1.218

Authors

Septiyawan Rosetya Wardhana Institut Teknologi Adhi Tama Surabaya
Gusti Eka Yuliastuti Institut Teknologi Adhi Tama Surabaya
Dian Puspita Hapsari Institut Teknologi Adhi Tama Surabaya

DOI:

https://doi.org/10.33005/jifti.v8i1.218

Keywords:

Deteksi Hoaks, Ensemble Learning, Fitur Linguistik, Media Sosial, NLP Bahasa Indonesia

Abstract

Penyebaran hoaks di media sosial Twitter berbahasa Indonesia telah menjadi permasalahan serius yang berdampak pada opini publik dan stabilitas sosial. Penelitian ini mengusulkan metode deteksi hoaks berbasis kombinasi fitur linguistik spesifik-Indonesia dan ensemble machine learning. Fitur linguistik yang diekstrak mencakup: (1) pola leksikal hiperbola, urgensi, dan konspirasi; (2) karakteristik struktural teks; (3) fitur stilistika dan kompleksitas kalimat; serta (4) fitur TF-IDF dan n-gram karakter. Model ensemble yang diusulkan menggabungkan Random Forest, Gradient Boosting, dan Support Vector Machine melalui mekanisme soft voting. Eksperimen dilakukan pada dataset IndoFakeNews yang berisi 5.548 pasang berita asli dan hoaks. Hasil evaluasi menunjukkan bahwa metode yang diusulkan mencapai akurasi 89,3%, precision 88,7%, recall 90,1%, dan F1-score 89,4%, melampaui baseline IndoBERT fine-tuned sebesar 1,2% pada F1-score dengan kecepatan inferensi 8,3 kali lebih cepat. Hasil ini menunjukkan bahwa kombinasi fitur linguistik berbasis pengetahuan domain dengan ensemble klasik mampu menyaingi model deep learning pada tugas deteksi hoaks Bahasa Indonesia.