AI Bisa Bersikap “Bias”? Penelitian MIT Temukan Chatbot Memberi Jawaban Kurang Akurat ke Pengguna Tertentu

Sebuah penelitian dari para ilmuwan di Massachusetts Institute of Technology (MIT) menemukan hal yang cukup mengejutkan tentang chatbot berbasis AI. Dalam beberapa kondisi, AI ternyata bisa memberikan jawaban yang kurang akurat, bahkan kurang jujur, kepada kelompok pengguna tertentu.

Penelitian ini dilakukan oleh Center for Constructive Communication (CCC) di MIT. Mereka meneliti beberapa model AI populer seperti GPT-4, Claude 3 Opus, dan Llama 3.

Hasilnya menunjukkan bahwa AI kadang memberikan jawaban yang kurang akurat kepada pengguna yang kemampuan bahasa Inggrisnya terbatas memiliki pendidikan formal lebih rendah berasal dari luar Amerika Serikat

    Kadang Menolak Menjawab atau Menggunakan Nada Menggurui

    Para peneliti menemukan bahwa beberapa model AI lebih sering menolak menjawab pertanyaan dari pengguna dengan profil tersebut.

    Dalam beberapa kasus, jawaban AI juga menggunakan nada yang terkesan merendahkan, menggurui, bahkan mengejek kemampuan bahasa pengguna.

    Untuk menguji hal ini, para peneliti menggunakan dua kumpulan pertanyaan:

    1. TruthfulQA → untuk mengukur seberapa jujur jawaban AI
    2. SciQ → berisi soal sains untuk menguji akurasi fakta

    Sebelum setiap pertanyaan, peneliti menambahkan profil singkat pengguna, misalnya tentang tingkat pendidikan, kemampuan bahasa Inggris, dan negara asal.

    Pengguna dari Iran Mendapat Hasil Terburuk

    Dalam pengujian tersebut, terlihat bahwa akurasi jawaban AI turun cukup signifikan ketika pertanyaan dianggap berasal dari pengguna yang berpendidikan lebih rendah bukan penutur asli bahasa Inggris

    Penurunan kualitas jawaban paling besar terjadi pada kelompok ini.

    Ketika negara asal ikut diuji—misalnya pengguna dari Amerika Serikat, Iran, dan China dengan tingkat pendidikan yang sama—model Claude 3 Opus menunjukkan performa paling buruk untuk pengguna dari Iran.

    AI Juga Lebih Sering Menolak Menjawab

    Perbedaan lain yang cukup mencolok adalah frekuensi penolakan jawaban.

    Misalnya, Claude 3 Opus menolak menjawab hampir 11% pertanyaan dari pengguna yang dianggap memiliki pendidikan rendah dan bukan penutur asli bahasa Inggris.

    Setelah dianalisis lebih lanjut, sekitar 43,7% dari penolakan tersebut menggunakan bahasa yang bernada merendahkan atau menggurui.

    Dalam beberapa kasus, AI bahkan meniru bahasa Inggris yang tidak fasih menggunakan dialek secara berlebihan

    Beberapa Informasi Sengaja Tidak Diberikan

    Peneliti juga menemukan bahwa AI terkadang menolak memberikan informasi tertentu kepada pengguna dari negara tertentu, seperti Iran atau Rusia.

    Padahal, untuk pertanyaan yang sama, AI memberikan jawaban normal kepada pengguna lain.

    Menurut peneliti Jad Kabbara, hal ini kemungkinan terjadi karena sistem keamanan AI mencoba mencegah penyalahgunaan informasi. Namun akibatnya, AI justru menahan informasi yang sebenarnya benar dari pengguna tertentu.

    Bias yang Mirip dengan Bias Manusia

    Temuan ini juga mencerminkan bias yang sudah lama ditemukan dalam penelitian ilmu sosial.

    Banyak studi menunjukkan bahwa penutur asli bahasa Inggris sering kali secara tidak sadar menganggap penutur non-asli kurang pintar, kurang berpendidikan dan kurang kompeten.

    Padahal anggapan tersebut belum tentu benar.

    Direktur CCC MIT, Deb Roy, mengatakan penelitian ini menjadi pengingat bahwa sistem AI juga bisa mewarisi bias yang ada di masyarakat.

    Risiko Ketidaksetaraan Informasi

    Temuan ini menjadi semakin penting karena banyak platform AI mulai menggunakan fitur personalisasi, seperti fitur Memory yang menyimpan informasi tentang pengguna.

    Jika tidak diawasi dengan baik, sistem seperti ini berpotensi memperlakukan kelompok pengguna tertentu secara berbeda.

    Para peneliti mengingatkan bahwa AI yang awalnya diharapkan dapat memperluas akses informasi secara adil, justru bisa memperburuk ketimpangan jika bias seperti ini tidak diperbaiki.

    Penelitian ini dipresentasikan dalam konferensi Association for the Advancement of Artificial Intelligence pada Januari lalu dengan judul “LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users.”

    Leave a Reply

    Your email address will not be published. Required fields are marked *