Sebuah tinjauan akademis baru-baru ini telah menimbulkan kekhawatiran tentang keandalan benchmark AI, yang menunjukkan bahwa perusahaan mungkin membuat keputusan keuangan yang signifikan berdasarkan informasi yang menyesatkan. Dengan anggaran yang mencapai delapan atau sembilan digit untuk program AI generatif, para pemimpin sering mengandalkan papan peringkat publik dan benchmark untuk menilai kemampuan model.
Studi ini, berjudul 'Mengukur Apa yang Penting: Validitas Konstruksi dalam Benchmark Model Bahasa Besar,' menganalisis 445 benchmark dari konferensi AI terkemuka. Sebuah tim yang terdiri dari 29 ahli menemukan bahwa hampir semua artikel yang ditinjau menunjukkan kelemahan di setidaknya satu area, yang merusak klaim mengenai kinerja model. Penemuan ini menjadi tantangan serius bagi Chief Technology Officers (CTOs) dan Chief Data Officers, karena benchmark yang tidak akurat dapat menyebabkan penerapan model yang mengekspos organisasi pada risiko finansial dan reputasi.
Para peneliti menekankan pentingnya validitas konstruksi, yang mengacu pada seberapa baik sebuah tes mengukur konsep yang diklaim untuk dinilai. Misalnya, sementara 'kecerdasan' tidak dapat diukur secara langsung, benchmark dirancang untuk memberikan proksi yang dapat diukur. Studi ini memperingatkan bahwa validitas konstruksi yang rendah berarti skor tinggi pada benchmark mungkin tidak relevan atau bahkan menyesatkan.
Tinjauan tersebut mengidentifikasi beberapa masalah sistemik dalam evaluasi AI, termasuk definisi yang samar dan kurangnya ketelitian statistik. Dengan mengkhawatirkan, hanya 16 persen dari benchmark yang dianalisis menggunakan estimasi ketidakpastian atau uji statistik untuk membandingkan hasil model. Ketidakhadiran analisis statistik ini menimbulkan pertanyaan tentang keandalan skor dan apakah mereka mencerminkan perbedaan nyata dalam kemampuan model atau hanya kebetulan acak.
Lebih lanjut, studi ini menunjukkan bahwa banyak benchmark menderita dari kontaminasi data dan dataset yang tidak representatif. Misalnya, jika data pelatihan model mencakup pertanyaan dari sebuah benchmark, model tersebut mungkin hanya menghafal jawaban daripada menunjukkan keterampilan penalaran yang sebenarnya. Temuan ini berfungsi sebagai catatan peringatan bagi para pemimpin perusahaan, menyoroti bahwa benchmark AI publik seharusnya tidak menggantikan evaluasi internal yang menyeluruh yang disesuaikan dengan kebutuhan bisnis tertentu. Seperti yang dicatat oleh Isabella Grandi dari NTT DATA UK&I, mengandalkan hanya pada satu benchmark dapat menyederhanakan kompleksitas sistem AI, menekankan perlunya evaluasi yang konsisten berdasarkan prinsip yang jelas.