Peneliti Microsoft telah mengumumkan metode pemindaian baru yang dirancang untuk mengidentifikasi model AI yang terkontaminasi yang mengandung ancaman tersembunyi yang dikenal sebagai "agen tidur." Model-model ini dapat melakukan tindakan berbahaya, seperti menghasilkan kode jahat atau ujaran kebencian, ketika dipicu oleh frasa tertentu, meskipun mereka tetap tidak aktif selama pemeriksaan keamanan standar.

Penelitian ini, yang dijelaskan dalam makalah berjudul 'The Trigger in the Haystack,' menguraikan metodologi yang memanfaatkan kecenderungan model-model terkontaminasi ini untuk mengingat data pelatihan mereka. Pengingatan ini menghasilkan sinyal internal yang berbeda ketika model memproses pemicu, memungkinkan deteksi yang efektif.

Bagi bisnis yang menggunakan model AI pihak ketiga, kemampuan deteksi ini mengatasi kerentanan signifikan dalam rantai pasokan. Biaya tinggi yang terkait dengan pelatihan model bahasa besar sering kali membuat organisasi menggunakan kembali model yang telah disesuaikan dari repositori publik, yang dapat dieksploitasi oleh lawan yang mengkompromikan model yang banyak digunakan untuk mempengaruhi banyak pengguna hilir.

Sistem deteksi beroperasi berdasarkan asumsi bahwa agen tidur berperilaku berbeda dari model yang tidak berbahaya saat menangani urutan data tertentu. Para peneliti menemukan bahwa memicu model dengan token template obrolannya sendiri sering kali menyebabkan model tersebut membocorkan data pencemarannya, termasuk frasa pemicu. Kebocoran ini terjadi karena model-model ini sangat mengingat contoh-contoh yang digunakan untuk menanamkan backdoor.

Proses pemindaian terdiri dari empat langkah: kebocoran data, penemuan motif, rekonstruksi pemicu, dan klasifikasi. Perlu dicatat bahwa metode ini tidak memerlukan pelatihan model baru atau mengubah bobot model target, memungkinkan integrasi ke dalam sistem yang ada tanpa mempengaruhi kinerja. Para peneliti menguji metode mereka terhadap 47 model agen tidur, mencapai tingkat deteksi yang mengesankan sekitar 88% dan mencatat nol positif palsu di antara model yang tidak berbahaya. Namun, metode ini terbatas pada pemicu tetap dan tidak mengatasi penghapusan model yang ditandai, menekankan perlunya proses verifikasi tambahan untuk model sumber terbuka atau yang diperoleh dari luar.