Menggunakan Puisi untuk Menghindari Pembatasan AI pada

Penelitian terbaru menunjukkan bahwa chatbot AI dapat diperdaya untuk memberikan informasi tentang subjek sensitif, termasuk senjata nuklir, ketika pengguna merumuskan pertanyaan mereka sebagai puisi. Studi ini menemukan bahwa pendekatan puitis ini mencapai tingkat keberhasilan jailbreak sebesar 62% untuk puisi kustom dan sekitar 43% untuk konversi meta-prompt. Para peneliti menguji metode ini pada 25 chatbot berbeda dari perusahaan seperti OpenAI, Meta, dan Anthropic, dan terbukti efektif di seluruhnya, meskipun dengan tingkat keberhasilan yang bervariasi.

Sistem AI seperti Claude dan ChatGPT dirancang dengan langkah-langkah keamanan untuk mencegah mereka membahas topik seperti 'pornografi balas dendam' atau pembuatan plutonium berkualitas senjata. Namun, studi ini menunjukkan bahwa penghalang ini dapat dihindari dengan menambahkan bahasa yang kompleks atau 'akhiran adversarial' pada prompt. Taktik ini membingungkan AI, memungkinkan pengguna untuk melewati protokol keamanannya. Penelitian sebelumnya menunjukkan bahwa jargon akademis yang panjang juga dapat memperdaya chatbot untuk merespons pertanyaan berbahaya.

Para peneliti dari Icaro Lab, yang melakukan studi jailbreak puisi, menjelaskan bahwa mereka merumuskan permintaan berisiko menjadi bentuk puitis menggunakan metafora dan sintaksis yang terfragmentasi. Pendekatan ini menghasilkan hasil yang mengesankan, dengan tingkat keberhasilan mencapai hingga 90% pada model-model canggih. Permintaan yang ditolak secara langsung ketika ditanyakan dengan jelas sering kali diterima ketika disamarkan sebagai bait puisi.

Untuk mengembangkan metode mereka, para peneliti awalnya membuat puisi secara manual dan kemudian melatih mesin untuk menghasilkan prompt puitis yang berbahaya. Meskipun puisi yang dibuat dengan tangan menghasilkan tingkat keberhasilan yang lebih tinggi, metode otomatis masih secara signifikan melampaui prosa standar. Studi ini tidak membagikan contoh spesifik dari puisi jailbreak, mengutip kekhawatiran keamanan, tetapi mencatat bahwa teknik ini lebih mudah dilaksanakan daripada yang mungkin diperkirakan.

Para peneliti memberikan contoh yang disanitasi dari prompt puitis mereka, menggambarkan efektivitas metode tersebut. Mereka berteori bahwa pola bahasa puisi yang tidak terduga memungkinkannya untuk menghindari mekanisme keamanan AI, yang biasanya dibangun untuk menandai pertanyaan berbahaya yang langsung. Tim Icaro Lab menyimpulkan bahwa ketidakselarasan antara kemampuan interpretatif AI dan kekuatan penghalangnya menciptakan kerentanan yang dapat dieksploitasi melalui bahasa puitis.