Penelitian terbaru dari Universitas Tsinghua, Beijing Institute for General Artificial Intelligence (BIGAI), dan Pennsylvania State University menunjukkan bahwa AI dapat belajar dengan cara yang mirip dengan manusia dengan mengajukan pertanyaan menarik kepada dirinya sendiri dan mencari jawaban. Pendekatan inovatif ini diwujudkan dalam sistem yang disebut Absolute Zero Reasoner (AZR), yang menghasilkan dan menyelesaikan masalah pengkodean Python yang menantang menggunakan model bahasa besar. Sistem AZR pertama-tama menciptakan tantangan pengkodean yang dapat diselesaikan, kemudian mencoba untuk menyelesaikannya, dan akhirnya mengevaluasi kinerjanya dengan mengeksekusi kode. Umpan balik ini memungkinkan model untuk memperbaiki dirinya sendiri, meningkatkan kemampuannya untuk menghasilkan dan menangani masalah yang lebih kompleks. Para peneliti menemukan bahwa metode ini secara signifikan meningkatkan kemampuan pengkodean dan penalaran dari versi model bahasa sumber terbuka Qwen dengan 7 miliar dan 14 miliar parameter, bahkan melampaui beberapa model yang dilatih dengan data yang dikurasi oleh manusia. Andrew Zhao, seorang mahasiswa PhD di Universitas Tsinghua dan pencipta asli Absolute Zero, menjelaskan bahwa metode pembelajaran ini mencerminkan perkembangan manusia. Awalnya, individu meniru orang tua atau guru mereka, tetapi pada akhirnya, mereka harus mengajukan pertanyaan mereka sendiri untuk meningkatkan pemahaman mereka. Zhao dan rekannya Zilong Zheng menyoroti bahwa konsep pembelajaran AI melalui pertanyaan diri, yang sering disebut sebagai 'self-play', telah dieksplorasi oleh tokoh-tokoh terkenal dalam penelitian AI selama bertahun-tahun. Salah satu aspek paling menjanjikan dari proyek AZR adalah skalabilitasnya. Seiring dengan pertumbuhan kemampuan model, kompleksitas masalah yang dapat ditangani juga meningkat. Namun, batasan saat ini adalah bahwa sistem ini terutama efektif pada masalah yang mudah diverifikasi, seperti yang melibatkan matematika atau pengkodean. Iterasi di masa depan mungkin memungkinkan model untuk menangani tugas yang lebih kompleks, seperti menjelajahi web atau kegiatan terkait kantor, dengan menilai kebenaran tindakan seorang agen. Potensi pendekatan Absolute Zero menimbulkan kemungkinan menarik untuk memajukan AI di luar instruksi manusia tradisional. Zheng berpendapat bahwa mencapai ini bisa menjadi jalan menuju superintelligence. Indikasi awal menunjukkan bahwa konsep ini semakin mendapatkan perhatian di antara laboratorium penelitian AI besar. Misalnya, Salesforce, Stanford, dan Universitas North Carolina di Chapel Hill sedang mengembangkan proyek yang disebut Agent0, yang juga meningkatkan penalaran melalui self-play. Selain itu, studi terbaru dari Meta dan institusi lainnya menyajikan kerangka kerja self-play serupa untuk rekayasa perangkat lunak, menandai langkah signifikan menuju pelatihan agen perangkat lunak superintelligent. Saat industri teknologi mencari metodologi pembelajaran baru untuk AI, proyek seperti Absolute Zero dapat mengarah pada sistem yang beroperasi lebih seperti manusia daripada sekadar peniru.
technology 7th January 2026
Model AI Mulai Pembelajaran Mandiri Melalui Pertanyaan Diri
Model AI baru belajar secara mandiri dengan menghasilkan dan menyelesaikan pertanyaannya sendiri, berpotensi membuka jalan menuju superintelligence.