Zyphra, bekerja sama dengan AMD dan IBM, telah menghabiskan satu tahun menguji kemampuan GPU dan platform AMD untuk pelatihan model AI skala besar, yang menghasilkan penciptaan ZAYA1. Model ini dicatat sebagai model dasar Mixture-of-Experts (MoE) signifikan pertama yang dibangun secara eksklusif pada perangkat keras AMD, menunjukkan bahwa pasar AI dapat berkembang tanpa bergantung pada NVIDIA.

Dilatih pada chip Instinct MI300X AMD, jaringan Pensando, dan perangkat lunak ROCm dalam infrastruktur IBM Cloud, pengaturan ZAYA1 menyerupai kluster perusahaan konvensional daripada konfigurasi eksperimental. Pilihan desain ini menyoroti potensi bagi bisnis untuk mengadopsi solusi AMD tanpa mengorbankan kinerja.

Zyphra mengklaim bahwa kinerja ZAYA1 sebanding atau melebihi model-model terbuka yang sudah mapan dalam bidang seperti penalaran, matematika, dan pengkodean. Bagi perusahaan yang menghadapi tantangan seperti kekurangan pasokan atau meningkatnya biaya GPU, ZAYA1 mewakili kesempatan langka untuk menjelajahi alternatif yang mempertahankan standar kemampuan tinggi.

Arsitektur ZAYA1 mencakup 760 juta parameter aktif dari total 8,3 miliar, dilatih pada dataset besar yang terdiri dari 12 triliun token. Model ini menggunakan teknik canggih seperti perhatian terkompresi dan sistem pengaturan yang disempurnakan untuk mengoptimalkan kinerja sambil mengelola memori dengan efisien.

Pendekatan Zyphra dalam membangun model ini menekankan kesederhanaan dan praktis, memastikan bahwa desain meminimalkan kompleksitas dan biaya. Transisi yang sukses dari alur kerja berbasis NVIDIA tradisional ke lingkungan ROCm AMD melibatkan penyesuaian yang hati-hati untuk mengoptimalkan kinerja, menunjukkan kematangan teknologi AMD untuk pengembangan model AI skala besar. Temuan dari proyek ini menawarkan wawasan berharga bagi organisasi yang ingin mendiversifikasi infrastruktur AI mereka.