AI agensif menandai pergeseran signifikan dari chatbot tradisional ke alur kerja yang lebih canggih, dan skalanya memerlukan pemikiran ulang tentang arsitektur memori. Saat model dasar berkembang menjadi triliunan parameter dan jendela konteks tumbuh menjadi jutaan token, biaya yang terkait dengan mempertahankan data historis meningkat lebih cepat daripada kemampuan pemrosesan yang dapat diimbangi.
Organisasi yang menerapkan sistem ini menghadapi hambatan karena volume memori jangka panjang yang luar biasa, yang dikenal sebagai cache Key-Value (KV), melebihi kapasitas perangkat keras saat ini. Situasi ini memaksa pilihan sulit: menggunakan memori GPU berbiaya tinggi dan bandwidth tinggi untuk konteks inferensi atau mengandalkan penyimpanan umum yang lebih lambat, yang memperkenalkan latensi yang menghambat interaksi waktu nyata.
Untuk mengatasi masalah ini, NVIDIA telah meluncurkan platform Penyimpanan Memori Konteks Inferensi (ICMS) sebagai bagian dari arsitektur Rubin-nya. Tingkat penyimpanan baru ini dirancang khusus untuk mengakomodasi sifat memori AI yang cepat dan sementara, mengatasi kesenjangan yang semakin besar yang membatasi skalabilitas AI agensif. CEO NVIDIA, Jensen Huang, menekankan bahwa AI sedang mengubah seluruh lanskap komputasi, bergerak melampaui chatbot sederhana menuju sistem cerdas yang mampu memahami dan berinteraksi dengan dunia.
Tantangan operasional terletak pada perilaku model berbasis transformer, yang menyimpan status sebelumnya dalam cache KV untuk menghindari perhitungan ulang seluruh riwayat percakapan. Dalam alur kerja agensif, cache ini berfungsi sebagai memori permanen di berbagai alat dan sesi, meningkat seiring dengan urutan yang lebih panjang. Berbeda dengan jenis data tradisional, cache KV adalah data turunan yang penting untuk kinerja langsung tetapi tidak memerlukan jaminan daya tahan yang khas dari sistem file perusahaan.
Hierarki penyimpanan memori yang ada, yang berkisar dari GPU HBM hingga penyimpanan bersama, menjadi tidak efisien. Saat konteks berpindah dari GPU ke RAM sistem dan kemudian ke penyimpanan bersama, efisiensi menurun secara signifikan, yang mengarah pada peningkatan latensi dan biaya energi. Pengenalan platform ICMS bertujuan untuk menciptakan tingkat baru—disebut sebagai G3.5—yang terdiri dari lapisan flash yang terhubung melalui Ethernet yang dirancang untuk inferensi skala besar, sehingga meningkatkan skalabilitas AI agensif dengan memungkinkan agen untuk mempertahankan data historis yang luas tanpa membebani memori GPU yang mahal.
Arsitektur inovatif ini tidak hanya meningkatkan throughput tetapi juga meningkatkan efisiensi energi dengan menghilangkan overhead yang terkait dengan protokol penyimpanan umum. Saat perusahaan beradaptasi dengan tingkat memori konteks baru ini, mereka perlu memikirkan kembali strategi jaringan penyimpanan mereka dan mempertimbangkan bagaimana mengintegrasikan arsitektur ini ke dalam desain pusat data mereka. Vendor penyimpanan besar sudah bekerja sama dengan NVIDIA untuk mengembangkan solusi yang memanfaatkan prosesor data BlueField-4, dengan produk yang diharapkan diluncurkan akhir tahun ini. Saat organisasi bersiap untuk investasi infrastruktur di masa depan, mengoptimalkan hierarki memori akan menjadi kunci untuk memaksimalkan potensi AI agensif.