Alibaba Group Holding, yapay zeka modellerine hizmet etmek için ihtiyaç duyulan Nvidia grafik işlem birimlerinde (GPU) yüzde 82’lik bir azalmaya yol açtığını söylediği bir çözümü tanıttı.
Güney Kore’nin Seul kentinde düzenlenen 31. İşletim Sistemleri İlkeleri Sempozyumu’nda (SOSP) bu hafta sunulan bir araştırma makalesine göre, Aegaeon adı verilen sistem, Alibaba Cloud’un model pazarında üç aydan uzun süre beta testinden geçirildi ve 72 milyara kadar parametreye sahip düzinelerce modeli sunmak için gereken Nvidia H20 GPU sayısını 1.192’den 213’e düşürdü. Pekin Üniversitesi ve Alibaba Cloud araştırmacıları,
“Aegaeon, piyasada eş zamanlı LLM iş yüklerine hizmet vermenin getirdiği aşırı maliyetleri ortaya koyan ilk çalışmadır”
diye yazdı. Alibaba Cloud ve ByteDance’in Volcano Engine gibi bulut servis sağlayıcıları, aynı anda binlerce yapay zeka modelini kullanıcılara sunuyor; bu da birçok uygulama programlama arayüzü çağrısının aynı anda işlendiği anlamına geliyor.
Ancak, Alibaba’nın Qwen ve DeepSeek gibi az sayıda model çıkarım için en popüler olanları ve diğer modellerin çoğuna yalnızca ara sıra başvurulur. Araştırmacılar, bu durumun kaynak verimsizliğine yol açtığını ve GPU’ların %17,7’sinin Alibaba Cloud pazarındaki isteklerin yalnızca %1,35’ini karşılamak için ayrıldığını tespit etti.
Aegaeon yönetimindeki araştırmacılar, token seviyesinde “otomatik ölçekleme” gerçekleştiren bir çözüm tasarladılar. Bu, GPU’nun token üretme veya yapay zeka sistemleri tarafından işlenen temel veri birimlerinin ortasında farklı modeller arasında geçiş yapabileceği anlamına geliyor.
Araştırmacılar, çözümün tek bir GPU’nun alternatif sistemlerdeki en fazla iki veya üç modeli desteklemesine kıyasla yedi modele kadar destek sağlamasına olanak sağladığını ve modeller arasında geçişle ilişkili gecikmeyi yüzde 97 oranında azalttığını söyledi.



Kaynak : 