Yapay zeka sektöründe en çok talep gören GPU’ların bazılarını üreten Nvidia, OpenAI, Anthropic, Meta ve Google’ın önde gelen tescilli modelleriyle aynı seviyede performans gösterdiği bildirilen açık kaynaklı büyük dil modelini yayınladığını duyurdu.
Nvidia, yakın zamanda yayınlanan bir teknik raporda yeni NVLM 1.0 ailesini tanıttı ve 72 milyar parametreli NVLM-D-72B modeli tarafından öncülük ediliyor. Araştırmacılar şunları söyledi :
“Görme dili görevlerinde en son teknoloji sonuçları elde eden, önde gelen tescilli modeller (örneğin, GPT-4o) ve açık erişimli modeller (örneğin, InternVL 2) ile rekabet eden, öncü sınıf çok modlu LLM ailesi olan NVLM 1.0’ı tanıtıyoruz.
NVLM 1.0, çok modlu eğitimden sonra LLM omurgası üzerinde yalnızca metin performansında iyileşme gösteriyor! Çok yakında, model ağırlıklarını yayınlamak için çalışıyoruz ve eğitim kodunu topluluk için açık kaynaklı hale getireceğiz. Daha fazla ayrıntı için lütfen proje web sitemizi ziyaret edin: nvlm-project.github.io

Yeni model ailesinin, NVLM ailesinin dayandığı temel LLM’ye kıyasla geliştirilmiş metin tabanlı yanıtların yanı sıra çeşitli görme ve dil görevlerinde olağanüstü performansla halihazırda “üretim düzeyinde çok-modluluk” yeteneğine sahip olduğu bildiriliyor. Araştırmacılar şunları belirtiyor :
“Bunu başarmak için, çok-modlu eğitime yüksek kaliteli, yalnızca metinden oluşan bir veri seti oluşturuyor ve entegre ediyoruz. Bu, çok-modlu matematik ve muhakeme verilerinin önemli bir miktarıyla birlikte, modaliteler arasında gelişmiş matematik ve kodlama yeteneklerine yol açıyor”
Sonuç, bir mesajın neden komik olduğunu açıklayabildiği gibi, karmaşık matematik denklemlerini adım adım çözebilen bir LLM’dir. Nvidia ayrıca, çok modlu eğitim stili sayesinde, modelin yalnızca metin doğruluğunu yaygın endüstri ölçütlerinde ortalama 4,3 puan artırmayı başardı.
Nvidia, yalnızca eğitim ağırlıklarını kamu incelemesine sunmakla kalmayıp aynı zamanda modelin kaynak kodunu yakın gelecekte yayınlama sözü vererek bu modelin Açık Kaynak Girişimi’nin en yeni “açık kaynak” tanımına uymasını sağlama konusunda ciddi görünüyor. Bu, LLM’lerinin ağırlıklarının ve kaynak kodlarının ayrıntılarını kıskançlıkla koruyan OpenAI ve Google gibi rakiplerinin eylemlerinden belirgin bir farklılık anlamına geliyor. Bunu yaparken Nvidia, NVLM ailesini doğrudan ChatGPT-4o ve Gemini 1.5 Pro ile rekabet edecek şekilde değil, üçüncü taraf geliştiricilerin kendi sohbet robotlarını ve AI uygulamalarını oluşturmaları için bir temel görevi görecek şekilde konumlandırdı.



Kaynak : 