Alibaba, tüketici sınıfı bilgisayarlarda ve dizüstü bilgisayarlarda verimli bir şekilde çalışmak üzere tasarlanmış amiral gemisi 7 milyar çok modlu modelinin 3 milyar parametreli, akıcı bir versiyonu olan Qwen2.5-Omni-3B’yi piyasaya sürdü. Bu model, metin, görüntü, ses ve video girişlerinin gerçek zamanlı işlenmesini destekleyerek gelişmiş yapay zeka yeteneklerini daha geniş bir kullanıcı yelpazesi için daha erişilebilir hale getiriyor.
Yapay zekanın çok modlu yetenekler var. Qwen2.5-Omni-3B, metin, görüntü, ses ve video dahil olmak üzere birden fazla modalitede yanıtları işleyebilir ve üretebilir. Model, küçültülmüş boyutuna rağmen daha büyük 7B muadilinin performansının %90’ından fazlasını koruyor. Bunu, Thinker-Talker tasarımı ve senkronize ses-görüntü anlayışı için TMRoPE (Zaman Uyumlu Çok Modlu RoPE) gibi mimari yeniliklerle başarıyor.
Model, GPU bellek kullanımını önemli ölçüde azaltarak, 7B modelinin ihtiyaç duyduğu 60,2 GB’a kıyasla uzun bağlamlı girdileri (~25.000 belirteç) işlemek için yalnızca 28,2 GB VRAM gerektiriyor. Bu verimlilik, 24 GB VRAM’li tüketici GPU’larında çalışmasına olanak tanıyor.
Qwen2.5-Omni-3B, gerçek zamanlı metin ve konuşma üretimini destekler ve “Chelsie” (kadın) ve “Ethan” (erkek) gibi yerleşik seçeneklerle özelleştirilebilir ses çıkışları sunuyor. Model, çeşitli karşılaştırmalarda rekabetçi performans gösteriyor :
- OmniBench (Çok Modlu Muhakeme): %52,2 (7B modeli için %56,1 ile karşılaştırıldığında)
- VideoBench (Ses Anlama): %68,8 (karşılaştırma %74,1)
- MMMU (Görüntü Muhakeme): %53,1 (karşılaştırma %59,2)
- MVBench (Video Muhakeme): %68,7 (karşılaştırma %70,3)
- Seed-TTS-Eval (Konuşma Üretimi): %92,1 (karşılaştırma %93,5)
Qwen2.5-Omni-3B açık kaynaklı ve Hugging Face, GitHub ve ModelScope gibi platformlarda indirilebilir. Alibaba’nın Qwen Araştırma Lisansı altında yayınlandı ve araştırma ve dahili geliştirme kullanımına izin veriyor. Ticari dağıtım için Alibaba Cloud’dan ayrı bir lisans gerekiyor.
Qwen2.5-Omni-3B’yi yerel olarak dağıtmakla ilgilenen geliştiriciler için aşağıdaki video adım adım kurulum kılavuzu sağlıyor. Bu sürüm, gelişmiş çok modlu AI modellerini kişisel ve araştırma amaçlı kullanım için daha erişilebilir hale getirmede önemli bir adım.



Kaynak : 