web analytics
Salı, Haziran 23, 2026
No Result
View All Result
  • Giriş
Türk İnternet
  • Ana Sayfa
  • BİLİŞİM
  • e-TİCARET
  • INTERNET
  • TELEKOM
  • YENİ TEKNOLOJİLER
  • Hakkımızda
  • Kişisel Verilerin Korunması
    • Çerez Aydınlatma Metni
    • İlgili Kişi Başvuru Formu
No Result
View All Result
  • Ana Sayfa
  • BİLİŞİM
  • e-TİCARET
  • INTERNET
  • TELEKOM
  • YENİ TEKNOLOJİLER
  • Hakkımızda
  • Kişisel Verilerin Korunması
    • Çerez Aydınlatma Metni
    • İlgili Kişi Başvuru Formu
No Result
View All Result
Türk İnternet
No Result
View All Result
Ana Sayfa INTERNET İnternet Gelişimi & Sosyolojisi Sosyal Medya

Yandex, Öneri Sistemleri İçin Dünyanın En Büyük Açık Veri Seti Yambda’yı Yayınladı

Türk-İnternet Haber Merkezi-Türk-İnternet Haber Merkezi
8 Haziran 2025
-Sosyal Medya
0
Yandex, Öneri Sistemleri İçin Dünyanın En Büyük Açık Veri Seti Yambda’yı Yayınladı
Facebook'ta PaylaşTwitter'da PaylaşLinkedin'de Paylaş

Yandex, müzik akış platformu Yandex Music’teki ses parçalarıyla yaklaşık 5 milyar anonimleştirilmiş kullanıcı etkileşimini içeren ve öneri sistemleri için dünyanın en büyük açık veri seti olan Yambda’yı (Yandex Music Billion-Interactions Dataset) yayınladı.

Yambda, öneri sistemlerini kullanan tüm alan adlarında (e-ticaret, sosyal ağlar ve kısa video platformları) yeni yaklaşım ve algoritmaları test etmek için evrensel bir ölçüt olarak hizmet veriyor.

Veri seti, araştırmacıların yeni öneri algoritmalarını baz modellerle karşılaştırarak geliştirmelerini ve test etmelerini sağlayarak inovasyonu hızlandırıyor. Sınırlı veriye sahip startup’lar ölçeklendirmeden önce Yambda kullanarak sistem oluşturmak ve test etmek için veri setinden faydalanabiliyor. Böylece, dünya çapında iş ihtiyaçlarına göre uyarlanmış ileri teknolojilerin oluşturulması hızlandırılıyor.

Araştırma ve Sektör Arasındaki Boşluk Dolduruluyor

Eğitim verilerinin kalitesi ve ölçeği; yayın hizmetleri, sosyal ağlar, kısa video uygulamaları ve e-ticaret pazaryerleri gibi platformlarda amaca uygun önerileri sunabilmek için kritik önem taşır. Bununla birlikte, öneri sistemlerine yönelik araştırmalar büyük ölçekli veri setlerine sınırlı erişim nedeniyle büyük dil modelleri gibi hızla ilerleyen alanların gerisinde kalmıştır. Etkili öneri modelleri, ticari platformların sahip olduğu fakat nadiren kamuya açık olarak paylaştığı terabaytlarca davranış verisi gerektiriyor.

Araştırmacılar genellikle modern kullanımın karmaşıklığını yakalayamayan küçük ve eski veri setleriyle baş başa kalıyor:

  • Spotify Million Playlists veri seti, ticari ölçekli öneri sistemleri için çok küçüktür.
  • Netflix Prize veri seti, yaklaşık 17.000 öğesi ve yalnızca tarih damgalarıyla zamansal modelleme ve büyük ölçekli araştırmalar için elverişli değil.
  • Criteo 1TB Click Logs veri seti, uygun dokümantasyondan ve tanımlayıcılardan yoksun olup, reklam tıklamalarına odaklanıyor.

Yandex Öneri Sistemleri Başkanı Nikolai Savushkin şunları söylüyor:

“Öneri sistemleri, yapısı gereği hassas verilere bağlıdır. Şirketler öneri sistemi veri setlerini ancak kapsamlı ve yorucu bir anonimleştirme işleminden sonra kamuya açık olarak yayınlayabilirler. Bu da açık inovasyonu yavaşlatan, yoğun kaynak gerektiren bir süreçtir”

Bu veri kıtlığı bir boşluk yaratıyor: Akademik ortamlarda mükemmel olan modeller gerçek dünya uygulamalarında genellikle düşük performans sergiliyor. Öneri sistemlerini gelişmiş yapılarla entegre etme çabaları da uygun eğitim verilerinin yokluğu nedeniyle kısıtlanıyor.

Yambda Veri Seti Hakkında

Yambda, aylık yaklaşık 28 milyon kullanıcısı olan müzik akışı servisinin büyük ve anonimleştirilmiş veri setini sunarak öneri sistemi zorluklarına çözüm getiriyor. Bu veri seti, dinleme deneyimini her bir kullanıcının zevkine göre uyarlayan My Wave öneri sistemiyle tanınan Yandex Music servisinin içerikleriyle kullanıcıların nasıl etkileşime girdiğine dair önemli bilgiler sağlıyor. Gizliliği korumak için tüm kullanıcı ve izleme verileri, gizlilik standartları doğrultusunda sayısal tanımlayıcılarla anonimleştirilmiş oluyor.

Veri Setinin Temel Özellikleri:

  • 10 ay boyunca toplanan 4,79 milyar anonimleştirilmiş kullanıcı etkileşimi.
  • 1 milyon kullanıcıdan alınan veriler ve 9,39 milyon parça için anonimleştirilmiş tanımlayıcılar.
  • İki geri bildirim türü içerir: örtülü etkileşimler (dinleme) ve açık etkileşimler (beğenme, beğenmeme ve bunların iptali).
  • Ses katıştırmaları (konvolüsyonel sinir ağları aracılığıyla oluşturulan vektör temsilleri) ve parçalar hakkında anonimleştirilmiş bilgiler sunar.
  • Kullanıcıların parçaları bağımsız olarak mı yoksa öneriler yoluyla mı keşfettiğini gösteren bir “is_organic” işareti içerir ve daha derin davranış analizi sağlar.
  • Tüm etkinliklerin zaman damgalı olması, kullanıcı davranışının zaman içinde analizini destekler ve modellerin gerçek dünya kullanımına çok benzeyen koşullar altında değerlendirilmesine olanak tanır.

Veri seti Spark ve Hadoop gibi dağıtık işleme sistemlerinin yanı sıra Pandas ve Polars gibi analiz kütüphaneleriyle uyumlu Apache Parquet formatında yayınlanıyor

Nikolai Savushkin şunları söylüyor:

“Yambda, araştırmacıların yenilikçi hipotezleri test etmelerini ve işletmelerin daha akıllı öneri sistemleri oluşturmalarına yardımcı oluyor. Sonuçta, kullanıcılar da mükemmel şarkıyı, ürünü veya hizmeti bularak bundan yararlanıyor”

Veri Seti Sürümleri ve Değerlendirme

Yaklaşık 5 milyar, 500 milyon ve 50 milyon etkinlik olmak üzere üç farklı büyüklükte kullanılabilen Yambda veri seti, farklı ihtiyaçları ve hesaplama kapasiteleri olan araştırmacılara ve geliştiricilere hitap ediyor.

Veri seti, değerlendirme için etkinlik dizilerini korumak amacıyla verileri zaman damgalarına göre bölen bir yöntem olan Global Temporal Split (GTS) kullanılıyor. Test için her kullanıcının geçmişindeki son pozitif etkileşimi kaldıran Leave-One-Out yönteminin aksine GTS, eğitim ve test setleri arasındaki zaman bağlarını koparmıyor. Bu sayede, ileriye dönük verilerin olmadığı gerçek dünya koşullarını taklit eden daha gerçekçi bir modelleme elde edilebiliyor.

Yeni öneri sistemi yaklaşımlarını karşılaştırmaya yönelik ölçütler sunan temel uygulamalar arasında MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA ve SASRec yer alıyor. Bu temeller, aşağıdakiler de dahil olmak üzere standart metriklerle değerlendirilir:

• NDCG@k (sıralama kalitesi)
• Recall@k (geri alım etkililiği)
• Coverage@k (katalog çeşitliliği)

Nikolay Savushkin şunları ekliyor:

“Sektör liderleri zor kazanılan araçları ve verileri paylaştığında, yükselen bir dalga etkisi yaratır. Araştırmacılar gerçek dünya ölçütlerine kavuşur, startup’lar sadece teknoloji devlerinin erişebildiği kaynaklara erişir ve kullanıcılar da daha iyi bir kullanım deneyiminin keyfini çıkarır”

Etiketler: Açık VeriNikolai SavushkinYambdaYandex

Türk İnternet'ten buna benzer yazılar için bildirim almak ister misiniz?

ABONELİKTEN ÇIK
Türk-İnternet Haber Merkezi

Türk-İnternet Haber Merkezi

Turk-internet.com Haber Merkezi Türk Internet Endüstrisi Portalı, turk-internet.com, 1 Eylül 2000’de resmi yayına geçerek, iş ve Internet dünyası profesyonelleriyle buluşmuştur. Editör icin [email protected] ya da [email protected].

Lütfen yorum yapmak için giriş yapın.

GÜNLÜK BÜLTEN ABONELİĞİ

Aboneliğinizi onaylamak için gelen veya istenmeyen posta kutunuzu kontrol edin.

HAFTANIN ÖNE ÇIKANLARI

  • St. Petersburg Forumu, Rusya’nın Yeni Teknoloji Stratejisinin Sinyallerini Veriyor: Nadir Toprak Elementleri, Yapay Zeka, Yarı İletkenler ve Teknolojik Egemenlik
  • Türkiye Yapay Zeka Stratejisinde Yeni Dönem: Dijital Egemenlik Merkeze Yerleşti, Peki Bu Yeterli mi?
  • Teknoloji Girişimlerini İlgilendiren Yeni Düzenlemeler Yürürlükte
  • Washington Yapay Zekada Yavaşlatma Yerine Hızlanmayı Seçti: Yeni ABD Yapay Zeka Doktrini ve Riskleri
  • Dijital Dönüşüm ve Gazeteciliğin Küresel Krizi

HAFTANIN KELİMESİ

3GPP

3. Nesil Ortaklık Projesi (3GPP), dünya çapında çeşitli mobil (hücresel) ve telekomünikasyon standartlarını geliştiren ve sürdüren bir grup standart kuruluşudur.

3G ile birlikte kurulmuş ve telekom endüstrisinin Birleşmiş Milletleri diye tanımlanabilir. Sonraki nesiller için de standartları belirlemiştir.

Detayı için Wiki-Turk'e bakınız

İNTERNET HIZI

Türkiye'nin İnternet Hızlarını Dünya ile KarşılaştırmakKaynak : https://www.speedtest.net/global-index#mobile
Facebook Twitter LinkedIn

Bildirimler

Turk-internet.com masaüstü bildirimlerini almak için lütfen buraya tıklayın

Son Yorumlar

  • ICANN, Yeterince Temsil Edilmeyen Toplulukları Yeni gTLD Başvuru Destek Programı İle Güçlendiriyor için Tolga Kaprol
  • BTK, Yabancı e-SIM Firmalarını Engelledi için Bulent SEN
  • Sahibinden.com Domain’inin Güncellenmesi Unutulmuş için Tolga Kaprol
  • İngiliz Düzenleyici Ofcom, Bulut Servislerini ve Akıllı Cihaz Pazarını Soruşturuyor için Tolga Kaprol
  • Seçim Yaklaşırken, Kişisel Veriler Kötüye Nasıl Kullanılır? için [email protected]

Türk İnternet'ten ilginize çekecek yazılar için bildirim almak ister misiniz?

Abone Ol

© Copyrights 2000-2025 - Bu sitede yayınlanan haber/söyleşi/makale ve bilgilerin tüm hakkı turk-internet.com'a aittir.

Tekrar Hoşgeldiniz!

Aşağıdan hesabınıza giriş yapınız

Şifremi unuttum?

Şifrenizi geri alın

Lütfen şifrenizi resetlemek için kullanıcı adı veya email adresinizi girin.

Giriş yap
No Result
View All Result
  • Ana Sayfa
  • BİLİŞİM
  • e-TİCARET
  • INTERNET
  • TELEKOM
  • YENİ TEKNOLOJİLER
  • Hakkımızda
  • Kişisel Verilerin Korunması
    • Çerez Aydınlatma Metni
    • İlgili Kişi Başvuru Formu

© Copyrights 2000-2025 - Bu sitede yayınlanan haber/söyleşi/makale ve bilgilerin tüm hakkı turk-internet.com'a aittir.