Araştırmacılar, Discord’un herkese açık API’sini kullanarak topladıklarını söyledikleri 2 milyardan fazla Discord mesajından oluşan devasa bir veri tabanı yayınladı. Veriler 3.167 sunucudan çekildi ve Discord’un aktif olduğu tüm zamanlar olan 2015 ile 2024 yılları arasında yapılan gönderileri kapsıyor.
Araştırmacılar verileri anonimleştirdiklerini iddia etseler de, neredeyse on yıllık Discord mesajlarının çevrimiçi bir JSON dosyasında halka açık bir şekilde durması pek çok iletişimi ortaya çıkarıyor. 15 araştırmacıdan oluşan ve Brezilya’daki Minas Gerais Finans Üniversitesi’nden olan ekip, bir araştırma projesinin parçası olarak bu veri kazımasını gerçekleştirdi. Ekip,Discord Unveiled : A Comprehensive Dataset of Public Communication (2015 – 2024) başlıklı bir makalede projenin nasıl ve neden yapıldığını açıkladı.
Ayrı olarak, farklı bir programcı, anonimleştirilmemiş sohbet geçmişlerini gösteren farklı bir veri kümesine dayalı “Searchcord” adlı bir Discord aracı yayınladı.
Etik Endişeler
Bu iki birbirinden bağımsız olay, bazı Discord topluluklarında paniğe yol açtı, sunucu moderatörleri ve kullanıcılar gizlilikleri konusunda endişeleniyor. Buna karşılık araştırmacılar “Etik Endişeler” bölümünde şunları belirtiyorlar :
“Veri toplama sürecimizin her adımında etik standartlara uyumu önceliklendirdik. Verileri sorumlu bir şekilde toplamak için önlemler alındı. Tüm veriler, her kullanıcının kaydolurken kabul ettiği Discord kullanım koşullarına göre açıkça kamuya açık kabul edilen gruplardan yararlanıldı. Veriler anonimleştirildi ve metodoloji, yeniden üretilebilirliği ve şeffaflığı teşvik etmek için ayrıntılı olarak açıklandı.
Bu makale, 3.167 sunucuda 4.735.057 benzersiz kullanıcıdan 2.052.206.308 mesaj içeren, bugüne kadar mevcut en kapsamlı Discord veri setini tanıtıyor; bu, Discord’un Keşif sekmesinde listelenen sunucuların yaklaşık %10’u.”
Araştırmacılar, projenin Discord’un API politikalarının sınırları içinde yürütüldüğünü savunuyorlar. Yayımlamadan önce kullanıcı adlarını oluşturulan takma adlarla değiştirdiklerini, kullanıcı ve mesaj kimliklerini karıştırıp kısalttıklarını ve diğer tanımlayıcı özellikleri tamamen kaldırdıklarını yazdılar. Makalede ayrıca tüm bu mesajların herkese açık alanlardan alındığı belirtildi.
“Tüm veriler, her kullanıcının kaydolurken kabul ettiği Discord kullanım koşullarına göre açıkça herkese açık kabul edilen gruplardan kaynaklandı.”
Ama, oyuncu toplulukları organize etmek için kullanılan ve kullanıcılarının çoğunun genç ve hatta çocuk olduğu bilinen Discord genellikle son kullanıcı lisans anlaşmalarını kimse okumaz. Dolayısıyla bu ifadeler ne kadar geçerli olabilir?
Ayrıca verileri anonimleştirmek için gösterilen çabalara rağmen, kazıma işlemi Discord’un 2020’den beri Hizmet Şartları’na aykırı görünüyor. API’sinin kullanımını kapsayan Discord Geliştirici politikası şöyle diyor;
“Discord hizmetlerinde veya bu hizmetler aracılığıyla erişilebilen hiçbir veriyi, içeriği veya bilgiyi çıkarmayın veya kazımayın”
Diğer Araştırmacıların Moderasyon ve Düzenleme Stratejileri Geliştirmesi
Araştırmacılar veritabanını çevrimiçi olarak bir dizi JSON dosyası olarak yayınladılar. Veritabanında, bir JSON tek bir Discord sunucusunu ve içinde bulunan tüm mesajları temsil eder. Verilerin sıkıştırılmamış örnek sürümü 6,2 GB’tır ve 108 GB’lık bir veritabanına açılır. Tam veritabanı 118 GB sıkıştırılmıştır ve muhtemelen birkaç kat daha büyük bir veritabanına açılır.
Araştırmacılar, veri setini diğer araştırmacıların botları, siyaseti ve ruh sağlığını inceleyebilmeleri için oluşturduklarını yazdılar :
“Veri setimiz araştırmacıların dijital platformların siyasi söylem, yanlış bilginin yayılması ve bu tür ortamlara göre uyarlanmış etkili moderasyon ve düzenleme stratejilerinin geliştirilmesi üzerindeki etkisini keşfetmelerini sağlıyor.”
Ayrıca veritabanının “risk altındaki davranış kalıplarını belirlemede ve zarar verici davranışların veya destekleyici etkileşimlerin yaygınlığı gibi kritik soruları araştırmada” ve “alan-özel sohbet robotlarının oluşturulmasını kolaylaştırmada” yardımcı olabileceğini düşünüyorlar.
Method
Discord sunucuları kullanıcı tarafından oluşturulur ve herkese açık veya özel olarak ayarlanabilir ve yeni gelenler Discord’un“Keşif” özelliğini kullanarak herkese açık sunucuları bulabilirler. Araştırmacılar makalelerinde, bu keşif özelliğini kullanarak herkese açık Discord sunucularını haritaladıklarını ve 17 Kasım 2024 itibarıyla toplam 31.673 sunucu keşfettiklerini belirttiler. Daha sonra bu sunuculardaki tüm veriler için çağrılar koymak üzere Discord’un kendi genel API’sini kullanarak, yüzde 10’unu rastgele taramak için seçtiler.
Discord’da botlar popülerdir. Kullanıcılar kanalları yönetmek, müzik çalmak ve zar atmak gibi çeşitli nedenlerle desteklerler. Kullanıcı tarafından tasarlanan botlar, Discord deneyiminin bir özelliğidir ve şirket, botların başlatılmasını ve sürdürülmesini kolaylaştırmak için kendi genel API’sini sunar.



Kaynak : 