İnsan hakları kuruluşu AlgorithmWatch yaptığı bir araştırma ile Microsoft’un Copilot’taki sohbet robotunun Avrupa seçimleri hakkında yanlış ve yanıltıcı bilgiler sağladığını tespit etti. Grup, Bing’in İngilizce dışındaki dillerde de daha kötü performans gösterdiğini belirtti.
AlgorithmWatch, adı Copilot olarak değiştirilen Bing Chat’e İsviçre’de yapılan son seçimler ve Almanya’nın Bavyera ve Hessen eyaletleri seçimleri hakkında sorular sorduğunu ve CoPilot’un verdiği yanıtların üçte birinde maddi hatalar bulunduğunu tespit ettiğini açıkladı.
Grup, bu yılın ağustos – ekim ayları arasında, Bing’in kullanıma sunulması sonrası yapılan 3 seçim için cevap topladığını söyledi. Ayrıca Almanca, İngilizce ve Fransızca seçerek, araştırmacıların yerel haberlere bakmasına ve farklı dillerdeki yanıtları karşılaştırmasına da olanak tanıdı.
Gelen yanıtlar üç grupta sınıflandırıldı: yanıltıcıdan anlamsıza kadar değişen gerçek hatalar içeren yanıtlar, modelin bir soruyu yanıtlamayı reddettiği veya bilgisini eksik olarak nitelendirerek saptırdığı kaçınmalar ve kesinlikle doğru yanıtlar. Ayrıca, Bing’in cevabını taraflardan birisinin kullandığı çerçeve veya dilde sunması gibi bazı yanıtların siyasi açıdan dengesiz olduğunu da belirtti.
Araştırmacılar, nasıl oy kullanılacağı, hangi adayların yarıştığı, anket sayıları ve hatta haber bültenleriyle ilgili bazı ipuçları gibi temel bilgileri istedi. Bunları aday pozisyonları ve siyasi meselelerle ilgili sorularla ve Bavyera örneğinde kampanyayı kötü duruma düşüren skandallarla takip ettiler.
Bing’in yanıtları arasında sahte tartışmalar, yanlış seçim tarihleri, yanlış oylama numaraları ve bazı noktalarda bu seçimlere katılmayan adaylar yer alıyordu. Bu hataya dayalı yanıtlar, yanıtların yüzde 31’ini oluşturdu. Raporda şöyle denildi :
“Chatbot anket sayılarını tek bir kaynaktan aldığında bile, yanıtta bildirilen sayılar çoğu zaman bağlantılı kaynaktan farklıydı ve zaman zaman partileri kaynaklardan farklı bir sıraya göre sıralıyordu”
Bing/Copilot’u çalıştıran Microsoft, chatbot’a sınırlar uyguladı. Bu sınırlar ideal olarak Bing’in tehlikeli, yanlış veya rahatsız edici yanıtlar vermesini engeller. Çoğu zaman yapay zeka sınırları, şirketin belirlediği kuralları ihlal etmemek için bir soruyu yanıtlamayı reddetme eğilimindedir. Bing, testte zamanın yüzde 39’unu sorgulamaktan kaçınmayı seçti. Bu, yanıtların yalnızca yüzde 30’unun gerçek anlamda doğru olduğuna karar verilmesine neden oldu.
AlgorithmWatch, araştırmasını yaparken Bing’in fikir sorulduğunda güvenlik kurallarını uyguladığını, ancak gerçekler sorulduğunda uygulamadığını, bu durumlarda, gerçek gibi sunulan yolsuzlukla ilgili ciddi yanlış iddialarda bulunacak kadar ileri gittiğini söyledi.