Google data setlerini temizlemeye, analiz etmeye ve dönüştürmeye yardımcı olan açık kaynaklı yazılımında bir güncelleme yaparak Google Refine adıyla yeniden piyasaya sürdü. Yazılımın orijinal versiyonu olan Freebase Gridworks, Google’ın Temmuz ayında aldığı Metaweb firması tarafından geliştirilmişti.
Google Refine yazılımı özellikle veri kararsızlığı olan bir data setinden yararlı bilgileri çekmek istediğinizde oldukça kullanışlı hale gelebilen bir yazılım. Örneğin söz konusu yazılımın masaüstü uygulaması bir data setinde yer alan bir kelimenin tüm değişik varyantlarını bulup değiştirebilmenize olanak sağlıyor. Normalizasyon adı verilen bu işlem aslında pek yeni sayılmaz. Ncak genelde veri normalizasyonu tek bir data setine özgü bazı kodlar yazmanızı gerektirebilirken söz konusu yazılımda bu gereklilik ortadan kalkıyor.
Yazılımda data setlerini analiz etmede kullanılabilecek bir ifade dili de yer almakta. Ayırca yine yazılımdaki filtreler data setinden alt veri gruplarını izole etmek için kullanılabiliyor. Bu sayede izole edilen veri grupları bir dizi dönüştürme komutu ile analiz edilebiliyor ve değiştirilebiliyor.
Söz konusu yazılım, verilerin virgül kullanılarak değişik sütunlara ayrılabildiği düz metin dosyaları (plain text file) ile çalışmakta. Elde edilen sonuçlar ise kolaylıkla önce JSON(JavaScript Obje Notasyonu) formatına oradan da HTML ve diğer formatlara dönüştürülebiliyor.
Google Refine yazılımı kullanıcının elindeki bilgisayarın hafızasına bağlı olarak data seti başına birkaç yüz bin satırdan oluşan verilerle çalışabiliyor ve pek çok hesap tablosu yazılımının aksine interaktif olarak veri içindeki büyük alt grupları dönüştürme işlemini başarabiliyor.
Google bu hafta yaptığı bir açıklamada yazılıma birkaç yeni özellik eklediklerini ve yazılımı resmi olarak Google Refine 2.0 olarak adlandırdıklarını duyurdu. Yeni özellikler arasında diğer veritabanlarına link verme özeliği ve yeni dönüştürme komutları yer alıyor. ABD’de kar amacı gütmeyen hükümet izleme kuruluşlarından ProPublica yazılımı kullananlar arasında. ProPublica ilaç firmalarının doktorlara ürün tavsiye etmeleri karşısında nasıl ödeme yaptıklarını saptamak için devasa data setleri ile çalışmak zorunda olduğunu ve bu yüzden söz konusu yazılımı denediklerini sonuçta da başarılı bulduklarını açıklamış.