Proof News tarafından yapılan yeni bir araştırma, Apple, NVIDIA ve Anthropic gibi dünyanın en büyük teknoloji şirketlerinden bazılarının yapay zeka modellerini, izinsiz olarak 173 binden fazla YouTube videosunun altyazısını içeren bir veri kümesi üzerinden eğittiğini iddia ediyor. EleutherAI adlı kar amacı gütmeyen bir şirket tarafından oluşturulan veri kümesi, 48 binden fazla kanaldan YouTube videolarının altyazılarını içeriyor. Bu anlamda yapay zeka teknolojisinin büyük ölçüde içerik oluşturuculardan izinleri veya tazminatları olmadan alınan veriler üzerine inşa edildiği ortaya çıkıyor.
Veri kümesi YouTube’dan herhangi bir video veya görsel içermiyor ancak Marques Brownlee ve MrBeast gibi platformun en büyük yaratıcılarının yanı sıra The New York Times, BBC ve ABC News gibi büyük haber yayıncılarının video altyazılarını içeriyor.
Şimdiye kadar yapay zeka şirketleri, modellerini eğitmek için kullanılan veriler konusunda şeffaf değildi. Bu ayın başlarında sanatçılar ve fotoğrafçılar Apple’ı, bu yıl milyonlarca Apple cihazına gelen üretken yapay zekanın kendi ürünü olan Apple Intelligence’a yönelik eğitim verilerinin kaynağını açıklamadığı için eleştirdiler.
Özellikle dünyanın en büyük video deposu olan YouTube, yalnızca altyazların değil aynı zamanda ses, video ve görüntülerin de bulunduğu bir altın madeni. Bu da onu yapay zeka modellerinin eğitimi için çekici bir veri kümesi haline getiriyor.
YouTube videolarınızdaki veya favori kanallarınızdaki altyazıların veri kümesinin parçası olup olmadığını görmek istiyorsanız Proof News’in arama aracına bir göz atmanız yeterli.