Yapay zeka, popülaritesinin zirvesine ulaşırken araştırmacılar endüstrinin güçlü sistemleri çalıştırmak için ihtiyaç duyduğu kaliteli eğitim verilerinin tükendiğini belirterek uyarıyor.
Bu durum, söz konusu teknolojik sistemlerin ve özellikle de ChatGPT gibi büyük dil modellerinin (LLM) gelişimini yavaşlatabilir. Hatta yapay zeka devriminin gidişatını bile değiştirebilir.
Hızla tükenen veri sorunu
Avustralya’daki Macquarie Üniversitesi’nde öğretim üyesi Rita Matulionyte, The Conversation‘da yayımlanan yazısında hızla tükenen veri sorununa ışık tuttu.*
“İnternette bu kadar çok veri olduğu göz önüne alındığında bu eksiklik neden sorun olsun ki?” diyen akademisyen, kaliteli verilerin yapay zeka sistemlerinin eğitimi için zorunluluk olduğunu vurguladı.
Akademisyen ayrıca, veri tükenme riskini gidermenin bir yolu olup olmadığını da sorguladı.
Yapay zeka için yüksek kaliteli veriler neden önemli?
Doğru ve işe yarar çıktılar üreten yapay zeka algoritmalarını eğitmek için çok fazla veriye ihtiyaç var. Örneğin ChatGPT, 570 gigabaytlık metin verisi veya yaklaşık 300 milyar kelimeyle eğitildi.
Benzer şekilde, DALL-E, Stable Diffusion ve Midjourney gibi birçok görüntü üretme uygulamasının arkasındaki algoritmaların eğitiminde de, 5,8 milyar görüntü-metin çiftinden oluşan LIAON-5B veri kümesi kullanıldı.
Matulionyte, “Bir algoritma yetersiz miktarda veriyle eğitilirse hatalı veya düşük kaliteli çıktılar üretir” diyor.
Eğitim verilerinin kalitesi de önemli. Sosyal medya gönderileri veya bulanık fotoğraflar gibi düşük kaliteli verilere ulaşmak kolay ama yüksek performanslı yapay zeka modellerini eğitmek için bunlar yeterli değil.
Bunun yanı sıra eğitim için sosyal medya platformlarından alınacak metinler yanlış bilgi veya cinsiyetçi, ırkçı ifadeler içerebilir. Örneğin Microsoft, kendi yapay zeka botunu Twitter içeriğini kullanarak eğitmeye çalıştığında ırkçı ve kadın düşmanı çıktılar ürettiği görülmüştü.
Akademisyen “Yapay zeka geliştiricilerinin kitaplar, makaleler, Wikipedia yazıları ve belirli filtrelenmiş internet içerikleri gibi yüksek kaliteli şeyleri aramasının nedeni bu” ifadelerini kullanıyor.
2026’ya işaret ettiler: “O tarihe kadar veriler tükenebilir”
Akademisyene göre yapay zeka endüstrisi, sistemlerini giderek daha büyük veri kümeleri üzerinde eğitiyor. Bu sayede ChatGPT veya DALL-E 3 gibi yüksek performanslı modellere sahibiz.
Ancak araştırmalar, çevrimiçi veri stoklarının, yapay zeka sistemlerinden çok daha yavaş büyüdüğünü gösteriyor.
“Geçen yıl yayımlanan bir makalede bir grup araştırmacı, yapay zeka eğitimindeki mevcut eğilimlerin devam etmesi halinde 2026’dan önce yüksek kaliteli metin verilerinin tükeneceğini öngördü” diyen Matulionyte, sözlerini şöyle sürdürüyor:
Ayrıca düşük kaliteli dil verilerinin bile 2030 ve 2050 arasında, düşük kaliteli görüntü verilerinin de 2030’la 2060 arasında tükeneceğini tahmin ediyorlar.
O zaman ne yapacağız?
Öte yandan bu veri eksikliği riskini gidermenin birkaç yolu olabilir.
Akademisyene göre bu, algoritmaları geliştirerek halihazırda sahip olduğumuz verileri daha verimli kullanmamız için bir fırsat:
Gelecek yıllarda muhtemelen daha az veri ve daha az hesaplama gücü kullanarak yüksek performanslı yapay zeka sistemlerini eğitebilecekler. Bu aynı zamanda yapay zekanın karbon ayak izinin azaltılmasına da yardımcı olacaktır.
Diğer bir seçenek de sistemleri eğitmek için sentetik veriler oluşturmak amacıyla yine yapay zekayı kullanmak.
Matulionyte “Başka bir deyişle ihtiyaç duydukları verileri kendi yapay zeka modellerine uyacak şekilde düzenleyerek kolayca oluşturabilirler” diyor ve ekliyor:
Pek çok proje halihazırda çoğunlukla Mostly AI gibi veri üreten hizmetlerden elde edilen sentetik içerikleri kullanıyor. Bu gelecekte daha yaygın hale gelecektir.
Singularity: Tekillik Çağı, Zeka Patlaması
Singularity veya teknolojik tekillik, gelecekte yapay zekânın insan zekâsının ötesine geçerek medeniyeti ve insan doğasını radikal bir biçimde değiştireceğine inanılan hipotezsel nokta. Böyle bir zekâ, insanlığın tasavvur edebileceğinden daha üstün kabiliyetli olacağından, insanlığın geleceğini öngörülemez bir hâle getireceği düşünülmektedir.
Zeka Patlaması Bir zeka patlaması, yapay genel zekanın kendi zekasını oluşturan süreçleri analiz ettiği, onları geliştirdiği ve aynı şeyi yapan ancak kendisinden daha zeki bir halef yapay zeka sistemi yarattığı teorik senaryodur.
Fütürist Ray Kurzweil’in “tekillik çağı” olarak adlandırdığı bu çağ, insanın kendi varlığı başta olmak üzere şimdiye kadar yapılan tüm varlık hiyerarşisi tanımlarının, oluş anlatılarının yeniden düşünülüp tartışılmasına güçlü bir zemin oluşturacağa benziyor. Kurzweil’e göre tekillik çağı ile birlikte makine zekâsı, tümleşik insan zekâsından daha güçlü olacak, yapay zekâ bilinçli bir şekilde olaylara karşı fikir yürütecek ve istekte bulunabilecek.
Yakın gelecekte bu biyolojik olmayan zekânın kendi tasarımına erişmesi ve yeniden tasarım döngüsünde kendisini geliştirmesi bekleniyor. Yapay zekâ, insan zekâsının ötesine geçerek insan doğasının ve insan üretimi olan her şeyin radikal bir dönüşüm geçireceğine dair işaretler veriyor. Bugün yapay zekânın geldiği nokta dikkate alındığında bunun çok da uzun sürmeyeceği söylenebilir.
Kaynak:
Pablo Villalobos, Jaime Sevilla, Lennart Heim, Tamay Besiroglu, Marius Hobbhahn, Anson Ho. Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning. (26 Oct 2022) arXiv:2211.04325 [cs.LG]. https://arxiv.org/abs/2211.04325