Yapay zekayı besleyen veriler tükeniyor: Uzmanlar tarih verdi!

yapay zeka

Yapay zeka, popülaritesinin zirvesine ulaşırken araştırmacılar endüstrinin güçlü sistemleri çalıştırmak için ihtiyaç duyduğu kaliteli eğitim verilerinin tükendiğini belirterek uyarıyor.

Bu durum, söz konusu teknolojik sistemlerin ve özellikle de ChatGPT gibi büyük dil modellerinin (LLM) gelişimini yavaşlatabilir. Hatta yapay zeka devriminin gidişatını bile değiştirebilir.

Hızla tükenen veri sorunu

Avustralya’daki Macquarie Üniversitesi’nde öğretim üyesi Rita Matulionyte, The Conversation‘da yayımlanan yazısında hızla tükenen veri sorununa ışık tuttu.*


“İnternette bu kadar çok veri olduğu göz önüne alındığında bu eksiklik neden sorun olsun ki?” diyen akademisyen, kaliteli verilerin yapay zeka sistemlerinin eğitimi için zorunluluk olduğunu vurguladı.

Akademisyen ayrıca, veri tükenme riskini gidermenin bir yolu olup olmadığını da sorguladı.

artificial intelligence

Yapay zeka için yüksek kaliteli veriler neden önemli?

Doğru ve işe yarar çıktılar üreten yapay zeka algoritmalarını eğitmek için çok fazla veriye ihtiyaç var. Örneğin ChatGPT, 570 gigabaytlık metin verisi veya yaklaşık 300 milyar kelimeyle eğitildi.

Benzer şekilde, DALL-E, Stable Diffusion ve Midjourney gibi birçok görüntü üretme uygulamasının arkasındaki algoritmaların eğitiminde de, 5,8 milyar görüntü-metin çiftinden oluşan LIAON-5B veri kümesi kullanıldı.

Matulionyte, “Bir algoritma yetersiz miktarda veriyle eğitilirse hatalı veya düşük kaliteli çıktılar üretir” diyor.

Eğitim verilerinin kalitesi de önemli. Sosyal medya gönderileri veya bulanık fotoğraflar gibi düşük kaliteli verilere ulaşmak kolay ama yüksek performanslı yapay zeka modellerini eğitmek için bunlar yeterli değil.

Bunun yanı sıra eğitim için sosyal medya platformlarından alınacak metinler yanlış bilgi veya cinsiyetçi, ırkçı ifadeler içerebilir. Örneğin Microsoft, kendi yapay zeka botunu Twitter içeriğini kullanarak eğitmeye çalıştığında ırkçı ve kadın düşmanı çıktılar ürettiği görülmüştü.

Akademisyen “Yapay zeka geliştiricilerinin kitaplar, makaleler, Wikipedia yazıları ve belirli filtrelenmiş internet içerikleri gibi yüksek kaliteli şeyleri aramasının nedeni bu” ifadelerini kullanıyor.

ai data

2026’ya işaret ettiler: “O tarihe kadar veriler tükenebilir”

Akademisyene göre yapay zeka endüstrisi, sistemlerini giderek daha büyük veri kümeleri üzerinde eğitiyor. Bu sayede ChatGPT veya DALL-E 3 gibi yüksek performanslı modellere sahibiz.

Ancak araştırmalar, çevrimiçi veri stoklarının, yapay zeka sistemlerinden çok daha yavaş büyüdüğünü gösteriyor.

“Geçen yıl yayımlanan bir makalede bir grup araştırmacı, yapay zeka eğitimindeki mevcut eğilimlerin devam etmesi halinde 2026’dan önce yüksek kaliteli metin verilerinin tükeneceğini öngördü” diyen Matulionyte, sözlerini şöyle sürdürüyor:


Ayrıca düşük kaliteli dil verilerinin bile 2030 ve 2050 arasında, düşük kaliteli görüntü verilerinin de 2030’la 2060 arasında tükeneceğini tahmin ediyorlar.

O zaman ne yapacağız?

Öte yandan bu veri eksikliği riskini gidermenin birkaç yolu olabilir.

Akademisyene göre bu, algoritmaları geliştirerek halihazırda sahip olduğumuz verileri daha verimli kullanmamız için bir fırsat:

Gelecek yıllarda muhtemelen daha az veri ve daha az hesaplama gücü kullanarak yüksek performanslı yapay zeka sistemlerini eğitebilecekler. Bu aynı zamanda yapay zekanın karbon ayak izinin azaltılmasına da yardımcı olacaktır.

Diğer bir seçenek de sistemleri eğitmek için sentetik veriler oluşturmak amacıyla yine yapay zekayı kullanmak.

Matulionyte “Başka bir deyişle ihtiyaç duydukları verileri kendi yapay zeka modellerine uyacak şekilde düzenleyerek kolayca oluşturabilirler” diyor ve ekliyor:

Pek çok proje halihazırda çoğunlukla Mostly AI gibi veri üreten hizmetlerden elde edilen sentetik içerikleri kullanıyor. Bu gelecekte daha yaygın hale gelecektir.

Singularity: Tekillik Çağı, Zeka Patlaması

singularity

Singularity veya teknolojik tekillik, gelecekte yapay zekânın insan zekâsının ötesine geçerek medeniyeti ve insan doğasını radikal bir biçimde değiştireceğine inanılan hipotezsel nokta. Böyle bir zekâ, insanlığın tasavvur edebileceğinden daha üstün kabiliyetli olacağından, insanlığın geleceğini öngörülemez bir hâle getireceği düşünülmektedir.

Zeka Patlaması Bir zeka patlaması, yapay genel zekanın kendi zekasını oluşturan süreçleri analiz ettiği, onları geliştirdiği ve aynı şeyi yapan ancak kendisinden daha zeki bir halef yapay zeka sistemi yarattığı teorik senaryodur.

Fütürist Ray Kurzweil’in “tekillik çağı” olarak adlandırdığı bu çağ, insanın kendi varlığı başta olmak üzere şimdiye kadar yapılan tüm varlık hiyerarşisi tanımlarının, oluş anlatılarının yeniden düşünülüp tartışılmasına güçlü bir zemin oluşturacağa benziyor. Kurzweil’e göre tekillik çağı ile birlikte makine zekâsı, tümleşik insan zekâsından daha güçlü olacak, yapay zekâ bilinçli bir şekilde olaylara karşı fikir yürütecek ve istekte bulunabilecek.

Yakın gelecekte bu biyolojik olmayan zekânın kendi tasarımına erişmesi ve yeniden tasarım döngüsünde kendisini geliştirmesi bekleniyor. Yapay zekâ, insan zekâsının ötesine geçerek insan doğasının ve insan üretimi olan her şeyin radikal bir dönüşüm geçireceğine dair işaretler veriyor. Bugün yapay zekânın geldiği nokta dikkate alındığında bunun çok da uzun sürmeyeceği söylenebilir.


Kaynak:


Pablo Villalobos, Jaime Sevilla, Lennart Heim, Tamay Besiroglu, Marius Hobbhahn, Anson Ho. Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning. (26 Oct 2022) arXiv:2211.04325 [cs.LG]. https://arxiv.org/abs/2211.04325

Yapay zeka, depremi 1 hafta önceden yüzde 70 doğrulukla tahmin ediyor


Editor
Haber Merkezi ▪ İndigo Dergisi, 19 yıldır yayın hayatında olan bağımsız bir medya kuruluşudur. İlkelerinden ödün vermeden tarafsız yayıncılık anlayışı ile çalışmaktadır. Amacı; gidişatı ve tabuları sorgulayarak, kamuoyu oluşturarak farkındalık yaratmaktır. Vizyonu; okuyucularında sosyal sorumluluk bilinci geliştirerek toplumun olumlu yönde değişimine katkıda bulunmaktır. Temel değerleri; dürüst, sağduyulu, barışçıl ve sosyal sorumluluklarının bilincinde olmaktır. İndigo Dergisi, Türkiye’nin saygın İnternet yayınlarından biri olarak; iletişim özgürlüğünü halkın gerçekleri öğrenme hakkı olarak kabul etmekte; Basın Meslek İlkeleri ve Türkiye Gazetecileri Hak ve Sorumluluk Bildirgesi’ne uymayı taahhüt eder. Ayrıca İnsan Hakları Evrensel Beyannamesi’ni benimsemekte ve yayın içeriğinde de bu bildiriyi göz önünde bulundurmaktadır. Buradan hareketle herkesin ırk, renk, cinsiyet, dil, din, siyasi veya diğer herhangi bir milli veya içtimai menşe, servet, doğuş veya herhangi diğer bir fark gözetilmeksizin eşitliğine ve özgürlüğüne inanmaktadır. İndigo Dergisi, Türkiye Cumhuriyeti çıkarlarına ters düşen; milli haysiyetimizi ve değerlerimizi karalayan, küçümseyen ya da bunlara zarar verebilecek nitelikte hiçbir yazıya yer vermez. İndigo Dergisi herhangi bir çıkar grubu, ideolojik veya politik hiçbir oluşumun parçası değildir.