SİBEL BAY 

Bu, yapay zekâ modellerinin, özellikle de büyük dil modellerinin büyümesini yavaşlatabilir ve hatta yapay zekâ devriminin gidişatını bile değiştirebilir.

Peki, internette ne kadar çok veri olduğu göz önüne alındığında potansiyel veri eksikliği bir sorun mudur?

Yapay Zekâ İçin Yüksek Kaliteli Veriler Neden Önemlidir?

Güçlü, doğru ve yüksek kaliteli yapay zekâ algoritmalarını eğitmek için çok fazla veriye ihtiyacımız vardır. Örneğin ChatGPT, 570 gigabaytlık metin verisi veya yaklaşık 300 milyar kelimeyle eğitildi.

Benzer şekilde, (DALL-E, Lensa ve Midjourney gibi birçok yapay zekâ görüntü oluşturma uygulamasının arkasında bulunan) kararlı yayılma algoritması, 5,8 milyar görüntü-metin çiftinden oluşan LIAON-5B veri kümesi üzerinde eğitildi. Bir algoritma yetersiz miktarda veriyle eğitilirse hatalı veya düşük kaliteli çıktılar üretecektir.

Eğitim verilerinin kalitesi de önemlidir. Sosyal medya gönderileri veya bulanık fotoğraflar gibi düşük kaliteli verilerin kaynağına ulaşmak kolaydır ancak yüksek performanslı yapay zekâ modellerini eğitmek için yeterli değildir.

Sosyal medya platformlarından alınan metinler önyargılı veya ön yargılı olabilir ya da model tarafından kopyalanabilecek dezenformasyon veya yasa dışı içerik içerebilir.

Yapay zekâ geliştiricilerinin kitaplardan, çevrimiçi makalelerden, bilimsel makalelerden, Wikipedia'dan ve belirli filtrelenmiş web içeriklerinden metinler gibi yüksek kaliteli içerikleri aramasının nedeni budur. Google Asistan, daha sohbete dayalı hale getirmek için kendi kendini yayınlayan site Smashwords'ten alınan 11.000 romantik roman üzerinde eğitildi.

Yeterli Veriye Sahip miyiz?

Yapay zekâ endüstrisi, yapay zekâ sistemlerini giderek daha büyük veri kümeleri üzerinde eğitiyor; bu nedenle artık ChatGPT veya DALL-E 3 gibi yüksek performanslı modellere sahibiz. Aynı zamanda araştırmalar, çevrimiçi veri stoklarının, kullanılan veri kümelerinden çok daha yavaş büyüdüğünü gösteriyor.

KORAL Elektronik Harp Sistemi Nedir? KORAL Elektronik Harp Sistemi Nedir?

Geçen yıl yayınlanan bir makalede bir grup araştırmacı, mevcut yapay zekâ eğitim eğilimleri devam ederse 2026'dan önce yüksek kaliteli metin verilerinin tükeneceğini öngördü. Ayrıca düşük kaliteli dil verilerinin 2030 ile 2050 arasında, düşük kaliteli görüntü verilerinin ise 2030 ile 2060 arasında tükeneceğini tahmin ediyorlar.

Muhasebe ve danışmanlık grubu PwC'ye göre yapay zeka, 2030 yılına kadar dünya ekonomisine 15,7 trilyon ABD Doları (24,1 trilyon Avustralya Doları) katkıda bulunabilir. Ancak kullanılabilir verilerin tükenmesi gelişimini yavaşlatabilir.

Endişelenmeli miyiz?

Yukarıdaki noktalar bazı AI hayranlarını endişelendirse de durum göründüğü kadar kötü olmayabilir. Yapay zekâ modellerinin gelecekte nasıl gelişeceğine dair pek çok bilinmeyenin yanı sıra veri eksikliği riskini gidermenin birkaç yolu var.

Yapay zekâ geliştiricilerinin algoritmaları geliştirerek hâlihazırda sahip oldukları verileri daha verimli kullanmaları bir fırsattır.

Önümüzdeki yıllarda muhtemelen daha az veri ve muhtemelen daha az hesaplama gücü kullanarak yüksek performanslı yapay zekâ sistemlerini eğitebilecekler. Bu aynı zamanda yapay zekânın karbon ayak izinin azaltılmasına da yardımcı olacaktır.

Diğer bir seçenek de sistemleri eğitmek için sentetik veriler oluşturmak amacıyla yapay zekâyı kullanmaktır. Başka bir deyişle, geliştiriciler ihtiyaç duydukları verileri kendi yapay zekâ modellerine uyacak şekilde düzenleyerek kolayca oluşturabilirler.

Pek çok proje hâlihazırda çoğunlukla Mostly AI gibi veri üreten hizmetlerden elde edilen sentetik içerik kullanıyor. Bu gelecekte daha yaygın hale gelecektir.

Geliştiriciler aynı zamanda büyük yayıncılar ve çevrimdışı veri havuzları tarafından tutulanlar gibi ücretsiz çevrimiçi alanın dışındaki içerikleri de arıyorlar. İnternetten önce yayınlanan milyonlarca metni düşünün. Dijital olarak kullanıma sunulan bu veriler, yapay zekâ projeleri için yeni bir veri kaynağı sağlayabilir.

Dünyanın en büyük haber içeriği sahiplerinden biri olan (içeriğinin çoğunu bir ödeme duvarının arkasında bulunduran) News Corp, yakın zamanda AI geliştiricileriyle içerik anlaşmaları için pazarlık yaptığını söyledi. Bu tür anlaşmalar yapay zekâ şirketlerini eğitim verileri için ödeme yapmaya zorlayacak; oysa şimdiye kadar bu verileri çoğunlukla internetten ücretsiz olarak sildiler.

İçerik oluşturucular, içeriklerinin yapay zekâ modellerini eğitmek için izinsiz kullanılmasını protesto ederek Microsoft, OpenAI ve Stability AI gibi bazı şirketlere dava açtı. Çalışmalarının karşılığını almak, yaratıcılar ile yapay zekâ şirketleri arasındaki güç dengesizliğinin bir kısmının onarılmasına yardımcı olabilir.