DeepSeek: Çin’in yapay zeka girişimi ChatGPT’yi solladı!

DeepSeek

Çin merkezli yapay zeka girişimi DeepSeek‘in mobil uygulaması, pazartesi günü itibarıyla ABD’de OpenAI’ın sohbet robotu ChatGPT’yi geride bırakarak App Store‘da en çok indirilen uygulama oldu.

DeepSeek, Mixture of Experts (MOE) mimarisini kullanarak açık kaynaklı büyük dil modelleri geliştiriyor. Geçtiğimiz hafta 671 milyar parametreye sahip R1 modelinin açık kaynak versiyonunu yayınlayan girişim, Silikon Vadisi’nin ilgi odağı oldu.


Geçtiğimiz ay bir makale yayınlayan DeepSeek araştırmacıları, mobil uygulamaya da güç veren DeepSeek-V3 modelinin eğitiminde Nvidia’nın H800 çiplerini kullandıklarını ve bunun şirkete 5.6 milyon dolara mâl olduğunu açıkladı.

H800, ABD’nin en gelişmiş yapay zeka çiplerinin Çin’e ihracat edilmesini yasaklamasının ardından yapay zeka çip lideri haline gelen Nvidia’nın ambargolardan etkilenen pazarlarda satışa çıkardığı daha düşük işlem kapasiteli GPU’lardan biri.

Yapay zeka modellerini eğitmek için milyar dolar harcayan ABD’li şirketler, sadece 5.6 milyon dolar maliyetle 671 milyar parametreye sahip bir modelin geliştirilebilmesinin ardından teknoloji ihracat kontrollerinin verimliliğini sorgulamaya başladı.

R1 modeliyle OpenAI’ın kullanıcıların erişimine sunduğu en gelişmiş modeli o1 ile bazı konularda başa baş rekabet eden bazı konularda ise geride bırakan DeepSeek hakkında ABD’nin girişimcilik ve teknoloji dünyasının önemli isimleri de yorumda bulundu.

Andreessen Horowitzin (a16z) Kurucusu Marc Andreessen, DeepSeek’i “şimdiye kadar gördüğüm en şaşırtıcı ve etkileyici atılımlardan biri” olarak nitelendirirken; Y Combinator CEO’su Garry Tan, DeepSeek’in başarısının Amerikan rakipler için iyi olduğunu savundu.

X hesabından gazeteci Holger Zschaepitz‘in gönderisine yorum yapan Tan, “İnsanlar buna gerçekten inanıyor mu? Eğer modelleri eğitmek daha ucuz, daha hızlı ve daha kolay hale gelirse, yapay zekanın gerçek dünya kullanımına yönelik çıkarımlara (inference) olan talep daha da hızlı büyür ve hızlanır. Bu da, hesaplama gücü arzının kullanılacağını garanti eder” dedi.

Gazeteci Holger Zschaepitz, “Çin merkezli #DeepSeek, ABD hisse senedi piyasaları için en büyük tehditlerden birini temsil edebilir. Şirketin, son teknoloji çiplere erişimi olmadan ve son derece düşük bir maliyetle çığır açan bir yapay zeka modeli geliştirmiş gibi görünüyor. Bu durum, sektöre akıtılan yüz milyarlarca dolarlık sermaye harcamalarının faydasını sorgulatıyor” demişti.

Meta’nın Baş Yapay Zeka Bilim İnsanı Yann LeCun ise DeepSeek’in faaliyetlerine Çin ve ABD arasındaki siyasi bakış açısıyla bakılmaması gerektiğini belirtti. Açık kaynaklı modellerin tescilli olanları geride bıraktığının alınması gereken bir ders olduğunu ifade etti.

LeCun, “Yeni fikirler buldular ve bunları başkalarının çalışmalarının üzerine inşa ettiler. Çalışmaları yayınladığı ve açık kaynak olduğu için herkes bundan kâr elde edebilir. Bu da açık kaynağın ve açık araştırmanın gücü” cümlesini kurdu.

DeepSeek, Silikon Vadisi’ni şaşkınlığa uğrattı!

deepseek app

Çinli yapay zeka laboratuvarı DeepSeek’in kendi adını taşıyan büyük dil modeli (LLM), ABD’li OpenAI firmasının ChatGPT’sinin en büyük rakiplerinden biri haline gelirken, Silikon Vadisi’ni şaşkınlığa uğrattı.

Bu ay yayınlanan DeepSeek hem son derece hızlı hem de az maliyetle geliştirildi.

OpenAI ve Google gibi önemli oyuncuların yapay zeka modellerine eğitim verileri sağlayan ScaleAI firmasının CEO’su Alexandr Wang, perşembe günü İsviçre’nin Davos kentinde düzenlenen Dünya Ekonomik Forumu’nda (WEF) yaptığı konuşmada DeepSeek’in ürününü “dünyayı sarsacak bir model” diye niteledi.

Çinli teknoloji devi, ilk modelinin ardından güçlü muhakeme yeteneğine odaklanan DeepSeek-R1 adlı diğer modelini de yayınladı. Bu model de OpenAI’ın yakın zamanda piyasaya sürdüğü o1 ile rekabet halinde.

Üstelik bu denli güçlü bir araç olmasına rağmen DeepSeek-R1 büyük ölçüde açık kaynaklı olarak yayınlandı. Yani isteyen herkes aracın kodlarına erişebiliyor ve bu kodları kullanarak LLM’i kişiselleştirebiliyor. Eğitim verileri ise patentli.

Öte yandan OpenAI, o1 modelini kapalı olarak piyasaya sürmüştü ve halihazırda sadece kullanıcılara bile aylık 200 dolarlık paketle satıyor.

Bu arada uzmanlar, Çin’in ABD ihracat kontrollerine çip satışı yasaklarına rağmen nasıl kısa sürede böyle güçlü bir model geliştirebildiğini tartışıyor.

Peki DeepSeek R1’in sırrı ne?

R1 ai

Yapay zeka topluluğu R1’in OpenAI’ın o1’ine birçok önemli ölçüt açısından eşit olduğunu, hatta bazı metriklerde onu geçtiğini, ancak maliyetinin çok daha düşük olduğunu söylüyor.

Emory Üniversitesi’nde bilgi sistemleri alanında öğretim ütesi Hancheng Cao, MIT Technology Review dergisine verdiği röportajda, “Bu, özellikle Küresel Güney’deki sınırlı kaynaklara sahip araştırmacılar ve geliştiriciler için harika bir eşitleyici atılım olabilir,” diyor.

DeepSeek’in başarısı, Çinli yapay zeka şirketlerinin ABD’nin son teknoloji çipler üzerindeki artan ihracat kontrolleri yüzünden karşı karşıya olduğu kısıtlamalar göz önüne alındığında daha da dikkat çekici.


R1’in ve son Huawei 5G telefon modellerinin piyasaya sürülmesi, ABD’nin ihracat kontrollerinin amaçlandığı gibi çalışmadığını düşündürüyor. Zira yaptırımlar, Çin’in yeteneklerini zayıflatmaktan ziyade verimliliğe, kaynak havuzunu ve iş birliğini geliştirmeye odaklanarak DeepSeek gibi laboratuvarlar kurmasını sağlamış olabilir.

Yenilikçi yöntemlere başvurdu

yapay zeka

MIT Technology Review‘a konuşan DeepSeek çalışanı ve Northwestern Üniversitesi’nde bilgisayar bilimi alanında doktora öğrencisi Zihan Wang, Çin’in yaptırımlara karşı yenilikçi yollara başvurmak zorunda kaldığını söylüyor.

Buna göre DeepSeek, R1 modelini oluşturmak için eğitim sürecini yeniden düzenlemek zorunda kaldı. Çünkü çip firması Nvidia’nın Çin pazarı için satmaya izinli olduğu çiplerin performansı, şirketin en iyi ürünlerinin hızının yarısı kadar ediyor. Bu yüzden Çin, Nvidia’dan satın aldığı grafik işlem birimleri (GPU) üzerindeki yükü azaltmak için eğitim sürecini düzenledi.

Diğer bir deyişle, ABD ihracat kontrolleri, R1 geliştiricilerini hesaplama gücü eksikliklerini telafi etmek için daha akıllı, daha enerji verimli algoritmalar oluşturmaya zorladı. ChatGPT’nin eğitim verilerini işlemek için 10.000 Nvidia GPU’ya ihtiyaç duyduğu düşünülüyor. DeepSeek mühendisleri sadece 2.000 GPU ile benzer sonuçlara ulaştıklarını söylüyor.

DeepSeek R1, araştırmacılar tarafından özellikle matematik ve kodlamada karmaşık muhakeme görevlerini yerine getirme becerisiyle övülüyor. Model, o1 tarafından kullanılana benzer bir “düşünce zinciri” yaklaşımı kullanıyor ve bu da sorguları adım adım işleyerek sorunları çözmesine olanak tanıyor.

Microsoft’un AI Frontiers araştırma laboratuvarının baş araştırmacısı Dimitris Papailiopoulos, R1’de kendisini en çok şaşırtan şeyin “mühendislikteki basitlik” olduğunu söylüyor.

“DeepSeek, her mantıksal adımı ayrıntılandırmak yerine doğru yanıtları hedefledi ve yüksek düzeyde etkinliği korurken hesaplama süresini önemli ölçüde azalttı.”

Programın ardındaki deha: Liang Wenfeng

Liang Wenfeng
Liang Wenfeng

Çin’in Hangzhou kentindeki şirket, Temmuz 2023’te bilgi ve elektronik mühendisliği geçmişine sahip Zhejiang Üniversitesi mezunu Liang Wenfeng tarafından kuruldu. Liang’ın 2015’te kurduğu bir fon olan High-Flyer’ın kuluçka programında yer aldı. Liang da sektörün diğer ileri gelen isimleri gibi, çeşitli görevlerde insanlara yetişebilen veya onları geçebilen “yapay genel zeka” seviyesine ulaşmayı hedefliyor.

Ayrıca, ABD’den beklenen yaptırımlardan çok önce Liang, şu anda Çin’e ihracatı yasaklanmış bir tür olan Nvidia A100 çiplerinden önemli miktarda stok satın aldı. Çinli medya kuruluşu 36Kr, şirketin stoklarında 10.000’den fazla birim olduğunu tahmin ediyor. Bazıları bu rakamın 50.000 olduğunu söylüyor.

Bu stokun yapay zeka eğitimi açısından önemini fark eden Liang, DeepSeek’i kurdu ve modellerini geliştirmek için bunları düşük güçteki çiplerle birlikte kullanmaya başladı.

Alibaba ve ByteDance gibi teknoloji devleri ve zengin yatırımcılara sahip bir avuç girişim, Çin’in yapay zeka sektöründe hakim konumda. Bu da DeepSeek gibi şirketin nadir görülebileceği anlamına geliyor.

Eski DeepSeek çalışanı Zihan Wang, MIT Technology Review’a DeepSeek’te çalışırken bol miktarda bilgi işlem kaynağına erişebildiğini ve deneme özgürlüğüne sahip olduğunu söyledi ve bunu, “herhangi bir şirkette çok az yeni mezunun elde edebileceği bir lüks” diye niteledi.

Liang ise Temmuz 2024’te Çin medya kuruluşu 36Kr ile yaptığı bir röportajda, “Çinli şirketlerin çip yaptırımlarına ek olarak karşılaştıkları ayrı bir zorluk da yapay zeka mühendisliği tekniklerinin daha az verimli olması,” demişti.

“Biz aynı sonuçları elde etmek için iki kat daha fazla bilgi işlem gücü tüketmek zorundayız. Veri verimliliğindeki boşluklarla birleştiğinde, bu dört kata kadar daha fazla bilgi işlem gücüne ihtiyaç duyulması anlamına gelebilir. Amacımız bu boşlukları sürekli olarak kapatmak.”

Ancak DeepSeek, doğruluktan önemli ölçüde ödün vermeden bellek kullanımını azaltmanın ve hesaplamayı hızlandırmanın yollarını buldu. Wang, “Ekip, donanımsal zorluğu inovasyon için bir fırsata dönüştürmeyi seviyor,” diyor.

Carnegie Endowment for International Peace’de bir yapay zeka araştırmacısı olan Matt Sheehan, “ABD’nin ihracat kontrolleri, Çinli şirketleri sınırlı bilgi işlem kaynaklarıyla çok daha verimli olmak zorunda kalacakları bir konuma sıkıştırdı” ifadelerini kullanıyor.

“Muhtemelen gelecekte bilgi işlem eksikliğiyle ilgili çok fazla işbirliği göreceğiz.”

deepseek app

Diğer yapay zeka araçlarını gerçekten geçti mi?

Bağımsız araştırmacıların kıyaslama testlerinde, ilk modellerden biri olan DeepSeek-V3, OpenAI’nin GPT-4o ve Anthropic’in Claude Sonnet 3.5’inin yetenekleriyle eşleşmiş, Meta’nın Llama 3.1 ve Alibaba’nın Qwen2.5 gibi diğer modellerini problem çözme, kodlama ve matematik içeren görevlerde geride bırakmıştı.

Livescience’a göre 20 Ocak’ta yayınlanan R1 ise aynı testlerin çoğunda ChatGPT’nin en son modeli o1’i de geçti. Diğer modellerin maliyetinin çok daha az bir kısmıyla başarılan bu etkileyici performans, modelin yarı açık kaynaklı yapısı ve önemli ölçüde daha az GPU üzerinde eğitilmiş olmasıyla birlikte yapay zeka uzmanlarını hayrete düşürüyor.

OpenAI’nin stratejik ortağı Microsoft’un CEO’su Satya Nadella, 22 Ocak’ta Dünya Ekonomik Forumu’nda yaptığı açıklamada, “Çin’deki gelişmeleri çok ama çok ciddiye almalıyız,” dedi.


Öte yandan bu yeni modelin ne kadarının yararlı bilimsel ve teknik uygulamalara dönüşeceği veya DeepSeek’in modelini kıyaslama testlerinde başarılı olacak şekilde kasten eğitip eğitmediği henüz belli değil.

OpenAI’den ‘uzun ömür bilimi’ için bir yapay zeka modeli


Editor
Haber Merkezi ▪ İndigo Dergisi, 20 yıldır ilkelerinden ödün vermeden tarafsız yayıncılık anlayışı ile çalışan bağımsız bir medya kuruluşudur. Amacımız: Gidişatı ve tabuları sorgulayarak, kamuoyu oluşturarak farkındalık yaratmaktır. Vizyonumuz: Okurlarımızda sosyal sorumluluk bilinci geliştirerek toplumun olumlu yönde değişimine katkıda bulunmaktır. Temel değerlerimiz: Dürüst, sağduyulu, barışçıl ve sosyal sorumluluklarının bilincinde olmaktır. İndigo Dergisi, Türkiye’nin saygın çevrimiçi yayınlarından biri olarak, iletişim özgürlüğünü halkın gerçekleri öğrenme hakkı olarak kabul eder. Bu doğrultuda Basın Meslek İlkeleri ve Türkiye Gazetecileri Hak ve Sorumluluk Bildirgesi’ne uymayı taahhüt eder. İndigo Dergisi ayrıca İnsan Hakları Evrensel Beyannamesi’ni benimsemekte ve yayın içeriğinde de bu bildirgeyi göz önünde bulundurmaktadır. Buradan hareketle herkesin ırk, renk, cinsiyet, dil, din, siyasi veya diğer herhangi bir milli veya toplumsal köken, servet, doğuş veya herhangi diğer bir fark gözetilmeksizin eşitliğine ve özgürlüğüne inanmaktadır. İndigo Dergisi, Türkiye Cumhuriyeti çıkarlarına ters düşen; milli haysiyetimizi ve değerlerimizi karalayan, küçümseyen ya da bunlara zarar verebilecek nitelikte hiçbir yazıya yer vermez. İndigo Dergisi herhangi bir çıkar grubu, ideolojik veya politik hiçbir oluşumun parçası değildir.