ÖMER TEMÜR - Türkçe için sıfırdan eğitilen Kumru LLM, 7,4 milyar parametreyle geliştirildi. Model, yalnızca 16 GB VRAM’e sahip tüketici GPU’larında bile çalışabiliyor. Kumru, ChatGPT gibi metin işleme, özetleme ve kurumsal soru-cevap sistemleri gibi görevleri yerine getiriyor.

Dil bilgisi hatası düzeltme, belge özetleme, soru cevaplama, makine çevirisi, doğal dil çıkarımı ve metin sınıflandırması gibi 26 farklı kategoride test edilen Kumru, ortalama sonuçlarda rakiplerini geride bırakmış durumda. Bu arada model, her ne kadar Türkçe için eğitilmiş olsa da İngilizceyi ve kodlamayı da biliyor.

45 günlük ön eğitim aşamasında NVIDIA’nın H100 ve H200 GPU’ları üzerinde 500 GB büyüklüğünde veri ile eğitilen Kumru, Mistral-v0.3 üzerine inşa edildi. Ayrıca bu yapay zekânın geliştirilmesi için Meta’nın LLaMA-3 modelinden de destek alındı.

Ön eğitim aşamasının sonunda 300 milyar token’le haşır neşir olan yapay zekâ, sonraki aşamada ise 1 milyon örnekle ince ayar işlemine sokuldu. Böylelikle Kumru’nun mümkün olan en iyi performansı vermesi sağlanmış oldu.

Kumru’nun en dikkat çeken özelliklerinden bir tanesi, sadece 16 GB VRAM kapasitesine sahip olan GPU’lar üzerinde yerel olarak çalışabiliyor olması. Böylece kullanıcılar yapay zekâyı şirket içi bilgisayarlarda çok ucuza çalıştırabilecek.

