(bkz:
#172890526)
özet geçelim (
qwen max):
grok 3, openaı'nin en güçlü modelleri olan o1-pro seviyesinde bir performans sergiliyor ve deepseek-r1 ile gemini 2.0 flash thinking'den daha iyi görünüyor. yaklaşık 1 yıllık geliştirme süreci içinde bu düzeyde bir başarı oldukça etkileyici. model, karmaşık matematiksel hesaplamalar, kodlama ve araştırma sorularında iyi performans gösterirken, mizah anlayışı ve bazı etik sorunlarda hala zorlanıyor. "thinking" (düşünce) özelliği açıldığında, modelin performansı önemli ölçüde artıyor. ancak, sonuçlar henüz erken ve daha kapsamlı değerlendirmeler bekleniyor. genel olarak, grok 3'ün llm alanındaki yeri oldukça vaatkar ve xaı ekibi için büyük bir başarı.