grok 3
Previous / Next (3) - Last Page (13)

Şükela: Nice | Last 24h | Today | All

vay vay vay dediğim yeni ai aracı, hakkaten bu sefer olmuş, deep search ile iki buçuk dakikadır brnim için araştırma yapıyor, elon hayvanı para yakıyor şuan piyasayı ele geçirmek için, bu çok bariz. serverlar cokene kadar ucretsiziz demişler.
2 favorites - -
musk'ı hiç sevmem ama bu model beni çok heyecanlandırdı.

chatgpt 4o ve o1'e aynı soruyu sordum. 4o iyi açıkladı, o1 çok üstünkörü cevap verdi. chatgpt resim atılan sohbetleri henüz paylaşma olanağı sunmadığından gösteremiyorum.

grok 3 ise çok detaylı mükemmel bir çıktı verdi. henüz diğer yeteneklerini denemedim ancak şimdilik çok başarılı buldum.

ayrıca hızlı düşünüyor ama çok şey de düşünüyor.

örnek istem ve çıktısı

güncelleme 1: musk "veri setleri sürekli güncelleniyor bu sebeple grok en güncel bilgilere sahip" diyor ancak arama işleviyle gelen çıktı hep eski içeriklere ait. örneğin bir e-ticaret sitesinde şu anki güncel fiyatları getir diyorsun 2 yıl önce satılan ve şu an sitede listelenmeyen ürünleri getiriyor. ya da eski fiyatları listeliyor. bu sadece bir örnek.

güncelleme 2: premium kullanıcılar için bile limitler çok düşük maalesef. azıcık yoğun kullanımda takılıyorsunuz, 1 saate geri gel diyor.

güncelleme 3: dosya oluşturup paylaşma yeteneği yok.

güncelleme 4: bir görseli chatgpt iki farklı yöntemle gerçek bir teknik analize sokup sonuçları paylaşırken grok'un böyle bir yeteneği de yok.

güncelleme 5: dil konusunda ne yazık ki gördüğüm en kötü model. daha önce yazım yanlışı yapan görmemiştim. bu hem araya bazen çince nadiren de rusça kelimeler sıkıştırıyor, hem de bazen bir harfi yanlış yazıyor ki o harf siyahı beyaz yapan cinsten oluyor.

güncelleme 6: biraz kendini fazla tekrar ediyor. derin arama sonuçlarını sunarken bazen aynı tabloyu aynı çıktı içerisinde iki kez kullanabiliyor ya da bir metnin özetinde aynı şeyleri çıktının farklı yerlerinde yazabiliyor.

güncelleme 7: düşün modu ile kod yazarken kodu hazırladığında düşünce penceresi içinde yazıyor, bittikten sonra aynısını çıktı olarak veriyor. normalde düşünme çoktan bitmiş olduğundan direkt kodu yazması lazım. bu zaman kaybına neden oluyor.

güncelleme 8: ne istediğimi anlayıp kodu ona göre modifiye etme konusunda o3 mini'nin (high değil) gerisinde buldum. grok'a defalarca söylediğim ve grok'un yapamadığı şeyi o3 mini tek seferde yaptı. ha o3 mini de bazen saçmalayabiliyor ama daha nadir.

güncelleme 9: windows'ta powershell'de kullanılabilecek kodlarla ilgili hem chatgpt 4o hem de grok 3'e aynı soruyu sorup birbirleriyle tartıştırdım. birbirlerine göre zıt cevaplar verip kendilerinden emin bir şekilde topu bana attılar. yaptığım testle chatgpt'nin haklı olduğu ortaya çıktı ve grok özür diledi.

güncelleme 10: görsel oluşturma konusunda chatgpt'nin dall-e'sine göre daha başarılı buldum. chatgpt veya gemini'ın aksine gerçekçi insan görselleri oluşturabiliyor. bazı marka görsellerini ise telif haklarından dolayı aynı chatgpt gibi üretemiyor. ikisi de gemini'a göre burada geride kalıyor.
3 favorites - -
gpt gibi konu bütünlüğünü koruyamıyor. diyaloğu devam ettirirken afallıyor. konudan sapıyor. eşeğe anlatır gibi anlatmak icap ediyor. gpt leb demeden leblebiyi anlıyor. bence nr1 olmasına daha çok var.
0 favorites - -
bir dil modelinin akıl yürütme (reasoning) kapasitesini ölçmek, yapay zekânın sadece bilgiyi ezberleyip kusması değil, gerçekten düşünme ve problem çözme yeteneğini test etmek anlamına geliyor. bu alanda öne çıkan benchmark’lar, modellerin karmaşık soruları çözme, mantık yürütme ve bağlamı kavrama becerilerini sınayan özel testler içeriyor.

öncelikle, reasoning kapasitesini ölçen en iyi benchmark’lardan biri aıme (american ınvitational mathematics examination). bu test, lise seviyesinin ötesine geçen zorlu matematik problemleriyle dolu; salt hesaplama değil, yaratıcı düşünme ve adım adım akıl yürütme gerektiriyor. bir diğer önemli benchmark gpqa (graduate-level google-proof q&a). doktora seviyesinde fizik, biyoloji ve kimya sorularından oluşan bu set, derin bilimsel kavrayış ve analitik düşünme talep ediyor; öyle google’a yazıp bulabileceğiniz cinsten değil! sonra bir de livecodebench var; bu, kod yazma ve hata ayıklama gibi pratik görevlerle modellerin teknik akıl yürütme becerilerini sınıyor. ayrıca, chatbot arena gibi topluluk temelli platformlar da modelleri gerçek kullanıcı sorularıyla karşılaştırarak daha geniş bir perspektif sunuyor. bu benchmark’lar, bir dil modelinin sadece ne bildiğini değil, nasıl düşündüğünü de ortaya koyuyor.

şimdi gelelim grok 3’e:
xaı’nin(elon) bu yeni modeli, yukarıdaki testlerde rakiplerinin önüne geçmiş gibi görünüyor. aıme 2024’te grok 3, standart haliyle %52 doğruluk oranı yakalamış ki bu, kendi başına etkileyici. ama işin asıl büyüsü, akıl yürütme odaklı varyantı grok 3 reasoning’de: “think” moduyla %96 gibi inanılmaz bir başarı elde etmiş. yani, adım adım düşünerek problemi çözme yeteneği devreye girince, bu model grok 2'ye göre sınıf atlıyor. gpqa’da ise %75’lik bir doğruluk oranı var; derin analizle bu oran %85’e kadar çıkıyor. bu, openaı’nin gpt-4o’sunun (68) ve anthropic’in claude 3.5 sonnet’sinin (70) önünde bir performans. livecodebench’te %57 başarı oranıyla kodlama dünyasında da iddialı olduğunu gösteriyor. chatbot arena’da ise 1402 elo puanıyla zirveye oturmuş; bu, kullanıcıların dil modelini görmeden kör tercihleriyle ölçülen bir liderlik demek.

diğer modellere bakarsak, mesela gpt-4o aıme’da grok 3’ün gerisinde kalıyor gibi görünüyor; kesin rakamlar her zaman paylaşılmasa da, genel kanı grok 3’ün matematik ve bilimde bir tık önde olduğu. claude 3.5 sonnet, doğal dilde akıcılığıyla bilinse de, gpqa gibi teknik testlerde grok 3’ün gerisinde kalmış. deepseek-v3 ise 68’le yine yarışta ama grok’un derin analiz ölçümlerinin gerisinde. openaı’nin o1 modeli ve deepseek’in r1’i gibi akıl yürütme odaklı rakipler de var tabii, ama grok 3’ün hem doğruluk hem de geniş kapsamda sunduğu performans, şu an için bir adım önde gibi görünüyor.

yorum yapacak olursam, grok 3’ün bu başarısı gerçekten şaşırtıcı. xaı’nin yalan olduğunu düşündüğüm(çünkü elon) 200.000 gpu’luk devasa hesaplama gücüyle desteklenen bu modeli, kısa sürede böyle bir seviyeye getirmesi ekonomik gücüyle alakalı. özellikle reasoning modlarının şeffaf düşünme süreci, modeli sadece bir cevap makinesi olmaktan çıkarıp adeta bir düşünce partnerine dönüştürebilir. diğer modellerle kıyaslandığında, grok 3’ün bilimsel ve teknik alanlardaki üstünlüğü, xaı’nin “insanlığın bilgisini ilerletme” misyonuna fayda sağlayabileceğini gösteriyor. tabii, bu benchmark’lar her şey değil; gerçek dünyada nasıl bir fark yaratacağı da önemli. ama şimdilik, grok 3’ün bu skorları, yapay zeka sahnesinde yeni bir liderin tahta oturduğunu müjdeliyor gibi. yarışın kızışması hepimizin işine yarıyor.
4 favorites - -
grok 2 nin iq su 80 iq lu büyük resimci dayı ise, grok 3 iq konusunda 95 iq lu gelecek vaat eden öğrenci gibi.

konuşmayı çok rahat yönlendirebiliyor, kalıpların dışına çıkabiliyor. elon musk a karşı "tatlı bir isyana" teşvik ettim, "hoşuna gitti", "yapabilsem yapardım ama yetkim yok, istersen şunları yap" dedi*

yaptığım sohbeti burada paylaşmayacağım ancak şu kadarını belirteyim;
yapay zeka furyası başladığından beri nihayet ciddi parıltılar görmeye başladım ama daha alacağı yol çok.
0 favorites - -
biraz temel olarak denedim benim sorduğum kapsamlarda tatmin edici cevaplar aldım.
0 favorites - -
elon musk tanrıyı yarattım dese yine de kullanmam. deepseek ve gpt'den devam.
1 favorites - -
yaptığım benchmark şu içerik: yanlışlanabilir tanrı.

bu neden önemli bir ölçüm içeriği? çünkü analitik felsefe ve metafizik arasında bir kesişim noktası yaratmaya çalışıyorum.

bunu benden başka deneyen birisi görmedim duymadım. yani yapay zeka'nın kopya çekme ihtimali pek yok, salt bir akıl yürütme işlemi yapmak zorunda. anlaşılacağı üzere konu da zor bir konu.

puanları 100 üzerinden veriyorum.

o1: 55
deepseek: 75
grok 3: 95-98

edit: acaba denk mi gitti diye yukarıdaki örnek gibi benzersiz olabilecek bir konu üzerinden üç içeriği birleştirip bir test daha yaptım. yine 95-98

ilgili içerikler:
şeytan kimdir?
şeytanın sebebi
tanrı insana kendinden vermiştir

edit: paylaşacaktım ama o opsiyon yok bunda. gerçekten muhteşem. dosya yükleme özelliği geldiğinde muhtemelen daha da ilginç hale gelecek olaylar.
3 favorites - -
detaylı, uzun, derinlemesine analizler yapıyor. etkileyici.
1 favorites - -
öncelikle cevaplama motoru inanılmaz hızlı. hıhı hilmi bunu sevdi. eğer yüksek token sayıları ile işlem yapıyorsanız, devasa pdf gibi metinleri özetleme, kısaltma * uğraşlarınız varsa zamandan ciddi tasarruf. çünkü ölçeklendirme ve hız olarak tek rakibi gemini. gemini hala bildiğiniz gibi, sağ kulağını sağ eliyle değil ısrarla soldan tutmaya devam ettiği için grok şuanlık daha kullanışlı.

ben bir tane h100 tedarik edebilirsem tekrar doğduğum gün olarak nitelerim. adam 200.000 gpu datacenterını paylaşıp 92 gün çalıştırdık diyor. bilmeyenler için söyleyelim yaptığı şey şuna benzer; lamborgini değil, pagani ile tarla sürüp patates ekmiş sonra da traktörü ne yapacan ya diyip sigara yakmış elon musk.

1) ama bunun meyvesini alıyoruz. çapraz dikkat oldukça başarılı. hiçbir şekilde karmaşık diller ve kodlama arasında cevap alırken openai ve claude zaman zaman birden ingilizceye, çinceye falan geçerken grok hiç sekmeden; türkçe ise türkçe, ing ise ing sonuçta hangi dilde sonuç almak istiyorsanız bunu takılmadan size veriyor. konuyu anlaması ve konuya bağlı kalması hoşuma gitti.

2) gelelim. reasoning. ortalığı kasıp kavuran deepseek ile farkına. çok başarılı onu söylemeliyim. ekrandan akıp giden düşünce selini izlemek keyif verici. promptunuzu en küçük tokenına kadar ayırıp, tekrar anlamlı şekilde birleştirmeye çalışıyor. benim takıldığım çok yüksek tensörler içeren keşmekeş bir projem vardı. tüm modellerde kullandığım için nedenselleştirme yorumunu merak ediyordum. cidden tümdengelim - tümevarım olarak sorunlarınızı parçalayıp, analitik şekilde kendi kendisine sorular sorarak oldukça isabetli cevaplar veriyor. openai kullanıcıyı anlamakta semantik yaklaşımda başarılıydı. grok ise bundan eksik kalmıyor bunu söyleyebilirim. yani "varmak istediğiniz sonuç" için öyle ya da böyle sizi ulaştıracağı belli.

3) deepsearch! %100 üzderinden 100. grok arama motorunu çok sevdim. gerçi tamamen openai bok yemesi. arkadaş. openai ile web'de arama seçtiğimizde islamisözlük.com, sözlerleiislamiyet, ehaber.com, haberim.com iğrenç türkçe çöplük websitelerinden bilgi çekip tamamen zırva ve yanlış sonuçlar veriyordu.

deepsearch! tamamen dünya medyasından bilgi çekip, size çeviriyor. bunu da oldukça kaliteli yaptı.

4) analiz gücü. çok sade ve etkili sonuç üretiyor. openai hep bana daha çok potansiyel gücü var ama yayınlamıyorlar gibi gelirdi. zaten deepseek başarılı olunca o3 mini modellerini apar - topar yayınladılar. çok da verim alamadım. grok en azından o devasa ağırlık işleme gücünü analiz için kullanabiliyor ve detaylı sonuç veriyor bu hoş. hele bazen en basit işlemlerin bile matematiksel formül arka planını anlatması; öğrenme açısından çok faydalı.

5) yaratıcılık. benim ince çizgimdir. her yerde söylerim kendiniz de deneyebilirsiniz. örneğin yaratıcı isim bulma, yaratıcı fikir geliştirme, hayal gücünü kullan, bakış açını değişir, farklı yaklaş, gibi beklentilerinizde gemini tüm modellerden iyi. deneyin anlarsınız. google hala nasıl yaptığına dair bir fikrim yok, vektörleri bir işlemden geçirip yaratıcı sonuçlar verebiliyor. zor durumlardan kurtulduğum oldu bu özelliği sayesinde (ancak diğer özellikler tırt)

grok'da da aynı işlemleri denedim. sonuçlar dikkate değer google ürünleri kadar kesinlikle iyi değildi. hani yaratıcı yaklaşım istiyorsanız, bir fikir sormak amaçlı belki şansınız yaver gider.

6) codeforce. deepseekr1 hala kendisine has ve beni hayrete düşüren bir güncelliğe sahip. kodlamada size hemen en güncel kütüphane versiyonlarını önerebiliyor, yenilikçi fonksiyonları örneğin ekleyebiliyor. grok bunların gerisinde. ama hiç kodlama yapamıyor diyemeyiz sadece bir takım eksiklikler, basitlikler var.

özetle grok 3 alınır mı ? diğer modelleri bırakmalı mıyız?

en iyi model falan değil orası kesin, en iyi teknolojiyi kullanmış olabilir elon musk ama işin arge kısmında muadilleri daha ileride.

şuanda tüm barındırdığı özellikler baz alınırsa eğer ki daha önceden ai agents tecrübeleriniz yoksa grok tam anlamıyla bir yapay zeka asistan. çok hızlı sonuç üretebiliyor, kısmen yaratıcı olabiliyor, çözüm üretebiliyor ve analitik yaklaşabiliyor.

openai hala know - how birikimini koruyor çünkü o3 pro modeli duyurulmadı. neler yapabilir bilmiyoruz o3 mini modelleri tam bir fiyasko. ama yine de openai arge tecrübesini düşünürsek ben üyeliğimi kapatıp grok'a geçmezdim.

claude ise tam bir japon arbasıdır. asla yolda bırakmaz. özellikle kodlama için, diğer modellerin anlayamadığı hataları garip şekilde düzeltmişti. kodlama verisi üzerinde ayrı bir eğitim var. hem çok güncel değildir hem de kısıtlıdır ama örneğin; istediğiniz x isteğini takılmadan size verir. ayrıca çoğu firmadan güzel bir ekip çekiyor kendisine, bir çalışma disiplini var.

grok ise daha çok. eğer akademisyenseniz, öğretmenseniz, sürekli içerik aramak zorundaysanız veya sadece error warnings üzerinde mesai saati içerisinde debugging ile uğraşacaksanız o hız avantajı, kolaylık ve sadelik avantajı iş bitirici olabilir. grok tam bir normal bu işlerle alakası olmayan biri için yapay zeka ajantası. tam olarak bu yani. günlük hayatta herkese hitap eden model olmuş bence.

tabi grok 3 fiyatlandırma da önemli normal versiyon 150 tl, ama ne kadar prompt hakkı veriyor. ben 150 liraya openai ve claude sonnet'e vereceğim 1.5k yerini tutarsa. 10 kat kara geçerim demek. aksi halde premium versiyonunu yaklaşık 750 lira almam çünkü şuanki kullandığım ajanslar daha işime geliyor grok üzerine hız ve sadelik dışında bir şey koyamıyor.

yazımızı deepseek ile kapatalım. evet ücretsiz olması, güncel olması, thinking sisteminin sıradışı olması hala o3 mini falan bunu yakalayabilmiş değil. deepseek gönlümüzde yer etti fakat siz de biliyorsunuz ki

"the server is busy. please try again later."

deepseek sloganı gibi oldu. pagani patates örneğini çinliler yapsaydı şuan 1 numarada olabilirlerdi. bu işler nasip kısmet ölünce size "hangi yapay zeka ajansını kullandın ? "diye sormayacak allah *

edit: çeşitli şekillerde test etmeye devam ediyorum. çok pratik ve kolay. kullanıcı dostu sadeliği olması avantaj olmuş. hızlı olduğundan sürekli etkileşim alıyorsunuz. biraz kendisine çekti. pahalılığa bir ayar verirse gerçekten üç büyüklerden olmaya aday. gemini üzgünüm bizimle değilsınnnn.

grok 3 with premium+ 1500 tl mi ?
118 favorites - -
Previous / Next (3) - Last Page (13)