Pierwszy model spod znaku Gemini 2.5 ujrzał światło dzienne. Choć wciąż znajduje się w fazie eksperymentalnej, to już teraz plasuje się w czołówce rankingu najsprytniejszych modeli sztucznej inteligencji, w niektórych kategoriach zajmując nawet pozycję lidera.
Gemini 2.5 Pro udostępniony w wersji eksperymentalnej
Na rodzinę Gemini 2.5 składają się modele rozumujące, a więc takie, które nie tylko klasyfikują i przewidują, ale też analizują informacje, wyciągają logiczne wnioski, uwzględniają kontekst i opracowują plan działania, którego każdy etap są w stanie wyjaśnić. Pierwszym takim modelem dla firmy Google był Gemini 2.0 Flash Thinking, ale teraz zrobiono krok, a właściwie parę kroków do przodu.
Jako pierwszy w nowej rodzinie udostępniony został Gemini 2.5 Pro w wersji eksperymentalnej. Google nazywa go swoim najinteligentniejszym modelem AI. Już teraz ma cechować się wysoką wydajnością i olbrzymią zdolnością do rozumienia złożonych problemów i dużych zestawów danych obejmujących tekst, dźwięk, obrazy czy wideo, jak również całe repozytoria kodu.
Think you know Gemini? 🤔 Think again.
— Google DeepMind (@GoogleDeepMind) March 25, 2025
Meet Gemini 2.5: our most intelligent model 💡 The first release is Pro Experimental, which is state-of-the-art across many benchmarks – meaning it can handle complex problems and give more accurate responses.
Try it now →… pic.twitter.com/bFcx0IlY24
W obrębie kodowania właśnie dokonał się jeden z największych postępów. Gemini 2.5 Pro jest, ponoć, w stanie wygenerować wykonywalny kod atrakcyjnej wizualnie aplikacji z zaledwie jednowierszowego monitu. W oceniającym te zdolności benchmarku SWE-Bench Verified osiągnął wynik 63,8%. Z popularnych modeli lepiej radzi sobie tylko Claude 3.7 Sonnet (70,3%), podczas gdy DeepSeek R1, GPT-4.5 czy o3-mini nie przekroczyły 50%.
Równie imponujący jest wynik w naukowym benchmarku GPQA Diamond (84%) i matematycznym AIME 2025 (86,7%) – w obu zdobył mocne drugie miejsce, minimalnie przegrywając, odpowiednio, z Claude 3.7 Sonnet oraz Grok 3 Beta. Jako lider uplasował się zaś w teście rozumienia wizualnego (81,7%) oraz Humanity’s Last Exam (18,8%). Ten ostatni został zaprojektowany przez setki ekspertów przedmiotowych i ma na celu uchwycenie granicy ludzkiej wiedzy i rozumowania.

Google zaprasza do eksperymentowania
Te wyniki wskazują na duży postęp, ale też olbrzymią wszechstronność modelu Gemini 2.5 Pro. Już teraz eksperymentować z nim mogą deweloperzy w Google AI Studio oraz użytkownicy Gemini Advanced.