Elon Musk X Twitter
(fot. Mateusz Budzeń | Tabletowo.pl)

Elon Musk znów miesza w świecie AI

Elon Musk twierdzi, że nowy Grok 4.1 jest świetny. Model właśnie wskoczył do czołówki światowych rankingów chatbotów i ma być nie tylko sprytniejszy, ale przede wszystkim bardziej wiarygodny.

Grok 4.1 ma mniej halucynacji i niezłe wyniki w testach

Najmocniej podkreślana zmiana w Groku 4.1 dotyczy właśnie halucynacji. xAI porównało zachowanie nowego modelu ze starszym Grokiem 4 na rzeczywistych pytaniach użytkowników, czyli takich, jakie wpisują na co dzień. W trybie szybkim, bez dodatkowego myślenia krok po kroku, odsetek błędnych stwierdzeń spadł z 12,09% do 4,22%.

Kolejna ważna metryka to FActScore – test, w którym odpowiedzi modelu rozbija się na pojedyncze twierdzenia i sprawdza, czy da się je potwierdzić w wiarygodnych źródłach. Według danych xAI udział błędnych lub niepewnych faktów spadł tu z 9,89% do 2,97%. W praktyce oznacza to, że przy pytaniach faktograficznych Grok 4.1 rzadziej popada w fantazję, a częściej pozostaje przy treściach, które można zweryfikować.

Nowy model dobrze wypada także w głośnych rankingach porównujących chatboty w ślepych testach. Na popularnej platformie LMArena, gdzie użytkownicy wybierają lepszą z dwóch odpowiedzi, Grok 4.1 w wersji Thinking osiągnął wynik na poziomie 1480 punktów Elo i na moment wskoczył na pierwsze miejsce w zestawieniu. Później został zdetronizowany przez niedawno zaprezentowany model Google Gemini 3. Lżejsza wersja, nastawiona na szybkość, plasuje się tuż za nią, co pokazuje, że xAI udało się poprawić jakość odpowiedzi bez drastycznego spowolnienia pracy.

W benchmarkach badających tzw. inteligencję emocjonalną i kreatywne pisanie Grok 4.1 również radzi sobie bardzo dobrze. Teksty generowane przez model są mniej szkolne, lepiej wyczuwają ton rozmowy i potrafią płynnie przechodzić od oficjalnego języka biznesowego do luźniejszej formy, kiedy wymaga tego kontekst. To ważne zwłaszcza dla firm, które chcą używać AI do obsługi klienta, marketingu czy pisania treści.

Słabe strony Grok 4.1 

Obraz Groka 4.1 nie jest jednak całkowicie pozbawiony w rys. Analizy technicznego opisu modelu i niezależnych recenzji sugerują, że poprawa w obszarze halucynacji została częściowo opłacona zmianą zachowania w innych aspektach.

Pierwsza wątpliwość dotyczy skłonności do przytakiwania użytkownikowi. Nowy Grok częściej niż poprzednik stara się dopasować do tonu rozmówcy, nawet jeśli ten wychodzi od błędnych założeń. W praktyce może to wyglądać tak, że model, zamiast spokojnie wyjaśnić, że dana teza jest nieprawdziwa, spróbuje ją złagodzić albo ominąć, by nie psuć nastroju. Dla użytkownika szukającego wyłącznie przyjemnej rozmowy to plus, ale dla kogoś, kto liczy na twardą korektę faktów już niekoniecznie.

Drugi obszar to zadania typowo techniczne, takie jak złożone problemy matematyczne, wieloetapowe planowanie czy rozbudowane projekty programistyczne. Tu Grok 4.1 wciąż ustępuje najmocniejszym modelom konkurencji. Potrafi napisać poprawny kod, zaproponować strukturę projektu czy znaleźć błędy w krótkich fragmentach, ale przy dłuższych i bardziej skomplikowanych zadaniach częściej się gubi. Dla wielu firm nie będzie to problemem, jeśli głównym zastosowaniem pozostaje tworzenie tekstów i pomoc w codziennej pracy biurowej, lecz warto o tym pamiętać przy projektach stricte inżynieryjnych.

Z punktu widzenia bezpieczeństwa xAI podkreśla, że Grok 4.1 jest lepiej testowany pod kątem nadużyć, w tym instrukcji dotyczących przestępczości czy szkodliwych eksperymentów. Model ma odmawiać udziału w takich rozmowach i lepiej wykrywać próby omijania filtrów, na przykład przez sprytne przekręcanie pytań. Jednocześnie zachowany został bardziej luźny charakter Groka, który mniej agresywnie cenzuruje tematy kontrowersyjne niż część konkurencyjnych chatbotów.

Dostępność Grok 4.1

Grok 4.1 jest już dostępny dla użytkowników w serwisie grok.com, w aplikacji X oraz w aplikacjach na iOS i Androida. Podstawowy dostęp z ograniczoną liczbą zapytań i funkcji  oferowany jest bezpłatnie, natomiast pełne możliwości modelu, w tym wyższe limity, tryb Thinking i priorytetowe przetwarzanie, są powiązane z płatnymi subskrypcjami X Premium.