Chiński asystent AI DeepSeek
Chiński asystent AI (źródło: DeepSeek)

Ile kosztowało wytrenowanie DeepSeek R1? Tak mało, że eksperci nie mogą uwierzyć

Chińska firma DeepSeek ujawniła, ile wydała na trening swojego modelu językowego R1. Kwota okazała się tak niska, że wywołała lawinę pytań i wątpliwości w branży sztucznej inteligencji.

Ile DeepSeek wydał na trening R1?

W tekście opublikowanym na łamach czasopisma naukowego Nature, współautorstwa założyciela firmy Liang Wenfenga, DeepSeek podał, że wytrenowanie modelu R1 kosztowało jedynie 294000 dolarów.

To kwota nieporównywalnie niższa od wydatków amerykańskich konkurentów. Sam Altman z OpenAI przyznał jeszcze w 2023 roku, że szkolenie ich bazowych modeli kosztowało „znacznie więcej niż 100 milionów dolarów”. DeepSeek twierdzi, że cały proces trwał 80 godzin i został przeprowadzony na klastrze 512 układów Nvidia H800, specjalnie zaprojektowanych na chiński rynek.

Firma ujawniła również, że w początkowych etapach eksperymentowała z kartami Nvidia A100, zanim zdecydowała się w pełni wykorzystać model H800. Co istotne, R1 był trenowany w sposób odmienny od większości zachodnich modeli, bo zamiast polegać na kosztownych zestawach danych przygotowanych przez ludzi, zespół postawił na reinforcement learning z systemem Group Relative Policy Optimization. Dzięki temu R1 nauczył się generować bardziej złożone i wieloetapowe strategie wnioskowania, nie kopiując ograniczeń ludzkiego sposobu myślenia.

Efekty okazały się imponujące. W testach matematycznych AIME 2024 model przeszedł od skuteczności 15,6% do aż 77,9%, a z wykorzystaniem dodatkowych metod walidacji osiągnął nawet 86,7%, wyraźnie przewyższając średnie wyniki prawdziwych, ludzkich uczestników. R1 dobrze radzi sobie też w zadaniach programistycznych oraz w problemach z biologii, fizyki i chemii na poziomie akademickim.

Zaskakująco niski koszt treningu. Czy to możliwe?

Tak niska deklarowana cena treningu natychmiast wzbudziła podejrzenia w środowisku. Według analityków z SemiAnalysis, DeepSeek w rzeczywistości operuje na znacznie większą skalę, mając dostęp do około 50000 procesorów graficznych Nvidia Hopper, w tym 10000 H800 i 10000 H100.

Według tej analizy faktyczne koszty mogły obejmować nawet 1,6 mld dolarów inwestycji w serwery, blisko 944 mln dolarów kosztów operacyjnych oraz ponad 500 mln dolarów wydanych na same układy GPU. W tym świetle wspomniane 294000 dolarów mogłoby odnosić się jedynie do ograniczonego fragmentu całego procesu, a nie do pełnej skali przedsięwzięcia.

Wątpliwości budzi także sposób, w jaki DeepSeek pozyskiwał dane treningowe. Firma otwarcie przyznała, że w przypadku swojego wcześniejszego modelu V3 w zbiorach znalazła się „znacząca liczba” odpowiedzi wygenerowanych przez systemy OpenAI.

Dodatkowo w niektórych projektach korzystano z metod destylacji, czyli trenowania nowych modeli na podstawie wyników już istniejących, co pozwala obniżyć koszty, ale rodzi pytania o oryginalność i przejrzystość działań. Krytycy zwracają uwagę, że takie praktyki mogły odegrać kluczową rolę w szybkim postępie DeepSeek.