Cât a costat antrenarea modelului DeepSeek?

DeepSeek a atras atenția internetului după lansarea modelului R1, promițând performanțe bune la costuri reduse. Un raport științific recent dezvăluie cheltuielile și arhitectura folosită. În plus față de cifrele financiare, analiza explică metoda tehnică care a permis eficientizarea procesului de antrenare. Articolul prezintă contextul, avantajele metodei și limitele observate, oferind o imagine mai clară asupra compromisurilor din spatele rezultatelor.

Descriere scurtă imagine

Cum a redus DeepSeek costurile de antrenare

Conform unei lucrări publicate, antrenarea modelului R1 a implicat un buget de 294.000 de dolari și utilizarea a 512 unități Nvidia H800. Echipa a mizat pe o abordare bazată pe învățare prin întărire prin încercare și eroare, în locul unui volum mare de date etichetate manual. Metoda a folosit un sistem de scorare care premia răspunsurile corecte și penaliza erorile, permițând modelului să învețe strategii mai bune fără supraveghere umană extensivă. Această tactică a redus semnificativ costurile comparativ cu abordările convenționale ce necesită mulți anotați umani și cicluri lungi de fine-tuning. Tehnica s-a dovedit eficientă mai ales la întrebări cu răspuns verificabil, cum ar fi problemele de matematică sau sarcinile de programare. În aceste cazuri, sistemul de recompense poate ghida modelul către soluții corecte, deoarece criteriul de corectitudine este clar. Totuși, metoda nu oferă aceeași claritate pentru sarcinile subiective sau pentru raționamente complexe cu multiple validări posibile. În plus, procesul de optimizare a consumului hardware și a costul antrenării a inclus ajustări de hiperparametri și iterații rapide, ceea ce a maximizat randamentul plății pe GPU. Acest model de lucru evidențiază o direcție practică pentru echipe care doresc optimizarea resurselor în dezvoltarea de modele mari de limbaj, dar ridică întrebări legate de trasabilitatea raționamentelor interne și de transparența deciziilor algortimice.

Limitări tehnice și compatibilitate cu sarcinile complexe

Metoda bazată pe recompense produce rezultate bune acolo unde există un răspuns definitiv. Totuși, în situații care cer nuanță, discernământ sau justificări extinse, această abordare poate să nu fie optimă. Echipa a observat că, la solicitări care cer un fir logic detaliat, modelul alterna între limbi sau genera explicații foarte lungi, uneori de zeci de mii de cuvinte. Acest comportament complică urmăririle interne ale raționamentului și limitează utilitatea explicațiilor pentru evaluatori umani. De asemenea, metoda tinde să favorizeze strategii care maximizează scorul fără a garanta o interpretare clară făcând dificilă evaluarea morala sau etică în decizii automate.

„Modelul a primit punctaj ridicat pentru răspunsurile corecte și penalizări pentru erori, învățând astfel prin încercare și eroare.”
  • Costul raportat pentru R1: 294.000 USD și 512 GPU Nvidia H800.
  • Metodă: învățare prin întărire bazată pe recompense, fără dependență puternică de anotații umane.
  • Limitări: opacitate în raționament și performanță redusă la sarcini subiective.

Concluzii și implicații pentru dezvoltarea AI

Rezultatele DeepSeek ilustrează o cale practică pentru reducerea cheltuielilor în dezvoltarea modelelor de limbaj mari. Folosirea unui mecanism de recompense a permis modelului R1 să învețe prin încercare și eroare, scăzând dependența de date etichetate scumpe. Această abordare poate democratiza accesul la dezvoltarea de modele, oferind echipelor cu resurse moderate oportunitatea de a obține performanțe competitive. Cu toate acestea, compromisul între cost și transparență rămâne relevant. Modelele care optimizează scorul intern pot rămâne opace pentru evaluatori și pentru utilizatorii finali, ceea ce impune abordări suplimentare de audit și reglementare. În plus, observările privind variațiile în generarea de cod sau conținut pentru anumite subiecte sensibile atrag atenția asupra nevoii de testare etică și de securitate înainte de implementarea largă.

Sursa: gizmodo.com

Mai nouă Mai veche