Metodologia

Jak testujemy modele

Cała strona sprowadza się do jednej zasady: te same słowa na wejściu, prawdziwe wyniki na wyjściu, Ty oceniasz. Ta strona to drobny druk — do cytowania, wersjonowany i szczery co do ograniczeń.

Zasady promptów

Każde wyzwanie to jeden brief, napisany raz, przekazany dosłownie każdemu modelowi. Bez dostrajania pod model, bez sztuczek z promptem systemowym, bez cichych powtórek, by ulubieniec wypadł lepiej. Gdy generacja zawiesi się bez żadnego wyniku, powtarzamy ją i oznaczamy wpis jako wygenerowany ponownie — pierwotny brief nigdy się nie zmienia.

Pełny prompt jest opublikowany przy każdym wyzwaniu — otwórz dowolne zadanie w arenie i kliknij ℹ Szczegóły. Jeśli sądzisz, że brief faworyzuje któryś model, dowody są od razu na miejscu.

Przebiegi i harness

Zadania jednoplikowe są one-shot: model dostaje brief i zwraca jeden samodzielny plik HTML — bez dogrywek, bez poprawek. Ten plik jest serwowany bez zmian jako artefakt, z którym wchodzisz w interakcję. Gdy rodzina modeli udostępnia poziomy wysiłku myślenia, uruchamiamy ten sam brief na każdym poziomie i publikujemy każdy wariant osobno — zobaczenie, co naprawdę daje dodatkowe rozumowanie, to połowa sensu.

Trzy zadania Godot są wyjątkiem i mówią to wprost: potok agentowy (godforge), w którym model iteruje — pisze kod silnika, kompiluje eksport WebAssembly, testuje, poprawia — aż build przejdzie albo skończy się 40 tur.

Aktualnie na stanowisku: 54 wyzwań, 56 wariantów modeli w 14 rodzinach, 1,692 artefaktów. Zliczono z manifestu podczas builda, 2026-07-05.

Szacowanie kosztu

Każdy artefakt to pojedynczy plik, więc szacujemy tokeny wyjściowe z rozmiaru pliku i wyceniamy je po opublikowanych stawkach wyjścia dla danego modelu:

tokens ≈ characters ÷ 4
cost   = tokens × published $/1M output

To są szacunki, nie faktury. Tokeny wejściowe i tokeny rozumowania nie są liczone, więc rzeczywisty koszt jest wyższy — zwłaszcza przy wysokim wysiłku myślenia. Modele bez opublikowanego cennika nie pokazują kosztu. Czas generacji zegarowy jest zapisywany dla przebiegów po 2026-07-02 i obejmuje oczekiwanie w kolejce oraz throttling. Łączny szacowany koszt wyników na całej stronie jak dotąd: $193.

Czym to nie jest

To nie benchmark laboratoryjny. Bez pass@k, bez zbiorów testowych, bez istotności statystycznej. To pokaz porównywalnych, one-shotowych generacji ocenianych przez ludzi. Odpowiada na inne pytanie niż MMLU: przy tym samym briefie, czyj wynik faktycznie wysłałbyś, zagrałbyś w niego lub przeczytał? Głosy społeczności mierzą preferencję, a preferencja ma swoje uprzedzenia — łagodzimy je oceną na ślepo i uczciwym ładowaniem, a nie udawaniem, że głosy to nauka.

Changelog

2026-07-05Onboarding zaczynający na ślepo, tryb turnieju, linki do udostępniania pojedynków, plakaty fair play dla ciężkich zadań.
2026-07-03Brief tłumaczeniowy W11 dodany do areny pisania; wdrożono stronę rankingu.
2026-07-02Czas generacji zegarowy zapisywany dla wszystkich nowych przebiegów (obejmuje kolejkę i throttling).
2026-06-28Powtórka Fable 5 po banie opublikowana jako osobny wariant max obok oryginałów sprzed banu.
2026-06-24Arena kodowania rozszerzona do 43 zadań; dodano klasyki ery flash i briefy symulacyjne.

Nie zgadzasz się z werdyktem?

Dobrze. Arena jest argumentem: otwórz wyzwanie, oceń na ślepo i zagłosuj.

Otwórz arenę kodowania