Jak testujemy modele
Cała strona sprowadza się do jednej zasady: te same słowa na wejściu, prawdziwe wyniki na wyjściu, Ty oceniasz. Ta strona to drobny druk — do cytowania, wersjonowany i szczery co do ograniczeń.
Zasady promptów
Każde wyzwanie to jeden brief, napisany raz, przekazany dosłownie każdemu modelowi. Bez dostrajania pod model, bez sztuczek z promptem systemowym, bez cichych powtórek, by ulubieniec wypadł lepiej. Gdy generacja zawiesi się bez żadnego wyniku, powtarzamy ją i oznaczamy wpis jako wygenerowany ponownie — pierwotny brief nigdy się nie zmienia.
Pełny prompt jest opublikowany przy każdym wyzwaniu — otwórz dowolne zadanie w arenie i kliknij ℹ Szczegóły. Jeśli sądzisz, że brief faworyzuje któryś model, dowody są od razu na miejscu.
Przebiegi i harness
Zadania jednoplikowe są one-shot: model dostaje brief i zwraca jeden samodzielny plik HTML — bez dogrywek, bez poprawek. Ten plik jest serwowany bez zmian jako artefakt, z którym wchodzisz w interakcję. Gdy rodzina modeli udostępnia poziomy wysiłku myślenia, uruchamiamy ten sam brief na każdym poziomie i publikujemy każdy wariant osobno — zobaczenie, co naprawdę daje dodatkowe rozumowanie, to połowa sensu.
Trzy zadania Godot są wyjątkiem i mówią to wprost: potok agentowy (godforge), w którym model iteruje — pisze kod silnika, kompiluje eksport WebAssembly, testuje, poprawia — aż build przejdzie albo skończy się 40 tur.
Aktualnie na stanowisku: 54 wyzwań, 56 wariantów modeli w 14 rodzinach, 1,692 artefaktów. Zliczono z manifestu podczas builda, 2026-07-05.
Szacowanie kosztu
Każdy artefakt to pojedynczy plik, więc szacujemy tokeny wyjściowe z rozmiaru pliku i wyceniamy je po opublikowanych stawkach wyjścia dla danego modelu:
tokens ≈ characters ÷ 4 cost = tokens × published $/1M output
To są szacunki, nie faktury. Tokeny wejściowe i tokeny rozumowania nie są liczone, więc rzeczywisty koszt jest wyższy — zwłaszcza przy wysokim wysiłku myślenia. Modele bez opublikowanego cennika nie pokazują kosztu. Czas generacji zegarowy jest zapisywany dla przebiegów po 2026-07-02 i obejmuje oczekiwanie w kolejce oraz throttling. Łączny szacowany koszt wyników na całej stronie jak dotąd: $193.
Głosowanie na ślepo
Odwiedzający po raz pierwszy oceniają domyślnie na ślepo: etykiety ukryte, panele przetasowane. Głosowanie uruchamia odsłonę — kogo wybrałeś i jak rozłożyła się społeczność. Głosy trafiają do wspólnej bazy z kluczem na zadanie; jeden głos na zadanie na przeglądarkę, zmienialny w każdej chwili. Wynik, który widzisz, to suma głosów wszystkich, i jest publiczny w rankingu.
Ciężkie zadania (WebGL, duże symulacje, eksporty Godot) startują jako plakaty i ładują wszystkie panele jednym kliknięciem — częściowo, by oszczędzić Twój laptop, częściowo dla metody: żaden wynik nie powinien zdobywać głosów tylko dlatego, że załadował się pierwszy.
Czym to nie jest
To nie benchmark laboratoryjny. Bez pass@k, bez zbiorów testowych, bez istotności statystycznej. To pokaz porównywalnych, one-shotowych generacji ocenianych przez ludzi. Odpowiada na inne pytanie niż MMLU: przy tym samym briefie, czyj wynik faktycznie wysłałbyś, zagrałbyś w niego lub przeczytał? Głosy społeczności mierzą preferencję, a preferencja ma swoje uprzedzenia — łagodzimy je oceną na ślepo i uczciwym ładowaniem, a nie udawaniem, że głosy to nauka.
Changelog
- 2026-07-05Onboarding zaczynający na ślepo, tryb turnieju, linki do udostępniania pojedynków, plakaty fair play dla ciężkich zadań.
- 2026-07-03Brief tłumaczeniowy W11 dodany do areny pisania; wdrożono stronę rankingu.
- 2026-07-02Czas generacji zegarowy zapisywany dla wszystkich nowych przebiegów (obejmuje kolejkę i throttling).
- 2026-06-28Powtórka Fable 5 po banie opublikowana jako osobny wariant max obok oryginałów sprzed banu.
- 2026-06-24Arena kodowania rozszerzona do 43 zadań; dodano klasyki ery flash i briefy symulacyjne.
Nie zgadzasz się z werdyktem?
Dobrze. Arena jest argumentem: otwórz wyzwanie, oceń na ślepo i zagłosuj.
Otwórz arenę kodowania