Dataset · Benchmark 2026

Benchmark tłumaczeń LLM: polski → wietnamski (2026)

Porównanie jakości tłumaczeń: GPT 5.4, Claude 4.6 Sonnet, Google Translate i DeepL na parze polski → wietnamski. Benchmark 2026 od 100 AT Warszawa.

Polski → Wietnamski · 4 systemy · 2 sędziów

Metodologia

Każdy z 4 systemów tłumaczeniowych przetłumaczył 4 teksty źródłowe z polskiego na wietnamski. Tłumaczenia oceniło 2 sędziów (GPT 5.4 XHigh i Claude 4.6 Sonnet) w trzech kategoriach: Dokładność, Płynność i Styl, w skali 1–10. Tabela przedstawia średnie wyniki.

Wyniki: Polski → Wietnamski

Średnia ocen (skala 1–10) przyznanych przez 2 sędziów 4 systemom tłumaczeniowym na tekstach polsko-wietnamskich.

System tłumaczeniowy GPT 5.4 (Sędzia) Claude 4.6 (Sędzia) Średnia końcowa
GPT 5.4 (XHigh)
8.90 9.17 9.04
Claude 4.6 Sonnet
9.30 8.92 9.11
Google Translate ref
7.40 7.75 7.58
DeepL ref
8.10 7.83 7.97

Kluczowe wnioski

  1. 1

    Modele AI (Claude 4.6 Sonnet — 9.11, GPT 5.4 — 9.04) znacząco przewyższają klasyczne silniki tłumaczeniowe.

  2. 2

    Google Translate (7.58) wypada najsłabiej na trasie PL→VI, szczególnie w kategorii stylu i naturalności.

  3. 3

    DeepL (7.97) plasuje się pomiędzy — lepszy od Google, ale istotnie gorszy od modeli AI.

  4. 4

    Różnica między najlepszym AI a najlepszym silnikiem klasycznym wynosi ponad 1.1 punktu — jest to znacząca różnica jakościowa.