Dataset · Benchmark 2026

Benchmark tłumaczeń LLM: polski → wietnamski (2026)

Porównanie jakości tłumaczeń maszynowych (GPT 5.4, Claude 4.6 Sonnet, Google Translate, DeepL) na trasie polski → wietnamski. Badanie przeprowadzone przez 100 AT.

Polski → Wietnamski · 4 systemy · 2 sędziów

Metodologia

Każdy z 4 systemów tłumaczeniowych przetłumaczył 4 teksty źródłowe z polskiego na wietnamski. Tłumaczenia oceniło 2 sędziów (GPT 5.4 XHigh i Claude 4.6 Sonnet) w trzech kategoriach: Dokładność, Płynność i Styl, w skali 1–10. Tabela przedstawia średnie wyniki.

Wyniki: Polski → Wietnamski

Średnia ocen (skala 1–10) przyznanych przez 2 sędziów 4 systemom tłumaczeniowym na tekstach polsko-wietnamskich.

System tłumaczeniowy GPT 5.4 (Sędzia) Claude 4.6 (Sędzia) Średnia końcowa
GPT 5.4 (XHigh)
8.90 9.17 9.04
Claude 4.6 Sonnet
9.30 8.92 9.11
Google Translate ref
7.40 7.75 7.58
DeepL ref
8.10 7.83 7.97

Kluczowe wnioski

  1. 1

    Modele AI (Claude 4.6 Sonnet — 9.11, GPT 5.4 — 9.04) znacząco przewyższają klasyczne silniki tłumaczeniowe.

  2. 2

    Google Translate (7.58) wypada najsłabiej na trasie PL→VI, szczególnie w kategorii stylu i naturalności.

  3. 3

    DeepL (7.97) plasuje się pomiędzy — lepszy od Google, ale istotnie gorszy od modeli AI.

  4. 4

    Różnica między najlepszym AI a najlepszym silnikiem klasycznym wynosi ponad 1.1 punktu — jest to znacząca różnica jakościowa.