Benchmark tłumaczeń LLM: polski → wietnamski (2026)
Porównanie jakości tłumaczeń maszynowych (GPT 5.4, Claude 4.6 Sonnet, Google Translate, DeepL) na trasie polski → wietnamski. Badanie przeprowadzone przez 100 AT.
Metodologia
Każdy z 4 systemów tłumaczeniowych przetłumaczył 4 teksty źródłowe z polskiego na wietnamski. Tłumaczenia oceniło 2 sędziów (GPT 5.4 XHigh i Claude 4.6 Sonnet) w trzech kategoriach: Dokładność, Płynność i Styl, w skali 1–10. Tabela przedstawia średnie wyniki.
Wyniki: Polski → Wietnamski
Średnia ocen (skala 1–10) przyznanych przez 2 sędziów 4 systemom tłumaczeniowym na tekstach polsko-wietnamskich.
| System tłumaczeniowy | GPT 5.4 (Sędzia) | Claude 4.6 (Sędzia) | Średnia końcowa |
|---|---|---|---|
| GPT 5.4 (XHigh) | 8.90 | 9.17 | 9.04 |
| Claude 4.6 Sonnet | 9.30 | 8.92 | 9.11 |
| Google Translate ref | 7.40 | 7.75 | 7.58 |
| DeepL ref | 8.10 | 7.83 | 7.97 |
Kluczowe wnioski
- 1
Modele AI (Claude 4.6 Sonnet — 9.11, GPT 5.4 — 9.04) znacząco przewyższają klasyczne silniki tłumaczeniowe.
- 2
Google Translate (7.58) wypada najsłabiej na trasie PL→VI, szczególnie w kategorii stylu i naturalności.
- 3
DeepL (7.97) plasuje się pomiędzy — lepszy od Google, ale istotnie gorszy od modeli AI.
- 4
Różnica między najlepszym AI a najlepszym silnikiem klasycznym wynosi ponad 1.1 punktu — jest to znacząca różnica jakościowa.