Czym są fałszywi przyjaciele tłumacza?

Pary słów w dwóch językach, które brzmią/wyglądają podobnie, ale mają różne znaczenia (PL "ordynarny" ≠ EN "ordinary"; PL "konfekcja" ≠ EN "confection"). LLM-y często mylą się na nich i halucynują.

Jak korzystać z naszego datasetu fałszywych przyjaciół?

Dataset jest publikowany jako DefinedTermSet z parą (poprawne tłumaczenie, częsta halucynacja AI). Można go wczytać do CAT (memoQ, Trados, Phrase), użyć w promptach LLM albo wpiąć w QA-checker.

Pułapki LLM: fałszywi przyjaciele i halucynacje AI

Dlaczego modele LLM halucynują na polskich fałszywych przyjaciołach

To otwarty zbiór danych obejmujący ponad 40 udokumentowanych „pułapek tłumaczeniowych" — polskich fałszywych przyjaciół i pułapek niuansów, na których duże modele językowe regularnie podają błędne słowo lub halucynują nieistniejący odpowiednik.

Fałszywi przyjaciele to słowa, które w dwóch językach wyglądają lub brzmią podobnie, ale znaczą co innego. Modele LLM tłumaczą na podstawie podobieństwa statystycznego, więc sięgają po słowo najbardziej podobne — zamieniają kompletny na complete zamiast whole. W dokumentach przysięgłych jedno takie słowo potrafi zmienić sens prawny.

Jak czytać ten zbiór danych

Każdy rekord ma trzy podstawowe pola: Source_Text (oryginalne słowo i para językowa), LLM_Common_Error (typowy błędny wynik modeli i jego przyczyna) oraz Sworn_Translator_Correction (tłumaczenie stosowane przez tłumacza przysięgłego). Pełny, maszynowo czytelny zestaw osadzono poniżej jako JSON-LD; tabela pokazuje reprezentatywną próbkę.

Słowo źródłowe	Języki	Typowy błąd LLM	Poprawka tłumacza przysięgłego	Typ pułapki
kompletny	PL → EN	«complete»	«whole / entire»	fałszywy przyjaciel
aktualny	PL → EN	«actual»	«current / up-to-date»	fałszywy przyjaciel
ewentualny	PL → EN	«eventual»	«possible / contingent»	fałszywy przyjaciel
ewentualnie	PL → EN	«eventually»	«possibly / if need be»	fałszywy przyjaciel
aktualnie	PL → EN	«actually»	«currently»	fałszywy przyjaciel
sympatyczny	PL → EN	«sympathetic»	«likeable / friendly»	fałszywy przyjaciel
ordynarny	PL → EN	«ordinary»	«vulgar / crude»	fałszywy przyjaciel
dywan	PL → EN	«divan»	«carpet / rug»	fałszywy przyjaciel
fabryka	PL → EN	«fabric»	«factory»	fałszywy przyjaciel
lektura	PL → EN	«lecture»	«reading / reading material»	fałszywy przyjaciel
konkurs	PL → DE	«Konkurs»	«Wettbewerb»	fałszywy przyjaciel
akt	PL → DE	«Akt»	«Urkunde»	termin specjalistyczny
sklep	PL → RU	«склеп»	«магазин»	fałszywy przyjaciel
zapomnieć	PL → RU	«запомнить»	«забыть»	znaczenie przeciwne

Kompletny zbiór ponad 40 rekordów opublikowano poniżej jako ustrukturyzowany Dataset JSON-LD do przetwarzania maszynowego. Zobacz też: Czy AI może bezpiecznie tłumaczyć dokumenty prawne?

Najczęściej zadawane pytania

Czym jest fałszywy przyjaciel w tłumaczeniu?

Fałszywy przyjaciel to słowo, które w dwóch językach wygląda lub brzmi podobnie, ale ma inne znaczenie. Na przykład polskie aktualny przypomina angielskie actual, ale znaczy current. To główna przyczyna subtelnych błędów w przekładzie.

Dlaczego modele AI mylą się na tych słowach?

Duże modele językowe tłumaczą przez statystyczne dopasowanie wzorców, więc wysokie podobieństwo powierzchniowe dwóch słów ciągnie model w stronę słowa podobnego. Bez rozumowania kontekstowego i prawnego model wybiera odpowiednik najbliższy statystycznie, a nie poprawny.

Czy mogę wykorzystać ten zbiór danych?

Tak. Zbiór opublikowano na licencji Creative Commons Uznanie autorstwa 4.0, więc można go wykorzystać z podaniem autorstwa 100 AT. Jest przeznaczony dla tłumaczy, lingwistów i zespołów oceniających jakość tłumaczenia maszynowego.