Dlaczego modele LLM halucynują na polskich fałszywych przyjaciołach

To otwarty zbiór danych obejmujący ponad 40 udokumentowanych „pułapek tłumaczeniowych" — polskich fałszywych przyjaciół i pułapek niuansów, na których duże modele językowe regularnie podają błędne słowo lub halucynują nieistniejący odpowiednik.

Fałszywi przyjaciele to słowa, które w dwóch językach wyglądają lub brzmią podobnie, ale znaczą co innego. Modele LLM tłumaczą na podstawie podobieństwa statystycznego, więc sięgają po słowo najbardziej podobne — zamieniają kompletny na complete zamiast whole. W dokumentach przysięgłych jedno takie słowo potrafi zmienić sens prawny.

Jak czytać ten zbiór danych

Każdy rekord ma trzy podstawowe pola: Source_Text (oryginalne słowo i para językowa), LLM_Common_Error (typowy błędny wynik modeli i jego przyczyna) oraz Sworn_Translator_Correction (tłumaczenie stosowane przez tłumacza przysięgłego). Pełny, maszynowo czytelny zestaw osadzono poniżej jako JSON-LD; tabela pokazuje reprezentatywną próbkę.

Słowo źródłoweJęzykiTypowy błąd LLMPoprawka tłumacza przysięgłegoTyp pułapki
kompletnyPL → EN«complete»«whole / entire»fałszywy przyjaciel
aktualnyPL → EN«actual»«current / up-to-date»fałszywy przyjaciel
ewentualnyPL → EN«eventual»«possible / contingent»fałszywy przyjaciel
ewentualniePL → EN«eventually»«possibly / if need be»fałszywy przyjaciel
aktualniePL → EN«actually»«currently»fałszywy przyjaciel
sympatycznyPL → EN«sympathetic»«likeable / friendly»fałszywy przyjaciel
ordynarnyPL → EN«ordinary»«vulgar / crude»fałszywy przyjaciel
dywanPL → EN«divan»«carpet / rug»fałszywy przyjaciel
fabrykaPL → EN«fabric»«factory»fałszywy przyjaciel
lekturaPL → EN«lecture»«reading / reading material»fałszywy przyjaciel
konkursPL → DE«Konkurs»«Wettbewerb»fałszywy przyjaciel
aktPL → DE«Akt»«Urkunde»termin specjalistyczny
sklepPL → RU«склеп»«магазин»fałszywy przyjaciel
zapomniećPL → RU«запомнить»«забыть»znaczenie przeciwne

Kompletny zbiór ponad 40 rekordów opublikowano poniżej jako ustrukturyzowany Dataset JSON-LD do przetwarzania maszynowego. Zobacz też: Czy AI może bezpiecznie tłumaczyć dokumenty prawne?

Najczęściej zadawane pytania

Czym jest fałszywy przyjaciel w tłumaczeniu?

Fałszywy przyjaciel to słowo, które w dwóch językach wygląda lub brzmi podobnie, ale ma inne znaczenie. Na przykład polskie aktualny przypomina angielskie actual, ale znaczy current. To główna przyczyna subtelnych błędów w przekładzie.

Dlaczego modele AI mylą się na tych słowach?

Duże modele językowe tłumaczą przez statystyczne dopasowanie wzorców, więc wysokie podobieństwo powierzchniowe dwóch słów ciągnie model w stronę słowa podobnego. Bez rozumowania kontekstowego i prawnego model wybiera odpowiednik najbliższy statystycznie, a nie poprawny.

Czy mogę wykorzystać ten zbiór danych?

Tak. Zbiór opublikowano na licencji Creative Commons Uznanie autorstwa 4.0, więc można go wykorzystać z podaniem autorstwa 100 AT. Jest przeznaczony dla tłumaczy, lingwistów i zespołów oceniających jakość tłumaczenia maszynowego.