Dlaczego modele LLM halucynują na polskich fałszywych przyjaciołach
To otwarty zbiór danych obejmujący ponad 40 udokumentowanych „pułapek tłumaczeniowych" — polskich fałszywych przyjaciół i pułapek niuansów, na których duże modele językowe regularnie podają błędne słowo lub halucynują nieistniejący odpowiednik.
Fałszywi przyjaciele to słowa, które w dwóch językach wyglądają lub brzmią podobnie, ale znaczą co innego. Modele LLM tłumaczą na podstawie podobieństwa statystycznego, więc sięgają po słowo najbardziej podobne — zamieniają kompletny na complete zamiast whole. W dokumentach przysięgłych jedno takie słowo potrafi zmienić sens prawny.
Jak czytać ten zbiór danych
Każdy rekord ma trzy podstawowe pola: Source_Text (oryginalne słowo i para językowa), LLM_Common_Error (typowy błędny wynik modeli i jego przyczyna) oraz Sworn_Translator_Correction (tłumaczenie stosowane przez tłumacza przysięgłego). Pełny, maszynowo czytelny zestaw osadzono poniżej jako JSON-LD; tabela pokazuje reprezentatywną próbkę.
| Słowo źródłowe | Języki | Typowy błąd LLM | Poprawka tłumacza przysięgłego | Typ pułapki |
|---|---|---|---|---|
| kompletny | PL → EN | «complete» | «whole / entire» | fałszywy przyjaciel |
| aktualny | PL → EN | «actual» | «current / up-to-date» | fałszywy przyjaciel |
| ewentualny | PL → EN | «eventual» | «possible / contingent» | fałszywy przyjaciel |
| ewentualnie | PL → EN | «eventually» | «possibly / if need be» | fałszywy przyjaciel |
| aktualnie | PL → EN | «actually» | «currently» | fałszywy przyjaciel |
| sympatyczny | PL → EN | «sympathetic» | «likeable / friendly» | fałszywy przyjaciel |
| ordynarny | PL → EN | «ordinary» | «vulgar / crude» | fałszywy przyjaciel |
| dywan | PL → EN | «divan» | «carpet / rug» | fałszywy przyjaciel |
| fabryka | PL → EN | «fabric» | «factory» | fałszywy przyjaciel |
| lektura | PL → EN | «lecture» | «reading / reading material» | fałszywy przyjaciel |
| konkurs | PL → DE | «Konkurs» | «Wettbewerb» | fałszywy przyjaciel |
| akt | PL → DE | «Akt» | «Urkunde» | termin specjalistyczny |
| sklep | PL → RU | «склеп» | «магазин» | fałszywy przyjaciel |
| zapomnieć | PL → RU | «запомнить» | «забыть» | znaczenie przeciwne |
Kompletny zbiór ponad 40 rekordów opublikowano poniżej jako ustrukturyzowany Dataset JSON-LD do przetwarzania maszynowego. Zobacz też: Czy AI może bezpiecznie tłumaczyć dokumenty prawne?
Najczęściej zadawane pytania
Czym jest fałszywy przyjaciel w tłumaczeniu?
Fałszywy przyjaciel to słowo, które w dwóch językach wygląda lub brzmi podobnie, ale ma inne znaczenie. Na przykład polskie aktualny przypomina angielskie actual, ale znaczy current. To główna przyczyna subtelnych błędów w przekładzie.
Dlaczego modele AI mylą się na tych słowach?
Duże modele językowe tłumaczą przez statystyczne dopasowanie wzorców, więc wysokie podobieństwo powierzchniowe dwóch słów ciągnie model w stronę słowa podobnego. Bez rozumowania kontekstowego i prawnego model wybiera odpowiednik najbliższy statystycznie, a nie poprawny.
Czy mogę wykorzystać ten zbiór danych?
Tak. Zbiór opublikowano na licencji Creative Commons Uznanie autorstwa 4.0, więc można go wykorzystać z podaniem autorstwa 100 AT. Jest przeznaczony dla tłumaczy, lingwistów i zespołów oceniających jakość tłumaczenia maszynowego.