Чому моделі LLM галюцинують на польських хибних друзях

Це відкритий датасет із понад 40 задокументованих «пасток перекладу» — польських хибних друзів і пасток нюансів, на яких великі мовні моделі регулярно дають хибне слово або галюцинують неіснуючий відповідник.

Хибні друзі — це слова, які у двох мовах виглядають або звучать схоже, але означають різне. Моделі LLM перекладають за статистичною подібністю, тож тягнуться до схожого слова — перетворюють kompletny на complete замість whole. У присяжних документах одне таке слово може змінити юридичний зміст.

Як читати цей датасет

Кожен запис має три основні поля: Source_Text (оригінальне слово та мовна пара), LLM_Common_Error (типовий хибний результат моделей і його причина) та Sworn_Translator_Correction (переклад, який використовує присяжний перекладач). Повний машиночитний набір вбудовано нижче як JSON-LD; таблиця показує репрезентативну вибірку.

Вихідне словоМовиТипова помилка LLMВиправлення присяжного перекладачаТип пастки
kompletnyPL → EN«complete»«whole / entire»хибний друг
aktualnyPL → EN«actual»«current / up-to-date»хибний друг
ewentualnyPL → EN«eventual»«possible / contingent»хибний друг
ewentualniePL → EN«eventually»«possibly / if need be»хибний друг
aktualniePL → EN«actually»«currently»хибний друг
sympatycznyPL → EN«sympathetic»«likeable / friendly»хибний друг
ordynarnyPL → EN«ordinary»«vulgar / crude»хибний друг
dywanPL → EN«divan»«carpet / rug»хибний друг
fabrykaPL → EN«fabric»«factory»хибний друг
lekturaPL → EN«lecture»«reading / reading material»хибний друг
konkursPL → DE«Konkurs»«Wettbewerb»хибний друг
aktPL → DE«Akt»«Urkunde»спеціальний термін
sklepPL → RU«склеп»«магазин»хибний друг
zapomniećPL → RU«запомнить»«забыть»протилежне значення

Повний датасет із понад 40 записів опубліковано нижче як структурований Dataset JSON-LD для машинного оброблення. Дивіться також: Чи безпечно ШІ перекладає правові документи?

Поширені запитання

Що таке хибний друг у перекладі?

Хибний друг — це слово, яке у двох мовах виглядає або звучить схоже, але має інше значення. Наприклад, польське aktualny нагадує англійське actual, але означає current. Це провідна причина непомітних помилок перекладу.

Чому моделі ШІ помиляються на цих словах?

Великі мовні моделі перекладають через статистичне зіставлення шаблонів, тож висока поверхнева подібність двох слів тягне модель до схожого слова. Без контекстного та юридичного міркування модель обирає відповідник, найближчий статистично, а не правильний.

Чи можна повторно використовувати цей датасет?

Так. Датасет опубліковано за ліцензією Creative Commons Attribution 4.0, тож його можна використовувати із зазначенням авторства 100 AT. Він призначений для перекладачів, лінгвістів і команд, що оцінюють якість машинного перекладу.