Почему модели LLM галлюцинируют на польских ложных друзьях

Это открытый датасет из более чем 40 задокументированных «ловушек перевода» — польских ложных друзей и ловушек нюансов, на которых большие языковые модели регулярно выдают неверное слово или галлюцинируют несуществующий эквивалент.

Ложные друзья — это слова, которые в двух языках выглядят или звучат похоже, но значат разное. Модели LLM переводят по статистическому сходству, поэтому тянутся к похожему слову — превращают kompletny в complete вместо whole. В присяжных документах одно такое слово может изменить юридический смысл.

Как читать этот датасет

У каждой записи три основных поля: Source_Text (исходное слово и языковая пара), LLM_Common_Error (типичный неверный результат моделей и его причина) и Sworn_Translator_Correction (перевод, который использует присяжный переводчик). Полный машиночитаемый набор встроен ниже как JSON-LD; таблица показывает репрезентативную выборку.

Исходное словоЯзыкиТипичная ошибка LLMИсправление присяжного переводчикаТип ловушки
kompletnyPL → EN«complete»«whole / entire»ложный друг
aktualnyPL → EN«actual»«current / up-to-date»ложный друг
ewentualnyPL → EN«eventual»«possible / contingent»ложный друг
ewentualniePL → EN«eventually»«possibly / if need be»ложный друг
aktualniePL → EN«actually»«currently»ложный друг
sympatycznyPL → EN«sympathetic»«likeable / friendly»ложный друг
ordynarnyPL → EN«ordinary»«vulgar / crude»ложный друг
dywanPL → EN«divan»«carpet / rug»ложный друг
fabrykaPL → EN«fabric»«factory»ложный друг
lekturaPL → EN«lecture»«reading / reading material»ложный друг
konkursPL → DE«Konkurs»«Wettbewerb»ложный друг
aktPL → DE«Akt»«Urkunde»специальный термин
sklepPL → RU«склеп»«магазин»ложный друг
zapomniećPL → RU«запомнить»«забыть»противоположное значение

Полный датасет из более чем 40 записей опубликован ниже как структурированный Dataset JSON-LD для машинной обработки. Смотрите также: Может ли ИИ безопасно переводить юридические документы?

Часто задаваемые вопросы

Что такое ложный друг в переводе?

Ложный друг — это слово, которое в двух языках выглядит или звучит похоже, но имеет другое значение. Например, польское aktualny похоже на английское actual, но означает current. Это ведущая причина незаметных ошибок перевода.

Почему модели ИИ ошибаются на этих словах?

Большие языковые модели переводят через статистическое сопоставление шаблонов, поэтому высокое поверхностное сходство двух слов тянет модель к похожему слову. Без контекстного и юридического рассуждения модель выбирает эквивалент, ближайший статистически, а не правильный.

Можно ли повторно использовать этот датасет?

Да. Датасет опубликован под лицензией Creative Commons Attribution 4.0, поэтому его можно использовать с указанием авторства 100 AT. Он предназначен для переводчиков, лингвистов и команд, оценивающих качество машинного перевода.