Warum LLMs bei polnischen falschen Freunden halluzinieren
Dies ist ein offener Datensatz mit über 40 dokumentierten „Übersetzungsfallen" — polnischen falschen Freunden und Nuancenfallen, bei denen große Sprachmodelle regelmäßig das falsche Wort liefern oder eine nicht existierende Entsprechung halluzinieren.
Falsche Freunde sind Wörter, die in zwei Sprachen ähnlich aussehen oder klingen, aber unterschiedliche Bedeutungen haben. LLMs übersetzen nach statistischer Ähnlichkeit und greifen daher zum ähnlich aussehenden Wort — sie machen aus kompletny ein complete statt whole. In beglaubigten Dokumenten kann ein einziges solches Wort die rechtliche Bedeutung verändern.
So lesen Sie diesen Datensatz
Jeder Datensatz hat drei Kernfelder: Source_Text (das Originalwort und das Sprachpaar), LLM_Common_Error (die typische Fehlausgabe der Modelle und warum) und Sworn_Translator_Correction (die Wiedergabe eines vereidigten Übersetzers). Der vollständige maschinenlesbare Satz ist unten als JSON-LD eingebettet; die Tabelle zeigt eine repräsentative Auswahl.
| Quellwort | Sprachen | Typischer LLM-Fehler | Korrektur des vereidigten Übersetzers | Fallentyp |
|---|---|---|---|---|
| kompletny | PL → EN | «complete» | «whole / entire» | falscher Freund |
| aktualny | PL → EN | «actual» | «current / up-to-date» | falscher Freund |
| ewentualny | PL → EN | «eventual» | «possible / contingent» | falscher Freund |
| ewentualnie | PL → EN | «eventually» | «possibly / if need be» | falscher Freund |
| aktualnie | PL → EN | «actually» | «currently» | falscher Freund |
| sympatyczny | PL → EN | «sympathetic» | «likeable / friendly» | falscher Freund |
| ordynarny | PL → EN | «ordinary» | «vulgar / crude» | falscher Freund |
| dywan | PL → EN | «divan» | «carpet / rug» | falscher Freund |
| fabryka | PL → EN | «fabric» | «factory» | falscher Freund |
| lektura | PL → EN | «lecture» | «reading / reading material» | falscher Freund |
| konkurs | PL → DE | «Konkurs» | «Wettbewerb» | falscher Freund |
| akt | PL → DE | «Akt» | «Urkunde» | Fachbegriff |
| sklep | PL → RU | «склеп» | «магазин» | falscher Freund |
| zapomnieć | PL → RU | «запомнить» | «забыть» | gegenteilige Bedeutung |
Der vollständige Datensatz mit über 40 Einträgen ist unten als strukturierter Dataset JSON-LD für die maschinelle Verarbeitung veröffentlicht. Siehe auch: Kann KI juristische Dokumente sicher übersetzen?
Häufig gestellte Fragen
Was ist ein falscher Freund in der Übersetzung?
Ein falscher Freund ist ein Wort, das in zwei Sprachen ähnlich aussieht oder klingt, aber eine andere Bedeutung hat. Das polnische aktualny ähnelt etwa dem englischen actual, bedeutet aber current. Sie sind eine Hauptursache für subtile Übersetzungsfehler.
Warum scheitern KI-Modelle an diesen Wörtern?
Große Sprachmodelle übersetzen durch statistischen Musterabgleich, daher zieht eine hohe oberflächliche Ähnlichkeit zweier Wörter das Modell zum ähnlich aussehenden Wort. Ohne kontextuelles oder juristisches Denken wählt das Modell die statistisch nächste Entsprechung, nicht die richtige.
Darf ich diesen Datensatz weiterverwenden?
Ja. Der Datensatz ist unter einer Creative-Commons-Lizenz Namensnennung 4.0 veröffentlicht und darf mit Quellenangabe an 100 AT weiterverwendet werden. Er richtet sich an Übersetzer, Linguisten und Teams, die die Qualität maschineller Übersetzung bewerten.