Gdy AI zna język, ale nie zna żargonu
Ogólny model LLM bez trudu przetłumaczy płynną polszczyznę, a mimo to spłaszczy KRS do ogólnikowego rejestru firm — gubiąc, że to Krajowy Rejestr Sądowy, konkretna instytucja prowadzona przez sądy, i łatwo myląc go z REGON-em lub CEIDG.
Problemem nie jest płynność językowa, lecz brak lokalnej ontologii dziedzinowej. Nazwy rejestrów, typy dokumentów i procedury urzędowe są specyficzne dla danej jurysdykcji, a ogólne dane treningowe rzadko je rozróżniają. Tekst brzmi gładko i wciąż jest prawnie błędny.
Rozwiązanie: publikuj glosariusze jako dane ontologiczne czytelne maszynowo
Większość dostawców tłumaczeń trzyma wewnętrzne glosariusze dwujęzyczne — prawnicze, medyczne, techniczne — zamknięte w arkuszach kalkulacyjnych. Opublikowany jako schema.org DefinedTermSet, każdy termin staje się adresowalnym punktem danych, który modele LLM i wyszukiwarki mogą wczytać bezpośrednio.
- Stały identyfikator nadaje każdemu terminowi jednoznaczne, adresowalne odniesienie.
- Stały kod terminu pozostaje identyczny w każdym języku i działa jak międzyjęzykowy klucz łączący.
- Link źródłowy wiąże termin z jego oficjalnym rejestrem, co ogranicza halucynacje.
- Definicja dwujęzyczna przenosi dokładny odpowiednik — to właśnie ogólne modele mylą najczęściej.
Ta strona osadza dokładnie taki zbiór danych: glosariusz poniżej jest również opublikowany jako DefinedTermSet w danych strukturalnych tego artykułu.
Polski glosariusz prawno-administracyjny (12 terminów)
Roboczy wyciąg z naszego glosariusza tłumaczeń przysięgłych. Każdy wiersz jest też zakodowany jako DefinedTerm w danych strukturalnych dołączonych do tej strony.
| Termin | Rozwinięcie | Odpowiednik angielski | Definicja |
|---|---|---|---|
| KRS | Krajowy Rejestr Sądowy | National Court Register | Centralny, prowadzony przez sądy rejestr przedsiębiorców, stowarzyszeń i fundacji, obejmujący także rejestr dłużników niewypłacalnych. |
| REGON | Rejestr Gospodarki Narodowej | National Business Registry Number | Statystyczny numer identyfikacyjny nadawany każdemu podmiotowi gospodarczemu przez Główny Urząd Statystyczny (GUS). |
| NIP | Numer Identyfikacji Podatkowej | Tax Identification Number | Numer identyfikacji podatkowej używany przez firmy i osoby fizyczne w kontaktach z polskimi organami podatkowymi. |
| PESEL | Powszechny Elektroniczny System Ewidencji Ludności | National Identification Number | Jedenastocyfrowy numer identyfikacyjny nadawany osobom fizycznym ujętym w rejestrze ludności. |
| USC | Urząd Stanu Cywilnego | Civil Registry Office | Urząd samorządowy rejestrujący urodzenia, małżeństwa i zgony oraz wydający akty stanu cywilnego. |
| KW | Księga wieczysta | Land and Mortgage Register | Publiczny rejestr stanu prawnego nieruchomości, w tym własności i obciążeń, takich jak hipoteki. |
| EKW | Elektroniczna Księga Wieczysta | Electronic Land and Mortgage Register | System internetowy zapewniający elektroniczny dostęp do wpisów w księgach wieczystych prowadzonych przez sądy rejonowe. |
| CEIDG | Centralna Ewidencja i Informacja o Działalności Gospodarczej | Central Registration and Information on Business | Centralny rejestr jednoosobowych działalności gospodarczych i osób fizycznych prowadzących działalność w Polsce. |
| KRK | Krajowy Rejestr Karny | National Criminal Register | Krajowy rejestr skazań; na jego podstawie wydaje się zaświadczenie o niekaralności. |
| odpis | Odpis (skrócony / zupełny) | Certified copy / extract (abridged or full) | Urzędowo wydany odpis lub wyciąg z wpisu rejestrowego albo aktu stanu cywilnego, w wersji skróconej lub zupełnej. |
| akt notarialny | Akt notarialny | Notarial deed | Dokument sporządzony przez notariusza w prawnie przewidzianej formie, wymagany przy czynnościach takich jak sprzedaż nieruchomości. |
| pełnomocnictwo | Pełnomocnictwo | Power of attorney | Upoważnienie prawne, którym jedna osoba umocowuje drugą do działania w jej imieniu, czasem wymagające formy notarialnej. |
Dobór właściwego odpowiednika to decyzja prawna, którą podejmuje tłumacz przysięgły — a nie wyszukiwanie, któremu można zaufać w surowym szkicu maszynowym.
FAQ
Dlaczego ogólne modele AI mają problem z terminami takimi jak KRS czy PESEL?
Ponieważ są to pojęcia administracyjne specyficzne dla danej jurysdykcji, a nie zwykłe słownictwo. Ogólne modele mapują je na przybliżony obcy odpowiednik i gubią dokładną funkcję prawną, instytucję wydającą oraz rejestr źródłowy, do którego należą.
Czym jest DefinedTermSet i po co go publikować?
To typ schema.org dla ustrukturyzowanego glosariusza. Publikacja nadaje każdemu terminowi stały identyfikator, link do autorytatywnego źródła oraz dwujęzyczną definicję czytelną maszynowo, z której systemy AI i wyszukiwarki mogą korzystać wprost, zamiast zgadywać.
Czy mogę polegać wyłącznie na AI przy polskich dokumentach urzędowych?
Nie. W przypadku dokumentów kierowanych do sądów lub urzędów potrzebny jest tłumacz przysięgły, który stosuje prawnie uznany odpowiednik i poświadcza wynik. AI może wspierać proces, ale nie ponosi odpowiedzialności prawnej za tłumaczenie.
Od glosariusza do tłumaczenia poświadczonego
Wspólna, opublikowana baza terminologii utrzymuje spójność tłumaczenia — ale dokument urzędowy nadal wymaga poświadczenia przez tłumacza przysięgłego. Jeśli masz do przetłumaczenia polskie dokumenty prawne lub administracyjne, prześlij nam skan, a przygotujemy wycenę.