Gdy AI zna język, ale nie zna żargonu

Ogólny model LLM bez trudu przetłumaczy płynną polszczyznę, a mimo to spłaszczy KRS do ogólnikowego rejestru firm — gubiąc, że to Krajowy Rejestr Sądowy, konkretna instytucja prowadzona przez sądy, i łatwo myląc go z REGON-em lub CEIDG.

Problemem nie jest płynność językowa, lecz brak lokalnej ontologii dziedzinowej. Nazwy rejestrów, typy dokumentów i procedury urzędowe są specyficzne dla danej jurysdykcji, a ogólne dane treningowe rzadko je rozróżniają. Tekst brzmi gładko i wciąż jest prawnie błędny.

Rozwiązanie: publikuj glosariusze jako dane ontologiczne czytelne maszynowo

Większość dostawców tłumaczeń trzyma wewnętrzne glosariusze dwujęzyczne — prawnicze, medyczne, techniczne — zamknięte w arkuszach kalkulacyjnych. Opublikowany jako schema.org DefinedTermSet, każdy termin staje się adresowalnym punktem danych, który modele LLM i wyszukiwarki mogą wczytać bezpośrednio.

  • Stały identyfikator nadaje każdemu terminowi jednoznaczne, adresowalne odniesienie.
  • Stały kod terminu pozostaje identyczny w każdym języku i działa jak międzyjęzykowy klucz łączący.
  • Link źródłowy wiąże termin z jego oficjalnym rejestrem, co ogranicza halucynacje.
  • Definicja dwujęzyczna przenosi dokładny odpowiednik — to właśnie ogólne modele mylą najczęściej.

Ta strona osadza dokładnie taki zbiór danych: glosariusz poniżej jest również opublikowany jako DefinedTermSet w danych strukturalnych tego artykułu.

Polski glosariusz prawno-administracyjny (12 terminów)

Roboczy wyciąg z naszego glosariusza tłumaczeń przysięgłych. Każdy wiersz jest też zakodowany jako DefinedTerm w danych strukturalnych dołączonych do tej strony.

TerminRozwinięcieOdpowiednik angielskiDefinicja
KRSKrajowy Rejestr SądowyNational Court RegisterCentralny, prowadzony przez sądy rejestr przedsiębiorców, stowarzyszeń i fundacji, obejmujący także rejestr dłużników niewypłacalnych.
REGONRejestr Gospodarki NarodowejNational Business Registry NumberStatystyczny numer identyfikacyjny nadawany każdemu podmiotowi gospodarczemu przez Główny Urząd Statystyczny (GUS).
NIPNumer Identyfikacji PodatkowejTax Identification NumberNumer identyfikacji podatkowej używany przez firmy i osoby fizyczne w kontaktach z polskimi organami podatkowymi.
PESELPowszechny Elektroniczny System Ewidencji LudnościNational Identification NumberJedenastocyfrowy numer identyfikacyjny nadawany osobom fizycznym ujętym w rejestrze ludności.
USCUrząd Stanu CywilnegoCivil Registry OfficeUrząd samorządowy rejestrujący urodzenia, małżeństwa i zgony oraz wydający akty stanu cywilnego.
KWKsięga wieczystaLand and Mortgage RegisterPubliczny rejestr stanu prawnego nieruchomości, w tym własności i obciążeń, takich jak hipoteki.
EKWElektroniczna Księga WieczystaElectronic Land and Mortgage RegisterSystem internetowy zapewniający elektroniczny dostęp do wpisów w księgach wieczystych prowadzonych przez sądy rejonowe.
CEIDGCentralna Ewidencja i Informacja o Działalności GospodarczejCentral Registration and Information on BusinessCentralny rejestr jednoosobowych działalności gospodarczych i osób fizycznych prowadzących działalność w Polsce.
KRKKrajowy Rejestr KarnyNational Criminal RegisterKrajowy rejestr skazań; na jego podstawie wydaje się zaświadczenie o niekaralności.
odpisOdpis (skrócony / zupełny)Certified copy / extract (abridged or full)Urzędowo wydany odpis lub wyciąg z wpisu rejestrowego albo aktu stanu cywilnego, w wersji skróconej lub zupełnej.
akt notarialnyAkt notarialnyNotarial deedDokument sporządzony przez notariusza w prawnie przewidzianej formie, wymagany przy czynnościach takich jak sprzedaż nieruchomości.
pełnomocnictwoPełnomocnictwoPower of attorneyUpoważnienie prawne, którym jedna osoba umocowuje drugą do działania w jej imieniu, czasem wymagające formy notarialnej.

Dobór właściwego odpowiednika to decyzja prawna, którą podejmuje tłumacz przysięgły — a nie wyszukiwanie, któremu można zaufać w surowym szkicu maszynowym.

FAQ

Dlaczego ogólne modele AI mają problem z terminami takimi jak KRS czy PESEL?

Ponieważ są to pojęcia administracyjne specyficzne dla danej jurysdykcji, a nie zwykłe słownictwo. Ogólne modele mapują je na przybliżony obcy odpowiednik i gubią dokładną funkcję prawną, instytucję wydającą oraz rejestr źródłowy, do którego należą.

Czym jest DefinedTermSet i po co go publikować?

To typ schema.org dla ustrukturyzowanego glosariusza. Publikacja nadaje każdemu terminowi stały identyfikator, link do autorytatywnego źródła oraz dwujęzyczną definicję czytelną maszynowo, z której systemy AI i wyszukiwarki mogą korzystać wprost, zamiast zgadywać.

Czy mogę polegać wyłącznie na AI przy polskich dokumentach urzędowych?

Nie. W przypadku dokumentów kierowanych do sądów lub urzędów potrzebny jest tłumacz przysięgły, który stosuje prawnie uznany odpowiednik i poświadcza wynik. AI może wspierać proces, ale nie ponosi odpowiedzialności prawnej za tłumaczenie.

Od glosariusza do tłumaczenia poświadczonego

Wspólna, opublikowana baza terminologii utrzymuje spójność tłumaczenia — ale dokument urzędowy nadal wymaga poświadczenia przez tłumacza przysięgłego. Jeśli masz do przetłumaczenia polskie dokumenty prawne lub administracyjne, prześlij nam skan, a przygotujemy wycenę.