Umělá inteligence v informačních systémech průmyslových práv - část I.

Pro výklad pojmu umělá inteligence (AI, Artificial Intelligence), stejně jako pro samotný výraz inteligence, neexistuje jediná obecně přijímaná definice.

CM
patentový specialista, PatentEnter, s.r.o.

Úvod  

Jako první tento  pojem zavedl v roce 1955 emeritní profesor Stanfordovy univerzity John McCarthy, který AI definoval jako „vědu a inženýrství, které se zabývají vytvářením inteligentních  strojů“. Dle WIPO je umělá inteligence „disciplínou informatiky, jejímž cílem je vývoj strojů a systémů, které mohou vykonávat úkoly považované za úkoly vyžadující lidskou inteligenci“. Termín se tedy zpravidla používá pro vývoj systémů vybavených intelektuálními procesy charakteristickými pro člověka, jako je schopnost uvažovat, objevovat význam nebo se učit z minulých zkušeností. V posledních  letech je AI obvykle vnímána jako synonymum pro nástroje založené na strojovém učení nebo na hlubokém učení  (strojové učení s využitím hlubokých neuronových sítí).  [2][1]

Jedním z prvních vědců, kteří se výzkumu v této oblasti  soustavně věnovali, byl britský matematik Alan Turing,  který je považován za zakladatele moderní informatiky a je také autorem dodnes používané metody obecně  známé jako tzv. Turingův test (1950), jejímž cílem je ověřit inteligenci stroje v  interakci s člověkem. Poté došlo k útlumu vývoje AI, který byl znovu nastartován s nástupem umělých neuronových sítí a navýšením výpočetní ho výkonu počítačů. Významným milníkem byl počítač Deep Blue společnosti IBM, který v roce 1997 porazil ve hře v šachy světového šampiona Garyho Kasparova.  [3]

Od přelomu nového tisíciletí našly AI nástroje uplatnění  v mnoha oborech od sofistikovaných pokročilých aplikací až po jednoduché nástroje, které (často i nevědomky) využívá na denní bázi každý z nás. V  současné době je umělá inteligence schopná vyřešit řadu obtížných a komplikovaných úkolů mnohem lépe než člověk, přičemž její budoucí využití může přinést obrovské změny a znamenat zásadní digitální transformaci společnosti.

Základní pojmy a úlohy umělé inteligence

Teoretický výzkum algoritmů a modelů umělé inteligence se od počátku ubírá ruku v ruce s vývojem výpočetních  systémů, vývoj softwarových i hardwarových nástrojů je tedy neoddělitelně spojen. V souvislosti se softwarovými  AI nástroji nejčastěji hovoříme o algoritmu nebo modelu AI, přičemž tyto pojmy se někdy nesprávně zaměňují.  Zatímco algoritmus je předpis kroků logického procesu popsaný matematickým jazykem nebo pseudokódem, AI model je počítačový program založený na jednom  nebo častěji na více typech algoritmů. Jinými slovy algoritmus představuje logiku, podle které model pracuje.  

Pro úspěšné fungování a implementaci do praxe je AI model trénován na několika sadách dat, které zahrnují tré novací sadu, validační (ověřovací) sadu a testovací sadu. Trénovací sada jsou obecně data, na kterých se odhadu je struktura modelu nebo jeho parametry. Standardně  jsou tato data reprezentována vektory. Jako trénovací  sada některých modelů slouží i tzv. velká data (Big Data), což jsou velké a komplexní soubory nestrukturovaných  dat, která nelze zpracovat tradičními metodami. Aby byl model kvalitní, musí být testovací sada dostatečně velká a rozmanitá (reprezentativní). Ověřovací (validační) sada  je při trénování modelu volitelná a využívá se zejména  pro případnou úpravu parametrů modelu. Testovací sada je pak sada dat, která se používá k ověření kvality již na učeného systému. Pro správně naučený systém je důležité, aby se data jednotlivých sad navzájem nepřekrývala, přičemž správně trénovaný systém vyhodnocuje data ze  všech sad se stejnou úspěšností.

Mezi hlavní typy úloh řešených AI modely patří prohledávání prostoru (tj. nalezení nejkratší posloupnosti akcí,  která povede ke kýženému výsledku úlohy), dále pláno vání, optimalizace, řízení a predikce. Specifickou úlohou  AI je generování nových instancí (textu, obrázků, zvuku),  které napodobují vlastnosti vstupních dat. Většina komplexních problémů řešených v praxi jsou přitom kombinací uvedených úloh.

Vybrané oblasti a nástroje umělé inteligence

Nástroje umělé inteligence jsou vystavěny na základě komplexních poznatků z matematiky, statistiky, informatiky a dalších oborů, přičemž nejčastěji využívanými jsou algoritmy založené na strojovém učení, hlubokém učení  nebo rekurentních neuronových sítích. Naprostá většina  modelů pak využívá kombinace přístupů jednotlivých  oblastí AI, jejichž principy se mezi sebou často prolínají, ne-li přímo překrývají.  

Strojové učení (ML, Machine Learning) je široká oblast AI, která umožňuje strojům učit se z trénovacích dat a z minulých zkušeností, aniž by k  tomu byly cíleně programovány. Systém se tak může sám dále zlepšovat, vyvíjet  nebo adaptovat a  podávat spolehlivé výstupy, pokud  možno s minimální intervencí člověka. Algoritmy strojového učení jsou v podstatě navrženy tak, aby klasifikovaly  předměty, nacházely vzory, předpovídaly výsledky a činily informovaná rozhodnutí. Při strojovém učení lze použít  jeden ze čtyř učebních modelů: učení s dohledem, učení  bez dohledu, učení s polodohledem nebo učení s posilováním. Učení s  dohledem vyžaduje sadu označených a strukturovaných trénovacích dat zahrnující vstupní i výstupní data, a jeho cílem je přiřadit vstupní proměnnou k výstupní proměnné. Tento model strojového učení  zahrnuje dvě hlavní kategorie algoritmů: klasifikační algoritmy pro kategorizaci výstupní proměnné do jedné ze dvou nebo více kategorií, a regresní algoritmy pro řešení regresních problémů, kde vstupní a výstupní pro měnné mají lineární vztah, což se využívá zejména pro  tvorbu predikcí či analýzu budoucích trendů. Při učení  bez dohledu nemá vstupní proměnná přiřazenu výstupní proměnou a systém sám musí tato vstupní data  roztřídit na základě společných vlastností. Typické algoritmy pro učení bez dohledu jsou shlukovací algoritmy (Clustering). Strojové učení s polodohledem využívá  kombinace uvedených přístupů a  učení s posilováním je založeno na zpětné vazbě systému.

Umělá neuronová síť (ANN, Artificial Neural Network) je systém, který využívá algoritmy strojového učení pro napodobení struktury a  funkcí lidského mozku. Podobně jako  je mozek tvořen soustavou neuronů propojených synapsemi, neuronová síť zahrnuje množství uzlů propojených  vzájemnými vazbami. Mozek a umělá neuronová síť však vykazují jisté odlišnosti, neboť propojení neuronů synapsemi je neuspořádané a v čase proměnlivé a neurony rovněž mohou pracovat paralelně, tj. v  různých částech sítě  současně. Naopak propojení uzlů umělé neuronové sítě  je vysoce systematické, využívá uspořádání uzlů do vrstev  a na rozdíl od mozku zpracovává informace postupně. Mezi uzly dochází k přenosu signálu charakterizovaném aktivační (přenosovou) funkcí uzlů, která mimo jiné závisí na váze  (důležitosti) a prahové hodnotě aktivace uzlu, což je rovněž  analogií fungování lidského mozku, ve kterém jsou synapse  mezi některými neurony silnější než mezi jinými neurony.  Na rozdíl od neuronů má uzel libovolné množství vstupů,  ale pouze jeden výstup, a uzly v rámci jedné vrstvy nejsou navzájem propojeny. Dle směru předávání informací mezi  uzly rozlišujeme dopřednou neuronovou síť, která předává informace pouze jedním směrem, častěji jsou využívány  tzv. rekurentní neuronové sítě (zpětnovazebné sítě), které umožňují obousměrné šíření informací. Největším přínosem neuronových sítí je jejich adaptabilita, neboť učení může probíhat s (polo)dohledem nebo bez dohledu a na  rozdíl od klasických počítačů, které zpracovávají data sekvenčně, se neuronové sítě mohou učit a pracovat na více  úlohách zároveň, a tím se neustále vyvíjet a zlepšovat.

Hluboké učení (DL, Deep Learning) je podoblast strojového učení reprezentovaná sadou velkých neuronových  sítí s velkým množstvím vrstev (hlubokých sítí), které řeší  komplexní složité problémy. Aktivační funkce se běžně  volí podle typu sítě a řešeného problému, přičemž u více vrstvých sítí se volí tak, aby do výpočtů vnášela nelinearitu. Hluboké sítě tedy počítají se spojitými reprezentacemi (reálnými čísly) podobně jako neurony v lidském mozku,  přičemž zavedení nelinearity umožňuje vícevrstvým sítím řešit relativně složité problémy i s malým počtem neuronů. Modely hlubokého učení se používají především pro klasifikaci a extrakci rysů, např. rozeznávání obličeje, dále pro generování popisu obrázků nebo videí, rozeznávání hlasu, převádění řeči na text a další.  

Zpracování přirozeného jazyka (NLP, Natural Language Processing) se zabývá analýzou, transformací či generováním textů nebo mluveného slova a jde o jednu z klíčových oblastí AI, neboť poskytuje přirozené a komfortní rozhraní pro komunikaci mezi člověkem a počítačem. NLP modely využívají zejména poznatky z počítačové lingvistiky a statistiky a jejich cílem je transformace textových vstupních dat do formátu, který je zpracovatelný a srozumitelný pro počítač. Standardně tento proces zahrnuje řadu kroků, např. rozdělení textu na základní nedělitelné jednotky textu, čištění textu, odstranění nevýznamových slov, přiřazení slovního druhu, identifikaci vlastních jmen, analýzu sentimentu či emocí vyjadřovaných textem, gramatickou a sémantickou analýzu atd. Poté následuje strojové učení a tvorba modelu, případně generování nového textu. Aplikacemi NLP jsou např. strojový překlad, komunikace chatovacích asistentů, vyhledávací nástroje  (např. našeptávání vyhledávacího dotazu), automatická  sumarizace či korektura textu, rozpoznávání řeči a její syntéza apod. Komplexními nástroji NLP, které zvládají všechny výše uvedené úkony v rekordním čase, jsou tzv. velké jazykové modely (např. model ChatGPT společnosti OpenAI), které jsou založeny na hlubokém učení a trénovány na obrovském množství nestrukturovaných dat volně dostupných na internetu.  

Počítačové vidění (CV, Computer Vision) je odvětví AI, které se zabývá získáváním, zpracováním a analýzou  informací ze zachyceného obrazu, videa nebo jiného  vizuálního vstupu. Modely počítačového vidění tedy kromě samotných algoritmů využívají také optické senzory  či kamery a případně osvětlovací systémy, přičemž jejich  cílem je analyzovat vizuálně zachycená data podobně  jako lidské oko. Jde o  poměrně nový a velmi rychle se  rozvíjející obor, neboť modely počítačového vidění jsou  obsahem 50 % předkládaných počítačových vynálezů. Typickou úlohou počítačového vidění je detekce, identifikace, rozpoznávání či sledování objektů na zachyceném  obrazu. Specializovanou úlohou je pak optické rozpoznávání znaků (OCR, Optical Character Recognition) textu na tištěném nebo psaném médiu, které má v podstatě za cíl simulovat proces čtení znaků textu člověkem a následně tato data konvertovat do digitální podoby. Hlavním požadavkem na OCR systémy je jejich přesnost, která je  značně závislá zejména na kvalitě vstupních dat.[5]

Nástroje umělé inteligence v informačních systémech průmyslových práv

V rámci zpracování průmyslově právních informací lze nástroje AI rozdělit dle použití do tří hlavních skupin: získá vání a sběr dat, zpracování dat a následná vizualizace. Na špičce studia implementace AI nástrojů jsou asijské země a většina prací se zabývá klasifikací patentových dat, což je přímo spojeno s digitalizací patentových databází a systematickým uspořádáním informací v nich obsažených.  V oblasti průmyslových práv byly pro tyto účely speciálně vytvořeny algoritmy pro analýzu složitého právního jazyka a identifikaci vzorů v rozsáhlých datech, což vede k přesnějším a efektivnějším patentovým rešerším, rešerším ochranných známek či identifikaci stavu techniky.  [6]

Automatizované třídění (klasifikace) patentových dokumentů

Patentové dokumenty standardně zahrnují název, data  (podání přihlášky, zveřejnění přihlášky či udělení paten tu), seznam přihlašovatelů/původců a oblast techniky ve  formě relevantních tříd a/nebo podtříd patentového tří dění. Patentové třídění je v gesci jednotlivých úřadů, které  mohou třídit dokumenty podle vlastních systémů, zdaleka nejpoužívanější je však klasifikační systém spravovaný WIPO, která definuje a  průběžně aktualizuje třídník  mezinárodního patentového třídění (IPC, International  Patent Classification). Rozšířením IPC systému je pak ko operativní patentové třídění (CPC, Cooperative Patent Classification), které slouží k  harmonizaci třídicích systémů různých úřadů. Cílem (jednotného) systému kategorizace dokumentů do patentových tříd je zejména  usnadnění jejich následného vyhledávání pro rešeršní  účely. Klasifikace patentových dokumentů je náročný  úkol, neboť vyžaduje optimální zařazení dokumentu pouze  do několika tříd, kterých jsou v systému desítky tisíc (např.  evropský klasifikační systém ECLA obsahuje na 130 tisíc  tříd a podtříd). Třídění patentových dokumentů se v zá sadě využívá ve dvou situacích: pro zpracování nových  patentových přihlášek a dále pro reklasifikace stávajících  patentových dokumentů v důsledku aktualizací třídníku.  U nově příchozích přihlášek je třídění provedeno v několika krocích od předtřídění dokumentu až po finální za třízení do podtříd, které provádí odborník specializovaný  na úzkou oblast techniky (případně může být automatizované). Intelektuální třídění školenými referenty je však stále složitější, neboť neustále vznikají nové třídy patentového třídění reagující na nové oblasti techniky a stále více vynálezů má interdisciplinární povahu.[7]

Automatizované zatřídění patentového dokumentu je zpravidla založeno na zpracování textu pomocí technik NLP a jeho převedení do vektorové podoby, přičemž klasifikační algoritmy jsou nejčastěji založeny na strojovém  učení a/nebo neuronových sítích. Kategorizace může být  založená na taxonomii, např. pomocí klíčových slov, anebo založená na příkladech. Kategorizace založená na příkladech se přitom jeví jako jednodušší, neboť stačí najít  podobný dokument (v  praxi n-podobných dokumentů) a dokument zatřídit do stejných tříd.  

Jednoduchým algoritmem pro klasifikaci dokumentů jsou pravidlové systémy, např. tzv. One-Rule (1R) systém, který  spočívá v tom, že z množiny znaků charakterizujících daný  dokument systém vybere právě jeden znak, podle kterého  lze dokument zatřídit co nejpřesněji a s nejmenší chybou,  přičemž ostatní znaky jsou ignorovány. Poměrně snadno aplikovatelný je také algoritmus rozhodovacího stromu,  neboť v každém uzlu je na základě daného atributu dokument přiřazen do jedné z disjunktních skupin. Dalším ze  známých modelů pro klasifikaci dokumentů je algoritmus  Naive Bayes založený na pravděpodobnosti anebo model  k-nejbližších sousedů, který nejprve vypočte vzdálenost  bodu, tj. klasifikovaného dokumentu, od všech ostatních  bodů v sadě dat ve vektorovém prostoru, a následně identifikuje ty z nich, které jsou klasifikovanému bodu nejblíže. Nalezení společných vlastností dokumentů ve shluku pak  využívají výše uvedené shlukovací klasifikátory.

Třídění patentové literatury je specifické z  mnoha důvodů. V první řadě se často jedná o rozsáhlé texty, které jsou  vysoce strukturované a  psané formálním jazykem, dále  zahrnují řadu ustálených výrazů a slovních spojení nebo naopak zcela nové termíny. Kromě textu často zahrnu jí také výkresy, obrázky, grafy nebo chemické struktury  a vzorce, které jsou mnohdy hlavním vodítkem pro před třídění. Pro správné zatřídění může pomoci i extrakce  citovaných dokumentů, naopak obtížně zatříditelný může  být dokument z  málo patentově pokrytého oboru, ke  kterému chybí dostatečné množství trénovacích dat. Pro  zpětné vyhledávání dokumentů se využívá indexace, při  které je každému dokumentu přiřazen index představující  reprezentaci daného dokumentu pro porovnávání s  vyhledávacím dotazem. Indexování je nejčastěji založeno na  termech, tj. významných slovech nebo slovních spojeních,  která dokument nejlépe reprezentují. Indexace může probíhat jak ručně, tak automatizovaně, přičemž automatická  indexace bývá konzistentnější (neboť např. dva lidé ne provedou shodnou indexaci téhož dokumentu) a vychází z frekvence, se kterou se jednotlivé termy v textu objevují.  [8]

Analýza obrazu  

Analýza obrazu s  využitím metod počítačového vidění  má v  oblasti průmyslových práv poměrně široké využití jak při práci s patentovou literaturou, tak s průmyslovými vzory a  ochrannými známkami. Moderní způsoby  zpracování obrazu zpravidla využívají hluboké učení, ze jména tzv. konvoluční neuronové sítě (CNN), které jsou  speciálně navrženy pro zpracování strukturovaných rastrových dat (obrázků).  [9]

Mezi prvními AI aplikacemi počítačového vidění byly  nástroje pro vyhledávání podobných obrazových  ochranných známek, přičemž podobnost byla určována  především na základě identifikace tvarů a barev v ochranných známkách. Při posouzení podobnosti ochranných  známek je ale kromě vizuální podobnosti nutné posoudit také kontextovou podobnost a textovou podobnost,  zahrnuje-li známka textový prvek. Z hlediska podobnosti ochranných známek a rizika záměny ve vztahu k zasahování do jiných práv je problém ještě komplexnější, neboť toto posouzení je vícekritériové a kromě analýzy obrazových prvků uvažuje také porovnávání tříd výrobků a služeb a rozlišovací způsobilost ochranné známky.  Současné přístupy obrázkového vyhledávání využívají také analýzu textu obsaženého ve známkách a celkového konceptu, který známka vyjadřuje, výsledkem vyhledávání je tedy užší a přesnější skupina potenciálně podobných ochranných známek. Výhodou AI při posuzování podobnosti je vysoká konzistentnost výsledků a vy loučení subjektivity u posuzování člověkem.  [10]

V patentové literatuře lze zpracování obrazu využít jak pro  vyhledávání, tak pro analýzu dokumentů. Zatímco většina AI nástrojů se zabývá analýzou textu, analýza textu ve  spojení s obrázky může poskytnout komplexnější pohled  na celý dokument. Samotná analýza obrázků je rovněž  velmi důležitý aspekt, neboť examinátor či rešeršovatel  obecně se v některých případech při procházení nalezených dokumentů řídí pouze obrázky, na základě kterých je  schopen rychle vyřadit nerelevantní dokument. Zásadní je tento proces zejména u dokumentů, kde je rešeršovatel zcela závislý na analýze vizuálního znázornění.

Pro analýzu obrázků v patentové literatuře jsou důležité dva hlavní aspekty: klasifikace typu obrázku a vyhledávání podobných obrázků. Nejčastěji publikovanými typy obrázků jsou technický výkres, vývojový diagram, graf, tabulka, chemický strukturní nebo geometrický vzorec, rovnice, genová sekvence. Vyhledávání obrázků na základě podobnosti ale má svá úskalí, neboť ne všechny typy  obrázků mají pro analýzu patentu stejnou důležitost, stejně tak např. vývojové diagramy mohou vypadat vizuálně  velmi podobně, ale přitom se týkají zcela jiných řešení.  Vyhledávání podobných obrázků by tedy mělo cílit na vy hledávání stejného konceptu obrázků a nikoli na prostou vizuální podobnost s  obrázkem vyhledávacího dotazu,  aby byl překonán prostor mezi prostým vzhledem obrázku a jeho interpretací[8]. Výhodou zpracování a interpretace obrázků patentové literatury je, že jejich vypovídající hodnota není závislá na jazyce dokumentu ani terminologii, která se může lišit dokument od dokumentu nebo také vyvíjet v čase. Není tedy třeba provádět překlady.  

Přestože se většina metod věnuje analýze textu nebo analýze obrazu samostatně, v praxi bylo testováno také extrahování konceptů z obrázků na základě kombinace textových a vizuálních dat. Informace byly získávány zejména z obrázků samotných a dále z titulků popisujících dané obrázky. Přestože je analýza z textu většinou spolehlivější, u titulků obrázků může dojít k chybám zejména tehdy, pokud je titulek zavádějící nebo neúplný. Z porovnávání nástrojů analyzujících pouze text, pouze obrázek  a  hybridního nástroje kombinující oba typy dat byl ve  všech modelových skupinách dokumentů nejúspěšnější  právě kombinovaný model.

Samostatnou disciplínou je analýza patentových dokumentů pomocí OCR systémů, které jsou v  patentové  literatuře využívány zejména pro strojové čtení a digitalizaci skenovaných .pdf dokumentů. OCR tedy vidí a analyzují stránku textu jako obrázek, přes který je nepřímo zpracováván text dokumentu, přičemž zpracování textu na obrázku je založeno na pravidelné struktuře řádků a sloupců textu. OCR se využívá také pro extrakci textových jednotek v rámci samostatných obrázků, např. u vývojových diagramů nebo chemických struktur.[11]

Strojový překlad

Strojový překlad (MT, Machine Translation) je příkladem generativní AI založené na hlubokém učení s využitím neuronových sítí, jejíž výstup by se měl co nejvíce blížit překladu provedenému bilingvní osobou. Poptávka po kvalitních strojových překladech patentové literatury je  spojena s obecně narůstajícím počtem dostupných patentových dokumentů, zejména pak dokumentů vznikajících v asijských zemích, neboť největší počty patentových přihlášek jsou přijímány úřady v Číně, Japonsku a Jižní Koreji (dle WIPO IP Statistics Data Center bylo jen za rok 2022  v Číně podáno více než 1,6 milionu patentových přihlášek).  

Strojové překlady jsou založeny převážně na dvou hlavních principech: na pravidlovém strojovém překladu (RBMT, Rule-based MT) a/nebo na statistickém strojovém  překladu (SMT, Statistical MT). Pravidlový strojový překlad přitom vychází z komplexních pravidel pro překlad ze zdrojového do cílového jazyka, který zahrnuje sadu gramatických pravidel pro oba jazyky, bilingvní slovník pojmů a dále sadu pravidel pro transformaci mezi gramatickými pravidly obou jazyků. Výhodou RBMT systémů je, že díky znalosti gramatiky produkují konzistentní a předvídatelný výstup. Jejich vývoj je však velmi časově i lingvisticky  náročný a vyžaduje rozsáhlé slovníky. Další nevýhodou je, že jsou málo flexibilní a adaptabilní, jelikož je není možné využít pro překlady v jiných dvojicích jazyků.[12]

Statistický strojový překlad je metoda založená na datech, ve které se model učí analýzou dříve přeložených dokumentů. Pro danou dvojici jazyků se pomocí dvojjazyčného  textového korpusu vypočítá, jak často se v něm společně  vyskytují určité dvojice slov a  frází. Tento model je pak využíván k odhadu nejpravděpodobnějšího překladu nového dosud neznámého vstupu. Výhodou statistického strojového překladu je, že je poměrně rychle vytvořitelný a nezávislý na konkrétním jazyce, přičemž výstupy bývají poměrně plynulé a souvislé ve srovnání s překlady pravidlového strojového překladu. Čistý SMT je však vysoce závislý na kvalitních trénovacích datech a méně vhodný pro dvojice jazyků s velmi odlišnou gramatikou a větnou strukturou. Dnes se ve strojových překladech zpravidla využívá  výhod obou přístupů v tzv. hybridním strojovém překladu, nejčastěji jde o SMT rozšířený o gramatická pravidla, kde jsou odhad statistických údajů a překladatelský proces lépe řízeny pomocí lingvistických znalostí příslušných jazyků.  

V prostředí patentových informací je sadou trénovacích dat pro strojový překladač bilingvní znění téhož dokumentu, nejčastěji se jedná o  patentové dokumenty jedné patentové rodiny, které byly odborně přeloženy do více jazyků. Obsah patentových dokumentů se však může značně lišit v závislosti na oboru, ve kterém je vynález realizován, a zároveň existují v různých zemích různé požadavky na formu  a  obsah patentových nároků, anotace či popis vynálezu.  Proto je vhodné mít co největší a nejrozmanitější sadu tré novacích dat, která pokryje jak syntaktická pravidla v obou  jazycích, tak dostatečnou slovní zásobu. Budeme-li mít např.  pro překlad mezi angličtinou a němčinou systém trénovaný  na korpusech z prostředí automobilového průmyslu, strojový překlad patentu v oblasti biochemie nebude tak kvalitní, protože testovací sada nezahrnuje dostatečný lexikální zá klad pro překlad termínů z chemické terminologie.

V rámci testovací sady je pak důležité správné přiřazení vět či frází (případně slov) v jednotlivých jazycích (tzv. sentence alignment), které se pak využívá pro trénování modelu, přiřazování některých vět ze souboru je  přitom nutné provést či ověřit manuálně překladatelem.  Cílem této přípravy dat je maximálně eliminovat chyby,  neboť pokud se model učí na chybných příkladech, generuje také finální překlad s vyšší chybovostí. Nejčastější úkoly, se kterými se strojový překladač musí vypořádat, jsou přiřazování slov a vět, statistické anomálie, překlad idiomů, rozdíly ve slovosledu či dvojznačnost výrazů.  

Strojový překlad patentové literatury je obzvláště složitý, neboť patentové texty jsou velmi specifické a porušují řadu běžných jazykových pravidel pro srozumitelnost textu: často zahrnují velmi dlouhá souvětí s mnoha spoj kami, používají pasivní formy sloves a vysoce formalizovanou mluvu, vyjadřují v jednom souvětí několik různých myšlenek, zahrnují typografické chyby a  chyby v  inter punkci, které mohou vést k  dezinterpretaci významu, a další. Zvláště v patentové literatuře hraje velkou roli  také překlad slov mimo slovník, kdy si překladač musí po radit i se slovy, která nezná, např. s neologismy, neboť patenty často zveřejňují naprosto nová data a informace, ke  kterým zatím neexistuje ustálená terminologie. Výhodou elektronických strojových překladačů je možnost vyhotovení vybraného překladu na vyžádání, např. při vyhledávání nebo analýze konkrétního dokumentu. Překlad je  tedy vyhotoven jen mezi vybranými jazyky a úřady nemusí uchovávat velké objemy dat a překlady v různých jazycích. S trénováním překladače také roste kvalita překladu.  [13]

Pokračování článku přineseme na Právním prostoru v nejbližších dnech.

Článek byl publikován v časopisu Duševní vlastnictví č. 4/2024.


Vymezení pojmů v této kapitole bylo zpracováno podle Encyklopedia Britannica a spol. IBM.[4][3][1]

ANDRESEN, Scott L. John McCarthy: father of AI. IEEE Intelligent  Systems, 2002, 17.5: 84-85.  [1]

WIPO, „Frequently Asked Questions: AI and IP Policy“. Dostupné z https://www.wipo.int/about-ip/en/artificial_intelligence/ faq.html.[2]

COPELAND, B. J. „artificial intelligence“. Encyclopedia Britannica,  21 Mar. 2024. Dostupné z https://www.britannica.com/tech nology/artificial-intelligence. Accessed 15 November 2024.[3]

IBM, „Featured topics. Demystify transformative technolo gies. Decode tech topics with content crafted by IBM experts.“.  Dostupné z https://www.ibm.com/topics.[4]

CHAUDHURI, Arindam, et al. Optical character recognition sys tems. Springer International Publishing, 2017.[5]

ARISTODEMOU, Leonidas; TIETZE, Frank. The state-of-the-art on Intellectual Property Analytics (IPA): A literature review on artificial intelligence, machine learning and deep learning methods for analysing intellectual property (IP) data. World Patent Information, 2018, 55: 37–51.[6]

KRIER, Marc; ZACCA, Francesco. Automatic categorisation applications at the European patent office. World Patent Information,  2002, 24.3: 187–196.[7]

CSURKA, Gabriela. Document image classification, with a specific view on applications of patent images. In: Current Challenges  in Patent Information Retrieval. Berlin, Heidelberg: Springer Berlin  Heidelberg, 2017. p. 325–350.[8]

ALSHOWAISH, Hayfa; AL-OHALI, Yousef; AL-NAFJAN, Abeer.  Trademark image similarity detection using convolutional neural  network. Applied Sciences, 2022, 12.3: 1752.[9]

VANDAMME, Thomas; CABAY, Julien; DEBEIR, Olivier.  A  Quantitative Evaluation of Trademark Search Engines‘  Performances through Large-Scale Statistical Analysis. In:  Proceedings of the Nineteenth International Conference on Artificial  Intelligence and Law. 2023. p. 343–350.[10]

VROCHIDIS, Stefanos; MOUMTZIDOU, Anastasia; KOMPATSIARIS,  Ioannis. Concept-based patent image retrieval. World Patent  Information, 2012, 34.4: 292–303.[11]

GONG, Ming, et al. Recognizing figure labels in patents. In: CEUR  Workshop Proceedings: Proceedings of the Workshop on Scientific  Document Understanding co-located with 35th AAAI Conference on  Artificial Intelligence (AAAI 2021). 2021.[12]

TINSLEY, John. Machine translation and the challenge of pa tents. In: Current Challenges in Patent Information Retrieval. Berlin, Heidelberg: Springer Berlin Heidelberg, 2017. p. 409–431.[12]

Hodnocení článku
0%
Pro hodnocení článku musíte být přihlášen/a

Diskuze k článku ()

Pro přidání komentáře musíte být přihlášen/a

Související články