Urgesal/Nástroje popisu gramatiky
Tato stránka je součástí projektu: | |
Příslušnost: všeobecná |
Stránka je výzkumnou úvahou a je součástí projektu Urgesal. Úvahy tak dávají výpověď o tom co se děje za pozadím projektu, do jisté míry jej dokumentuje, a může být návodem či inspirací těm kteří umělý jazyk vytvářejí.
Úvod
[editovat]Dostal jsem se do bodu, kdy v projektu Urgesal potřebuji pohnout s vytvořením pádů, definováním slovosledu. Což v podstatě znamená zabývat se gramatikou jazyků. Proto se snažím jak porozumět tak definovat různé gramatické prvky. K tomuto účelu by se hodil nástroj, který tyto gramatické struktury a funkce popisuje. Cílem této práce je tudíž vytvoření nástrojů či jazyka popisující gramatické struktury a funkce. Takovýto nástroj či jazyk bude mít jistě i další širší využití. Před touto prací jsem analyzoval a vyzkoušel některé možnosti, ale žádná z nalezených možností nebyla dostatečná.
Metodika
[editovat]- Sběr informací o tématu (rešerše), následuje třídění, analýza a syntéza informací, sestavení (definování) nástroje či jazyka a jeho vyzkoušení na popisu různých jazyků. Posouzení a kritika vytvořeného nástroje či jazyka. Ladění nedostatků. Hledání dalších řešení.
- Práce bude zakončena závěrečným shrnutím.
Další motivace
[editovat]S rozvojem moderních informačních a komunikačních technologií se neustále zvětšuje množství informací snadno dostupných každému člověku. Protože není v lidských silách všechny tyto informace efektivně třídit, vyhledávat nich nebo extrahovat jen to, co nás zajímá, vzniká potřeba tyto úkoly přenechat výpočetní technice. Počítače se navíc pomalu stávají základním pracovním nástrojem pro většinu lidí a vyvstává zájem s nimi komunikovat lidskou řečí. Roste také poptávka po systémech strojového překladu.
Čím více se snažíme, aby počítač rozuměl významu přirozeného jazyka stejným způsobem jako člověk, tím více zjišťujeme, jak nejasný požadavek to je. Používání jazyka a chápání významu lidským mozkem je stále neznámou, kterou počítačová lingvistika odryje nejspíše až ruku v ruce s psychologií a neurologií.
V souvislostí s výše uvedeným, se hledají další nové nástroje jak lidský jazyk popisovat a získat takovým nástrojem nové poznatky, které nelze získat jiným způsobem.
Nástroje popisující gramatiku
[editovat]- Lingvistické nástroje
- Racionalistické metody zpracování jazyka
- Empirické metody zpracování jazyka - založené přímo na jazykových datech.
- Tvorba korpusů
- Metody popisující jazyk z hlediska jejich struktury - tento popis má obvykle podobu pravidel či obecných nebo specifických principů odrážejících strukturu přirozených jazyků.
- Využívá přitom formálních gramatik a automatů, algebry, teorie množin a dalších nestatistických a nekvantitativních matematických disciplín.
- Empirické metody zpracování jazyka - založené přímo na jazykových datech.
- Racionalistické metody zpracování jazyka
- Matematické nástroje
- Popis pomocí množin a relací
- Značkovací jazyky
- XML
- UML
- Vlastní nástroje
Lingvistické nástroje
[editovat]Závislostní analýza
[editovat]Závislostní analýza nebo také syntaktická analýza je postup, kterým k danému textu přiřadíme nebo určíme nebo nalezneme jeho strukturu. Tento postup se také učí na základní škole pod názvem větný rozbor, samozřejmě ve zjednodušené funkční podobě. Problematika závislostní analýzy je ovšem mnohem rozsáhlejší.
Nejpodstatnější na metodě z pohledu této práce se jeví fakt, že pouze popisuje strukturu věty vyznačením závislostí (determinací) mezi závislým (rozvíjejícím) a řídícím slovem. Nepopisuje však gramatiku jako takovou, ale věnuje se především syntaxi. Neboť nauka o syntaxi představuje nauku o větné skladbě. Tudíž se zabývá větou a vnímá ji jako základní jazykovou jednotku. Přičemž o syntaxi lze začít uvažovat všude tam, kde lexikální jednotky vstupují do určitého sémantického vztahu.
V odborných popisech jazyka se pak ještě terminologicky rozlišuje mezi pojmy věta a výpověď. Věta je pak charakterizována jako abstraktně míněná, v situaci nezakotvená jazyková jednotka s verbem finitem. Což v tomto terminologickém významu znamená vlastně strukturu založenou na slovese jako základním a nejhlavnějším komponentu věty. Jeho strukturním zápisem je gramatický větný vzorec (GVV)obsahující nejenom přísudek, ale i další konstitutivní členy, tedy takové členy, které nesou syntakticky distinktivní vlastnosti vzhledem ke vzorcům jiným.
Při realizaci větných konstrukcí v komunikační interakci dochází ke vzniku syntaktických nedostatků a chyb. Syntaxe samotná, není schopna nést veškeré gramatické funkce a sémantiku. O své informační břímě se tak dělí s dalšími jazykovými prostředky. Z tohoto důvodu se mi jeví metoda jako jednoúčelová a nedostatečná k popisu celé gramatiky.
Rozhodně si však lze tyto principy vypůjčit k vytvoření vlastního nástroje či jazyka popisující gramatiku. Rozhodně lze do takovéhoto nástroje zakomponovat závislá a řídící slova. Z matematického pohledu teorie množin, si to mohu představit jako vztahy mezi množinou a podmnožinou, protože definují vztah nadřazenosti a podřízenosti, kde množina je řídícím elementem rozvijící podmnožiny jakožto závislého elementu. Rozhodně však je řídící a rozvíjející element jistým druhem relace (vztahu).
Při popisu struktury věty je nutné v praxi zohlednit možnou kontaminaci chybami improvizací mluvčího. Mluvčí si snadno může zaplést některé sémanticky podobné prvky a nevhodně je zaměnit. Například: vnímat něco - všímat něco; sledovat něco - poslouchat něco; poukazovat na něco - kritizovat něco. Kontaminace tak může být projevem syntaktického vývoje jazyka a zdrojem posouvání významu.
Další zvláštnosti kontaminace věty, se projevují například nedokončováním věty. Na jednu stranu se snaží mluvčí co nejefektivněji a co nejstručněji podat výpověď o něčem. Na druhou stranu, i když je často možné vynechaná slova uhádnout, přesto působí věta zvláštně a tak nějak nekompletně.
Jako opačný extrém se pak jeví dlouhé a složité věty u který se lze snadno ztratit. Z čehož ovšem vyplívá, že na délce sdělení do jisté míry záleží a to ve smyslu vyhýbání se extrémům.
Výpověď chápeme jako větu, která už je zakotvena v konkrétní situaci, je součástí sociální interakce a podavatel jejím pronesením obvykle sděluje nějaké cíle. Výpověď je tedy realizací věty v konkrétní situaci. Protože ve výpovědi existuje velmi silný vztah ke komunikační situaci, nemusí se větný vzorec realizovat naprosto pravidelně.
Základním syntaktickým vztahem je dominance. V této koncepci se vnímá jako vztah utvářející hierarchickou strukturu věty a vede k vytváření volných pozic. Použití objektu s dominantní vlastností jednoznačně podmiňuje i existenci podřízeného elementu, jinak nelze vztah vytvořit. Pokud totiž existují dva dominantní objekty není mezi nimi vztah dominance a podřízenosti. Nemohou dokonce koexistovat vedle sebe, protože se vzájemně vylučují, leda že by mezi nimi vznikl jakýsi partnerský vztah (rovnocenné spojení větných členů), čímž se ale potlačí vztah dominantní. V rovnocenném spojení se zjevuje vztah zmnožení, avšak to už za základní syntaktický vztah považovaný není.
Příkladem dominantního vztahu je: "žák se učí", "krájí chleba", "chytrý zajíc". Zatímco příkladem rovnocenného spojení je: "nastupuje a vystupuje", "Karel a Pavel i Lucka", "starý vybledlý a ztrouchnivělí".
Syntaktické vztahy
[editovat]První soustava vztahů:
- Dominance
- Kongruence - Flexe, dominovaný člen přebírá gramatické kategorie dominujícího.
- Reakce - Flexe, dominující člen určuje pádovou formu dominovaného.
- Adjunkce - Závislost dominovaného členu není formálně vyjádřena.
- Zmnožení
- Koordinace - Několikanásobný větný člen - Souřadící spojky, asyndeton.
- Adordinace - Komplexní větný člen - Asyndeton.
Jiná soustava vztahů:
- Predikace - Jde o vztah mezi podmětem a přísudkem, které jsou v této koncepci považovány za rovnocenné členy. Přísudkem se podmětu přisuzuje nějaký znak a shoda přísudku s podmětem není známkou závislosti, ale sounáležitosti. Jde o větotvorný vtah.
- Determinace - Jde o vztah, při kterém se jedním členem (závislým) určuje druh člen (řídící). Členy nejsou rovnocenné, existence závislého členu je podmíněna existenční členění řídícího. Determinace neboli určování už není větotvorným vztahem, spojení vysoká škola není věta.
- Apozice - Jde o případy, kdy jednu představu pojmenováváme dvojím způsobem. Vzniká syntaktická skupina přístavková, jejíž členy jsou ve struktuře věty na stejném stupni a obvykle se mohou zaměnit.
- Koordinace - Jde o vztah mezi členy, které označují různé představy. Členy tvoří syntaktickou skupinu a jsou na stejném stupni.
- parenteze - Vsouvání nezakládá žádný skladební vztah, pásmo řeči je přerušeno vyjádřením, které má charakter poznámky mluvčího k obsahu nebo k formě věty. Vsuvka nevstupuje do skladebních vztahů, je to nulový vztah.
Syntaktická složitost
[editovat]Zatímco formální jazyky jsou typicky jednoznačné, tedy že jednu větu lze správně analyzovat pouze jediným způsobem. U přirozených jazyků se projevuje syntaktická víceznačnost. V jedné vědě existuje vícero vztahů což také přispívá k vyšší složitosti. Dalším problémem je ohraničenost těchto vztahů. Zatímco u formálních jazyků je hranice mezi správnou a nesprávnou větou ostrá u přirozeného jazyka je hraniče často neostrá a názor na správnost věty se pro různé lidi liší. Aby toho nebylo málo, tak jazyky neobsahují všechny informace svou podobou, strukturou svou syntaxí, ale také obsahují informace, které nejsou fyzicky vidět ale jsou pouze abstraktně na sobě závislé a nelze je jinak odvodit, ale pouze znát. Příkladem budiž třeba nepravidelná slovesa různých jazyků. Jak už název pojmu napovídá, jejich skloňování nelze odvodit podle všeobecně platné poučky. Nelze se je naučit jinak, než naučením se těchto tvarů.
Z toho vyplívá, že některé vztahy jsou přímo související a lze je vyčíst ze struktury informace. Zatímco jiné informace přímo nesouvisí a nedají se ze struktury odvodit:
- Přímá spojitost relace - váže se na konkrétní informaci, dodatečnou informaci lze spolehlivě odvodit. (například fráze "hlavní město Praha", z fráze lze odvodit že Praha je hlavní město)
- Nepřímá spojitost relace - dodatečnou informaci nelze odvodit z existující informace, lze ji pouze znát. (například slovo "Praha", informace o tom že Praha je hlavní město není ve slově odvoditelné, je třeba to znát)
- Relace typu 1:1 - k informaci je vázána vždy pouze jediná dodatečná informace (například slovo a jeho jediný význam).
- Relace typu 1:N - k informaci je vázáno více informací (například slovo a několik významů slova).
- Relace typu N:1 - k několika informacím se váže stejná informace (například různá slova stejného významu).
- Relace typu N:N - k různým informacím se váží různé informace, některé jsou společné a jiné různé. V případě přirozených jazyků jsem existenci tohoto typu neprozkoumal a nevím jestli se v přirozeném jazyce vyskytují.
Co se týče pojmenování relací dle typů 1:1, 1:N, atd. jsem si vypůjčil ze značení relačních databází. Tohle značení typů relací je evidentně užitečné.
Příklady přímé a nepřímé relace:
- fráze "Středočeský kraj" - že se jedná o kraj signalizuje existence slova "kraj" jde o přímou relaci. Informace že hlavním městem Středočeského kraje je Praha ve struktuře fráze není a nelze jí ze struktury nijak odvodit, lze ji pouze znát.
- fráze "hlavní město Praha" - lze ze struktury odvodit, že Praha je městem, dokonce hlavním městem. Fráze však neříká, čeho je hlavním městem, to že je hlavním městem ČR i Středočeského kraje nelze odvodit, lze to pouze znát.
- fráze "náš učitel" - ze struktury nelze přímo odvodit o jakého konkrétního učitele se jedná, pouze žáci tohoto nejmenovaného učitele vědí o kterého učitele jde. Informaci nelze tedy odvodit, lze ji pouze znát.
Tím budiž dokázáno, že některé informace nelze vydolovat přímo z textu jako takového, ale na základě znalosti souvislostí mezi textem a dalších informacích která známe.
Algebraická lingvistika
[editovat]Užívá matematicko-lingvistické nástroje a metody k popisu či definování gramatiky. Algebraická lingvistika je část matematické lingvistiky, která využívá nekvantitativních matematických metod, jako jsou algebra, teorie grafů, matematická logika, topologie, teorie množin či kombinatorika.
V souvislosti s potřebami strojového překladu se začala Algebraická lingvistika formovat v druhé polovině 50. let 20. století. Ukázalo se totiž, že zatím jediným možným způsobem, jak odstranit nedostatky strojového i teoretického jazyka, je jeho důsledná formalizace.
Základ této disciplíny tvoří zejména teorie:
- N. Chomský — generativní a transformační gramatika
- Y. Bar-Hillel — rekognoskativní a kategoriální gramatika
- S. K. Šaumjan — analytické modely jazyka
- P. Sgall a kolektiv — funkční generativní popis jazyka
Generativní znamená to, že jazyk je chápán jako tvůrčí proces, ve kterém se jednotlivé věty generují podle určitých pravidel, kterých existuje omezený počet. umožňují ale generovat neomezené množství vět. Při pokusu formalizovat popis gramatiky se snažil Chomský o jeho maximální zjednodušení. Zavádí proto termín jádrových vět (kernel sentences), to znamená základních jednoduchých vět, z nichž jsou všechny ostatní věty a souvětí dovozeny pomocí transformačních pravidel.
Opakem gramatiky generativní je gramatika rekognoskativní. Tento typ gramatiky vychází z konkrétní věty jazyka. Větu převádí na řetěz symbolů, odhaluje strukturu věty a gramatickou správnost dle příslušného jazyka.
V Šaumjanově gramatické teorii jsou jazykové jednotky označeny symboly a odvozují se pomocí aplikace (metody matematické logiky, která se týká vztahů mezi symboly). Jazykověda by neměla zkoumat pouze jevy bezprostředně pozorovatelné, ale zejména hlubší souvislosti, které jsou za nimi skryté. Důraz by měl být kladen na takové jevy, které jsou společné všem jazykům. Systém těchto univerzálních jevů nazývá Šaumjan genotypický jazyk. Naproti tomu jazykem fenotypickým rozumí ty jevy, které se vyskytují v jednotlivých přirozených jazycích.
Generativní a rekognoskativní gramatiky byly zkoumány zejména na angličtině a ukázalo se, že dobře vyhovují pro popis jazyků s pevným slovosledem a jednoduchou morfologií, což angličtina právě je. Pro jazyky flexivní (zejména slovanské) jsou však tyto gramatiky nevyhovující. Zvláště sovětští gramatici na tyto nedostatky upozorňovali a snažili se vytvořit obecnější formu gramatiky vyhovující typologicky různým jazykům. Proto vytvořily analytické modely jazyka jako protiklad k modelům syntetickým (rekognoskativní a generativní mluvnice).
Zatímco v syntetických modelech vytváříme soubor gramaticky správných vět jazyka či zjišťujeme, které věty do tohoto souboru patří, v analytických modelech postupujeme opačně. Výchozím pojmem je proto soubor gramaticky správných vět jazyka.
Algebraická teorie gramatiky je oblast, kde se matematika a lingvistika spojují nejtěsněji. Teorie gramatiky má totiž celou řadu společných znaků s matematickou teorií automatů. Stále ale není zcela jasné, zda vůbec lze v úplnosti formálně zachytit tak složitý systém, jakým bezesporu přirozený jazyk je. Zatím se zdá, že gramatiku jazyka (fonologie, morfologie, syntax) je možno formálními prostředky celkem úspěšně popsat, i když se jedná o oblast poměrně složitou. Dosud zatím vyčerpávajícímu formálnímu popisu odolává sémantika jazyka. Tento úkol je bezesporu náročný, ale vyžaduje jej sama praxe zejména v souvislosti s rozvojem výpočetní techniky a tvorbou různých počítačových programů.
Standardní teorie (1965, Chomský)
[editovat]Podle této teorie se gramatika skládá z lexiky, (dvojvrstevné) syntaktiky, sémantiky, fonologie. Každý výraz nesoucí/označující význam má zajištěnu derivaci, jež vychází od jednoho prvku axiomat systému.
- Mng — sémantická struktura (reprezentace významu)
- Exp — fonologická struktura (reprezentace výrazu)
Samotná derivace výrazu nesoucího význam v standartní teorii začíná v jedné z obou syntaktických složek, tvořících hierarchickou reprezentaci podkladové syntaktické struktury výrazu v rámci struktury slovního spojení (phrase structure), umožňující rekurzi (žádoucí kombinaci výrazů k dosažení požadovaného významu). Díky lexice lze do podkladové syntaktické struktury vložit žádoucí lexikální jednotku; výsledkem této operace je hloubková struktura (deep structure), jež je zároveň vstupem do obou syntaktických složek (sémantické a transformační).
- na sémantické větvi je konstruován význam výrazu
- na transformační větvi lze rozhodnout o aktuálním větném členění nebo uplatnění elipsy dřív, než přejde jako výstup do dalšího stádia, jímž je povrchová struktura (surface structure)
Právě fáze povrchové struktury je vlastním vstupem do fonologie, kde se posléze určuje sám konkrétní tvar výrazu, včetně intonace a důrazu (či přízvuku).
Schéma:
- Ax -> Phr-> Lex-> DS
- -> Sem -> Mng
- -> Trn -> SS -> Phn -> Exp
Legenda:
- Ax = axiom
- Phr = phrase structure
- Lex = lexon
- Sem = semantics
- Mng = meaning (sémantická struktura)
- Trn = transformation structure
- SS = surface structure
- Phn = phonology
- Exp = výraz (fonetické struktura)
Morfologické značky - poziční systém
[editovat]Při zkoumání nástrojů popisující gramatiku jsem narazil na potřebu jak některé prvky jazyka označovat. Je sice hezké, když pomocí šipek či jiných symbolů nebo matematických značek dokážu vyjádřit vztahy nadřízenosti či podřízenosti různých prvků, popřípadě jiných vztahů, pokud se nerozhodnu jak tyto prvky symbolicky pojmenovat. Je zapotřebí nějak značit slovní druhy, větné členy, gramtické pojmy (pád, číslo, rod, atd.) a jiné gramatické prvky. Jistou zajímavou cestou je využití morfologických značek v pozičním systému.
Morfologické značky jsou popisem (tedy výstupem morfologické analýzy) morfologie, která pracuje s izolovanými slovními tvary, tedy bez ohledu na jejich kontext. Z tohoto důvodu je sice nástroj nedostatečný k popisu gramatiky jako takové, protože je gramatika vyjadřována především vztahy mezi slovy, ale také morfologickými změnami (například koncovky) avšak v souvislosti s užitím dalších slov a tedy i významu a kontextu. Přesto může představovat systém, kterým se lze inspirovat, upravit ho a přizpůsobit k popisu gramatiky.
Druhou částí výsledků morfologické analýzy za využití morfologických značek pozičního systému jsou tzv. lemma, které identifikuje příslušnou abstraktní lexikální jednotku, někdy i větně jeho význam, ve smyslu jednoznačné identifikace slovníkového hesla. V opačném směru smyslu také pro syntézu slovních tvarů, je značka spolu s lemmatem vstupem pro proceduru tvorby slovního tvaru. Morfologická analýza je obecně nejednoznačná. Slovní tvary, brány izolované a bez ohledu na kontext, pochopitelně nemohu být v mnoha případech jednoznačně určeny, a to jak z hlediska lemmatu, tak z hlediska morfologické značky.
Každá značka je řetězcem 15 znaků (16. pozice je dostupná pouze v některých korpusech). Značka je konstruována tak, aby každá pozice odpovídala jedné morfologické kategorii podle víceméně tradičního lingvistického pojetí. Každé hodnotě v dané kategorii odpovídá jeden znak, převážně písmeno velké abecedy (například "P" pro plurál, neboli množné číslo), výjimečně i jiný znak (například "f" pro infinitiv, nebo "," pro podřadicí spojky). Hodnota, která nedává smysl (například pád u sloves), je reprezentována znakem "-" (pomlčka) tedy něco jako významu "vynecháno".
Tradiční lingvistické detailní rozdělení není ovšem vždy respektováno (z nejrůznějších důvodů). Například tvary minulého příčestí sloves (aktivního i pasivního) nejsou rozlišeny z hlediska rodu (ve spojení s gramatickým číslem) pro tvary končící na -l, -ly ani -la. Podobně zkratky a nesklonná substantiva nedávají na výstupu morfologické analýzy 14 značek, jak by bylo možno očekávat, ale jsou anotovány (v technickém smyslu) jednoznačně značkou, kde je pro číslo a pád uveden znak "X", používaný převážně pro tento typ nejednoznačnosti (či spíše neurčitosti). Ačkoliv však je systém nedokonalý z mnoha důvodu, především vyplívající z existence nejednoznačnosti (popisovat nejednoznačnost je vždy obtížný úkol) avšak poskytuje určité řešení, kterým se lze inspirovat a dále rozvíjet.
Pozice 1 - Slovní druh (POS):
- A - adjektivum (přídavné jméno)
- C - numerál (číslovka, nebo číselný výraz s číslicemi)
- D - adverbium (příslovce)
- I - interjekce (citoslovce)
- J - konjunkce (spojka)
- N - substantivum (podstatné jméno)
- P - pronomen (zájmeno)
- R - prepozice (předložka)
- T - partikule (částice)
- V - verbum (sloveso)
- X - neznámý, neurčený, neurčitelný slovní druh
- Z - interpunkce, hranice věty
Pozice 2 - Detailní určení slovního druhu (SUBPOS)
- ! - zkratka jako adverbium
- # - hranice věty (jen u virtuálního slova)
- * - slovo "krát (slovní druh: spojka)
- , - spojka podřadicí
- . - zkratka jako adjektivum
- 0 - předložka s připojeným "-n" (něj, proň, naň …)
- 1 - vztažné přivlastňovací zájmeno "jehož", "jejíž", …
- 3 - zkratka jako číslovka
- 4 - vztažné zájmeno s adjektivním skloňováním
- 5 - zájmeno "on" ve tvarech po předložce "n-" (něj, něho, …)
- 6 - reflexívní zájmeno "se" v dlouhých tvarech (sebe, sobě, sebou)
- 7 - reflexívní zájmeno "se" a "si" pouze v tvarech (ses, sis)
- 8 - přivlastňovací zájmeno "svůj"
- 9 - vztažné zájmeno "jenž" a "již", po předložce "n-" (něhož, niž, …)
- : - interpunkce všeobecně (ne však virtuální slovo)
- ; - zkratka jako substantivum
- = - číslo psané číslicemi (jeli slovní druh "C" číslovka)
- ? - číslovka "kolik"
Matematické nástroje
[editovat]Značkovací jazyky
[editovat]Značkovací jazyk (anglicky markup language) je v informatice prostředek k obohacení textu o dodatečné informace – nejčastěji o významu, struktuře a způsobu zobrazování jednotlivých částí textu. Dodatečné informace se vkládají přímo do textu v podobě značek (anglicky tags), příkazů (anglicky commands) nebo direktiv. (Zdroj: w:značkovací jazyk)
Mezi značkovací jazyky patří HTML, XML, TEX a LATEX a tak dále. Mezi nejvýznamnější a to i pro účely této práce je nejdůležitějším XML.
Využití XML v syntaktické analýze
[editovat]Značkovací jazyk XML lze využít k vytvoření anotovaného slovníku obsahující jak grafemickou, morfologickou tak syntaktickou rovinu. V zájmu konzistentní anotace musí všechny syntaktické struktury v korpusu vyhovovat specifikaci přípustných konstrukcí, definovaných pomocí formální gramatiky. Tento požadavek v sobě zahrnuje i podmínku, že slova a složky mají všechny náležité vlastnosti. Všechna slova z korpusu a také všechny typy složených a víceslovných výrazů jsou obsaženy ve slovníku. Slovník spolu s gramatikou představují abstraktní popis korpusových dat.
Pro kódování treebanku je na výběr několik možností, mezi kterými není snadné si vybrat. Jako nejsnadnější řešení se jevil formát výstupu stochastického parseru, používaný v systému TectoMT. Tento formát vychází z PML (Prague Dependency Lenguage), což je anotační jazyk založený na XML, používaný pro anotaci PDT (Prague Dependency Treebank).
Tento jazyk je však schopen zachytit i složkové struktury a dá se upravit i pro jiné účely. Na druhou stranu tento jazyk neumožňuje zachycení některých vlastností struktury, jako například distinkci mezi povrchovou a hloubkovou hlavou, podspecifikovanou nebo víceznačnou strukturu, složku bez struktury atd.
Dalším standardem, který přicházel v úvahu, jsou specifikace TEI (Text Encoding Iniciative), ale ani ty nenabízejí řešení pro všechny požadavky gramatiky reálných jazyků.
Jazyk XML je však natolik vyhovující, že lze vytvořit nové vlastní standardy kódování gramatických vlastností. K ním je však zapotřebí vytvořit vhodné parsovací algoritmy, které budou schopny s takovým slovníkem pracovat.
Vlastní nástroje
[editovat]Závěr
[editovat]Poznámky
[editovat]Reference
[editovat]Doporučená Literatura
[editovat]- KOCOURKOVÁ, Michaela. Enseignement de la syntaxe structurale selon la méthodologie de Lucien Tesnière. , 2019 [cit. 2019-10-09]. Diplomová práce. Masarykova univerzita, Filozofická fakulta. Vedoucí práce doc. Christophe Gérard L. Cusimano. Dostupné online.
- CHOMSKY, Noam. The Logical Structure of Linguistic Theory. [s.l.]: Springer US, 1975. ISBN 9780306307607. S. 592. (English)