Anna Nědolužko

Rozšířená textová koreference a asociační anafora - Koncepce anotace českých dat v Pražském závislostním korpusu

V této práci představujeme jeden z možných modelů zpracovaní rozšířené textové koreference a asociační anafory na velkém korpusu textů, který dále používáme pro anotaci daných vztahů v textech Pražského závislostního korpusu. Na základě literatury z oblasti teorie reference, diskurzu a některých dalších poznatků teoretické lingvistiky na jedné straně a s použitím existujících anotačních metodik na straně druhé jsme vytvořili detailní klasifikaci textově koreferenčních vztahů a typů vztahů asociační anafory. V rámci textové koreference rozlišujeme dva typy textově koreferenčních vztahů - koreferenční vztah mezi jmennými frázemi se specifickou referencí a koreferenční vztah mezi jmennými frázemi s nespecifickou, především generickou referencí. Pro asociační anaforu jsme stanovili šest typů vztahů: vztah PART mezi částí a celkem, vztah SUBSET mezi množinou a podmnožinou/prvkem množiny, vztah FUNCT mezi entitou a určitým objektem, který má vzhledem k této entitě jedinečnou funkci, vztah CONTRAST vyjadřující sémantický a kontextový protiklad, vztah ANAF označující anaforické odkazování mezi nekoreferenčními entitami a vztah REST pro jiné případy asociační anafory. Jedním z úkolů výzkumu bylo vytvořit systém teoretických principů, které je nutno dodržovat při anotaci koreferenčních vztahů a asociační anafory. V rámci tohoto systému byl zaveden například princip důslednosti anotace, princip dodržování maximálního koreferenčního řetězce, princip kooperace se syntaktickou strukturou tektogramatické roviny, princip preference koreferenčního vztahu před asociační anaforou a další. Vypracovanou klasifikaci jsme aplikovali na koreferenční a anaforické vztahy v Pražském závislostním korpusu (Prague Dependency Treebank, PDT). Anotace těchto vztahů byla provedena na polovině korpusu PDT (cca 25 tis. vět). Srovnání shody mezi anotátory při navazování vztahů a určování typů těchto vztahů ukázalo, že použitá klasifikace při daném rozsahu materiálu je spolehlivá zejména pro účely teoretického výzkumu; pro počítačové aplikační účely (strojový překlad, automatické učení atd.) je nutné rozšíření materiálové základny.

V této práci představujeme jeden z možných modelů zpracovaní rozšířené textové koreference a asociační anafory na velkém korpusu textů, který dále používáme pro anotaci daných vztahů v textech Pražského závislostního korpusu. Na základě literatury z oblasti teorie reference, diskurzu a některých dalších poznatků teoretické lingvistiky na jedné straně a s použitím existujících anotačních metodik na straně druhé jsme vytvořili detailní klasifikaci textově koreferenčních vztahů a typů vztahů asociační anafory. V rámci textové koreference rozlišujeme dva typy textově koreferenčních vztahů - koreferenční vztah mezi jmennými frázemi se specifickou referencí a koreferenční vztah mezi jmennými frázemi s nespecifickou, především generickou referencí. Pro asociační anaforu jsme stanovili šest typů vztahů: vztah PART mezi částí a celkem, vztah SUBSET mezi množinou a podmnožinou/prvkem množiny, vztah FUNCT mezi entitou a určitým objektem, který má vzhledem k této entitě jedinečnou funkci, vztah CONTRAST vyjadřující sémantický a kontextový protiklad, vztah ANAF označující anaforické odkazování mezi nekoreferenčními entitami a vztah REST pro jiné případy asociační anafory. Jedním z úkolů výzkumu bylo vytvořit systém teoretických principů, které je nutno dodržovat při anotaci koreferenčních vztahů a asociační anafory. V rámci tohoto systému byl zaveden například princip důslednosti anotace, princip dodržování maximálního koreferenčního řetězce, princip kooperace se syntaktickou strukturou tektogramatické roviny, princip preference koreferenčního vztahu před asociační anaforou a další. Vypracovanou klasifikaci jsme aplikovali na koreferenční a anaforické vztahy v Pražském závislostním korpusu (Prague Dependency Treebank, PDT). Anotace těchto vztahů byla provedena na polovině korpusu PDT (cca 25 tis. vět). Srovnání shody mezi anotátory při navazování vztahů a určování typů těchto vztahů ukázalo, že použitá klasifikace při daném rozsahu materiálu je spolehlivá zejména pro účely teoretického výzkumu; pro počítačové aplikační účely (strojový překlad, automatické učení atd.) je nutné rozšíření materiálové základny.

Jazyk český
Vydavateľ Ústav formální a aplikované lingvistiky
Rok vydania 2011
Počet strán 268
Typ viazania pevná
Hmotnosť (g) 583 g
Rozmery (š-v-h) 240x170
EAN 9788090457126
Dodacia doba nedostupné


Dalšie obľúbené tituly z kategórie:


Žite ako mačka
-9%
Stéphane Garnier
Dodacia doba
online cena - Skladom - 1 pracovný deň
13,99 €
12,74 €
Dračie zuby
-9%
Michael Crichton
Dodacia doba
online cena - Skladom - 1 pracovný deň
15,99 €
14,56 €
Päťminútovky zo slovenského jazyka pre 5. a 6. ročník základných škôl
-9%
Terézia Lampartová
Dodacia doba
online cena - Skladom - 1 pracovný deň
3,50 €
3,19 €
Príbehy pre maličkých
-9%
autor neuvedený
Dodacia doba
online cena - Skladom - 1 pracovný deň
7,99 €
7,28 €
Babi, čítaj mi!
-9%
Kolektív autorov
Dodacia doba
online cena - Skladom - 1 pracovný deň
11,90 €
10,83 €
Dorka Magorka má ozajsky ozajskú kamošku
-9%
Abby Hanlon
Dodacia doba
online cena - Skladom - 1 pracovný deň
6,95 €
6,33 €
Uvidíme sa v auguste
-9%
Gabriel García Márquez
Dodacia doba
online cena - Skladom - 1 pracovný deň
12,95 €
11,79 €
Cyklická žena
-9%
Miranda Gray
Dodacia doba
online cena - Skladom - 1 pracovný deň
14,90 €
13,56 €