O korpusie

Wprowadzenie

Korpus Zależności Referencyjnych jest anotowanym lingwistycznie relacjami referencyjnymi i pomocniczymi zbiorem tekstów stworzonym na potrzeby wielkoskalowej analizy nominalnych relacji referencyjnych w polszczyźnie.

W skład korpusu wchodzi:

1745 tekstów „krótkich” — stanowiących pełne akapity próbek o długości ok. 300 tekstów, wybranych z NKJP z zachowaniem oryginalnej proporcji typów tekstów (495 866 segmentów),
21 tekstów „długich” — kompletnych tekstów wybranych z tzw. Korpusu „Rzeczpospolitej” i odpowiadających 7 działom tematycznym gazety (36 300 segmentów).

Informacje licencyjne

Anotacje lingwistyczne są dostępne na licencji CC-BY.

Autorzy

Korpus powstał w Zespole Inżynierii Lingwistycznej Instytutu Podstaw Informatyki PAN w ramach dwóch projektów:

Komputerowe metody identyfikacji nawiązań w tekstach polskich (CORE), realizowanym w latach 2011–14 i finansowanym ze środków Ministerstwa Nauki i Szkolnictwa Wyższego,
Ujednolicona teoria koreferencji w języku polskim i jej korpusowa weryfikacja (COTHEC), realizowanym w latach 2015–18 i finansowanym ze środków Narodowego Centrum Nauki.

W pracach nad korpusem udział wzięli:

pomysłodawca i koordynator prac korpusowych — Maciej Ogrodniczuk,
lingwistki — Katarzyna Głowińska, Agata Savary, Alicja Wójcicka, Magdalena Zawisławska,
informatycy — Zbigniew Gawłowicz, Mateusz Kopeć, Paweł Morawiecki, Bartłomiej Nitoń,
anotatorzy — Bartłomiej Alberski, Anna Andrzejczuk, Maria Głąbska, Anna Grzeszak, Agnieszka Kostrowiecka, Emilia Kubicka, Dawid Lipiński, Barbara Milanowska, Ewelina Pędzich, Barbara Pukalska, Paulina Rosalska, Adrian Sulich, Michał Szczyszek, Daniel Ziembicki, Sebastian Żurowski.

Publikacje

Maciej Ogrodniczuk, Katarzyna Głowińska, Mateusz Kopeć, Agata Savary, Magdalena Zawisławska (2015). Coreference in Polish: Annotation, Resolution and Evaluation. Walter De Gruyter.

Więcej informacji zawiera strona z danymi do pobrania.

Informacje kontaktowe

Prosimy o kontakt pod adresem:

Maciej Ogrodniczuk
Instytut Podstaw Informatyki PAN
ul. Jana Kazimierza 5
01-248 Warszawa
tel. (+48 22) 38 00 563
e-mail: maciej.ogrodniczuk@ipipan.waw.pl