O korpusie


Wprowadzenie

Korpus Zależności Referencyjnych jest anotowanym lingwistycznie relacjami referencyjnymi i pomocniczymi zbiorem tekstów stworzonym na potrzeby wielkoskalowej analizy nominalnych relacji referencyjnych w polszczyźnie.

W skład korpusu wchodzi:

  • 1745 tekstów „krótkich” — stanowiących pełne akapity próbek o długości ok. 300 tekstów, wybranych z NKJP z zachowaniem oryginalnej proporcji typów tekstów (495 866 segmentów),
  • 21 tekstów „długich” — kompletnych tekstów wybranych z tzw. Korpusu „Rzeczpospolitej” i odpowiadających 7 działom tematycznym gazety (36 300 segmentów).

 

Informacje licencyjne

Anotacje lingwistyczne są dostępne na licencji CC-BY.

 

Autorzy

Korpus powstał w Zespole Inżynierii Lingwistycznej Instytutu Podstaw Informatyki PAN w ramach dwóch projektów:

W pracach nad korpusem udział wzięli:

  • pomysłodawca i koordynator prac korpusowych — Maciej Ogrodniczuk,
  • lingwistki — Katarzyna Głowińska, Agata Savary, Alicja Wójcicka, Magdalena Zawisławska,
  • informatycy — Zbigniew Gawłowicz, Mateusz Kopeć, Paweł Morawiecki, Bartłomiej Nitoń,
  • anotatorzy — Bartłomiej Alberski, Anna Andrzejczuk, Maria Głąbska, Anna Grzeszak, Agnieszka Kostrowiecka, Emilia Kubicka, Dawid Lipiński, Barbara Milanowska, Ewelina Pędzich, Barbara Pukalska, Paulina Rosalska, Adrian Sulich, Michał Szczyszek, Daniel Ziembicki, Sebastian Żurowski.

 

Publikacje

Więcej informacji zawiera strona z danymi do pobrania.

 

Informacje kontaktowe

Prosimy o kontakt pod adresem:

Maciej Ogrodniczuk
Instytut Podstaw Informatyki PAN
ul. Jana Kazimierza 5
01-248 Warszawa
tel. (+48 22) 38 00 563
e-mail: maciej.ogrodniczuk@ipipan.waw.pl