Slobodno dostupni skupovi podataka za treniranje i testiranje jezičkih modela izrađeni kroz projekte ReLDI centra
Osnovna obrada (parsiranje) teksta

NOVINSKI TEKSTOVI
srpski SETimes.SR 2.0
hrvatski hr500k 2.0
Skupovi podataka izrađeni u sklopu inicijalnog projekta ReLDI. Osim ručno obeleženih lema i morfosintaksičkih oznaka po MULTEXT-East specifikacijama, ovi korpusi sadrže i sintaksičku anotaciju univerzalnih dependencija (UD), kao i oznake osnovnih kategorija imenovanih entiteta. Novinski tekstovi su preuzeti sa portala SETimes, a izrada korpusa je opisana u narednim radovima za srpski i hrvatski korpus, dok ovaj rad opisuje proces sintaksičke anotacije.

PRAVNO-ADMINISTRATIVNI TEKSTOVI
srpski, ekavica i ijekavica
Skup podataka izrađen u saradnji sa Inovacionim centrom Elektrotehničkog fakulteta u Beogradu, u sklopu projekta COMtext.SR, podržanog od strane domaćih i stranih fondacija i kompanija. Korpus sadrži reprezentativne pravno-administrativne tekstove sakupljene uz pomoć advokatske kancelarije Karanović & Partners. Tekstovi su ručno obeleženi u pogledu lema, morfosintaksičkih oznaka po MULTEXT-East specifikacijama, i imenovanih entiteta, korišćenjem detaljne, namenski razvijene šeme entiteta u pravno-administrativnim tekstovima.

TWITTER / X
srpski ReLDI-NormTagNER-sr 3.0
hrvatski ReLDI-NormTagNER-hr 3.0
Skupovi podataka izrađeni u sklopu inicijalnog projekta ReLDI, u saradnji sa projektom JANES. Korpusi sadrže ručno obeležene leme, morfosintaksičke oznake po MULTEXT-East specifikacijama, oznake osnovnih kategorija imenovanih entiteta, kao i normalizaciju nestandardnog pisanja. Uzorci tekstova su sakupljeni uz pomoć alata TweetCaT. Izrada korpusa je opisana u ovom radu.
Semantička obrada (razumevanje) teksta

SEMANTIČKA SLIČNOST
srpski, novinski tekstovi STS.news.sr
Skup podataka izrađen u sklopu doktorske disertacije Vuka Batanovića uz podršku inicijalnog projekta ReLDI. Sadrži parove rečenica kojima su ručno dodeljeni skorovi semantičke sličnosti od 0 do 5, po sistemu međunarodnog takmičenja SemEval. Izrada korpusa je opisana u ovom radu.
srpski, novinski tekstovi CLSS.news.sr
Skup podataka izrađen u sklopu projekta AVANTES. Sadrži parove tekstova različitih dužina (sintagma/rečenica, rečenica/paragraf) kojima su ručno dodeljeni skorovi semantičke sličnosti od 0 do 4, po sistemu međunarodnog takmičenja SemEval. Izrada korpusa je opisana u ovom radu.

SENTIMENT
srpski, filmski komentari SentiComments.SR
Skup podataka izrađen u sklopu doktorske disertacije Vuka Batanovića, uz podršku inicijalnog projekta ReLDI. Sadrži kratke komentare na filmove kojima je ručno dodeljena ocena sentimenta koja izražava polarnost (pozitivno/negativno), subjektivnost (objektivno/subjektivno), mešavinu sentimenata/dvosmislenost, kao i prisustvo sarkazma. Izrada korpusa je opisana u ovom radu.
srpski, filmske recenzije SerbMR
Skup podataka izrađen u sklopu doktorske disertacije Vuka Batanovića. Sadrži recenzije filmova kojima je automatski dodeljena ocena polarnosti (pozitivno/neutralno/negativno) na osnovu uobičajenih ocena od 1 do 10 u recenzijama. Izrada korpusa je opisana u ovom radu.

REZONOVANJE
srpski, prevod sa engleskog COPA
Prevod engleskog skupa podataka za evaluaciju semantičke obrade na nivou rezonovanja, izrađen u saradnji ReLDI Centra i CLASSLA kao jedan od prioritetnih skupova za razvoj veštačke inteligencije na srpskom. Sadrži triplete rečenica gde je svakoj premisi dodeljen jedan tačan i jedan pogrešan zaključak. ReLDI centar je posredovao i u izradi makedonske verzije ovog skupa kao i dijalekatskih verzija uključenih u DIALECT-COPA.
Obrada govora

JUŽNE VESTI
srpski, audio i transkript
Skup podataka za dotreniranje modela za konverziju govora u tekst izrađen u CLASSLA centru uz pomoć ReLDI centra. Sadrži uzorke govora iz video izdanja emisije „15 minuta“ portala Južne vesti. Originalni transkripti su automatski poravnati sa audio signalom.

MAK NA KONAC
srpski i hrvatski, audio
Skup podataka namenjen objektivnom poređenju performansi modernih modela za konverziju govora u tekst izrađen u saradnji sa centrom CLASSLA. Trenutno sadrži audio uzorke radijskih i video emisija sa portala Peščanik, Južne vesti i Radio Student Zagreb u ukupnom trajanju od 15 sati. Više informacija u ovoj publikaciji.

Pregled i obrada podataka putem CLARIN.SI
Interfejs za pregled mnogobrojnih skupova podataka uključujući i neke od naših
Interfejs za osnovnu obradu teksta pomoću velikih jezičkih modela dotreniranih na našim podacima za sprski i hrvatski. Sadašnji anotator je novija i verzija nekadašnjeg ReLDIanno