Dizajn baze

AdminIHJJ | Feb. 4, 2023, 12:34 p.m.

1. Svrha baze

Baza hrvatskih morfoloških dubleta – Dvojba iscrpno dokumentira sve slučaje morfološkoga dubletizma u hrvatskom jeziku, odnosno pojave dvaju ili više oblika jedne riječi istoga gramatičkoga značenja. Primjer je za to instrumental jednine imenice misao, koji može glasiti misli ili mišlju. Takva se pojava uz morfološki dubletizam (dvostrukost) naziva i morfološka sinonimija ili u novije vrijeme preobilje. O teoriji dubletnosti (preobilja) na kojoj se temelji baza može se detaljnije pročitati u knjizi: Bošnjak Botica, Tomislava. 2024. Preobilje u hrvatskoj morfologiji. Institut za hrvatski jezik. Zagreb. Knjiga donosi i iscrpan popis kategorija priznatoga (rječnikom i/ili gramatikom potvrđena) i nepriznatoga preobilja u hrvatskom jeziku.

2. Sadržaj baze

U bazu se unose svi poznati slučajevi dubletnosti (preobilja) u hrvatskoj flektivnoj morfologiji. To uključuje, primjerice, dvostruke ili trostruke oblike pojedinih padeža (u jednini ili množini) imenica, dvostruke oblike pojedinih glagolskih vremena (npr. u prezentu) i sl.

Glavni je kriterij za unos neke kategorije u bazu izostanak jasne značenjske razlike između dubletnih oblika.

U bazi su zastupljeni i neki slučajevi dubletnosti u kategorijama koje ne pripadaju tipičnoj fleksiji: komparativi pridjeva (bjelji/bjeliji), imperfektivi glagola (označivati/označavati), neke brojevne riječi (desetero/desetoro) te osnove nekih zamjenica (npr. njezin/njen).

U bazi se u načelu dokumentira samo preobilje koje pripada standardnomu jeziku i koje je potvrđeno u uporabi (npr. misli/mišlju). To je tzv. priznato preobilje. Preobilje može biti i nepotvrđeno, tj. samo leksikografski održavano (npr. tkam/tkembdiju/bde) te nepriznato, tj. normativno neprihvatljivo (npr. G mn. gošći). Nepotvrđeno i nepriznato preobilja u bazu se unosi u posebnim slučajima, o čemu više pod točkom 4 i točkom 5. Razlog je za to dijelom i u tome što katkad nije lako povući strogu granicu između priznatoga i nepriznatoga preobilja, pogotovo s obzirom na razliku među jezičnim priručnicima, pa su i kriteriji za unos u bazu u ovom pogledu slobodniji.

3. Ustroj baze: kategorije, natuknice i pojavnice

Baza donosi popis gramatičkih kategorija u kojima se pojavljuju dubletni oblici te popis pojedinačnih leksema koji u nekom dijelu svoje paradigme imaju dvostruke oblike. O kategorijama vidi točku 4. 

Svaki leksem pripada nekoj kategoriji. Takav se leksem naziva natuknicom. U rijetkim slučajevima, kad jedan leksem pripada dvjema kategorijama, u bazi nalazimo dvije natuknice koje se razlikuju brojkama ‘1’ i ‘2’. Takva je imenica kutkut1 za dublete u Ijd. (kutom kutem), a kut2 za dublete u množini (kutovi kutevi itd.). Svaka natuknica ima svoju stranicu (vidi Upute za pretraživanje) na kojoj su sadržane informacije o natuknici te eventualne potvrde preobilja. Pretraživ popis natuknica može se naći na poveznici

Za određene lekseme popisuju se i potvrde iz korpusa i drugih vrela koje omogućuju uvid u brojčane odnose dubleta. Takve potvrde u bazi nazivamo pojavnicama. Svaka pojavnica, odnosno potvrda određenoga leksema popraćena je sljedećim obilježjima:

  • gramatička oznaka
  • dubletni izraz
  • godina (ako je podatak dostupan)
  • autor (ako je podatak dostupan)
  • djelo (ako je podatak dostupan)
  • korpus
  • izvor (potkorpus)

Primjer za jednu potvrdu oblika mišlju iz korpusa Riznica izgledala bi ovako:

  • Potvrda: Nikako se nije mogao pomiriti s mišlju da brigadi osim juriša ništa drugo ne preostaje.
  • gramatička oznaka preuzeta iz korpusa: Ncfsi
  • dubletni izraz: ju
  • godina: 1962.
  • autor: Joža Horvat
  • djelo: Mačak pod šljemom
  • korpus: Riznica
  • izvor (potkorpus): književni

Gramatičke oznake poput Ncfsi dolaze s popisa MULTEXT-East morfosintaktičkih oznaka koje se upotrebljavaju u dvama korpusima na kojima se temelji baza (vidi točku 6).

Dubletni izraz je informacija koja ovisi o kategoriji dubletnosti. Kod dubleta tipa misli/mišlju oznake će biti ‘i’ i ‘ju’ za ta dva oblika. Kod imenica tipa pauk koje mogu imati dugu ili kratku množinu oznake za tip dublete bit će ‘duga množina’ i ‘kratka množina’ itd.

Podatci o godini, autoru i djelu dolaze iz metapodataka koji su o potvrdama dostupni u korpusima. Podatak o izvoru dodatno specificira žanr teksta (književni, profesionalni, neprofesionalni), o čemu više pod točkom 6. 

4. Kategorije u bazi

U bazi je trenutačno zastupljeno 58 kategorija, a odnose se na priznato preobilje. Svaka kategorija ima svoju stranicu s kratkim opisom i popisom pripadajućih leksema (vidi Upute za pretraživanje). Pretraživ popis kategorija nalazi se na poveznici.

4a. Podtipovi kategorija

Kategorije pokrivaju četiri vrste riječi: imenice, zamjenice, pridjeve i glagole. Prilozi također mogu pokazivati preobilje u komparativu, ali ono proizlazi iz preobilja pridjeva pa se primjeri dubletnih komparativa priloga ne navode kao zasebna vrsta riječi, nego su zasad među pridjevima.

Kategorije preobilja mogu se razvrstati i na druge načine, od kojih su za bazu posebno važna sljedeća dva.

Prvo, neke kategorije preobilja imaju izrazito puno članova (zahvaćenih leksema), a neke tek nekoliko ili samo jedan. Kategorija kojoj pripadaju dublete misli/mišlju izrazito je bogata članovima te gotovo svaka imenica i-sklonidbe (pogotovo ako nije tvorenica na -ad i -) može imati dva oblika u Ijd. Nasuprot tomu dvostruki nastavak u Gmn. pridjeva i zamjenica (-ih ili -iju) nalazimo isključivo u zamjenice sav (svih ili sviju) i prema tome tu kategoriju dubletnosti čini jedan član.

Drugo, kategorije možemo razlikovati po broju zahvaćenih oblika (ćelija) u paradigmi. U slučaju dubletnih oblika misli/mišljusvih/sviju zahvaćena je po jedna ćelija u paradigmi (Ijd. odnosno Gmn.). Kod nekih su leksema zahvaćene potparadigme, npr. kod imenica s dugom i kratkom množinom (npr. pauk) isključivo množina ili kod dvovrsnih glagola tipa kapati  oblici prezentske osnove (kapljem/kapam). Na kraju nalazimo i slučaje u kojima je preobiljem zahvaćena cijela paradigma, primjerice kod dvorodnih imenica tipa palež (Gjd. paleža ili paleži) ili dubletnih imperfektiva tipa označivati/označavati.

4b. Priznato i nepriznato preobilje

Kategorije nepriznatoga preobilja zasad se ne unose. Primjer su imenice muškoga roda na -lac kojima se mimo normativnog pravila, a analogijom s većinom drugih padeža, vokalizacija događa i u nominativu jednine te genitivu množine: N mislioc – Gmn misliocā; N varioc – Gmn variocā; N taoc – Gmn taocā. Ti su oblici česti, pogotovo u govornom jeziku, ali se ne navode u bazi.

S druge strane, pojedini slučaji nepriznatoga preobilja u leksema koji su dio kategorije priznatoga preobilja nerijetko se unose u bazu. Primjer toga su oblici imenica na glas s prijeglasom u dugoj množini, npr. mrazevi, koji su normativno nepriznati (uz priznato mrazovi), ali su dio kategorije u kojoj postoje i leksemi s priznatim preobiljem, npr. knezovi kneževi. O tome više pod točkom 5.

Leksemi s nepriznatim preobiljem osobito će se često naći u bazi kad su ti oblici česti u nekim stilovima standardnoga jezika (npr. publicističkom) i kad su nepriznati oblici vrlo rašireni u općoj uporabi. Činjenica je da normativne upute u mnogim slučajevima nisu posve jasne, što otvara prostor da se takvi preobilni oblici unesu u bazu. Takvi primjeri preobilja iz “sive zone” nisu rijetki, a posebno su zanimljivi jer mogu upućivati na jezičnu promjenu u tijeku. 

Odluke o uključivanju pojedinih oblika i kategorija obično se donose na temelju pojedinačnih slučajeva i u tom su smislu kriteriji za uključivanje neke kategorije ili leksema unutar kategorije fleksibilni. Na odstupanja od uobičajenih kriterija uvijek se upućuje u tekstu koji opisuje pojedinačnu  kategoriju.

5. Kriteriji za unos natuknica i pojavnica (potvrda)

U bazi je kategorijama pridružena natuknica, a natuknicama pojavnice (potvrde). 

5a. Unos natuknica

U bazu se unose sve natuknice za koje je preobilje zabilježeno ili samo u rječnicima (nepotvrđeno) ili u uporabi i rječnicima (priznato). Međutim, u nekim je slučajima preobilje potvrđeno samo u korpusima (tzv. nepriznato preobilje). Kao što smo već naglasili (točka 4b), leksemi s nepriznatim preobiljem poput mraz (N mn. mrazovi ili mrazevi) unose se ako su dio kategorije priznatoga preobilja, i to obično u slučaju gdje je preobilje posebno rašireno u svakodnevnoj uporabi.

Svaka natuknica ima svoju stranicu (vidi Upute za pretraživanje) na kojoj se daju informacije o tome kojem tipu preobilja pripadaju, napomene o uporabi, potvrđenosti i svi ostali poznati podatci. Na taj način baza postupno dobiva obilježja rječnika dubleta. Informacije o natuknicama zasad se unose sustavno samo za nepotvrđeno i nepriznato preobilje.

5b. Unos pojavnica

Jedna od svrha baze jest i kvantitativno utemeljeno istraživanje preobilja. Zbog toga se u bazu unose i potvrde preobilja u obliku pojavnica (vidi točku 3). Cilj je navođenja potvrda dobivanje uvida u brojčane odnose između dubleta. 

Potvrde za preobilje prikupljaju se primarno iz dvaju korpusa suvremenoga jezika, korpusa Riznica i potkorpusa forum.hr mrežnoga korpusa hrWaC (vidi točku 6). Potvrde u bazu dolaze iz još nekih vrela, o čemu također vidi točku 6. U bazi je trenutačno oko 83 tisuće potvrda.

Pojavnice se unose u bazu ako zadovoljavaju sljedeća dva kriterija. Prvo, dubletni oblici moraju imati ukupno barem po 5 potvrda u obama korpusima. Dakle, u bazi će se naći imenica i-deklinacije na -ost koja u Ijd. ima 3 potvrde oblika na -osti i 2 potvrde oblika na -ošću, ali to neće biti slučaj ako svaki oblik ima 2 potvrde. Ako imenica ima manje od 5 potvrda, bilježi se da nema dovoljno potvrda. Ovaj je kriterij uspostavljen da bi se izbjeglo unošenje okazionalizama u bazu.

Drugo, slabije posvjedočeni oblici moraju imati udio od najmanje 5 % u ukupnom broju dubleta u barem jednom korpusu. Dakle, ako Ijd. neke imenice na -ost ima 40 potvrda, onda barem dvije potvrde moraju biti na -osti, a ostalih 38 na -ošću (ili obratno) u jednom korpusu kako bi se potvrde unijele u bazu. Ako u obama korpusima jedan oblik ima više od 95 % udjela, onda se ta informacija unosi u opis natuknice i ne ispisuju se potvrde. Ovaj je kriterij uspostavljen da bi se izbjeglo unošenje rubno posvjedočenih dubleta i tako se razlučilo potvrđeno i nepotvrđeno preobilje.

6. Izvori pojavnica (potvrda) za bazu

Glavni su izvor potvrda dva korpusa suvremenoga hrvatskoga jezika Riznica i potkorpus forum.hr mrežnoga korpusa hrWaC. Potvrde se unose iz dvaju izvora radi razlikovanja žanrova. Korpus Riznica vrelo je potvrda iz standardnoga hrvatskoga jezika velike većine 20. stoljeća i početka 21. stoljeća te ponešto starijih tekstova. Tekstovi pripadaju književnom i publicističkom stilu. Nasuprot njemu potkorpus forum.hr mrežnoga korpusa hrWaC izabran je kao predstavnik nestandardnoga (neformalnoga) jezika početka 21. stoljeća. Dosadašnja istraživanja jasno su pokazala izražene razlike između tih dvaju korpusa koje u većini slučajeva potvrđuju ono što je i inače poznato o razlikama između standardnoga i razgovornoga hrvatskoga jezika. Potkorpus forum.hr izabran je umjesto cijeloga korpusa hrWaC zato što je hrWaC mješovit korpus koji sadržava i tekstove na standardnom jeziku. Izborom forum.hr-a dobiveno je žanrovski konzistentno vrelo. 

Podatak o korpusu u bazi je dopunjen informacijom o izvoru (potkorpusu), koji ima tri razine: profesionalni, književni i neprofesionalni. Sve potvrde iz potkorpusa forum.hr spadaju pod kategoriju neprofesionalni izvor, dok se unutar Riznice razlikuju profesionalni i književni izvori. Književni izvori su djela književnosti i književne esejistike, dok su profesionalni izvori novinski tekstovi i stručna literatura. 

Potvrde u bazi mogu doći iz još dvaju izvora.

Manji dio potvrda dolazi iz Hrvatskoga nacionalnog korpusa (HNK), i to isključivo iz kategorije komparativa pridjeva i priloga (oko 800 potvrda). Potvrde iz ovoga korpusa prikupljene su u zasebnim projektima prije nastanka baze te se ne planira nastavak prikupljanja potvrda iz toga korpusa.

Baza ima i dijakronijsku dimenziju te se u nju unose potvrde iz predstandardnoga razdoblja hrvatskoga jezika (do kraja 19. st.). Takve potvrde označene su kao dio korpusa Starija vrela iako nije riječ o gotovom korpusu.

Uvid u zastupljenost pojedinih potvrda može se naći na poveznici.

Ostale objave

Ovdje možete pronaći sve najnovije objave, kao i upute za pretraživanje

Više