Morozova M., Rusakov A. Korpusi elektronik i shqipes: përpunimi, përmbajtja dhe përdorimi

FAKULTETI I FILOLOGJISË – PRISHTINË

FAKULTETI HISTORI-FILOLOGJI – TIRANË

SEMINARI XXXII NDËRKOMBËTAR PËR GJUHËN, LETËRSINË DHE

KULTURËN SHQIPTARE

THE XXXII INTERNATIONAL SEMINAR FOR ALBANIAN LANGUAGE,

LITERATURE AND CULTURE

PRISHTINË, 2013

Fakulteti i Filologjisë – Prishtinë Fakulteti Histori-Filologji – Tiranë

SEMINARI XXXII NDËRKOMBËTAR PËR GJUHËN, LETËRSINË DHE

KULTURËN SHQIPTARE

Prishtinë, 19-30.08.2013

THE XXXII INTERNATIONAL SEMINAR FOR ALBANIAN LANGUAGE, LITERATURE AND CULTURE

Kryeredaktor:

Bardh Rugova

Redaksia:

Drejtor: Bardh Rugova

Bashkëdrejtor: Aljula Jubani

Sekretar: Nysret Krasniqi

Bashkësekretar: Persida Asllani

Sekretar profesional: Blertë Ismajli

Drejtor nderi: Akademik Idriz Ajeti

Këshilli Drejtues i Seminarit:

Bardh Rugova, Nysret Krasniqi, Rrahman Paçarizi, Anton Berishaj, Mehdi Polisi,

Bajram Kosumi, Muhamet Hamiti, Teuta Abrashi, Suzana Canhasi, Valbona Gashi,

Aljula Jubani, Persida Asllani

Përgjegjëse për kurset e gjuhës dhe drejtuese e referimeve të gjuhësisë:

Sala Ahmetaj

Drejtues i referimeve të letërsisë: Liman Matoshi

Redaktor teknik: Besfort Krasniqi

Botues: Fakulteti i Filologjisë, Prishtinë

KORPUSI ELEKTRONIK I SHQIPES: PËRPUNIMI, PËRMBAJTJA DHE PËRDORIMI

85

Maria MOROZOVA, Aleksandër RUSAKOV


Përpunimi i korpuseve gjuhësore merr një rëndësi të veçantë në kuadrin e

gjuhësisë kompjuterike dhe të studimeve gjuhësore në përgjithësi. Korpusi gjuhësor

është një përmbledhje tekstesh, përfshirë tekstet e shkruara në një gjuhë, ashtu edhe

gjuhën e folur. Ndryshe nga bibliotekat elektronike, në korpusin gjuhësor të gjitha

tekstet dhe pjesët e tyre, siç janë paragrafët, fjalitë dhe fjalëformat, duhen të jenë të

analizuara dhe të pajisura me përshkrimin e informacionit gjuhësor dhe jogjuhësor,

d.m.th. të annotuara (angl. annotation ‘shënim, sqarim’). Mjetet programore të kërkimit

në korpuse të mëdha marrin për bazë sistemin e annotimit dhe i ndihmojnë përdoruesit

të gjejë fjalëformat, fjalët dhe togfjalëshat sipas veçorive të tyre morfologjike ose duke

pasur parasysh karakteristikat jogjuhësore të teksteve.

Krijimi i korpusit të tillë të annotuar ka për qëllim që t’i ndihmojë punën e

gjuhëtarëve lidhur me grumbullimin e shembujve gjuhësore të shumta. Puna e tillë më

përpara zakonisht bëhej me dorë përmes shfletimit të librave të shumtë dhe burimeve

të tjera të shtypura. Korpusi elektronik u jep mundësinë përdoruesve të gjejnë shpejt

shembuj të duhura, ashtu edhe të nxjerrin statistikën për dendurinë e fjalëve të përdorura

në një ose disa tekste të preferuara (ose në gjithë korpusin). Rezultatet e studimeve

gjuhësore të bazuara në korpusin elektronik mund t’u shërbejnë fushave të morfologjisë

dhe sintaksës, ashtu edhe të ortografisë, fonetikës, semantikës, leksikografisë etj. Qëllimi

tjetër i krijimit të korpusit gjuhësor gjithëpërfshirës është dokumentimi i gjuhës sipas

fushës, kohës, përkatësisë dialektore të teksteve, tipit ose zhanrit të tyre etj. Korpusi i

tillë mund të shfrytëzohet në studime diakronike të zhvillimit gjuhësor të shfaqur në

tekstet që u përkasin periudhave të ndryshme historike.

Gjuha shqipe, një gjuhë indoevropiane që flitet nga më shumë se 8 milionë folës

amtarë në mbarë botën, më përpara nuk kishte Korpusin e vet të annotuar. Në fund të

vitit 2011 Korpusin e tillë e filluan të krijonin specialistët nga Sankt-Peterburgu dhe


86

Moska1. Grupin e Moskës e kryeson Prof. Dr. Vladimir A. Plungian, drejtori i

departamentit për Corpus linguistics (“gjuhësi e korpuseve”) në Institutin e gjuhës ruse të

Akademisë së shkencave të Rusisë dhe pjesëmarrësi i projekteve “Korpusi nacional i

gjuhës ruse” (Национальный корпус русского языка) dhe “Korpusi nacional i armenishtes

lindore” (Восточноармянский национальный корпус)2. Specialistët nga Moska kontribuojnë

në zgjidhjen e problemeve teknike dhe gjuhësore që lidhen me përpunimin e Korpusit.

Shkencëtarët nga Sankt-Peterburgu, me Prof. Dr. Aleksandër Ju. Rusakovin në krye,

përfaqësojnë institucione të tilla si Instituti i studimeve linguistike i Akademisë së

shkencave të Rusisë dhe Universiteti shtetëror i Sankt-Peterburgut. Puna e ekipit të

Sankt-Peterburgut lidhet me grumbullimin dhe përgatitjen e teksteve për bazën

tekstuale, me përpunimin e annotimit, krijimin e fjalorit gramatikor të Korpusit dhe

zgjidhjen e çështjeve të ndryshme teorike. Grumbullimi i teksteve bëhet me ndihmën e

kolegëve dhe të shtëpive botuese të Kosovës dhe Shqipërisë.

Krijimi i një korpusi gjuhësor, përfshirë edhe atë të shqipes, ndahet në disa etapa

kryesore. Në etapën e parë grumbullohet dhe përshkruhet baza tekstuale, d.m.th. tekstet

në formë elektronike ku dokumentohet gjuha në shqyrtim. Në etapën e dytë tekste të

grumbulluara pajisen me informacionin gjuhësor. Për këtë duhet puna paraprake që

lidhet me krijimin e sistemit të annotimit dhe me përpunimin e fjalorit gramatikor, që

përdoret pastaj brenda programit të analizës automatike morfologjike, ose parser-it.

Etapa e tretë përfshin krijimin ose adaptimin e platformës kërkimi dhe vendosjen e

korpusit gjuhësor në Internet.

1. Përbërja e Korpusit elektronik të shqipes. Në nëntorin e vitit 2012 e

përgatitëm dhe vendosëm online versionin provë të Korpusit të shqipes me rreth 750

mijë fjalë teksti. Korpusi vazhdon të zhvillohet dhe plotësohet që nga ai moment, dhe

sipas të dhënave të dhjetorit 2013 përmbante rreth 16,8 milionë fjalë teksti (shih

Tabelën 1). Vlen përmendur që një “standard madhësie” i arritur së pari në Korpusin

nacional Britanik (British National Corpus) është 100 milionë fjalë teksti, kurse madhësia

e korpuseve të tjera bashkëkohore shkon shumëfish përtej. Për shembull, Korpusi

nacional i gjuhës ruse përmbante më shumë se 500 milionë fjalë teksti në fund të vitit

2013. Këta numra duhen konsideruar si qëllim për zhvillimin e mëtejshëm të Korpusit

të shqipes.

Nga pikëpamja e trajtimit të teksteve, Korpusi i shqipes zhvillohet si një korpus

i baraspeshuar (angl. Reference corpus), që pasqyron gjuhën në mënyrë gjithëpërfshirëse

1 Përpunimi i Korpusit mbështetet nga Programi i kërkimeve fundamentale të Akademisë së shkencave së Rusisë “Corpus linguistics”, granti “Korpusi nacional i gjuhës shqipe”. Versioni aktual i Korpusit në përpunim gjendet online: http://web-corpora.net/AlbanianCorpus/search/ 2 Versionet online: http://www.ruscorpora.ru/, http://eanc.net/EANC/search/

http://www.ruscorpora.ru/

http://eanc.net/EANC/search/


87

duke shfaqur sa më shumë tekste të zhanreve të ndryshme dhe të çdo madhësie. Kështu

korpuset e tanishme dallohen nga ato të gjeneratës së parë, për shembull, nga Korpusi i

Braunit (Brown University Standard Corpus of Present-Day American English), i cili përmban

500 tekste dhe fragmente të teksteve të mëdha, me madhësinë e kufizuar deri në 2000

fjalë. Për sa i përket mënyrës së plotësimit, Korpusi i shqipes trajtohet si një korpus

dinamik, ose “i hapur”, përmbajtja e të cilit do të ndryshojë kohë pas kohe, duke

mbajtur strukturën dhe disa veçori të tjera themelore – ndryshe nga korpuset statike,

madhësia e të cilave caktohet në fazën e krijimit dhe pastaj mbetet e pandryshueshme.

Tabela 1. Struktura dhe përmbajtja e Korpusit elektronik të shqipes (më 1 dhjetor

2013).

Fjalë teksti Përqindja

në tërë Korpusin Sasia e

dokumenteve

Vepra letrare

Romanet 1,202,284 7,15% 23

tregime të shkurtra

505,272 3,01% 121

Dramat 16,334 0,1% 2

Vepra joletrare

Fetare 1,095,960 6,43% 62

Esetë 181,750 1,08% 18

Shkencore 1,119,248 6,66% 15

Zyrtare 329,168 1,96% 43

Shtypi

12,369,042 73,61% 39,310

Tekstet gojore

- - -

TOTAL 16,804,058 100% 39,594

Tekstet që përbëjnë versionin e sotshme të Korpusit elektronik të shqipes nxirren

nga internet-burime të hapura (siç janë, për shembull, tekstet gazetare të “Gazetës

shqiptare”, http://www.balkanweb.com/gazetav5/), ose skanohen dhe përgatiten

http://www.balkanweb.com/gazetav5/


88

pastaj me dorë (siç janë shumica e veprave letrare dhe joletrare në Korpusin). Për të

krijuar një korpus të baraspeshuar, krijuesit kanë zgjedhur tekstet e fushave të ndryshme

dhe i kanë ndarë ato në disa nënkorpuse të veçanta sipas fushave të caktuara (tekstet

letrare, joletrare, shtypi dhe nënkorpusi i planifikuar i teksteve gojore). Tekstet letrare

dhe joletrare brenda nënkorpuseve përkatëse ndahen në grupet edhe sipas zhanrit të

tekstit (për shembull, tekste letrare përfshijnë tregime të shkurtra, romanet, dramat etj.).

Me rendësi thelbësore është edhe përqindja e teksteve të çdo tipi në krahasim me tipat

e tjerë. Për sa i përket Korpusit tonë, për momentin shumica dërmuese e teksteve të

bazës tekstuale bie në fushën e gazetarisë, por gjatë punës së mëtejshme përmbajtja e

Korpusit do të balancohet me anë të teksteve të tjera.

Zhvillimi i mëtejshëm i bazës tekstuale të Korpusit lidhet, në radhë të parë, me

zmadhimin e saj, që të gjenden në korpus të gjitha fjalët, strukturat dhe shprehjet e

shqipes e kërkuara. Drejtimi tjetër i zhvillimit lidhet me krijimin e nënkorpuseve të reja

me tekste të përfituara nga gjuha e folur, poezi, dialektet, internet-komunikimi dhe me

tekste të periudhave të ndryshme historike. Momentalisht nënkorpusi i teksteve letrare

përmban vetëm tekstet në gjuhën standarde e viteve 1960-të – 2010-të. Përveç këtij

nënkorpusi kryesor që do të zgjerohet, gjatë plotësimit të mëtejshëm të bazës tekstuale

mund të krijohen: nënkorpusi i teksteve të vjetra të shkruara shumë kohë përpara

standardizimit të shqipes, ashtu edhe një nënkorpus i gegërishtes dhe një përzgjedhje

reprezentative e teksteve letrare të arbëreshëve të Italisë.

Për një pasqyrim më të plotë dhe adekuat të gjuhës së sotme shqipe, Korpusi

elektronik mund të plotësohet edhe me tekstet e përfituara nga gjuha e folur –

spontane dhe të parapërgatitura, të karakterit dialogjik dhe atij monologjik, të stilit zyrtar

dhe atij bisedor; tekstet që u përkasin sferave të ndryshme të komunikimit etj. Si

shembull mund të përmendet këtu Korpusi i rusishtes, në përbërjen e të cilit ka pjesa e

quajtur “Korpusi i gjuhës së folur” që përmban incizime të transkriptuara të programeve

televizive dhe radio, ligjëratave dhe bisedave të përditshme në rrugë, në zyrë ose në

shtëpi. Një tip tjetër tekstesh që mund të përbëjnë një nënkorpus të veçantë i përket

fushës së Internet-komunikimit me e-mail, nëpër çatë, blogë dhe forume, në të cilin,

faktikisht, ndërthurin veçori të të shkruarit me këto të të folurit. Së fundi, llojllojshmëria

regjionale e varianteve të të folurit mund të shfaqet në Korpusin elektronik të shqipes

me anë të një nënkorpusi dialektor me tekste të mbledhura në krahina të ndryshme

shqipfolëse.

2. Annotimi në Korpusin elektronik të shqipes. Siç u përmend në fillim,

pjesën e rëndësishme të ndërtimit të një korpusi gjuhësor përbën analiza dhe përshkrimi

i teksteve, d.m.th. annotimi. Tekstet e Korpusit elektronik të shqipes janë të pajisura

me dy tipa të annotimit të karakterit gjuhësor dhe jogjuhësor.


89

2.1. Annotimi metatekstual. Së pari, secili nga 39,594 dokumente të Korpusit

pajiset me informacionin metatekstual (jogjuhësor) të caktuar. Duke pasur parasysh

këtë informacion, vet përdoruesi mund të formojë një nënkorpus me parametra të

dëshiruara dhe të realizojë kërkimin e mëtejshëm brenda këtij nënkorpusi. Për shembull,

mund të zgjidhen vetëm tekstet publicistike (Shtypi) ose vetëm tekstet e krijuara në vitet

1980-të. Informacioni metatekstual mund të luajë një rol të rëndësishëm edhe në

radhitjen e rezultateve të kërkimit – për shembull, sipas autorit ose periudhës së krijimit

të tekstit.

Në Korpusin elektronik të shqipes përshkrimi metatekstual i teksteve të shkruara

(përveç shtypit) e ndjek modelin e Korpusit të armenishtes lindore dhe përfshin:

informacionin që lidhet me autorin, d.m.th. emrin dhe mbiemrin i autorit; titullin e librit;

tipin e tekstit (letrare dhe joletrare), ashtu edhe zhanrin e tij (për shembull, për veprat

letrare ato janë: tregime të shkurtra, romanet, dramat; për veprat joletrare – esetë,

kujtimet etj.). Paraqitet detyrimisht viti i krijimit të tekstit, ose një periudhë kohe gjatë

së cilës krijohej teksti. Në rastet kur s’ka gjasë të saktësohet viti i krijimit, përmendet një

periudhë të përafërt ose të paktën viti i botimit të veprës. Për tekstet publicistike

përmendet titulli i botimit periodik (gazetë ose revistë), data dhe numri i botimit.

Më sa duket, në etapën e sotshme sistemi i tillë i përshkrimit të teksteve mjafton

për përdorimin e rregullt të Korpusit të shqipes. Megjithatë, në procesin e plotësimit të

Korpusit me tekstet e zhanreve, periudhave dhe fushave të ndryshme mund të dalë

nevoja për detajimin e mëtejshëm të annotimit metatekstual. Për shembull, një

parametër i ri si “forma e gjuhës letrare” do të ishte i nevojshëm për të dalluar tekstet

letrare të toskërishtes dhe gegërishtes. Si modeli i zhvillimit të mëtejshëm mund të

shërbejë edhe Korpusi nacional i gjuhës ruse, i cili, më sa duket, ka një annotim

metatekstual më të hollësishëm në mbarë botën (për shembull, në përshkrimin e

teksteve të shkruara përdoren rreth 25 parametra të ndryshme [Savçuk 2005]).

2.2. Annotimi leksiko-morfologjik i Korpusit të shqipes. Annotimi leksiko-

morfologjik, ose gjuhësor i Korpusit elektronik të shqipes është një sistem i

informacionit leksikor dhe të shenjave gramatikore (angl. tags). Shenjat gramatikore u

shtohen fjalëve teksti me anë të programit të analizës morfologjike (ose parser-it).

Informacioni i duhur për të gjitha fjalët që kërkohen paraprakisht shënjohet me dorë në

“fjalorin gramatikor” (angl. grammatical wordlist). Kur bëhet kërkimi në korpusin,

informacioni leksikor dhe gramatikor për çdo fjalëformë të kërkuar del në dritareza të

veçanta. Për shembull, fjalëforma djalin në Korpusin do të pajiset me informacionin, si

më poshtë vijon:

1) lemma (forma bazë e fjalës): djalë

2) veçori gramatikore të fjalës (pjesa e ligjëratës, gjinia e emrit, emër

frymori / jofrymori, folja kalimtare / jokalimtare): (NOUN, m, anim)


90

3) veçori gramatikore të fjalëformës së dhënë (për shembull, rasa e emrit, koha e

foljes etj.): def, sg, acc

4) përkthimi: boy.

Figura 1. Fjalëforma djalin në Korpusin elektronik të shqipes.

Në përputhje me Korpusin e armenishtes lindore, sistemi i tag-ëve të annotimit

gjuhësor në Korpusin e shqipes bazohet në listën e ofruar prej Leipzig Glossing Rules.

Conventions for interlinear morpheme-by-morpheme glosses

(http://www.eva.mpg.de/lingua/resources/glossing-rules.php)3. Kjo listë është

plotësuar me tag-ët për disa kategori të veçanta të pranishme në shqipen dhe menjëherë

të rralla nga pikëpamja tipologjike, siç janë, për shembull, adm – mënyra habitore, opt –

mënyra dëshirore.

3. Standardi morfologjik dhe trajtimi i disa dukurive gramatikore në

Korpusin e elektronik të shqipes. Pasqyrimi i rregullt të të dhënave në Korpusin

sigurohet me anë të standardit të tij morfologjik. Standardi përcakton inventarin e

veçorive morfologjike, strukturën e paradigmës së fjalës, formën e saj bazë dhe mënyrën

e pasqyrimit të normës gramatikore në Korpusin [Lashevskaja, Plungian, Siçinava 2005].

3 Bie fjala për rregullat e përpunuar prej B. Comrie, M. Haspelmath dhe B. Bickel, që përmbajnë listën e shkurtesave për termat anglezë që përdoren për të emërtuar kategoritë gramatikore më të përhapura në gjuhët e botës (për shembull, shkurtesa acc për rasën kallëzore, sg për numrin njëjës etj.). Këto rregulla të Lajpcigut konsiderohen si një standard ndërkombëtar për tipologjinë gjuhësore.

http://www.eva.mpg.de/lingua/resources/glossing-rules.php


91

Për shembull, si standard për Korpusin nacional të gjuhës ruse përdoret “Fjalori

gramatikor i gjuhës ruse” i grumbulluar prej autorit A. Zaliznjak [Zaliznjak 1980]).

Standardi morfologjik i Korpusit nacional të shqipes merr parasysh parime

kryesore të “Gramatikës së gjuhës shqipe” prej Oda Buchholz dhe Wilfried Fiedler-it

[Buccholz, Fiedler 1987]. Struktura e annotimit të Korpusit të shqipes, pra, përputhet

përgjithësisht me traditën e përshkrimit të gramatikës së shqipes, për të lehtësuar të

paktën punën kërkimore të një përdoruesi “prototipik”, d.m.th. të një gjuhëtari të

mësuar me gramatikën klasike të shqipes dhe me kategoritë e saj kryesore. Siç e

përcakton G. Leech, një nga krijuesit e Korpusit nacional Britanik, annotimi i një

korpusi gjuhësor duhet të bazohet në parime të kuptueshme për përdoruesin4.

Megjithatë, standardi morfologjik i Korpusit të shqipes përmban edhe disa dallime nga

kjo traditë, që kemi propozuar për arsyet e ndryshme teorike dhe praktike, përfshirë

edhe veçoritë e pasqyrimit dhe përpunimit teknike të informatës gramatikore në

Korpusin. Do të jepen tani disa shembuj të lidhur me përfaqësimin e sistemit rasor.

3.1. Trajtimi i rasave. Rasa gjinore-dhanore. Për sa u përket rasave gjinore

dhe dhanore, dallimi i këtyre kategorive është një nga çështjet më të diskutueshme të

gramatikës së shqipes. Si trajtë dalluese sintaksore mund të konsiderohet nyja e

përparme të gjinores që nuk del në dhanoren dhe përdorimi i domosdoshëm i trajtës së

shkurtër me dhanoren. Megjithatë, nga pikëpamja e morfologjisë, vet format e të dy

rasave njësojnë gjithandej te emrat, ashtu edhe te përemrat e lakuar. Pra, programi i

analizës morfologjike (parser-i) nuk do të dallojë automatikisht gjinoren nga dhanorja

(kjo mund të bëhet vetëm me dorë dhe në kontekste të caktuara). Për të pakësuar sasinë

e varianteve homonimike të analizës morfologjike, në Korpusin elektronik të shqipes

këto rasa janë bashkuar në një rasë që quhet dhe kërkohet si “gjinore-dhanore” (gen-dat).

3.2. Rrjedhorja II. Përveç rasave të gramatikës tradicionale të shqipes (emërorja,

gjinorja e bashkuar me dhanoren, kallëzorja, rrjedhorja), annotimi i Korpusit elektronik

të shqipes përfshin shënimin e veçantë për të ashtuquajturin “rrjedhore të dytë” (abl 2).

Nga pikëpamja formale ajo trajtohet në Korpusin si rasa që demonstron një formë

krejtësisht të veçantë me mbaresën -sh në shumësin e pashquar. Veçoritë funksionale e

kësaj forme gjithashtu u bënë arsye për ta dalluar atë në sistemin rasore: rrjedhorja e

dytë, siç dihet, përdoret zakonisht pa parafjalë; ka raste kur përdoren më shpesh format

e rrjedhores së dytë (për shembull, shprehje me përcaktor, lesh dele-sh), kurse në rastet e

tjera mund të dalin të dyja (prej fshatra-sh = prej fshatra-ve). Për hir të pranimit të rrjedhores

dhe të rrjedhores së dytë në standardin morfologjik të Korpusit, këto dy forma mund

të kërkohen veç e veç me anë të kërkimit të thjeshtë (abl ose abl 2). Tërësia e formave të

4 “The scheme of analysis presupposed by the annotations – the annotation scheme – should be based on principles or guidelines accesible to the end-user” [Leech 1993: 275].


92

rrjedhores gjetet lehtësisht me anë të kërkimit të përbërë nga “rrjedhore + rrjedhore

II” (abl + abl 2).

3.3. Rasa zero. Me interes është rasti i përdorimit të formës së quajtur “rasa

zero” në annotimin morfologjik të Korpusit të shqipes. Sipas gramatikës së O. Buchholz

dhe W. Fiedler-it, kjo formë quhet Merkmalloser Kasus dhe u ngjan emërores dhe

kallëzores njëjës të pashquar. Ajo mund të shërbejë në fjali si ndajshtim (lumi Shkumbin)

dhe si përcaktor i emrave me kuptimin e sasisë, numrit etj. (një kovë ujë) [Buccholz,

Fiedler 1987: 226]. Sipas mendimit tonë, edhe një rast për të trajtuar si përdorimi i “rasës

zero” është forma e emrit në togfjalëshin me përcaktor mbiemëror e paravendosur:

Kërkonte trupin e të ziut djalë. Pra, të tri rastet e lartpërmendura, që nuk kanë trajtimin e

tyre të saktë në gramatikën klasike, në Korpusin e shqipes mund të interpretohen në një

mënyrë të përbashkët. Pas heqjes së homonimisë leksikore dhe gramatikore (për heqjen

e homonimisë shih p. 4) do të jetë i mundur kërkimi i veç këtyre formave dhe studimi i

mëtejshëm i shpërndarjes së tyre në tekstet e tipave të ndryshme.

4. Analiza morfologjike në Korpusin elektronik të shqipes. Për sa i përket

analizës leksiko-morfologjike të teksteve, kjo bëhet automatikisht me anë të programit

të analizës morfologjike “UniParser” prej autorit Т. Аrkhangelskij. Analiza dhe annotimi

i teksteve bëhet fjalë pas fjale, d.m.th. duke analizuar ndonjë fjalëformë, parser-i nuk

merr parasysh kontekstin sintaksor majtas dhe djathtas. Në procesin e annotimit

morfologjik me anë të parser-it, çdo fjalëformë pajiset me informacionin për formën e

saj bazë dhe për veçori të saj gramatikore. Që të identifikohen të gjitha fjalët teksti në

korpusin si fjalëformat e leksemave përkatëse, së pari të gjitha këto leksema duhen futur

dhe përshkruar në fjalorin gramatikor.

Pa tjetër, një sasi e fjalëformave të paanalizuara (angl. parcing error rate) do të

ekzistojë në korpusin pothuaj në çdo periudhë kohe. Bie fjala, para së gjithash, për

huazime të reja, variante të parregullta të lakimit ose zgjedhimit, shkurtime, emra të

përveçëm dhe terma speciale, fjalë të shkruara me një standard tjetër drejtshkrimi (ose

me gabime). Pjesa e fjalëformave të paanalizuara do të minimizohet hap pas hapi në

procesin e plotësimit të mëtejshëm të fjalorit gramatikor, e cili për momentin bazohet

në fjalorët të shqipes [FShS 2002; FGjShS 2006; Newmark 2000 etj.].

Në qoftë se ndonjë varg shenjash identifikohet nga parser-i si fjalëforma me disa

kuptime gramatikore, programi i jep kësaj formës të gjitha variantet e mundshme

(homonimike) të analizës. Analiza të tilla, në fakt, nuk janë plotësisht të gabuara dhe

mund të konsiderohen si analizat hipotetike.


93

Figura 2. Fjalëforma dhe në Korpusin elektronik të shqipes: variantet homonimike e

analizës leksiko-morfologjike.

Heqja e homonimisë gramatikore në korpuset gjuhësore bashkëkohore bëhet

në mënyrën gjysmë automatizuar, d.m.th. me dorë dhe me ndihmën e veglave

programore. Së pari, hiqen automatikisht variante jo të sakta të analizës morfologjike.

Pastaj përpunohen me dorë fjalëforma që paraqesin vështirësi për analizën automatike

(për shembull, format homonimike rasore – gjinore-dhanorja dhe rrjedhorja), ashtu

edhe homonimet leksiko-gramatikore që u takojnë pjesëve të ndryshme të ligjëratës

(p. sh. mbiemrat dhe emrat prejmbiemërore). Në kontekstet, ku përcaktimi

përfundimtar i rasës së emrit nuk është mundur, do të mbeten dy analiza alternative,

sepse pikëpamja e përdoruesit në atë rast mund të ndryshojë nga ajo e krijuesit të

Korpusit.

5. Mjete kërkimi. Korpusi elektronik i shqipes shfrytëzon programin e kërkimit

dhe interfejsin që përdoren në korpuse të tjera gjuhësore të krijuara në kuadrin e

Programit të Akademisë së shkencave të Rusisë për “Corpus linguistics”, përfshirë edhe

Korpusin e armenishtes lindore.

Kërkimi në Korpusin bëhet sipas parametrave të tilla si fjalëforma, lemma,

përkthimi dhe informacioni gramatikor. Po të zgjidhet opsioni “Fjalëforma” (djalin), do

të dalin të gjitha shembuj ku gjetet vargu shenjash, ose fjalëforma të kërkuara (i ngjan

kërkimit në Google etj.). Nëse kërkohet lemma e ndonjë fjale (djalë), si rezultat e kërkimit

dhe

CONJ ‘and, both’

NOUN,m,inanim

sgnom,indef ‘earth, land’

NOUN,m,inanim

sg,acc,indef ‘earth, land’

V.2.sg,aor,ind,act ‘give’

ADV

‘even’

NOUN,m,inanim

sg,unmarked,indef ‘earth, land’


94

do të dalin të gjitha fjalëformat që i përkasin. Duhet të nënvizojmë që kërkimi sipas

lemma-s do t’u japë përdoruesit vetëm fjalëforma të annotuara (të futura në fjalorin

gramatikor të Korpusit); këto të paannotuara nuk do të kërkohen, ndryshe nga kërkimi

sipas fjalëformës. Përveç kërkimit sipas lemma-s dhe fjalëformës, mund të kërkohen

edhe përkthime në anglisht (boy), që ka vlerë për hulumtuesit që nuk e zotërojnë shqipen

në një nivel të lartë.

Në dritaren “Gramatika dhe pjesët e ligjëratës” mund të përcaktohen tipare

gramatikore të fjalëformave të kërkuara. Ky lloj kërkimi kombinohet edhe me kërkimin

e lemma-ve. Gjithashtu kushtet e kërkimit mund të përcaktohen në dritaren “Kërkim i

avancuar”. Këtu, për shembull, mund të caktoni çfarë shenjat pikësimi duhen të dalin

në anën e majtë dhe të djathtë të fjalëformës, ku do të ndodhet fjalëforma brenda fjalisë

(fillimi, mesi, fundi i fjalisë) etj.

Një mundësi tjetër e parashikuar në Korpus është kërkimi i përbërë i formave

analitike dhe të togfjalëshave. D.m.th. mund të kërkohen disa fjalëforma të vendosura

njëra pas tjetrit në kontekstin, ashtu edhe ato të ndara me fjalëforma të tjera. Ky lloj

kërkimi mund të përdoret për të gjetur format analitike që janë shumë të përhapura në

shqipen. Bie fjala kryesisht për format foljore, format krahasore dhe sipërore të

mbiemrave dhe të ndajfoljeve etj. Për shembull, kërkimi i foljes kam në kohën e tashme

të dëftores + pjesore do t’ju japë një sasi të konsiderueshme të shembujve me format e

kohës së kryer të diatezës veprore (kam punuar, kam shkruar etj.).

Si rezultat i kërkimit dalin shembuj gjuhësore me fjalëforma të kërkuara,

përcaktohet numri i rezultateve dhe numri i dokumenteve ku gjenden këto shembuj.

Çdo shembull është pajisur me informacionin metatekstual: titulli i tekstit, emri i autorit

dhe data e krijimit. Çdo fjalëforma, që ka të paktën një variant të analizës, pajiset me

lemma-n, informacionin për veçoritë fjalëformuese dhe fjalëndryshuese, ashtu edhe me

përkthimin. Mënyra e shfaqjes së rezultateve të kërkimit ndërrohet nëpërmjet dritares

“Shfaqja e rezultateve” në disa mënyra: ka formati i plotë, i thjeshtë, formati KWIC (Key

Word In Context) dhe formati me shënime gramatikore (angl. glossed). Në formatin KWIC

fjalëforma e kërkuar shfaqet në interfejsin kështu, që të duket sa më mirë pozita e saj në

fjalinë (iniciale, qendrore, fundore). Formati me shënime gramatikore supozon që gjithë

informacioni gramatikor për fjalëformën, përfshirë lemma-n e saj dhe karakteristikat

gramatikore, shfaqet nën fjalëformës, prapëseprapë pa asnjë ndarje në morfemat. Mund

të përcaktohet edhe sasia e shembujve gjuhësore të shfaqura menjëherë në një faqe,

ashtu edhe rendi i shembujve.

Me rendësi është të përmendet, që çdo shembull gjuhësor përmban vetëm një

fjali të ndonjë teksti, dhe konteksti mund të zgjerohet maksimalisht deri në shtatë fjali

(plus tri majtas dhe plus tri djathtas). Kontekste më të mëdha dhe tekste të plota nuk

shfaqen në korpusin nga shkaku që shumë tekste të korpusit janë objektet e të drejtës


95

së autorit, dhe për këtë arsye përdoruesi nuk mund t’i shikojë ose të shkarkojë

plotësisht.

6. Përfundim. Detyrat e dorës së parë në zhvillimin e mëtejshëm të Korpusit të

shqipes lidhen me zgjerimin e fjalorit gramatikor, plotësimin e bazës së teksteve

elektronike dhe heqjen e homonimisë leksiko-gramatikore. Korpusi i madh, i plotë dhe

gjithëpërfshirës, si rezultat i punës së tillë, do të jetë i dobishëm për gjuhëtarët që merren

me çështjet e gramatikës, historisë dhe leksikut të gjuhës shqipe, ashtu edhe për ata që

flasin shqipen si gjuhë amtare ose e studiojnë si gjuhë të huaj.


96

Literature

1. Buchholz, Fiedler 1987 – Buccholz O., Fiedler W. Albanische Grammatik.

Leipzig: Verlag Enzyklopadie, 1987. 582 s.

2. FShS 2002 – Fjalor i shqipes së sotme. Botim i dytë i ripunuar (me rreth 35.000

fjalë). Akademia e shkencave e Shqipërisë, Instituti i Gjuhësisë dhe i Letërsisë.

Tiranë: TOENA, 2002.

3. FGjShS 2006 – Fjalor i gjuhës së sotme shqipe (me rreth 40.000 fjalë).

Akademia e shkencave e Shqipërisë, Instituti i Gjuhësisë dhe i Letërsisë.

Tiranë: TOENA, 2006.

4. Lashevskaja, Plungjan, Siçinava 2005 – Ляшевская О. Н., Плунгян В. А.,

Сичинава Д. В. О морфологическом стандарте Национального корпуса

русского языка // Национальный корпус русского языка 2003–2005: результаты

и перспективы [сборник]. Рос. акад. наук, Ин-т рус. яз. им.

В. В. Виноградова. М.: Индрик, 2005. C. 111–135.

5. Leech 1993 – Leech G. Corpus annotation schemes // Literary and Linguistic

Computing 8/4, 1993. P. 275–281.

6. Newmark 2000 – Albanian English Dictionary / Ed. by L. Newmark. Tiranë:

Albin, 2000.

7. Savçuk 2005 – Савчук С. О. Метатекстовая разметка в Национальном

корпусе русского языка: базовые принципы и основные функции //

Национальный корпус русского языка 2003–2005: результаты и перспективы

[сборник]. Рос. акад. наук, Ин-т рус. яз. им. В. В. Виноградова. М. :

Индрик, 2005. C. 62–88.

8. Zaliznjak 1980 – Зализняк А. А. Грамматический словарь русского языка.

Словоизменение. Около 100000 слов. М.: Русский язык, 1980. 880 c.

409

PËRMBAJTJA

Sedat KUÇI, dekan i Fakultetit të Filologjisë FJALA PËRSHËNDETËSE NË HAPJEN E PUNIMEVE TË SEMINARIT XXXII NDËRKOMBËTAR PËR GJUHËN, LETËRSINË DHE KULTURËN SHQIPTARE ..............................................................................................................................7 Bardh RUGOVA, drejtor i Seminarit FJALA E HAPJES SË SEMINARIT XXXII NDËRKOMBËTAR PËR GJUHËN, LETËRSINË DHE KULTURËN SHQIPTARE ...............................................................9 LIGJËRATA ....................................................................................................... 11 Rexhep ISMAJLI DISKUTIME PËR PREJARDHJEN E GJUHËS SHQIPE ......................................... 13 Bashkim KUÇUKU DINAMIKA E IDENTITETIT SHQIPTAR NË BASHKËKOHËSI ...................... 45 Rrahman PAÇARIZI QASJA SOCIOKOGNITIVE NË TERMINOLOGJI – MEDIET E REJA DHE TEKNOLOGJIA .................................................................................................................... 59 Kujtim M. SHALA SAMI FRASHËRI - AUTOR YNI ...................................................................................... 73 Maria MOROZOVA, Aleksandër RUSAKOV KORPUSI ELEKTRONIK I SHQIPES: PËRPUNIMI, PËRMBAJTJA DHE PËRDORIMI .......................................................................................................................... 85 Maria MOROZOVA, Aleksandër RUSAKOV PERFEKTI NË SHQIPEN E SOTME:............................................................................ 97 STUDIMI I BAZUAR NË TEKSTET E KORPUSIT ELEKTRONIK TË SHQIPES ................................................................................................................................. 97

410

TRYEZA .......................................................................................................... 105 Kujtim M. SHALA ORA E REXHEP ISMAJLIT ............................................................................................ 107 Linditë SEJDIU – RUGOVA REXHEP ISMAJLI PËR GJUHËSINË TEKSTORE ................................................. 113 Shkumbin MUNISHI REXHEP ISMAJLI – NISMËTAR I DREJTIMEVE MODERNE LINGUISTIKE SHQIPTARE .......................................................................................... 117 Bardh RUGOVA NDIKIMI I SHUMËFISHTË I REXHEP ISMAJLIT NË GJUHËSINË SHQIPTARE ......................................................................................................................... 125 I. GJUHËSI ...................................................................................................... 129 Teuta ABRASHI KONTRIBUTI I ODA BUCHHOLZ-it NË GJUHËSINË SHQIPTARE ............. 131 Linditë SEJDIU - RUGOVA BRIAN JOSEPH-I PËR INFINITIVIN E SHQIPES.................................................. 139 Ludmila BUXHELI GIUSEPPINA TURANO PËR PROCESET MORFOLOGJIKE NË SHQIPEN E SOTME .................................................................................................. 145 Anila ÇEPANI, Adelina ÇERPJA VËSHTRIME TË REJA PËR GRAMATIKËN E SHQIPES NË VEPRËN E AUTORËVE NEWMARK, HUBBARD DHE PRIFTI ............... 151 Haki HYSENAJ IRENA SAWICKA PËR STRUKTURËN E RROKJES NË SHQIPEN E KOSOVËS ............................................................................................................................. 163 Juliana KUME GERDA ULISCH RRETH PRANISË SË GREQISHTES SË RE NË GJUHËN SHQIPE (DISERTACION I 1964-S) ............................................................................... 171 Bade BAJRAMI GRAMATIKAT E GJUHËS SHQIPE TË ALBANOLOGËVE FRËNGË .......... 189

411

Bahri KOSKOVIKU SINTAGMA FOLJORE SIPAS AUTORËVE GJERMANË BUCHHOLZ-FIEDLER .................................................................................................... 197 Vjosa HAMITI MODALITETI DHE MUNDËSITË E SHPREHJES SË TIJ SIPAS “ALBANISCHE GRAMMATIK” TË ODA BUCHHOLZ-IT DHE WILFRIED FIEDLER-IT ......................................................................................................................... 203 Remzi PËRNASKA, Tomorr PLANGARICA KONTRIBUTI I KRISTIAN GYTIT PËR SHQIPEN DHE KULTURËN SHQIPTARE ......................................................................................................................... 211 Shkumbin MUNISHI KONTRIBUTI I JANET BYRON PËR HISTORINË E STANDARDIZIMIT TË SHQIPES ............................................................................................................................... 219 Merita HYSA SHTRESËZIME KONCEPTUALE NË “ALBANIAN PHONOLOGY” TË G.L.BEVINGTON .............................................................................................................. 227 Julie M. KOLGJINI PËR (Ç)PENGIMIN E GJUHËS SHQIPE NË KOHËN POST-MODERNE, MARRË SHKAS NGA KONTRIBUTI I JANET BYRON-IT NË DRITËN E RISHQYRTIMIT TË STANDARDIT AKTUAL ..................................................... 237 Orjeta BAJA KRISTIAN GYT (CHRISTIAN GUT) PËR GJUHËN SHQIPE ............................. 255 Majlinda BREGASI KONTRIBUTI I LEONARDO MARIA SAVOIAS PËR ALBANOLOGJINË, NË GJYSMËN E DYTË TË SHEKULLIT XX ........................................................... 261 Linda MËNIKU KONTRIBUTI I PROF. VICTOR FRIEDMAN-IT NË STUDIMET PËR GJUHËN SHQIPE .................................................................................................... 269 Mensur VOKRRI VICTOR FRIEDMAN PËR HABITOREN E SHQIPES .......................................... 285 Berton SULEJMANI PIKËPAMJET E BOZHIDAR VIDOEVSKIT PËR KONTAKTET GJUHËSORE TË MAQEDONISHTES DHE SHQIPES (NË RRAFSHIN DIALEKTOR) ....... 293

412

Naser PAJAZITI WACŁAW CIMOCHOWSKI MBI TË FOLMEN E DUSHMANIT ...................... 299 Xhavit BEQIRI, Bahtijar KRYEZIU E FOLMJA E SHKODRËS SIPAS DIALEKTOLOGES A. V. DESNICKAJA ... 303 Asllan HAMITI SHQIPJA NË DY FJALORËT SHUMËGJUHËSH TË GJORGJI PULEVSKIT 311 Martin SUROVČÁK J. U. JARNÍK (1848–1923): THEMELUESI I ALBANOLOGJISË ÇEKE ............ 325 Anton PANÇEV PROF. PETJA ASENOVA DHE GJUHËSIA SHQIPTARE .................................... 331 Matilda PARLLAKU (ÇOLLAKU) KONTRIBUTI I M. LAMBERTZ PËR TRAJTIMIN E RAPORTEVE KUSHTORE NË GJUHËN SHQIPE................................................. 337 Erzen KOPERAJ VENDI I SHQIPES NË VEPRËN E V. PISANIT ...................................................... 347 Ragip GJOSHI NDIHMESA E ALBANOLOGUT RUMUN GRIGORE BRËNKUSHI FILOLOGJISË SHQIPTARE ........................................................................................... 355 Shpëtim ELEZI ERIC P. HAMP-I PËR ORIGJINËN DHE VENDIN E SHQIPES ....................... 371 Ismet OSMANI PIKËPAMJET E BLLAZHE KONESKIT PËR GJUHËN SHQIPE NË KONTEKST BALLKANIK .............................................................................................. 379 Eliana PACO MENDIMI I DREJTЁ I H. KRAHES MBI TOPONIMET SI VIJUSHMЁRIA E NJЁ POPULLI ...................................................................................................................... 385 Elda RESMJA MOLLA NDIHMESA E A.CIRRINCIONES PËR HISTORINË E GJUHËS SHQIPE ..... 393 Flutura ÇITAKU GRAMATIKA PRAKTIKE NЁ PЁRQASJE ME GRAMATIKЁN E AKADEMISЁ (ME THEKS TË VAÇANTË NË TERMINOLOGJI ................. 397

413

Sponsorë:

Ministria e Arsimit, Shkencës dhe e Teknologjisë e Kosovës

Rektorati i Universitetit të Prishtinës

Seminari XXXII Ndërkombëtar për Gjuhën, Letërsinë dhe Kulturën Shqiptare

32/1

Botues: Fakulteti i Filologjisë, Prishtinë

Tirazhi: 300

Katalogimi në botim – (CIP)

Biblioteka Kombëtare e Kosovës “Pjetër Bogdani”

008(=18)(496.51)(063)”2013”

811.18(496.51)(063)”2013”

821.18(496.51)(063)”2013”

Seminari XXXII Ndërkombëtar për Gjuhën, Letërsinë dhe Kulturën

Shqiptare : Prishtinë, 19-30.08.2013 /[ Kryeredaktor Bardh Rugova]. –

Prishtinë : Universiteti i Prishtinës : Fakulteti i Filologjisë ; Tiranë :

Universiteti i Tiranës : Fakulteti Histori-Filologji, 2014. – 2 libra ; 24 cm.

[Libri] 1. – 412 f.

Titulli paralel në gjuhën shqipe dhe angleze

1.Rugova, Bardh

ISBN 978-9951-00-163-2

ISBN 978-9951-00-164-9

Morozova M., Rusakov A. Korpusi elektronik i shqipes: përpunimi, përmbajtja dhe përdorimi

Documents

Transcript of Morozova M., Rusakov A. Korpusi elektronik i shqipes: përpunimi, përmbajtja dhe përdorimi