gümüşhane üniversitesi - sosyal bilimler enstitüsü elektronik ...
Morozova M., Rusakov A. Korpusi elektronik i shqipes: përpunimi, përmbajtja dhe përdorimi
Transcript of Morozova M., Rusakov A. Korpusi elektronik i shqipes: përpunimi, përmbajtja dhe përdorimi
FAKULTETI I FILOLOGJISË – PRISHTINË
FAKULTETI HISTORI-FILOLOGJI – TIRANË
SEMINARI XXXII NDËRKOMBËTAR PËR GJUHËN, LETËRSINË DHE
KULTURËN SHQIPTARE
THE XXXII INTERNATIONAL SEMINAR FOR ALBANIAN LANGUAGE,
LITERATURE AND CULTURE
PRISHTINË, 2013
Fakulteti i Filologjisë – Prishtinë Fakulteti Histori-Filologji – Tiranë
SEMINARI XXXII NDËRKOMBËTAR PËR GJUHËN, LETËRSINË DHE
KULTURËN SHQIPTARE
Prishtinë, 19-30.08.2013
THE XXXII INTERNATIONAL SEMINAR FOR ALBANIAN LANGUAGE, LITERATURE AND CULTURE
Kryeredaktor:
Bardh Rugova
Redaksia:
Drejtor: Bardh Rugova
Bashkëdrejtor: Aljula Jubani
Sekretar: Nysret Krasniqi
Bashkësekretar: Persida Asllani
Sekretar profesional: Blertë Ismajli
Drejtor nderi: Akademik Idriz Ajeti
Këshilli Drejtues i Seminarit:
Bardh Rugova, Nysret Krasniqi, Rrahman Paçarizi, Anton Berishaj, Mehdi Polisi,
Bajram Kosumi, Muhamet Hamiti, Teuta Abrashi, Suzana Canhasi, Valbona Gashi,
Aljula Jubani, Persida Asllani
Përgjegjëse për kurset e gjuhës dhe drejtuese e referimeve të gjuhësisë:
Sala Ahmetaj
Drejtues i referimeve të letërsisë: Liman Matoshi
Redaktor teknik: Besfort Krasniqi
Botues: Fakulteti i Filologjisë, Prishtinë
KORPUSI ELEKTRONIK I SHQIPES: PËRPUNIMI, PËRMBAJTJA DHE PËRDORIMI
85
Maria MOROZOVA, Aleksandër RUSAKOV
KORPUSI ELEKTRONIK I SHQIPES: PËRPUNIMI, PËRMBAJTJA DHE PËRDORIMI
Përpunimi i korpuseve gjuhësore merr një rëndësi të veçantë në kuadrin e
gjuhësisë kompjuterike dhe të studimeve gjuhësore në përgjithësi. Korpusi gjuhësor
është një përmbledhje tekstesh, përfshirë tekstet e shkruara në një gjuhë, ashtu edhe
gjuhën e folur. Ndryshe nga bibliotekat elektronike, në korpusin gjuhësor të gjitha
tekstet dhe pjesët e tyre, siç janë paragrafët, fjalitë dhe fjalëformat, duhen të jenë të
analizuara dhe të pajisura me përshkrimin e informacionit gjuhësor dhe jogjuhësor,
d.m.th. të annotuara (angl. annotation ‘shënim, sqarim’). Mjetet programore të kërkimit
në korpuse të mëdha marrin për bazë sistemin e annotimit dhe i ndihmojnë përdoruesit
të gjejë fjalëformat, fjalët dhe togfjalëshat sipas veçorive të tyre morfologjike ose duke
pasur parasysh karakteristikat jogjuhësore të teksteve.
Krijimi i korpusit të tillë të annotuar ka për qëllim që t’i ndihmojë punën e
gjuhëtarëve lidhur me grumbullimin e shembujve gjuhësore të shumta. Puna e tillë më
përpara zakonisht bëhej me dorë përmes shfletimit të librave të shumtë dhe burimeve
të tjera të shtypura. Korpusi elektronik u jep mundësinë përdoruesve të gjejnë shpejt
shembuj të duhura, ashtu edhe të nxjerrin statistikën për dendurinë e fjalëve të përdorura
në një ose disa tekste të preferuara (ose në gjithë korpusin). Rezultatet e studimeve
gjuhësore të bazuara në korpusin elektronik mund t’u shërbejnë fushave të morfologjisë
dhe sintaksës, ashtu edhe të ortografisë, fonetikës, semantikës, leksikografisë etj. Qëllimi
tjetër i krijimit të korpusit gjuhësor gjithëpërfshirës është dokumentimi i gjuhës sipas
fushës, kohës, përkatësisë dialektore të teksteve, tipit ose zhanrit të tyre etj. Korpusi i
tillë mund të shfrytëzohet në studime diakronike të zhvillimit gjuhësor të shfaqur në
tekstet që u përkasin periudhave të ndryshme historike.
Gjuha shqipe, një gjuhë indoevropiane që flitet nga më shumë se 8 milionë folës
amtarë në mbarë botën, më përpara nuk kishte Korpusin e vet të annotuar. Në fund të
vitit 2011 Korpusin e tillë e filluan të krijonin specialistët nga Sankt-Peterburgu dhe
Maria MOROZOVA, Aleksandër RUSAKOV
86
Moska1. Grupin e Moskës e kryeson Prof. Dr. Vladimir A. Plungian, drejtori i
departamentit për Corpus linguistics (“gjuhësi e korpuseve”) në Institutin e gjuhës ruse të
Akademisë së shkencave të Rusisë dhe pjesëmarrësi i projekteve “Korpusi nacional i
gjuhës ruse” (Национальный корпус русского языка) dhe “Korpusi nacional i armenishtes
lindore” (Восточноармянский национальный корпус)2. Specialistët nga Moska kontribuojnë
në zgjidhjen e problemeve teknike dhe gjuhësore që lidhen me përpunimin e Korpusit.
Shkencëtarët nga Sankt-Peterburgu, me Prof. Dr. Aleksandër Ju. Rusakovin në krye,
përfaqësojnë institucione të tilla si Instituti i studimeve linguistike i Akademisë së
shkencave të Rusisë dhe Universiteti shtetëror i Sankt-Peterburgut. Puna e ekipit të
Sankt-Peterburgut lidhet me grumbullimin dhe përgatitjen e teksteve për bazën
tekstuale, me përpunimin e annotimit, krijimin e fjalorit gramatikor të Korpusit dhe
zgjidhjen e çështjeve të ndryshme teorike. Grumbullimi i teksteve bëhet me ndihmën e
kolegëve dhe të shtëpive botuese të Kosovës dhe Shqipërisë.
Krijimi i një korpusi gjuhësor, përfshirë edhe atë të shqipes, ndahet në disa etapa
kryesore. Në etapën e parë grumbullohet dhe përshkruhet baza tekstuale, d.m.th. tekstet
në formë elektronike ku dokumentohet gjuha në shqyrtim. Në etapën e dytë tekste të
grumbulluara pajisen me informacionin gjuhësor. Për këtë duhet puna paraprake që
lidhet me krijimin e sistemit të annotimit dhe me përpunimin e fjalorit gramatikor, që
përdoret pastaj brenda programit të analizës automatike morfologjike, ose parser-it.
Etapa e tretë përfshin krijimin ose adaptimin e platformës kërkimi dhe vendosjen e
korpusit gjuhësor në Internet.
1. Përbërja e Korpusit elektronik të shqipes. Në nëntorin e vitit 2012 e
përgatitëm dhe vendosëm online versionin provë të Korpusit të shqipes me rreth 750
mijë fjalë teksti. Korpusi vazhdon të zhvillohet dhe plotësohet që nga ai moment, dhe
sipas të dhënave të dhjetorit 2013 përmbante rreth 16,8 milionë fjalë teksti (shih
Tabelën 1). Vlen përmendur që një “standard madhësie” i arritur së pari në Korpusin
nacional Britanik (British National Corpus) është 100 milionë fjalë teksti, kurse madhësia
e korpuseve të tjera bashkëkohore shkon shumëfish përtej. Për shembull, Korpusi
nacional i gjuhës ruse përmbante më shumë se 500 milionë fjalë teksti në fund të vitit
2013. Këta numra duhen konsideruar si qëllim për zhvillimin e mëtejshëm të Korpusit
të shqipes.
Nga pikëpamja e trajtimit të teksteve, Korpusi i shqipes zhvillohet si një korpus
i baraspeshuar (angl. Reference corpus), që pasqyron gjuhën në mënyrë gjithëpërfshirëse
1 Përpunimi i Korpusit mbështetet nga Programi i kërkimeve fundamentale të Akademisë së shkencave së Rusisë “Corpus linguistics”, granti “Korpusi nacional i gjuhës shqipe”. Versioni aktual i Korpusit në përpunim gjendet online: http://web-corpora.net/AlbanianCorpus/search/ 2 Versionet online: http://www.ruscorpora.ru/, http://eanc.net/EANC/search/
KORPUSI ELEKTRONIK I SHQIPES: PËRPUNIMI, PËRMBAJTJA DHE PËRDORIMI
87
duke shfaqur sa më shumë tekste të zhanreve të ndryshme dhe të çdo madhësie. Kështu
korpuset e tanishme dallohen nga ato të gjeneratës së parë, për shembull, nga Korpusi i
Braunit (Brown University Standard Corpus of Present-Day American English), i cili përmban
500 tekste dhe fragmente të teksteve të mëdha, me madhësinë e kufizuar deri në 2000
fjalë. Për sa i përket mënyrës së plotësimit, Korpusi i shqipes trajtohet si një korpus
dinamik, ose “i hapur”, përmbajtja e të cilit do të ndryshojë kohë pas kohe, duke
mbajtur strukturën dhe disa veçori të tjera themelore – ndryshe nga korpuset statike,
madhësia e të cilave caktohet në fazën e krijimit dhe pastaj mbetet e pandryshueshme.
Tabela 1. Struktura dhe përmbajtja e Korpusit elektronik të shqipes (më 1 dhjetor
2013).
Fjalë teksti Përqindja
në tërë Korpusin Sasia e
dokumenteve
Vepra letrare
Romanet 1,202,284 7,15% 23
tregime të shkurtra
505,272 3,01% 121
Dramat 16,334 0,1% 2
Vepra joletrare
Fetare 1,095,960 6,43% 62
Esetë 181,750 1,08% 18
Shkencore 1,119,248 6,66% 15
Zyrtare 329,168 1,96% 43
Shtypi
12,369,042 73,61% 39,310
Tekstet gojore
- - -
TOTAL 16,804,058 100% 39,594
Tekstet që përbëjnë versionin e sotshme të Korpusit elektronik të shqipes nxirren
nga internet-burime të hapura (siç janë, për shembull, tekstet gazetare të “Gazetës
shqiptare”, http://www.balkanweb.com/gazetav5/), ose skanohen dhe përgatiten
Maria MOROZOVA, Aleksandër RUSAKOV
88
pastaj me dorë (siç janë shumica e veprave letrare dhe joletrare në Korpusin). Për të
krijuar një korpus të baraspeshuar, krijuesit kanë zgjedhur tekstet e fushave të ndryshme
dhe i kanë ndarë ato në disa nënkorpuse të veçanta sipas fushave të caktuara (tekstet
letrare, joletrare, shtypi dhe nënkorpusi i planifikuar i teksteve gojore). Tekstet letrare
dhe joletrare brenda nënkorpuseve përkatëse ndahen në grupet edhe sipas zhanrit të
tekstit (për shembull, tekste letrare përfshijnë tregime të shkurtra, romanet, dramat etj.).
Me rendësi thelbësore është edhe përqindja e teksteve të çdo tipi në krahasim me tipat
e tjerë. Për sa i përket Korpusit tonë, për momentin shumica dërmuese e teksteve të
bazës tekstuale bie në fushën e gazetarisë, por gjatë punës së mëtejshme përmbajtja e
Korpusit do të balancohet me anë të teksteve të tjera.
Zhvillimi i mëtejshëm i bazës tekstuale të Korpusit lidhet, në radhë të parë, me
zmadhimin e saj, që të gjenden në korpus të gjitha fjalët, strukturat dhe shprehjet e
shqipes e kërkuara. Drejtimi tjetër i zhvillimit lidhet me krijimin e nënkorpuseve të reja
me tekste të përfituara nga gjuha e folur, poezi, dialektet, internet-komunikimi dhe me
tekste të periudhave të ndryshme historike. Momentalisht nënkorpusi i teksteve letrare
përmban vetëm tekstet në gjuhën standarde e viteve 1960-të – 2010-të. Përveç këtij
nënkorpusi kryesor që do të zgjerohet, gjatë plotësimit të mëtejshëm të bazës tekstuale
mund të krijohen: nënkorpusi i teksteve të vjetra të shkruara shumë kohë përpara
standardizimit të shqipes, ashtu edhe një nënkorpus i gegërishtes dhe një përzgjedhje
reprezentative e teksteve letrare të arbëreshëve të Italisë.
Për një pasqyrim më të plotë dhe adekuat të gjuhës së sotme shqipe, Korpusi
elektronik mund të plotësohet edhe me tekstet e përfituara nga gjuha e folur –
spontane dhe të parapërgatitura, të karakterit dialogjik dhe atij monologjik, të stilit zyrtar
dhe atij bisedor; tekstet që u përkasin sferave të ndryshme të komunikimit etj. Si
shembull mund të përmendet këtu Korpusi i rusishtes, në përbërjen e të cilit ka pjesa e
quajtur “Korpusi i gjuhës së folur” që përmban incizime të transkriptuara të programeve
televizive dhe radio, ligjëratave dhe bisedave të përditshme në rrugë, në zyrë ose në
shtëpi. Një tip tjetër tekstesh që mund të përbëjnë një nënkorpus të veçantë i përket
fushës së Internet-komunikimit me e-mail, nëpër çatë, blogë dhe forume, në të cilin,
faktikisht, ndërthurin veçori të të shkruarit me këto të të folurit. Së fundi, llojllojshmëria
regjionale e varianteve të të folurit mund të shfaqet në Korpusin elektronik të shqipes
me anë të një nënkorpusi dialektor me tekste të mbledhura në krahina të ndryshme
shqipfolëse.
2. Annotimi në Korpusin elektronik të shqipes. Siç u përmend në fillim,
pjesën e rëndësishme të ndërtimit të një korpusi gjuhësor përbën analiza dhe përshkrimi
i teksteve, d.m.th. annotimi. Tekstet e Korpusit elektronik të shqipes janë të pajisura
me dy tipa të annotimit të karakterit gjuhësor dhe jogjuhësor.
KORPUSI ELEKTRONIK I SHQIPES: PËRPUNIMI, PËRMBAJTJA DHE PËRDORIMI
89
2.1. Annotimi metatekstual. Së pari, secili nga 39,594 dokumente të Korpusit
pajiset me informacionin metatekstual (jogjuhësor) të caktuar. Duke pasur parasysh
këtë informacion, vet përdoruesi mund të formojë një nënkorpus me parametra të
dëshiruara dhe të realizojë kërkimin e mëtejshëm brenda këtij nënkorpusi. Për shembull,
mund të zgjidhen vetëm tekstet publicistike (Shtypi) ose vetëm tekstet e krijuara në vitet
1980-të. Informacioni metatekstual mund të luajë një rol të rëndësishëm edhe në
radhitjen e rezultateve të kërkimit – për shembull, sipas autorit ose periudhës së krijimit
të tekstit.
Në Korpusin elektronik të shqipes përshkrimi metatekstual i teksteve të shkruara
(përveç shtypit) e ndjek modelin e Korpusit të armenishtes lindore dhe përfshin:
informacionin që lidhet me autorin, d.m.th. emrin dhe mbiemrin i autorit; titullin e librit;
tipin e tekstit (letrare dhe joletrare), ashtu edhe zhanrin e tij (për shembull, për veprat
letrare ato janë: tregime të shkurtra, romanet, dramat; për veprat joletrare – esetë,
kujtimet etj.). Paraqitet detyrimisht viti i krijimit të tekstit, ose një periudhë kohe gjatë
së cilës krijohej teksti. Në rastet kur s’ka gjasë të saktësohet viti i krijimit, përmendet një
periudhë të përafërt ose të paktën viti i botimit të veprës. Për tekstet publicistike
përmendet titulli i botimit periodik (gazetë ose revistë), data dhe numri i botimit.
Më sa duket, në etapën e sotshme sistemi i tillë i përshkrimit të teksteve mjafton
për përdorimin e rregullt të Korpusit të shqipes. Megjithatë, në procesin e plotësimit të
Korpusit me tekstet e zhanreve, periudhave dhe fushave të ndryshme mund të dalë
nevoja për detajimin e mëtejshëm të annotimit metatekstual. Për shembull, një
parametër i ri si “forma e gjuhës letrare” do të ishte i nevojshëm për të dalluar tekstet
letrare të toskërishtes dhe gegërishtes. Si modeli i zhvillimit të mëtejshëm mund të
shërbejë edhe Korpusi nacional i gjuhës ruse, i cili, më sa duket, ka një annotim
metatekstual më të hollësishëm në mbarë botën (për shembull, në përshkrimin e
teksteve të shkruara përdoren rreth 25 parametra të ndryshme [Savçuk 2005]).
2.2. Annotimi leksiko-morfologjik i Korpusit të shqipes. Annotimi leksiko-
morfologjik, ose gjuhësor i Korpusit elektronik të shqipes është një sistem i
informacionit leksikor dhe të shenjave gramatikore (angl. tags). Shenjat gramatikore u
shtohen fjalëve teksti me anë të programit të analizës morfologjike (ose parser-it).
Informacioni i duhur për të gjitha fjalët që kërkohen paraprakisht shënjohet me dorë në
“fjalorin gramatikor” (angl. grammatical wordlist). Kur bëhet kërkimi në korpusin,
informacioni leksikor dhe gramatikor për çdo fjalëformë të kërkuar del në dritareza të
veçanta. Për shembull, fjalëforma djalin në Korpusin do të pajiset me informacionin, si
më poshtë vijon:
1) lemma (forma bazë e fjalës): djalë
2) veçori gramatikore të fjalës (pjesa e ligjëratës, gjinia e emrit, emër
frymori / jofrymori, folja kalimtare / jokalimtare): (NOUN, m, anim)
Maria MOROZOVA, Aleksandër RUSAKOV
90
3) veçori gramatikore të fjalëformës së dhënë (për shembull, rasa e emrit, koha e
foljes etj.): def, sg, acc
4) përkthimi: boy.
Figura 1. Fjalëforma djalin në Korpusin elektronik të shqipes.
Në përputhje me Korpusin e armenishtes lindore, sistemi i tag-ëve të annotimit
gjuhësor në Korpusin e shqipes bazohet në listën e ofruar prej Leipzig Glossing Rules.
Conventions for interlinear morpheme-by-morpheme glosses
(http://www.eva.mpg.de/lingua/resources/glossing-rules.php)3. Kjo listë është
plotësuar me tag-ët për disa kategori të veçanta të pranishme në shqipen dhe menjëherë
të rralla nga pikëpamja tipologjike, siç janë, për shembull, adm – mënyra habitore, opt –
mënyra dëshirore.
3. Standardi morfologjik dhe trajtimi i disa dukurive gramatikore në
Korpusin e elektronik të shqipes. Pasqyrimi i rregullt të të dhënave në Korpusin
sigurohet me anë të standardit të tij morfologjik. Standardi përcakton inventarin e
veçorive morfologjike, strukturën e paradigmës së fjalës, formën e saj bazë dhe mënyrën
e pasqyrimit të normës gramatikore në Korpusin [Lashevskaja, Plungian, Siçinava 2005].
3 Bie fjala për rregullat e përpunuar prej B. Comrie, M. Haspelmath dhe B. Bickel, që përmbajnë listën e shkurtesave për termat anglezë që përdoren për të emërtuar kategoritë gramatikore më të përhapura në gjuhët e botës (për shembull, shkurtesa acc për rasën kallëzore, sg për numrin njëjës etj.). Këto rregulla të Lajpcigut konsiderohen si një standard ndërkombëtar për tipologjinë gjuhësore.
KORPUSI ELEKTRONIK I SHQIPES: PËRPUNIMI, PËRMBAJTJA DHE PËRDORIMI
91
Për shembull, si standard për Korpusin nacional të gjuhës ruse përdoret “Fjalori
gramatikor i gjuhës ruse” i grumbulluar prej autorit A. Zaliznjak [Zaliznjak 1980]).
Standardi morfologjik i Korpusit nacional të shqipes merr parasysh parime
kryesore të “Gramatikës së gjuhës shqipe” prej Oda Buchholz dhe Wilfried Fiedler-it
[Buccholz, Fiedler 1987]. Struktura e annotimit të Korpusit të shqipes, pra, përputhet
përgjithësisht me traditën e përshkrimit të gramatikës së shqipes, për të lehtësuar të
paktën punën kërkimore të një përdoruesi “prototipik”, d.m.th. të një gjuhëtari të
mësuar me gramatikën klasike të shqipes dhe me kategoritë e saj kryesore. Siç e
përcakton G. Leech, një nga krijuesit e Korpusit nacional Britanik, annotimi i një
korpusi gjuhësor duhet të bazohet në parime të kuptueshme për përdoruesin4.
Megjithatë, standardi morfologjik i Korpusit të shqipes përmban edhe disa dallime nga
kjo traditë, që kemi propozuar për arsyet e ndryshme teorike dhe praktike, përfshirë
edhe veçoritë e pasqyrimit dhe përpunimit teknike të informatës gramatikore në
Korpusin. Do të jepen tani disa shembuj të lidhur me përfaqësimin e sistemit rasor.
3.1. Trajtimi i rasave. Rasa gjinore-dhanore. Për sa u përket rasave gjinore
dhe dhanore, dallimi i këtyre kategorive është një nga çështjet më të diskutueshme të
gramatikës së shqipes. Si trajtë dalluese sintaksore mund të konsiderohet nyja e
përparme të gjinores që nuk del në dhanoren dhe përdorimi i domosdoshëm i trajtës së
shkurtër me dhanoren. Megjithatë, nga pikëpamja e morfologjisë, vet format e të dy
rasave njësojnë gjithandej te emrat, ashtu edhe te përemrat e lakuar. Pra, programi i
analizës morfologjike (parser-i) nuk do të dallojë automatikisht gjinoren nga dhanorja
(kjo mund të bëhet vetëm me dorë dhe në kontekste të caktuara). Për të pakësuar sasinë
e varianteve homonimike të analizës morfologjike, në Korpusin elektronik të shqipes
këto rasa janë bashkuar në një rasë që quhet dhe kërkohet si “gjinore-dhanore” (gen-dat).
3.2. Rrjedhorja II. Përveç rasave të gramatikës tradicionale të shqipes (emërorja,
gjinorja e bashkuar me dhanoren, kallëzorja, rrjedhorja), annotimi i Korpusit elektronik
të shqipes përfshin shënimin e veçantë për të ashtuquajturin “rrjedhore të dytë” (abl 2).
Nga pikëpamja formale ajo trajtohet në Korpusin si rasa që demonstron një formë
krejtësisht të veçantë me mbaresën -sh në shumësin e pashquar. Veçoritë funksionale e
kësaj forme gjithashtu u bënë arsye për ta dalluar atë në sistemin rasore: rrjedhorja e
dytë, siç dihet, përdoret zakonisht pa parafjalë; ka raste kur përdoren më shpesh format
e rrjedhores së dytë (për shembull, shprehje me përcaktor, lesh dele-sh), kurse në rastet e
tjera mund të dalin të dyja (prej fshatra-sh = prej fshatra-ve). Për hir të pranimit të rrjedhores
dhe të rrjedhores së dytë në standardin morfologjik të Korpusit, këto dy forma mund
të kërkohen veç e veç me anë të kërkimit të thjeshtë (abl ose abl 2). Tërësia e formave të
4 “The scheme of analysis presupposed by the annotations – the annotation scheme – should be based on principles or guidelines accesible to the end-user” [Leech 1993: 275].
Maria MOROZOVA, Aleksandër RUSAKOV
92
rrjedhores gjetet lehtësisht me anë të kërkimit të përbërë nga “rrjedhore + rrjedhore
II” (abl + abl 2).
3.3. Rasa zero. Me interes është rasti i përdorimit të formës së quajtur “rasa
zero” në annotimin morfologjik të Korpusit të shqipes. Sipas gramatikës së O. Buchholz
dhe W. Fiedler-it, kjo formë quhet Merkmalloser Kasus dhe u ngjan emërores dhe
kallëzores njëjës të pashquar. Ajo mund të shërbejë në fjali si ndajshtim (lumi Shkumbin)
dhe si përcaktor i emrave me kuptimin e sasisë, numrit etj. (një kovë ujë) [Buccholz,
Fiedler 1987: 226]. Sipas mendimit tonë, edhe një rast për të trajtuar si përdorimi i “rasës
zero” është forma e emrit në togfjalëshin me përcaktor mbiemëror e paravendosur:
Kërkonte trupin e të ziut djalë. Pra, të tri rastet e lartpërmendura, që nuk kanë trajtimin e
tyre të saktë në gramatikën klasike, në Korpusin e shqipes mund të interpretohen në një
mënyrë të përbashkët. Pas heqjes së homonimisë leksikore dhe gramatikore (për heqjen
e homonimisë shih p. 4) do të jetë i mundur kërkimi i veç këtyre formave dhe studimi i
mëtejshëm i shpërndarjes së tyre në tekstet e tipave të ndryshme.
4. Analiza morfologjike në Korpusin elektronik të shqipes. Për sa i përket
analizës leksiko-morfologjike të teksteve, kjo bëhet automatikisht me anë të programit
të analizës morfologjike “UniParser” prej autorit Т. Аrkhangelskij. Analiza dhe annotimi
i teksteve bëhet fjalë pas fjale, d.m.th. duke analizuar ndonjë fjalëformë, parser-i nuk
merr parasysh kontekstin sintaksor majtas dhe djathtas. Në procesin e annotimit
morfologjik me anë të parser-it, çdo fjalëformë pajiset me informacionin për formën e
saj bazë dhe për veçori të saj gramatikore. Që të identifikohen të gjitha fjalët teksti në
korpusin si fjalëformat e leksemave përkatëse, së pari të gjitha këto leksema duhen futur
dhe përshkruar në fjalorin gramatikor.
Pa tjetër, një sasi e fjalëformave të paanalizuara (angl. parcing error rate) do të
ekzistojë në korpusin pothuaj në çdo periudhë kohe. Bie fjala, para së gjithash, për
huazime të reja, variante të parregullta të lakimit ose zgjedhimit, shkurtime, emra të
përveçëm dhe terma speciale, fjalë të shkruara me një standard tjetër drejtshkrimi (ose
me gabime). Pjesa e fjalëformave të paanalizuara do të minimizohet hap pas hapi në
procesin e plotësimit të mëtejshëm të fjalorit gramatikor, e cili për momentin bazohet
në fjalorët të shqipes [FShS 2002; FGjShS 2006; Newmark 2000 etj.].
Në qoftë se ndonjë varg shenjash identifikohet nga parser-i si fjalëforma me disa
kuptime gramatikore, programi i jep kësaj formës të gjitha variantet e mundshme
(homonimike) të analizës. Analiza të tilla, në fakt, nuk janë plotësisht të gabuara dhe
mund të konsiderohen si analizat hipotetike.
KORPUSI ELEKTRONIK I SHQIPES: PËRPUNIMI, PËRMBAJTJA DHE PËRDORIMI
93
Figura 2. Fjalëforma dhe në Korpusin elektronik të shqipes: variantet homonimike e
analizës leksiko-morfologjike.
Heqja e homonimisë gramatikore në korpuset gjuhësore bashkëkohore bëhet
në mënyrën gjysmë automatizuar, d.m.th. me dorë dhe me ndihmën e veglave
programore. Së pari, hiqen automatikisht variante jo të sakta të analizës morfologjike.
Pastaj përpunohen me dorë fjalëforma që paraqesin vështirësi për analizën automatike
(për shembull, format homonimike rasore – gjinore-dhanorja dhe rrjedhorja), ashtu
edhe homonimet leksiko-gramatikore që u takojnë pjesëve të ndryshme të ligjëratës
(p. sh. mbiemrat dhe emrat prejmbiemërore). Në kontekstet, ku përcaktimi
përfundimtar i rasës së emrit nuk është mundur, do të mbeten dy analiza alternative,
sepse pikëpamja e përdoruesit në atë rast mund të ndryshojë nga ajo e krijuesit të
Korpusit.
5. Mjete kërkimi. Korpusi elektronik i shqipes shfrytëzon programin e kërkimit
dhe interfejsin që përdoren në korpuse të tjera gjuhësore të krijuara në kuadrin e
Programit të Akademisë së shkencave të Rusisë për “Corpus linguistics”, përfshirë edhe
Korpusin e armenishtes lindore.
Kërkimi në Korpusin bëhet sipas parametrave të tilla si fjalëforma, lemma,
përkthimi dhe informacioni gramatikor. Po të zgjidhet opsioni “Fjalëforma” (djalin), do
të dalin të gjitha shembuj ku gjetet vargu shenjash, ose fjalëforma të kërkuara (i ngjan
kërkimit në Google etj.). Nëse kërkohet lemma e ndonjë fjale (djalë), si rezultat e kërkimit
dhe
CONJ ‘and, both’
NOUN,m,inanim
sgnom,indef ‘earth, land’
NOUN,m,inanim
sg,acc,indef ‘earth, land’
V.2.sg,aor,ind,act ‘give’
ADV
‘even’
NOUN,m,inanim
sg,unmarked,indef ‘earth, land’
Maria MOROZOVA, Aleksandër RUSAKOV
94
do të dalin të gjitha fjalëformat që i përkasin. Duhet të nënvizojmë që kërkimi sipas
lemma-s do t’u japë përdoruesit vetëm fjalëforma të annotuara (të futura në fjalorin
gramatikor të Korpusit); këto të paannotuara nuk do të kërkohen, ndryshe nga kërkimi
sipas fjalëformës. Përveç kërkimit sipas lemma-s dhe fjalëformës, mund të kërkohen
edhe përkthime në anglisht (boy), që ka vlerë për hulumtuesit që nuk e zotërojnë shqipen
në një nivel të lartë.
Në dritaren “Gramatika dhe pjesët e ligjëratës” mund të përcaktohen tipare
gramatikore të fjalëformave të kërkuara. Ky lloj kërkimi kombinohet edhe me kërkimin
e lemma-ve. Gjithashtu kushtet e kërkimit mund të përcaktohen në dritaren “Kërkim i
avancuar”. Këtu, për shembull, mund të caktoni çfarë shenjat pikësimi duhen të dalin
në anën e majtë dhe të djathtë të fjalëformës, ku do të ndodhet fjalëforma brenda fjalisë
(fillimi, mesi, fundi i fjalisë) etj.
Një mundësi tjetër e parashikuar në Korpus është kërkimi i përbërë i formave
analitike dhe të togfjalëshave. D.m.th. mund të kërkohen disa fjalëforma të vendosura
njëra pas tjetrit në kontekstin, ashtu edhe ato të ndara me fjalëforma të tjera. Ky lloj
kërkimi mund të përdoret për të gjetur format analitike që janë shumë të përhapura në
shqipen. Bie fjala kryesisht për format foljore, format krahasore dhe sipërore të
mbiemrave dhe të ndajfoljeve etj. Për shembull, kërkimi i foljes kam në kohën e tashme
të dëftores + pjesore do t’ju japë një sasi të konsiderueshme të shembujve me format e
kohës së kryer të diatezës veprore (kam punuar, kam shkruar etj.).
Si rezultat i kërkimit dalin shembuj gjuhësore me fjalëforma të kërkuara,
përcaktohet numri i rezultateve dhe numri i dokumenteve ku gjenden këto shembuj.
Çdo shembull është pajisur me informacionin metatekstual: titulli i tekstit, emri i autorit
dhe data e krijimit. Çdo fjalëforma, që ka të paktën një variant të analizës, pajiset me
lemma-n, informacionin për veçoritë fjalëformuese dhe fjalëndryshuese, ashtu edhe me
përkthimin. Mënyra e shfaqjes së rezultateve të kërkimit ndërrohet nëpërmjet dritares
“Shfaqja e rezultateve” në disa mënyra: ka formati i plotë, i thjeshtë, formati KWIC (Key
Word In Context) dhe formati me shënime gramatikore (angl. glossed). Në formatin KWIC
fjalëforma e kërkuar shfaqet në interfejsin kështu, që të duket sa më mirë pozita e saj në
fjalinë (iniciale, qendrore, fundore). Formati me shënime gramatikore supozon që gjithë
informacioni gramatikor për fjalëformën, përfshirë lemma-n e saj dhe karakteristikat
gramatikore, shfaqet nën fjalëformës, prapëseprapë pa asnjë ndarje në morfemat. Mund
të përcaktohet edhe sasia e shembujve gjuhësore të shfaqura menjëherë në një faqe,
ashtu edhe rendi i shembujve.
Me rendësi është të përmendet, që çdo shembull gjuhësor përmban vetëm një
fjali të ndonjë teksti, dhe konteksti mund të zgjerohet maksimalisht deri në shtatë fjali
(plus tri majtas dhe plus tri djathtas). Kontekste më të mëdha dhe tekste të plota nuk
shfaqen në korpusin nga shkaku që shumë tekste të korpusit janë objektet e të drejtës
KORPUSI ELEKTRONIK I SHQIPES: PËRPUNIMI, PËRMBAJTJA DHE PËRDORIMI
95
së autorit, dhe për këtë arsye përdoruesi nuk mund t’i shikojë ose të shkarkojë
plotësisht.
6. Përfundim. Detyrat e dorës së parë në zhvillimin e mëtejshëm të Korpusit të
shqipes lidhen me zgjerimin e fjalorit gramatikor, plotësimin e bazës së teksteve
elektronike dhe heqjen e homonimisë leksiko-gramatikore. Korpusi i madh, i plotë dhe
gjithëpërfshirës, si rezultat i punës së tillë, do të jetë i dobishëm për gjuhëtarët që merren
me çështjet e gramatikës, historisë dhe leksikut të gjuhës shqipe, ashtu edhe për ata që
flasin shqipen si gjuhë amtare ose e studiojnë si gjuhë të huaj.
Maria MOROZOVA, Aleksandër RUSAKOV
96
Literature
1. Buchholz, Fiedler 1987 – Buccholz O., Fiedler W. Albanische Grammatik.
Leipzig: Verlag Enzyklopadie, 1987. 582 s.
2. FShS 2002 – Fjalor i shqipes së sotme. Botim i dytë i ripunuar (me rreth 35.000
fjalë). Akademia e shkencave e Shqipërisë, Instituti i Gjuhësisë dhe i Letërsisë.
Tiranë: TOENA, 2002.
3. FGjShS 2006 – Fjalor i gjuhës së sotme shqipe (me rreth 40.000 fjalë).
Akademia e shkencave e Shqipërisë, Instituti i Gjuhësisë dhe i Letërsisë.
Tiranë: TOENA, 2006.
4. Lashevskaja, Plungjan, Siçinava 2005 – Ляшевская О. Н., Плунгян В. А.,
Сичинава Д. В. О морфологическом стандарте Национального корпуса
русского языка // Национальный корпус русского языка 2003–2005: результаты
и перспективы [сборник]. Рос. акад. наук, Ин-т рус. яз. им.
В. В. Виноградова. М.: Индрик, 2005. C. 111–135.
5. Leech 1993 – Leech G. Corpus annotation schemes // Literary and Linguistic
Computing 8/4, 1993. P. 275–281.
6. Newmark 2000 – Albanian English Dictionary / Ed. by L. Newmark. Tiranë:
Albin, 2000.
7. Savçuk 2005 – Савчук С. О. Метатекстовая разметка в Национальном
корпусе русского языка: базовые принципы и основные функции //
Национальный корпус русского языка 2003–2005: результаты и перспективы
[сборник]. Рос. акад. наук, Ин-т рус. яз. им. В. В. Виноградова. М. :
Индрик, 2005. C. 62–88.
8. Zaliznjak 1980 – Зализняк А. А. Грамматический словарь русского языка.
Словоизменение. Около 100000 слов. М.: Русский язык, 1980. 880 c.
409
PËRMBAJTJA
Sedat KUÇI, dekan i Fakultetit të Filologjisë FJALA PËRSHËNDETËSE NË HAPJEN E PUNIMEVE TË SEMINARIT XXXII NDËRKOMBËTAR PËR GJUHËN, LETËRSINË DHE KULTURËN SHQIPTARE ..............................................................................................................................7 Bardh RUGOVA, drejtor i Seminarit FJALA E HAPJES SË SEMINARIT XXXII NDËRKOMBËTAR PËR GJUHËN, LETËRSINË DHE KULTURËN SHQIPTARE ...............................................................9 LIGJËRATA ....................................................................................................... 11 Rexhep ISMAJLI DISKUTIME PËR PREJARDHJEN E GJUHËS SHQIPE ......................................... 13 Bashkim KUÇUKU DINAMIKA E IDENTITETIT SHQIPTAR NË BASHKËKOHËSI ...................... 45 Rrahman PAÇARIZI QASJA SOCIOKOGNITIVE NË TERMINOLOGJI – MEDIET E REJA DHE TEKNOLOGJIA .................................................................................................................... 59 Kujtim M. SHALA SAMI FRASHËRI - AUTOR YNI ...................................................................................... 73 Maria MOROZOVA, Aleksandër RUSAKOV KORPUSI ELEKTRONIK I SHQIPES: PËRPUNIMI, PËRMBAJTJA DHE PËRDORIMI .......................................................................................................................... 85 Maria MOROZOVA, Aleksandër RUSAKOV PERFEKTI NË SHQIPEN E SOTME:............................................................................ 97 STUDIMI I BAZUAR NË TEKSTET E KORPUSIT ELEKTRONIK TË SHQIPES ................................................................................................................................. 97
410
TRYEZA .......................................................................................................... 105 Kujtim M. SHALA ORA E REXHEP ISMAJLIT ............................................................................................ 107 Linditë SEJDIU – RUGOVA REXHEP ISMAJLI PËR GJUHËSINË TEKSTORE ................................................. 113 Shkumbin MUNISHI REXHEP ISMAJLI – NISMËTAR I DREJTIMEVE MODERNE LINGUISTIKE SHQIPTARE .......................................................................................... 117 Bardh RUGOVA NDIKIMI I SHUMËFISHTË I REXHEP ISMAJLIT NË GJUHËSINË SHQIPTARE ......................................................................................................................... 125 I. GJUHËSI ...................................................................................................... 129 Teuta ABRASHI KONTRIBUTI I ODA BUCHHOLZ-it NË GJUHËSINË SHQIPTARE ............. 131 Linditë SEJDIU - RUGOVA BRIAN JOSEPH-I PËR INFINITIVIN E SHQIPES.................................................. 139 Ludmila BUXHELI GIUSEPPINA TURANO PËR PROCESET MORFOLOGJIKE NË SHQIPEN E SOTME .................................................................................................. 145 Anila ÇEPANI, Adelina ÇERPJA VËSHTRIME TË REJA PËR GRAMATIKËN E SHQIPES NË VEPRËN E AUTORËVE NEWMARK, HUBBARD DHE PRIFTI ............... 151 Haki HYSENAJ IRENA SAWICKA PËR STRUKTURËN E RROKJES NË SHQIPEN E KOSOVËS ............................................................................................................................. 163 Juliana KUME GERDA ULISCH RRETH PRANISË SË GREQISHTES SË RE NË GJUHËN SHQIPE (DISERTACION I 1964-S) ............................................................................... 171 Bade BAJRAMI GRAMATIKAT E GJUHËS SHQIPE TË ALBANOLOGËVE FRËNGË .......... 189
411
Bahri KOSKOVIKU SINTAGMA FOLJORE SIPAS AUTORËVE GJERMANË BUCHHOLZ-FIEDLER .................................................................................................... 197 Vjosa HAMITI MODALITETI DHE MUNDËSITË E SHPREHJES SË TIJ SIPAS “ALBANISCHE GRAMMATIK” TË ODA BUCHHOLZ-IT DHE WILFRIED FIEDLER-IT ......................................................................................................................... 203 Remzi PËRNASKA, Tomorr PLANGARICA KONTRIBUTI I KRISTIAN GYTIT PËR SHQIPEN DHE KULTURËN SHQIPTARE ......................................................................................................................... 211 Shkumbin MUNISHI KONTRIBUTI I JANET BYRON PËR HISTORINË E STANDARDIZIMIT TË SHQIPES ............................................................................................................................... 219 Merita HYSA SHTRESËZIME KONCEPTUALE NË “ALBANIAN PHONOLOGY” TË G.L.BEVINGTON .............................................................................................................. 227 Julie M. KOLGJINI PËR (Ç)PENGIMIN E GJUHËS SHQIPE NË KOHËN POST-MODERNE, MARRË SHKAS NGA KONTRIBUTI I JANET BYRON-IT NË DRITËN E RISHQYRTIMIT TË STANDARDIT AKTUAL ..................................................... 237 Orjeta BAJA KRISTIAN GYT (CHRISTIAN GUT) PËR GJUHËN SHQIPE ............................. 255 Majlinda BREGASI KONTRIBUTI I LEONARDO MARIA SAVOIAS PËR ALBANOLOGJINË, NË GJYSMËN E DYTË TË SHEKULLIT XX ........................................................... 261 Linda MËNIKU KONTRIBUTI I PROF. VICTOR FRIEDMAN-IT NË STUDIMET PËR GJUHËN SHQIPE .................................................................................................... 269 Mensur VOKRRI VICTOR FRIEDMAN PËR HABITOREN E SHQIPES .......................................... 285 Berton SULEJMANI PIKËPAMJET E BOZHIDAR VIDOEVSKIT PËR KONTAKTET GJUHËSORE TË MAQEDONISHTES DHE SHQIPES (NË RRAFSHIN DIALEKTOR) ....... 293
412
Naser PAJAZITI WACŁAW CIMOCHOWSKI MBI TË FOLMEN E DUSHMANIT ...................... 299 Xhavit BEQIRI, Bahtijar KRYEZIU E FOLMJA E SHKODRËS SIPAS DIALEKTOLOGES A. V. DESNICKAJA ... 303 Asllan HAMITI SHQIPJA NË DY FJALORËT SHUMËGJUHËSH TË GJORGJI PULEVSKIT 311 Martin SUROVČÁK J. U. JARNÍK (1848–1923): THEMELUESI I ALBANOLOGJISË ÇEKE ............ 325 Anton PANÇEV PROF. PETJA ASENOVA DHE GJUHËSIA SHQIPTARE .................................... 331 Matilda PARLLAKU (ÇOLLAKU) KONTRIBUTI I M. LAMBERTZ PËR TRAJTIMIN E RAPORTEVE KUSHTORE NË GJUHËN SHQIPE................................................. 337 Erzen KOPERAJ VENDI I SHQIPES NË VEPRËN E V. PISANIT ...................................................... 347 Ragip GJOSHI NDIHMESA E ALBANOLOGUT RUMUN GRIGORE BRËNKUSHI FILOLOGJISË SHQIPTARE ........................................................................................... 355 Shpëtim ELEZI ERIC P. HAMP-I PËR ORIGJINËN DHE VENDIN E SHQIPES ....................... 371 Ismet OSMANI PIKËPAMJET E BLLAZHE KONESKIT PËR GJUHËN SHQIPE NË KONTEKST BALLKANIK .............................................................................................. 379 Eliana PACO MENDIMI I DREJTЁ I H. KRAHES MBI TOPONIMET SI VIJUSHMЁRIA E NJЁ POPULLI ...................................................................................................................... 385 Elda RESMJA MOLLA NDIHMESA E A.CIRRINCIONES PËR HISTORINË E GJUHËS SHQIPE ..... 393 Flutura ÇITAKU GRAMATIKA PRAKTIKE NЁ PЁRQASJE ME GRAMATIKЁN E AKADEMISЁ (ME THEKS TË VAÇANTË NË TERMINOLOGJI ................. 397
413
Sponsorë:
Ministria e Arsimit, Shkencës dhe e Teknologjisë e Kosovës
Rektorati i Universitetit të Prishtinës
Seminari XXXII Ndërkombëtar për Gjuhën, Letërsinë dhe Kulturën Shqiptare
32/1
Botues: Fakulteti i Filologjisë, Prishtinë
Tirazhi: 300
Katalogimi në botim – (CIP)
Biblioteka Kombëtare e Kosovës “Pjetër Bogdani”
008(=18)(496.51)(063)”2013”
811.18(496.51)(063)”2013”
821.18(496.51)(063)”2013”
Seminari XXXII Ndërkombëtar për Gjuhën, Letërsinë dhe Kulturën
Shqiptare : Prishtinë, 19-30.08.2013 /[ Kryeredaktor Bardh Rugova]. –
Prishtinë : Universiteti i Prishtinës : Fakulteti i Filologjisë ; Tiranë :
Universiteti i Tiranës : Fakulteti Histori-Filologji, 2014. – 2 libra ; 24 cm.
[Libri] 1. – 412 f.
Titulli paralel në gjuhën shqipe dhe angleze
1.Rugova, Bardh
ISBN 978-9951-00-163-2
ISBN 978-9951-00-164-9