Analisi linguistico-pragmatica di hashtag costruzione di corpus specialistico
Nome Anna Fantini
Corso Dati empirici e teorie linguistiche –
Laboratorio di analisi dei dati linguistici
Data Anno Accademico 2014/2015
1
Interrogativo di ricerca
Cominciamo questo elaborato introducendo il nostro interrogativo di ricerca: cos’è e
come funziona un hashtag a livello linguistico?
Se ci rifacciamo alla cultura popolare del web, identifichiamo un hashtag come una
targhetta da assegnare a post, foto, twits, ecc...
L’OED online lo definisce “a word or phrase preceded by a hash sign (#), used on
social media sites such as Twitter to identify messages on a specific topic” e la presenza
di un’entrata nel dizionario mette subito in chiaro che si tratta di un termine ormai
importante e diffuso tra i parlanti.
Un hashtag però rappresenta anche un modo di comunicare tutto nuovo, fondato
sull’essenzialità e sull’economia del messaggio. Proprio la novità di questo elemento ci
ha spinto ad indagarlo a livello linguistico:
- quali sono le sue regole di formazione? Si possono definire universali o
idiosincratiche da parlante a parlante?
- la formazione degli hashtag rispetta sempre la netiquette? (per concetto di
netiquette utilizzato vedi Riferimenti Bibliografici, web resources).
- Qual è la funzione pragmatico-comunicativa per cui sono usati e in particolare
quale funzione è la più comune tra deittica (Andorno 2003), informativa e
valutativa (vedi 2.1.5 per i dettagli).
2
Nuove domande nascono a proposito della struttura dell’hashtag:
- è semplice, complessa o entrambe? E quali sono i parametri che usiamo per
fare queste valutazioni?
- In ambito strettamente linguistico potremmo chiederci quali sono le POS che
sono incluse in un hashtag, cosa ci dicono del parlante che le ha scelte e qual è
il loro uso in rapporto alla funzione pragmatica. Lo strumento hashtag può
soddisfare le esigenze comunicative del parlante?
Metodo – La costruzione del corpus
1 Progettazione, motivazioni, reperimento dati
Per rispondere ai nostri interrogativi di ricerca si è scelto di costruire un corpus
specialistico contenente testi tratti dalle pagine Twitter di due politici italiani: Enrico
Letta e Matteo Renzi. La scelta è motivata dal fatto che entrambi hanno ricoperto la
carica di Presidente del Consiglio, un ruolo in cui la comunicazione (coi media, con i
cittadini italiani e con il resto del mondo) svolge un ruolo importante; entrambi inoltre
hanno utilizzato Twitter prima, durante e dopo la presidenza (anche se quest’ultimo
caso si applica ovviamente solo a Enrico Letta).
La scelta di utilizzare Twitter come risorsa dipende dal fatto che esso è un microblog,
una particolare forma di social network la cui efficacia divulgativa è molto forte, basti
pensare all'uso sempre più intenso che ne fanno personaggi pubblici quali Barack
Obama (Yes We Can campagna 2008); Twitter può inoltre dirsi il padre degli hashtag,
3
diffusisi poi nel resto del web e solo recentemente collegati sistematicamente a un
livello che potremmo definire “inter-social”.
L’idea è che un corpus specialistico con queste premesse possa fornirci abbastanza dati
da cui estrarre informazioni sia strutturali sia funzionali (lessicali e pragmatiche),
arrivando così a delle generalizzazioni che rispondano alle nostre domande, almeno
all’interno di un ambito ristretto come quello del premierato italiano. Il passo
successivo sarebbe applicare gli stessi livelli di annotazione e queries simili anche ad
altri hashtag, provenienti da contesti diversi e con scopi comunicativi diversi.
Abbiamo quindi il seguente obiettivo: creare dei livelli di annotazione efficaci che
rispondano alle nostre domande su struttura e funzione, ma che possano adattarsi al
tagging di altri corpora (specialistici).
2 Annotazione
2.1 I livelli di annotazione
2.1.1 Livello mark-up twitter_specifics
In questo livello si effettua un mark up degli elementi specifici di twitter quali hashtag
(HS), users menzionati (USR), retwit (RT) e urls (URL), riprendendo in parte lo
schema di Bontcheva, Clark, Derczynski, Ritter 2013; un secondo sistema è stato creato
per segnalare eventuali omissioni di elementi multimediali quali link e immagini (om-
url, om-img) e di retwit e twits dello staff (om-rt, om-tw) che costituivano rumore di
fondo nella codifica del testo .txt, ma che sono fondamentali per l'elaborazione del
contesto.
4
Per quanto riguarda gli elementi omessi essi sono stati annotati sulla parola che
immediatamente li precedeva e dei link è stato fornito l'url nel comment all'annotazione;
questa scelta implica che alcune parole abbiano due o più annotazioni.
Es: in @Pontifex_it marcato come usr e come om-img.
i retwit sono sempre marcati sull'ultima parola del twit e, nel caso siano più di uno, ciò
è indicato nel comment. Questo livello prevede annotazione manuale di ogni twit,
quindi di porzioni interne al testo.
2.1.2 Livello mark-up time
In questo livello si effettua un mark up del contesto temporale di ogni twit, sono
annotati gli anni (2012, 2013, 2014) e ognuno è diviso in sei features di due mesi
ciascuna (jan-feb12, jan-feb13, jan-feb14, ecc..), nel comment dell'annotazione è
inserita la data specifica di ogni twit (Es: tag: sept-oct12, comment: 12/09/12). Questo
livello prevede annotazione manuale di ogni twit, quindi di porzioni interne al testo.
2.1.3 Livello hashtag-pos
In questo livello si effettua l'annotazione linguistica delle parts of speech di cui si
compone ogni hashtag, per procedere si è utilizzato un livello di annotazione pre-
esistente di pos tagging, nel quale sono state introdotte delle modifiche per renderlo
quanto più descrittivo possibile. Tali modifiche prevedono:
- l'inserimento del sistema abbreviation, a sua volta ramificato in sotto sistemi e
features secondo quanto illustrato nella
5
fig.1
questo sistema è necessario per taggare esaurientemente elementi come #formpol,
#enews;
- l'inserimento del sistema acronym, a sua volta ramificato nel sotto sistema acronym
type e nelle features italian-acronym e foreign-acronym, come illustrato nella fig. 2
questo sistema si è reso necessario per taggare esaurientemente elementi come #Bbc,
#Uk, #M5S, #CDM;
- l'aggiunta, all'interno del sistema adjective, della feature indefinite-adjective nel sotto
sistema adjective-type;
- la modifica delle features in subject-pronoun, object-pronoun del sotto sistema
personal-pronoun;
- l'aggiunta, all'interno del sotto sistema pronoun-type, delle feature interrogative-
pronoun, reflexive-pronoun, exclamative-pronoun;
- l'eliminazione dei sistemi rbr, ex, rp;
6
- la modifica del sistema other, aggiungendo nuove features al sotto sistema fw
secondo quanto illustrato nella fig. 3
questo cambiamento si è reso necessario per taggare esaurientemente elementi come
#growthcompatc, #dearfuturemum.
Nel caso di elementi ambigui o di sintagmi che non potevano essere taggati
separatamente senza perdere il significato specifico si è adottata un'annotazione delle
parti singole e dell'intero sintagma
Es: #PalazzoChigi
Palazzo_singular-common-noun
Chigi_proper-noun
PalazzoChigi_proper-noun.
2.1.4 Livello pragmatics-reference
In questo livello si effettua l'annotazione linguistica degli hashtag relativa alla
pragmatica del discorso e in particolare al tipo di referente introdotto. Per procedere è
stato adottato un livello creato appositamente che presuppone un tagging ti tipo
manuale di segmenti interni al testo. Come riferimento è stato usato Andorno 2003. Il
livello si struttura secondo quanto introdotta dalla fig. 4a e fig 4b
7
fig. 4a
fig. 4b
I nomi propri di stato, città, continente, programma o emittente televisivo sono stati
classificai come intrinsecamente identificabili, per i nomi propri di persona si è scelto di
classificare intrinsecamente identificabili quelli che indicavano personaggi
particolarmente noti del panorama politico o del panorama pubblico (Berlusconi,
Bersani, Papa Francesco, ecc..); i nomi propri di persona meno noti sono stati
classificati come identificabili in relazione al contesto (Meriam, Stefano, ecc..).
2.1.5 Livello pragmatics-function
8
In questo livello si effettua l'annotazione linguistica degli hashtag relativa alla funzione
pragmatica svolta dal referente; sono stati scelti tre sistemi principali: funzione deittica,
funzione informativa e funzione valutazione; la selezione delle feature è stata
completata e arricchita passo passo durante l’annotazione. Il livello si struttura secondo
quanto introdotta dalla fig. 5
Al sistema deissi sono stati scelte tre features: spaziale (Firenze, PalazzoChigi,
Quirinale, ecc..) temporale (adesso, 100giorni, 25aprile, ecc..) e personale (io, ecc..)
Al sistema informativa sono state aggiunte sei features principali e quattro sotto-
features; il sistema è stato usato per taggare elementi come evento-politico-nazionale
(cdm, amministrativePd, ecc..), evento-politico-internazionale (europee, indire, ecc..),
iniziativa (20lab, porcellum, ecc..), persone (Napolitano, Monti, Papa Francesco, ecc..),
citazione (Il cielo sopra Berlino), tematica (lavoro, corruzione, diritti, giovani, ecc..)
Al sistema valutazione sono state aggiunte tre features: positiva (forzaMilan, ecc..),
negativa (mentreloro, lepiùnoioseprimarieamericane, ecc.), neutra (Ibraraffreddato,
tuttoqui, RIP, ecc..).
9
3 Metadata
3.1 Testi inclusi nel corpus
I testi inclusi nel corpo sono stati salvati con i seguenti nomi:
Renzi_premier.txt
Renzi_prima.txt
Letta_dopo.txt
Letta_premier.txt
Letta-prima.txt
Sono stati estratti dalle pagine twitter dei due politici Matteo Renzi URL
https://twitter.com/matteorenzi e Enrico Letta URL https://twitter.com/EnricoLetta, il
giorno 23 ottobre 2014, pertanto ogni twit che segue questa data non è incluso nel testo.
I twit nei testi di Matteo Renzi vanno dal 25 novembre 2012 al 23 ottobre 2014 per un
totale di 9438 tokens; i twit nei testi di Enrico Letta vanno dal 5 marzo 2012 al 23
ottobre 2014 per un totale di 12442 tokens; in tutto sono stati annotati 1356 hashtag.
4.2 Reperimento dei dati
Si sono ottenuti i dati salvando in formato HTML la pagina web dell'account twitter, in
seguito le pagine sono state convertite in formato .txt tramite blocco note e lì ripulite di
tutti gli elementi di rumore quali URLs allegati ai twit, elementi sovra-rappresentati che
costituivano link o bottoni (retwit, preferito, ecc..), nomi utenti e date. Ciò che è
importante per l’interpretazione dei dati (data del twit, elementi multimediali e link) è
stato reinserito nel livello d’annotazione mark up twitter_specifics.
10
Analisi e risultati
A questo punto illustreremo il processo di analisi dei dati raccolti per rispondere
all’interrogativo di ricerca.
1.1 Quali POS sono incluse nell’hashtag
Abbiamo inizialmente esplorato il corpus creando una word list in cui la frequenza
delle parole è decrescente. È subito emerso come, tra le prime venti slot, solo due
fossero occupate da verbi, mentre avevamo ben undici nomi diversi (tra essi è stato
incluso ciò che viene taggato come acronimo nel livello hashtag-pos, purché indicasse
un nome) e tre slot di aggettivi, le restanti sono parole funzione (Jezek, Treccani).
Notiamo quindi subito una significativa disparità tra le due principali parti del discorso:
nome e verbo; questa disparità si riflette anche nella frequenza relativa di utilizzo che è
del 4% per il nome più frequente e dell’1,87% per il verbo più frequente. È evidente
che i due parlanti prediligono un hashtag nominale, il cui uso è semplice e il messaggio
più immediato, con referenti facilmente comprensibili agli utenti.
Ora ci concentreremo sul numero di occorrenze delle principali POS: verbo, nome,
aggettivo e avverbio. Tramite una ricerca per singole parti del discorso abbiamo notato
che il nome è la scelta più diffusa, con un numero di 1247 occorrenze; le occorrenze
verbali sono solo un ottavo di quelle nominali. Gli aggettivi sono presenti in numero di
249, per la maggior parte di tipo qualificativo di grado zero, mentre la seconda tipologia
più utilizzata è quella numerale; gli avverbi invece sono solo 69. È importante
sottolineare che gran parte dei 249 aggettivi non sono lemmi diversi, infatti troviamo
usi molto frequenti dello stesso lemma nella stessa stessa forma, accompagnata a teste
nominali che restano costanti (ad esempio “la volta buona” 54 occorrenze, “cose
11
concrete” 48 occorrenze). Questo ci porta a dire che i nostri parlanti preferiscono fare
uso degli stessi hashtag per etichettare twit diversi, ma riconducibili allo stesso macro-
argomento. Inoltre la testa verbale è raramente accompagnata da relativo modificatore
avverbiale, il nome invece è, almeno per un quinto delle sue occorrenze, modificato da
aggettivo.
1.2 L’uso idiosincratico di POS
Per questa sezione prendiamo di nuovo come punto di riferimento le principali POS:
nome, verbo, aggettivo e avverbio; eseguiamo l’analisi con mezzi statistici.
Il confronto tra i due parlanti è stato fatto prima su base assoluta, calcolando la
percentuale d’uso di ogni categoria lessicale sul numero totale dei tokens nei testi; in un
secondo momento è stato fatto un confronto sulla base relativa di 1000 tokens a testo
con media delle percentuali per ogni parlante.
I risultati emersi sono i seguenti:
- il nome è la categoria lessicale più utilizzata, con una differenza minima tra le
percentuali del parlante-Renzi e del parlante-Letta (rispettivamente 46.17 % e 43.44%
su un campione di 1000 tokens). Come già intuito entrambi i parlanti prediligono un
hashtag nominale.
- Il verbo è la terza categoria lessicale più utilizzata, tuttavia la differenza tra parlante-
Renzi e parlante-Letta è piuttosto importante, abbiamo infatti rispettivamente 11,5 % e
1,87 % su un campione di 1000 tokens. Vediamo quindi che tipo di uso verbale fa il
parlante-Renzi: di questo 11.5%, il 10 è costituito da indicativo presente alla 3a persona
singolare (ad esempio “italia riparte”, “matteo risponde”, Italia“cambia verso”) con
12
soggetto esplicito, ciò conferisce all’hashtag una sfumatura neutrale e impersonale –
vedi uso della terza persona per indicare sé stesso. Le restanti forme all’indicativo
presente hanno un uso esortativo, come “tappa la buca”, “cambiamo tutto”
“proviamoci” “cominciamo il domani” e il soggetto è implicito, questa soluzione, in
unione con la prima persona singolare, ha l’evidente scopo di coinvolgere l’utente nel
twit. La prima persona singolare, forma che dovrebbe ricorrere piuttosto spesso in un
twit personale, è invece usata molto raramente, ad esempio “io non dimentico” “io non
mollo” “io sto con caterina”; ciò potrebbe significare che il politico cerca un rapporto
più stretto con il suo utente/elettore, censurando sé stesso sempre, eccetto che nei
momenti più critici.
- L’aggettivo è la seconda categoria lessicale più utilizzata e anche in questo caso si
registrano importanti differenze da parlante a parlante, con Renzi abbiamo infatti il
16,08% su 1000 tokens e con Letta il 3,38% sulla stessa quantità. Renzi predilige
aggettivi qualificativi di grado zero i cui lemmi però sono poco vari (per la maggior
parte “buon*” e “concrete”); gli aggettivi numerali sono un’altra tipologia abbastanza
frequente. Per contro Letta utilizza quasi esclusivamente aggettivi qualificativi di grado
zero. L’assenza di superlativi o comparativi in entrambi i parlanti è conferma della
semplicità che si predilige per l’hashtag.
- L’avverbio è la quarta categoria lessicale più utilizzata, in questo caso le differenze tra
i due parlanti sono minime: con Renzi l’avverbio costituisce il 3.15% di 1000 tokens e
con Letta il 3,3% di 1000 tokens. Gli avverbi preferiti sono temporali (“dopo” “adesso”
“ora” “mai”) e con sfumatura negativa (“no” “non”).
13
1.3 Le POS in rapporto alla funzione pragmatica
1.3.1 Il livello pragmatics-reference
L’indagine statistica mostra che l’uso di nomi è più alto per riferimento singolare che
per quello generico (rispettivamente 76% e 61 %) e ciò è comprensibile dato che tra i
riferimenti specifici rientrano Italia, Europa, nomi di città, ecc.. molto utilizzati nel
contesto in questione. La tendenza si ritrova invariata anche tra le teste nominali che
sono fw.
Per contro l’uso dell’aggettivo è più frequente nel riferimento generico; per entrambe le
tipologie di riferimento è significativo l’impiego di aggettivo qualificativo di grado
zero, nel riferimento generico abbiamo meno varietà e una tendenza a servirsi di tre
combinazioni principali “la volta buona” “cose concrete” “italia giusta”. Nel
riferimento singolare invece l’aggettivo qualificativo è molto più vario e ciò si spiega
proprio in virtù della testa nominale da cui dipende: se il referente è specifico a maggior
ragione l’aggettivo lo renderà unico.
È doveroso segnalare che c’è discordanza anche nell’uso dei determinanti, tra cui
articoli determinativi, soprattutto associati a riferimenti generici e non a riferimenti
singolari.
1.3.2 Il livello pragmatics-function
Facciamo ora un nuovo confronto delle POS principali – nome, verbo, aggettivo e
avverbio – sulla base del loro impiego nel livello pragmatics-function; ricordiamo che il
numero totale di tokens cambia da funzione a funzione (1626 informativa, 387 deissi,
332 valutazione):
14
- il nome è la classe lessicale più diffusa; la frequenza relativa alle singole funzioni è
più alta per la funzione deittica (84% contro il 56% della informativa e il 31% della
valutazione) ma il numero più elevato di occorrenze si concentra nella funzione
informativa (809 contro le 320 della dessi e le 98 della valutazione), tra le tre è la
funzione per la quale il parlante predilige l’uso nominale. Interessante è il fatto che,
nonostante il numero di tokens totali differisca di poco, la deissi e la valutazione hanno
un uso nominale decisamente diverso.
- Il verbo è la terza classe lessicale più diffusa; la frequenza relativa alle singole
funzioni è più alta per la valutazione (16% contro il 6,51%) e il numero più elevato di
occorrenze si concentra nella funzione informativa (93 contro le 50 della valutazione,
zero occorrenze in deissi). La funzione informativa ha in proporzione un uso verbale
molto basso, predilige decisamente una testa nominale in unione – come vedremo tra
poco – con un aggettivo.
- L’aggettivo è la terza classe lessicale più diffusa; e il numero più alto di occorrenze si
concentra nella funzione informativa (189 contro le 42 della valutazione e le 13 della
deissi). C’è quasi parità tra la frequenza relativa della valutazione e dell’informativa e
ciò è significativo se si considera la grande differenza tra i tokens totali dell’una e
dell’altra. L’aggettivo è dunque una classe lessicale molto usata con funzione
informativa, mentre ci aspetteremmo un uso maggiore con la funzione valutazione.
- L’avverbio è la quarta classe lessicale più diffusa e il numero più alto di occorrenze si
concentra nella funzione valutazione (33 contro le 21 della informativa e le sole 13
della deissi). La frequenza relativa rispecchia l’andamento. È singolare che nonostante
15
si trovino abbastanza diffusamente degli avverbi di tempo, l’uso avverbiale sia
soprattutto legato alla funzione valutazione.
Riassumendo: la funzione informativa ha al suo interno le disparità più grandi tra le
quattro POS considerate, con una preferenza per la coppia nome/aggettivo (61% dei
tokens totali). Significative differenze si hanno anche nella deissi, con un impiego quasi
esclusivo del nome (82% dei tokens totali); più equilibrate le differenze tra le POS della
valutazione (nome 29%, verbo 15%, aggettivo 13%, avverbio 10%). In generale il
nome è la categoria lessicale preferita per ogni funzione e qui si ritorna alla struttura
prevalentemente nominale dell’hashtag.
2 La formazione e la struttura dell’hashtag
Riflettiamo adesso sulle regole di formazione, esse infatti sono strettamente connesse
alle POS e determinano la struttura dell’hashtag.
È importante dire che sul web esistono delle vere e proprie norme per il corretto uso di
questa etichetta, create sulla base della netiquette e della funzionalità della risorsa. Di
seguito le riportiamo per poter fare un confronto con la formazione degli hashtag del
corpus:
- Usa sempre # prima delle keywords di tua scelta
- Non usare mai spazi e punteggiatura in un hashtag. Se ci sono molte keywords
#devonoleggersitutteassieme in maniera fluida.
- Mai mettere una lettera o una cifra prima di #, ciò renderà l’hashtag inservibile.
- Usa lettere e numeri, mai un numero da solo! #no1mom #1mom.
16
- Falla breve! L’hashatag deve essere composto da poche parole significative,
altrimenti chi legge finirà per perdere il filo e non capirà il tuo punto di vista.
- Usa hashtag per rendere più reperibili i tuoi contenuti
- Non twittare hashtag che non c’entrano niente #Unicorn
- Attenzione alle maiuscole! Sono indispensabili per aiutare il lettore a capire un
hashtag lungo #MaNonAbusarne correndo il rischio di rendere difficile la
comprensione e fastidiosa la consultazione.
È chiaro che i punti fondamentali sono la brevità, la semplicità, l’uso di parole chiave a
cui tutti possono relazionarsi (#freddo e non #zerdapazzesca), non usare hashtag casuali
che possono confondere, rendere l’hashtag facile da leggere. Molta attenzione è
dedicata all’utente/ascoltatore – il vero fruitore della risorsa – e questo dimostra che
l’hashtag è percepito come un potente mezzo di comunicazione; l’utente/parlante affida
a questa struttura il proprio messaggio, arrivando a creare dei veri e propri trend che
entrano nell’uso generale: “#yeswecan” “#maiunagioia”, ecc…
Ecco dunque che l’uso di POS prevalentemente nominali o nominali-aggettivali trova
una vera motivazione pragmatico-comunicativa e lo stesso vale per la scelta di una
struttura poco complessa. Dopo aver osservato gli hashtag raccolti nel corpus e il
tagging del livello hashtag-pos , abbiamo elaborato dei parametri per delineare una
struttura formale dell’hashtag che si basa proprio sul grado di semplicità/ricostruibilità
da parte del parlante:
a) Struttura Semplice
17
- Abbreviazione (ma abbreviazione da fw è struttura complessa, in quanto richiede
uno sforzo maggiore per la ricostruzione da parte del parlante).
- Numero di componenti (parole contenuto) uguale o inferiore a due.
b) Struttura Complessa:
- Abbreviazione da fw.
- Solo fw.
- Numero di componenti (parole contenuto) superiore a due.
- Acronym (sia da fw che da termine italiano, in quanto di difficile ricostruzione per
l’utente).
- Frasi molto complesse, es: #lepiùnoioseprimarieamericane.
Una volta eseguita una query del corpus, si evidenzia che abbiamo oltre 630 strutture
semplici, più della metà è costituita da nomi (propri o comuni), le restanti da
combinazioni nome/aggettivo o verbo/altra POS. Le strutture complesse sono 338, di
cui buona parte è un acronimo (“Pd”, “pd”, “ddl”, “cdm”) o una fw, quest’ultima
soprattutto in relazione al riferimento singolare (livello pragmatico). Entrambi i politici
comunque fanno spesso uso di frasi molto complesse, che non rispettano la norma della
semplicità e che non sono user friendly perché quasi sempre prive di maiuscole che ne
facilitino la fruizione, senza contare il materiale linguistico che normalmente non fa
parte di hashtag (articoli, preposizioni articolate, congiunzioni, ecc..). Alcuni esempi
sono: “#quelgranpezzodelmioamico”, “#capitaleitalianadellacultura”,
“#zuppadifarrofagioliscrittilucchesi”, “#primarieaperteperiparlamentari”; sono hashtag
18
piuttosto personali, in cui il punto di vista del politico è esplicito e questo potrebbe
essere legato alla sovrabbondanza di lemmi. Infine piuttosto diffuse sono le strutture
complesse con più di due componenti: “#madovevivono” “#ionondimentico”
“#nonfiniscequi” “#iononmollo” “#investiresullacultura”, “#reagiteperfavore”,
“#casellideveparlare”, ecc.. anche queste introducono un punto di vista personale.
3 La funzione pragmatica: deissi, informativa, valutazione
In questa sezione vedremo quale funzione pragmatica – tra deissi, informativa e
valutazione – è la più usata e per farlo compareremo il numero di tokens taggati nel
livello pragmatics-functions.
Ci sono un totale di 2345 tokens che svolgono funzione pragmatica e di questi, 1626
sono riservati alla funzione informativa; per quanto riguarda quella deittica abbiamo
387 tokens totali e 332 per la valutazione. È chiara la grande disparità tra informazione
e le altre due funzioni, consideriamo però che qui si parla di singoli token e non di interi
sintagmi. Facciamo dunque un calcolo statistico di quanti sintagmi sono taggati per
ogni funzione:
- funzione deissi 328 sintagmi, di cui l’86% è deissi spaziale, es: “#Firenze”, “#Italia”,
“#PalazzoChigi”, “ #inpiazza”, ecc..
- Funzione informativa 901 sintagmi, di cui il 41% è un’informazione di tipo tematico
“#scuola”, “#enews”, “#bandalarga”, “#diritti” e altri tra cui le numerosissime
“#coseconcrete”, “#lavoltabuona”, “#cambiaberso”, “#italiariparte”.
- Funzione valutazione, di cui il 48% è positiva, es: “#chapeau”, “#iononmollo”,
“#funziona”, “#beneHollande”, ecc..
19
La disparità tra le funzioni si ritrova, come ci aspettavamo, anche considerando interi
sintagmi; ne deduciamo che all’hashtag si dà una priorità informativa-tematica,
affinché il parlante/utente comprenda subito quale sia lo scopo e il contesto generale del
twit; le funzioni deittica e valutazione personale invece vanno a meglio specificare il
contenuto di ogni singolo twit. La ripetizione di hashtag è indubbiamente utile per
raggruppare sotto un’unica macro-informazione/tema tanti post diversi, in modo che
con una rapida ricerca (o semplicemente selezionando l’hashtag desiderato) l’utente
possa scegliere su quale macro-argomento avere informazioni. Questo comporta, di
frequente, un uso parallelo di funzioni diverse; è la strategia preferita dal parlante, in
opposizione all’uso di un singolo hashtag che risulterebbe troppo generico (soprattutto
quando chi twitta è un personaggio pubblico).
Se consideriamo le singole funzioni (deissi e valutazione) notiamo che si dà la priorità a
deissi-spaziale, decisamente prevalente rispetto alla temporale; è molto più importante
comunicare al parlante dove si svolge un evento/iniziativa, dove opera
un’organizzazione, a quale luogo fa riferimento la tematica principale. Le percentuali
d’uso della funzione valutazione sono meno discordanti le une dalle altre e chiaramente
dipendono dal tipo di evento/tematica che il politico ha commentato.
Appendici
Dove trovare i risultati completi della nostra analisi:
20
La cartella di riferimento è /Twitter hashtag corpus/, al suo interno va aperta la cartella
/Results/. Lì si trovano sei cartelle divise per punti secondo lo schema usato nella
sezione “Analisi e Risultati”.
In particolare:
/1.1 POS utilizzati/
/1.2 POS idiosincratiche/
/1.3.1 POS reference/
/1.3.2 POS function/
/2 Struttura/
/3 Funzione pragmatica (deissi,informativa,valutazione)/
21
Riferimenti
Andorno C. 2003. Linguistica testuale. Un’introduzione. Carocci editore.
Baroni M. 2004. Part-of-speech tagging (e lemmatizzazione)
Bontcheva K., Clark S., Derczynski L., Ritter A. 2013. Twitter Part-of-Speech Tagging
for All: Overcoming Sparse and Noisy Data. Proceedings of Recent Advances in
Natural Language Processing. Hissar, Bulgaria. Pp 198–206
Lenci A., Montemagni S., Pirrelli V. 2012. Testo e computer. Elementi di linguistica
computazionale. Carocci editore. Cap 8
McEnery T., Xiao R., Tono Y. 2006. Corpus based language studies. An advanced
resource book. Routledge, Taylor & Francis Group. Oxon. Routledge Applied
Linguistics. Sections A3, A4, A5, A6, A8, A10,
Web resources
5 Golden Rules of Hashtag Etiquette. Pagemodo Blog. Available at:
http://www.pagemodo.com/blog/5-golden-rules-hashtag-etiquette/
Anon, 2014. Hashtag. Wikipedia. Available at:
http://it.wikipedia.org/w/index.php?title=Hashtag&oldid=69668011.
Anon, Netiquette. Treccani, l’Enciclopedia italiana. Available at:
http://www.treccani.it/vocabolario/netiquette/.
Anon, Organizing the world’s hashtags and hashtags information. Hashtags.org.
Available at: https://www.hashtags.org/.
Anon, Top Hashtags on Instagram. Top Hashtags for Instagram and Twitter.
Available at: http://top-hashtags.com/instagram/.
hashtag. Oxford Dictionaries. Oxford University Press.
http://www.oxforddictionaries.com/definition/english/hashtag
Jezek E., Definizione lessicale. Treccani, l’Enciclopedia italiana. Available at:
http://www.treccani.it/enciclopedia/definizione-
lessicale_(Enciclopedia_dell’Italiano)/
"Microblogging." Merriam-Webster.com. Merriam-Webster, n.d.
http://www.merriam-webster.com/dictionary/microblogging.
Why #hashtags rule and how to use them properly. The Business Journals. Available
at: http://www.bizjournals.com/bizjournals/how-to/marketing/2014/07/why-hashtags-
rule-and-how-to-use-them-properly.html
22
Sommario
INTERROGATIVO DI RICERCA ............................................................................... 1
METODO – LA COSTRUZIONE DEL CORPUS ...................................................... 2
1 Progettazione, motivazioni, reperimento dati ........................................................................ 2
2 Annotazione ............................................................................................................................ 3
3 Metadata ................................................................................................................................. 9
ANALISI E RISULTATI .............................................................................................. 10
1.1 Quali POS sono incluse nell’hashtag .................................................................................. 10
1.2 L’uso idiosincratico di POS .................................................................................................. 11
1.3 Le POS in rapporto alla funzione pragmatica ..................................................................... 13
2 La formazione e la struttura dell’hashtag ............................................................................. 15
3 La funzione pragmatica: deissi, informativa, valutazione ..................................................... 18
RIFERIMENTI .............................................................................................................. 21
Web resources .......................................................................................................................... 21
Top Related