L'hashtag - Analisi corpus-based

Analisi linguistico-pragmatica di hashtag costruzione di corpus specialistico

Nome Anna Fantini

Corso Dati empirici e teorie linguistiche –

Laboratorio di analisi dei dati linguistici

Data Anno Accademico 2014/2015

1

Interrogativo di ricerca

Cominciamo questo elaborato introducendo il nostro interrogativo di ricerca: cos’è e

come funziona un hashtag a livello linguistico?

Se ci rifacciamo alla cultura popolare del web, identifichiamo un hashtag come una

targhetta da assegnare a post, foto, twits, ecc...

L’OED online lo definisce “a word or phrase preceded by a hash sign (#), used on

social media sites such as Twitter to identify messages on a specific topic” e la presenza

di un’entrata nel dizionario mette subito in chiaro che si tratta di un termine ormai

importante e diffuso tra i parlanti.

Un hashtag però rappresenta anche un modo di comunicare tutto nuovo, fondato

sull’essenzialità e sull’economia del messaggio. Proprio la novità di questo elemento ci

ha spinto ad indagarlo a livello linguistico:

- quali sono le sue regole di formazione? Si possono definire universali o

idiosincratiche da parlante a parlante?

- la formazione degli hashtag rispetta sempre la netiquette? (per concetto di

netiquette utilizzato vedi Riferimenti Bibliografici, web resources).

- Qual è la funzione pragmatico-comunicativa per cui sono usati e in particolare

quale funzione è la più comune tra deittica (Andorno 2003), informativa e

valutativa (vedi 2.1.5 per i dettagli).

2

Nuove domande nascono a proposito della struttura dell’hashtag:

- è semplice, complessa o entrambe? E quali sono i parametri che usiamo per

fare queste valutazioni?

- In ambito strettamente linguistico potremmo chiederci quali sono le POS che

sono incluse in un hashtag, cosa ci dicono del parlante che le ha scelte e qual è

il loro uso in rapporto alla funzione pragmatica. Lo strumento hashtag può

soddisfare le esigenze comunicative del parlante?

Metodo – La costruzione del corpus

1 Progettazione, motivazioni, reperimento dati

Per rispondere ai nostri interrogativi di ricerca si è scelto di costruire un corpus

specialistico contenente testi tratti dalle pagine Twitter di due politici italiani: Enrico

Letta e Matteo Renzi. La scelta è motivata dal fatto che entrambi hanno ricoperto la

carica di Presidente del Consiglio, un ruolo in cui la comunicazione (coi media, con i

cittadini italiani e con il resto del mondo) svolge un ruolo importante; entrambi inoltre

hanno utilizzato Twitter prima, durante e dopo la presidenza (anche se quest’ultimo

caso si applica ovviamente solo a Enrico Letta).

La scelta di utilizzare Twitter come risorsa dipende dal fatto che esso è un microblog,

una particolare forma di social network la cui efficacia divulgativa è molto forte, basti

pensare all'uso sempre più intenso che ne fanno personaggi pubblici quali Barack

Obama (Yes We Can campagna 2008); Twitter può inoltre dirsi il padre degli hashtag,

3

diffusisi poi nel resto del web e solo recentemente collegati sistematicamente a un

livello che potremmo definire “inter-social”.

L’idea è che un corpus specialistico con queste premesse possa fornirci abbastanza dati

da cui estrarre informazioni sia strutturali sia funzionali (lessicali e pragmatiche),

arrivando così a delle generalizzazioni che rispondano alle nostre domande, almeno

all’interno di un ambito ristretto come quello del premierato italiano. Il passo

successivo sarebbe applicare gli stessi livelli di annotazione e queries simili anche ad

altri hashtag, provenienti da contesti diversi e con scopi comunicativi diversi.

Abbiamo quindi il seguente obiettivo: creare dei livelli di annotazione efficaci che

rispondano alle nostre domande su struttura e funzione, ma che possano adattarsi al

tagging di altri corpora (specialistici).

2 Annotazione

2.1 I livelli di annotazione

2.1.1 Livello mark-up twitter_specifics

In questo livello si effettua un mark up degli elementi specifici di twitter quali hashtag

(HS), users menzionati (USR), retwit (RT) e urls (URL), riprendendo in parte lo

schema di Bontcheva, Clark, Derczynski, Ritter 2013; un secondo sistema è stato creato

per segnalare eventuali omissioni di elementi multimediali quali link e immagini (om-

url, om-img) e di retwit e twits dello staff (om-rt, om-tw) che costituivano rumore di

fondo nella codifica del testo .txt, ma che sono fondamentali per l'elaborazione del

contesto.

4

Per quanto riguarda gli elementi omessi essi sono stati annotati sulla parola che

immediatamente li precedeva e dei link è stato fornito l'url nel comment all'annotazione;

questa scelta implica che alcune parole abbiano due o più annotazioni.

Es: in @Pontifex_it marcato come usr e come om-img.

i retwit sono sempre marcati sull'ultima parola del twit e, nel caso siano più di uno, ciò

è indicato nel comment. Questo livello prevede annotazione manuale di ogni twit,

quindi di porzioni interne al testo.

2.1.2 Livello mark-up time

In questo livello si effettua un mark up del contesto temporale di ogni twit, sono

annotati gli anni (2012, 2013, 2014) e ognuno è diviso in sei features di due mesi

ciascuna (jan-feb12, jan-feb13, jan-feb14, ecc..), nel comment dell'annotazione è

inserita la data specifica di ogni twit (Es: tag: sept-oct12, comment: 12/09/12). Questo

livello prevede annotazione manuale di ogni twit, quindi di porzioni interne al testo.

2.1.3 Livello hashtag-pos

In questo livello si effettua l'annotazione linguistica delle parts of speech di cui si

compone ogni hashtag, per procedere si è utilizzato un livello di annotazione pre-

esistente di pos tagging, nel quale sono state introdotte delle modifiche per renderlo

quanto più descrittivo possibile. Tali modifiche prevedono:

- l'inserimento del sistema abbreviation, a sua volta ramificato in sotto sistemi e

features secondo quanto illustrato nella

5

fig.1

questo sistema è necessario per taggare esaurientemente elementi come #formpol,

#enews;

- l'inserimento del sistema acronym, a sua volta ramificato nel sotto sistema acronym

type e nelle features italian-acronym e foreign-acronym, come illustrato nella fig. 2

questo sistema si è reso necessario per taggare esaurientemente elementi come #Bbc,

#Uk, #M5S, #CDM;

- l'aggiunta, all'interno del sistema adjective, della feature indefinite-adjective nel sotto

sistema adjective-type;

- la modifica delle features in subject-pronoun, object-pronoun del sotto sistema

personal-pronoun;

- l'aggiunta, all'interno del sotto sistema pronoun-type, delle feature interrogative-

pronoun, reflexive-pronoun, exclamative-pronoun;

- l'eliminazione dei sistemi rbr, ex, rp;

6

- la modifica del sistema other, aggiungendo nuove features al sotto sistema fw

secondo quanto illustrato nella fig. 3

questo cambiamento si è reso necessario per taggare esaurientemente elementi come

#growthcompatc, #dearfuturemum.

Nel caso di elementi ambigui o di sintagmi che non potevano essere taggati

separatamente senza perdere il significato specifico si è adottata un'annotazione delle

parti singole e dell'intero sintagma

Es: #PalazzoChigi

Palazzo_singular-common-noun

Chigi_proper-noun

PalazzoChigi_proper-noun.

2.1.4 Livello pragmatics-reference

In questo livello si effettua l'annotazione linguistica degli hashtag relativa alla

pragmatica del discorso e in particolare al tipo di referente introdotto. Per procedere è

stato adottato un livello creato appositamente che presuppone un tagging ti tipo

manuale di segmenti interni al testo. Come riferimento è stato usato Andorno 2003. Il

livello si struttura secondo quanto introdotta dalla fig. 4a e fig 4b

7

fig. 4a

fig. 4b

I nomi propri di stato, città, continente, programma o emittente televisivo sono stati

classificai come intrinsecamente identificabili, per i nomi propri di persona si è scelto di

classificare intrinsecamente identificabili quelli che indicavano personaggi

particolarmente noti del panorama politico o del panorama pubblico (Berlusconi,

Bersani, Papa Francesco, ecc..); i nomi propri di persona meno noti sono stati

classificati come identificabili in relazione al contesto (Meriam, Stefano, ecc..).

2.1.5 Livello pragmatics-function

8

In questo livello si effettua l'annotazione linguistica degli hashtag relativa alla funzione

pragmatica svolta dal referente; sono stati scelti tre sistemi principali: funzione deittica,

funzione informativa e funzione valutazione; la selezione delle feature è stata

completata e arricchita passo passo durante l’annotazione. Il livello si struttura secondo

quanto introdotta dalla fig. 5

Al sistema deissi sono stati scelte tre features: spaziale (Firenze, PalazzoChigi,

Quirinale, ecc..) temporale (adesso, 100giorni, 25aprile, ecc..) e personale (io, ecc..)

Al sistema informativa sono state aggiunte sei features principali e quattro sotto-

features; il sistema è stato usato per taggare elementi come evento-politico-nazionale

(cdm, amministrativePd, ecc..), evento-politico-internazionale (europee, indire, ecc..),

iniziativa (20lab, porcellum, ecc..), persone (Napolitano, Monti, Papa Francesco, ecc..),

citazione (Il cielo sopra Berlino), tematica (lavoro, corruzione, diritti, giovani, ecc..)

Al sistema valutazione sono state aggiunte tre features: positiva (forzaMilan, ecc..),

negativa (mentreloro, lepiùnoioseprimarieamericane, ecc.), neutra (Ibraraffreddato,

tuttoqui, RIP, ecc..).

9

3 Metadata

3.1 Testi inclusi nel corpus

I testi inclusi nel corpo sono stati salvati con i seguenti nomi:

Renzi_premier.txt

Renzi_prima.txt

Letta_dopo.txt

Letta_premier.txt

Letta-prima.txt

Sono stati estratti dalle pagine twitter dei due politici Matteo Renzi URL

https://twitter.com/matteorenzi e Enrico Letta URL https://twitter.com/EnricoLetta, il

giorno 23 ottobre 2014, pertanto ogni twit che segue questa data non è incluso nel testo.

I twit nei testi di Matteo Renzi vanno dal 25 novembre 2012 al 23 ottobre 2014 per un

totale di 9438 tokens; i twit nei testi di Enrico Letta vanno dal 5 marzo 2012 al 23

ottobre 2014 per un totale di 12442 tokens; in tutto sono stati annotati 1356 hashtag.

4.2 Reperimento dei dati

Si sono ottenuti i dati salvando in formato HTML la pagina web dell'account twitter, in

seguito le pagine sono state convertite in formato .txt tramite blocco note e lì ripulite di

tutti gli elementi di rumore quali URLs allegati ai twit, elementi sovra-rappresentati che

costituivano link o bottoni (retwit, preferito, ecc..), nomi utenti e date. Ciò che è

importante per l’interpretazione dei dati (data del twit, elementi multimediali e link) è

stato reinserito nel livello d’annotazione mark up twitter_specifics.

https://twitter.com/matteorenzi

https://twitter.com/EnricoLetta

10

Analisi e risultati

A questo punto illustreremo il processo di analisi dei dati raccolti per rispondere

all’interrogativo di ricerca.

1.1 Quali POS sono incluse nell’hashtag

Abbiamo inizialmente esplorato il corpus creando una word list in cui la frequenza

delle parole è decrescente. È subito emerso come, tra le prime venti slot, solo due

fossero occupate da verbi, mentre avevamo ben undici nomi diversi (tra essi è stato

incluso ciò che viene taggato come acronimo nel livello hashtag-pos, purché indicasse

un nome) e tre slot di aggettivi, le restanti sono parole funzione (Jezek, Treccani).

Notiamo quindi subito una significativa disparità tra le due principali parti del discorso:

nome e verbo; questa disparità si riflette anche nella frequenza relativa di utilizzo che è

del 4% per il nome più frequente e dell’1,87% per il verbo più frequente. È evidente

che i due parlanti prediligono un hashtag nominale, il cui uso è semplice e il messaggio

più immediato, con referenti facilmente comprensibili agli utenti.

Ora ci concentreremo sul numero di occorrenze delle principali POS: verbo, nome,

aggettivo e avverbio. Tramite una ricerca per singole parti del discorso abbiamo notato

che il nome è la scelta più diffusa, con un numero di 1247 occorrenze; le occorrenze

verbali sono solo un ottavo di quelle nominali. Gli aggettivi sono presenti in numero di

249, per la maggior parte di tipo qualificativo di grado zero, mentre la seconda tipologia

più utilizzata è quella numerale; gli avverbi invece sono solo 69. È importante

sottolineare che gran parte dei 249 aggettivi non sono lemmi diversi, infatti troviamo

usi molto frequenti dello stesso lemma nella stessa stessa forma, accompagnata a teste

nominali che restano costanti (ad esempio “la volta buona” 54 occorrenze, “cose

11

concrete” 48 occorrenze). Questo ci porta a dire che i nostri parlanti preferiscono fare

uso degli stessi hashtag per etichettare twit diversi, ma riconducibili allo stesso macro-

argomento. Inoltre la testa verbale è raramente accompagnata da relativo modificatore

avverbiale, il nome invece è, almeno per un quinto delle sue occorrenze, modificato da

aggettivo.

1.2 L’uso idiosincratico di POS

Per questa sezione prendiamo di nuovo come punto di riferimento le principali POS:

nome, verbo, aggettivo e avverbio; eseguiamo l’analisi con mezzi statistici.

Il confronto tra i due parlanti è stato fatto prima su base assoluta, calcolando la

percentuale d’uso di ogni categoria lessicale sul numero totale dei tokens nei testi; in un

secondo momento è stato fatto un confronto sulla base relativa di 1000 tokens a testo

con media delle percentuali per ogni parlante.

I risultati emersi sono i seguenti:

- il nome è la categoria lessicale più utilizzata, con una differenza minima tra le

percentuali del parlante-Renzi e del parlante-Letta (rispettivamente 46.17 % e 43.44%

su un campione di 1000 tokens). Come già intuito entrambi i parlanti prediligono un

hashtag nominale.

- Il verbo è la terza categoria lessicale più utilizzata, tuttavia la differenza tra parlante-

Renzi e parlante-Letta è piuttosto importante, abbiamo infatti rispettivamente 11,5 % e

1,87 % su un campione di 1000 tokens. Vediamo quindi che tipo di uso verbale fa il

parlante-Renzi: di questo 11.5%, il 10 è costituito da indicativo presente alla 3a persona

singolare (ad esempio “italia riparte”, “matteo risponde”, Italia“cambia verso”) con

12

soggetto esplicito, ciò conferisce all’hashtag una sfumatura neutrale e impersonale –

vedi uso della terza persona per indicare sé stesso. Le restanti forme all’indicativo

presente hanno un uso esortativo, come “tappa la buca”, “cambiamo tutto”

“proviamoci” “cominciamo il domani” e il soggetto è implicito, questa soluzione, in

unione con la prima persona singolare, ha l’evidente scopo di coinvolgere l’utente nel

twit. La prima persona singolare, forma che dovrebbe ricorrere piuttosto spesso in un

twit personale, è invece usata molto raramente, ad esempio “io non dimentico” “io non

mollo” “io sto con caterina”; ciò potrebbe significare che il politico cerca un rapporto

più stretto con il suo utente/elettore, censurando sé stesso sempre, eccetto che nei

momenti più critici.

- L’aggettivo è la seconda categoria lessicale più utilizzata e anche in questo caso si

registrano importanti differenze da parlante a parlante, con Renzi abbiamo infatti il

16,08% su 1000 tokens e con Letta il 3,38% sulla stessa quantità. Renzi predilige

aggettivi qualificativi di grado zero i cui lemmi però sono poco vari (per la maggior

parte “buon*” e “concrete”); gli aggettivi numerali sono un’altra tipologia abbastanza

frequente. Per contro Letta utilizza quasi esclusivamente aggettivi qualificativi di grado

zero. L’assenza di superlativi o comparativi in entrambi i parlanti è conferma della

semplicità che si predilige per l’hashtag.

- L’avverbio è la quarta categoria lessicale più utilizzata, in questo caso le differenze tra

i due parlanti sono minime: con Renzi l’avverbio costituisce il 3.15% di 1000 tokens e

con Letta il 3,3% di 1000 tokens. Gli avverbi preferiti sono temporali (“dopo” “adesso”

“ora” “mai”) e con sfumatura negativa (“no” “non”).

13

1.3 Le POS in rapporto alla funzione pragmatica

1.3.1 Il livello pragmatics-reference

L’indagine statistica mostra che l’uso di nomi è più alto per riferimento singolare che

per quello generico (rispettivamente 76% e 61 %) e ciò è comprensibile dato che tra i

riferimenti specifici rientrano Italia, Europa, nomi di città, ecc.. molto utilizzati nel

contesto in questione. La tendenza si ritrova invariata anche tra le teste nominali che

sono fw.

Per contro l’uso dell’aggettivo è più frequente nel riferimento generico; per entrambe le

tipologie di riferimento è significativo l’impiego di aggettivo qualificativo di grado

zero, nel riferimento generico abbiamo meno varietà e una tendenza a servirsi di tre

combinazioni principali “la volta buona” “cose concrete” “italia giusta”. Nel

riferimento singolare invece l’aggettivo qualificativo è molto più vario e ciò si spiega

proprio in virtù della testa nominale da cui dipende: se il referente è specifico a maggior

ragione l’aggettivo lo renderà unico.

È doveroso segnalare che c’è discordanza anche nell’uso dei determinanti, tra cui

articoli determinativi, soprattutto associati a riferimenti generici e non a riferimenti

singolari.

1.3.2 Il livello pragmatics-function

Facciamo ora un nuovo confronto delle POS principali – nome, verbo, aggettivo e

avverbio – sulla base del loro impiego nel livello pragmatics-function; ricordiamo che il

numero totale di tokens cambia da funzione a funzione (1626 informativa, 387 deissi,

332 valutazione):

14

- il nome è la classe lessicale più diffusa; la frequenza relativa alle singole funzioni è

più alta per la funzione deittica (84% contro il 56% della informativa e il 31% della

valutazione) ma il numero più elevato di occorrenze si concentra nella funzione

informativa (809 contro le 320 della dessi e le 98 della valutazione), tra le tre è la

funzione per la quale il parlante predilige l’uso nominale. Interessante è il fatto che,

nonostante il numero di tokens totali differisca di poco, la deissi e la valutazione hanno

un uso nominale decisamente diverso.

- Il verbo è la terza classe lessicale più diffusa; la frequenza relativa alle singole

funzioni è più alta per la valutazione (16% contro il 6,51%) e il numero più elevato di

occorrenze si concentra nella funzione informativa (93 contro le 50 della valutazione,

zero occorrenze in deissi). La funzione informativa ha in proporzione un uso verbale

molto basso, predilige decisamente una testa nominale in unione – come vedremo tra

poco – con un aggettivo.

- L’aggettivo è la terza classe lessicale più diffusa; e il numero più alto di occorrenze si

concentra nella funzione informativa (189 contro le 42 della valutazione e le 13 della

deissi). C’è quasi parità tra la frequenza relativa della valutazione e dell’informativa e

ciò è significativo se si considera la grande differenza tra i tokens totali dell’una e

dell’altra. L’aggettivo è dunque una classe lessicale molto usata con funzione

informativa, mentre ci aspetteremmo un uso maggiore con la funzione valutazione.

- L’avverbio è la quarta classe lessicale più diffusa e il numero più alto di occorrenze si

concentra nella funzione valutazione (33 contro le 21 della informativa e le sole 13

della deissi). La frequenza relativa rispecchia l’andamento. È singolare che nonostante

15

si trovino abbastanza diffusamente degli avverbi di tempo, l’uso avverbiale sia

soprattutto legato alla funzione valutazione.

Riassumendo: la funzione informativa ha al suo interno le disparità più grandi tra le

quattro POS considerate, con una preferenza per la coppia nome/aggettivo (61% dei

tokens totali). Significative differenze si hanno anche nella deissi, con un impiego quasi

esclusivo del nome (82% dei tokens totali); più equilibrate le differenze tra le POS della

valutazione (nome 29%, verbo 15%, aggettivo 13%, avverbio 10%). In generale il

nome è la categoria lessicale preferita per ogni funzione e qui si ritorna alla struttura

prevalentemente nominale dell’hashtag.

2 La formazione e la struttura dell’hashtag

Riflettiamo adesso sulle regole di formazione, esse infatti sono strettamente connesse

alle POS e determinano la struttura dell’hashtag.

È importante dire che sul web esistono delle vere e proprie norme per il corretto uso di

questa etichetta, create sulla base della netiquette e della funzionalità della risorsa. Di

seguito le riportiamo per poter fare un confronto con la formazione degli hashtag del

corpus:

- Usa sempre # prima delle keywords di tua scelta

- Non usare mai spazi e punteggiatura in un hashtag. Se ci sono molte keywords

#devonoleggersitutteassieme in maniera fluida.

- Mai mettere una lettera o una cifra prima di #, ciò renderà l’hashtag inservibile.

- Usa lettere e numeri, mai un numero da solo! #no1mom #1mom.

16

- Falla breve! L’hashatag deve essere composto da poche parole significative,

altrimenti chi legge finirà per perdere il filo e non capirà il tuo punto di vista.

- Usa hashtag per rendere più reperibili i tuoi contenuti

- Non twittare hashtag che non c’entrano niente #Unicorn

- Attenzione alle maiuscole! Sono indispensabili per aiutare il lettore a capire un

hashtag lungo #MaNonAbusarne correndo il rischio di rendere difficile la

comprensione e fastidiosa la consultazione.

È chiaro che i punti fondamentali sono la brevità, la semplicità, l’uso di parole chiave a

cui tutti possono relazionarsi (#freddo e non #zerdapazzesca), non usare hashtag casuali

che possono confondere, rendere l’hashtag facile da leggere. Molta attenzione è

dedicata all’utente/ascoltatore – il vero fruitore della risorsa – e questo dimostra che

l’hashtag è percepito come un potente mezzo di comunicazione; l’utente/parlante affida

a questa struttura il proprio messaggio, arrivando a creare dei veri e propri trend che

entrano nell’uso generale: “#yeswecan” “#maiunagioia”, ecc…

Ecco dunque che l’uso di POS prevalentemente nominali o nominali-aggettivali trova

una vera motivazione pragmatico-comunicativa e lo stesso vale per la scelta di una

struttura poco complessa. Dopo aver osservato gli hashtag raccolti nel corpus e il

tagging del livello hashtag-pos , abbiamo elaborato dei parametri per delineare una

struttura formale dell’hashtag che si basa proprio sul grado di semplicità/ricostruibilità

da parte del parlante:

a) Struttura Semplice

17

- Abbreviazione (ma abbreviazione da fw è struttura complessa, in quanto richiede

uno sforzo maggiore per la ricostruzione da parte del parlante).

- Numero di componenti (parole contenuto) uguale o inferiore a due.

b) Struttura Complessa:

- Abbreviazione da fw.

- Solo fw.

- Numero di componenti (parole contenuto) superiore a due.

- Acronym (sia da fw che da termine italiano, in quanto di difficile ricostruzione per

l’utente).

- Frasi molto complesse, es: #lepiùnoioseprimarieamericane.

Una volta eseguita una query del corpus, si evidenzia che abbiamo oltre 630 strutture

semplici, più della metà è costituita da nomi (propri o comuni), le restanti da

combinazioni nome/aggettivo o verbo/altra POS. Le strutture complesse sono 338, di

cui buona parte è un acronimo (“Pd”, “pd”, “ddl”, “cdm”) o una fw, quest’ultima

soprattutto in relazione al riferimento singolare (livello pragmatico). Entrambi i politici

comunque fanno spesso uso di frasi molto complesse, che non rispettano la norma della

semplicità e che non sono user friendly perché quasi sempre prive di maiuscole che ne

facilitino la fruizione, senza contare il materiale linguistico che normalmente non fa

parte di hashtag (articoli, preposizioni articolate, congiunzioni, ecc..). Alcuni esempi

sono: “#quelgranpezzodelmioamico”, “#capitaleitalianadellacultura”,

“#zuppadifarrofagioliscrittilucchesi”, “#primarieaperteperiparlamentari”; sono hashtag

18

piuttosto personali, in cui il punto di vista del politico è esplicito e questo potrebbe

essere legato alla sovrabbondanza di lemmi. Infine piuttosto diffuse sono le strutture

complesse con più di due componenti: “#madovevivono” “#ionondimentico”

“#nonfiniscequi” “#iononmollo” “#investiresullacultura”, “#reagiteperfavore”,

“#casellideveparlare”, ecc.. anche queste introducono un punto di vista personale.

3 La funzione pragmatica: deissi, informativa, valutazione

In questa sezione vedremo quale funzione pragmatica – tra deissi, informativa e

valutazione – è la più usata e per farlo compareremo il numero di tokens taggati nel

livello pragmatics-functions.

Ci sono un totale di 2345 tokens che svolgono funzione pragmatica e di questi, 1626

sono riservati alla funzione informativa; per quanto riguarda quella deittica abbiamo

387 tokens totali e 332 per la valutazione. È chiara la grande disparità tra informazione

e le altre due funzioni, consideriamo però che qui si parla di singoli token e non di interi

sintagmi. Facciamo dunque un calcolo statistico di quanti sintagmi sono taggati per

ogni funzione:

- funzione deissi 328 sintagmi, di cui l’86% è deissi spaziale, es: “#Firenze”, “#Italia”,

“#PalazzoChigi”, “ #inpiazza”, ecc..

- Funzione informativa 901 sintagmi, di cui il 41% è un’informazione di tipo tematico

“#scuola”, “#enews”, “#bandalarga”, “#diritti” e altri tra cui le numerosissime

“#coseconcrete”, “#lavoltabuona”, “#cambiaberso”, “#italiariparte”.

- Funzione valutazione, di cui il 48% è positiva, es: “#chapeau”, “#iononmollo”,

“#funziona”, “#beneHollande”, ecc..

19

La disparità tra le funzioni si ritrova, come ci aspettavamo, anche considerando interi

sintagmi; ne deduciamo che all’hashtag si dà una priorità informativa-tematica,

affinché il parlante/utente comprenda subito quale sia lo scopo e il contesto generale del

twit; le funzioni deittica e valutazione personale invece vanno a meglio specificare il

contenuto di ogni singolo twit. La ripetizione di hashtag è indubbiamente utile per

raggruppare sotto un’unica macro-informazione/tema tanti post diversi, in modo che

con una rapida ricerca (o semplicemente selezionando l’hashtag desiderato) l’utente

possa scegliere su quale macro-argomento avere informazioni. Questo comporta, di

frequente, un uso parallelo di funzioni diverse; è la strategia preferita dal parlante, in

opposizione all’uso di un singolo hashtag che risulterebbe troppo generico (soprattutto

quando chi twitta è un personaggio pubblico).

Se consideriamo le singole funzioni (deissi e valutazione) notiamo che si dà la priorità a

deissi-spaziale, decisamente prevalente rispetto alla temporale; è molto più importante

comunicare al parlante dove si svolge un evento/iniziativa, dove opera

un’organizzazione, a quale luogo fa riferimento la tematica principale. Le percentuali

d’uso della funzione valutazione sono meno discordanti le une dalle altre e chiaramente

dipendono dal tipo di evento/tematica che il politico ha commentato.

Appendici

Dove trovare i risultati completi della nostra analisi:

20

La cartella di riferimento è /Twitter hashtag corpus/, al suo interno va aperta la cartella

/Results/. Lì si trovano sei cartelle divise per punti secondo lo schema usato nella

sezione “Analisi e Risultati”.

In particolare:

/1.1 POS utilizzati/

/1.2 POS idiosincratiche/

/1.3.1 POS reference/

/1.3.2 POS function/

/2 Struttura/

/3 Funzione pragmatica (deissi,informativa,valutazione)/

21

Riferimenti

Andorno C. 2003. Linguistica testuale. Un’introduzione. Carocci editore.

Baroni M. 2004. Part-of-speech tagging (e lemmatizzazione)

Bontcheva K., Clark S., Derczynski L., Ritter A. 2013. Twitter Part-of-Speech Tagging

for All: Overcoming Sparse and Noisy Data. Proceedings of Recent Advances in

Natural Language Processing. Hissar, Bulgaria. Pp 198–206

Lenci A., Montemagni S., Pirrelli V. 2012. Testo e computer. Elementi di linguistica

computazionale. Carocci editore. Cap 8

McEnery T., Xiao R., Tono Y. 2006. Corpus based language studies. An advanced

resource book. Routledge, Taylor & Francis Group. Oxon. Routledge Applied

Linguistics. Sections A3, A4, A5, A6, A8, A10,

Web resources

5 Golden Rules of Hashtag Etiquette. Pagemodo Blog. Available at:

http://www.pagemodo.com/blog/5-golden-rules-hashtag-etiquette/

Anon, 2014. Hashtag. Wikipedia. Available at:

http://it.wikipedia.org/w/index.php?title=Hashtag&oldid=69668011.

Anon, Netiquette. Treccani, l’Enciclopedia italiana. Available at:

http://www.treccani.it/vocabolario/netiquette/.

Anon, Organizing the world’s hashtags and hashtags information. Hashtags.org.

Available at: https://www.hashtags.org/.

Anon, Top Hashtags on Instagram. Top Hashtags for Instagram and Twitter.

Available at: http://top-hashtags.com/instagram/.

hashtag. Oxford Dictionaries. Oxford University Press.

http://www.oxforddictionaries.com/definition/english/hashtag

Jezek E., Definizione lessicale. Treccani, l’Enciclopedia italiana. Available at:

http://www.treccani.it/enciclopedia/definizione-

lessicale_(Enciclopedia_dell’Italiano)/

"Microblogging." Merriam-Webster.com. Merriam-Webster, n.d.

http://www.merriam-webster.com/dictionary/microblogging.

Why #hashtags rule and how to use them properly. The Business Journals. Available

at: http://www.bizjournals.com/bizjournals/how-to/marketing/2014/07/why-hashtags-

rule-and-how-to-use-them-properly.html

http://www.pagemodo.com/blog/5-golden-rules-hashtag-etiquette/

http://it.wikipedia.org/w/index.php?title=Hashtag&oldid=69668011

http://www.treccani.it/vocabolario/netiquette/

https://www.hashtags.org/

http://top-hashtags.com/instagram/

http://www.oxforddictionaries.com/definition/english/hashtag

http://www.treccani.it/enciclopedia/definizione-lessicale_(Enciclopedia_dell'Italiano)/

http://www.treccani.it/enciclopedia/definizione-lessicale_(Enciclopedia_dell'Italiano)/

http://www.merriam-webster.com/dictionary/microblogging

http://www.bizjournals.com/bizjournals/how-to/marketing/2014/07/why-hashtags-rule-and-how-to-use-them-properly.html

http://www.bizjournals.com/bizjournals/how-to/marketing/2014/07/why-hashtags-rule-and-how-to-use-them-properly.html

22

Sommario

INTERROGATIVO DI RICERCA ............................................................................... 1

METODO – LA COSTRUZIONE DEL CORPUS ...................................................... 2

1 Progettazione, motivazioni, reperimento dati ........................................................................ 2

2 Annotazione ............................................................................................................................ 3

3 Metadata ................................................................................................................................. 9

ANALISI E RISULTATI .............................................................................................. 10

1.1 Quali POS sono incluse nell’hashtag .................................................................................. 10

1.2 L’uso idiosincratico di POS .................................................................................................. 11

1.3 Le POS in rapporto alla funzione pragmatica ..................................................................... 13

2 La formazione e la struttura dell’hashtag ............................................................................. 15

3 La funzione pragmatica: deissi, informativa, valutazione ..................................................... 18

RIFERIMENTI .............................................................................................................. 21

Web resources .......................................................................................................................... 21

L'hashtag - Analisi corpus-based

Documents

Transcript of L'hashtag - Analisi corpus-based