Metodi di analisi di segnali EEG in applicazioni di Brain Computer Interfaces

107
UNIVERSITÀ DEGLI STUDI DI PISA FACOLTÀ DI INGNEGNERIA Corso di Laurea Specialistica in Ingegneria Biomedica TESI DI LAUREA: METODI DI ANALISI DI SEGNALI EEG IN APPLICAZIONI DI BRAIN COMPUTER INTERFACE Relatori Candidato Ing. Nicola Vanello Michele Barsotti Dott. Antonio Frisoli Ing. Daniele Leonardis ANNO ACCADEMICO 2010/2011

Transcript of Metodi di analisi di segnali EEG in applicazioni di Brain Computer Interfaces

UNIVERSITÀ DEGLI STUDI DI PISA

FACOLTÀ DI INGNEGNERIA

Corso di Laurea Specialistica in Ingegneria Biomedica

TESI DI LAUREA:

METODI DI ANALISI DI SEGNALI EEG IN APPLICAZIONI DI BRAIN COMPUTER INTERFACE

Relatori Candidato

�Ing. Nicola Vanello Michele Barsotti

������Dott. Antonio Frisoli

Ing. Daniele Leonardis

ANNO ACCADEMICO 2010/2011�

RIASSUNTO ANALITICO

Con il termine Brain Computer Interface (BCI) s’intende un sistema in grado di decodificare le

intenzioni dell’utilizzatore misurandone l’attività cerebrale al fine di controllare dispositivi esterni.

Esistono patologie o eventi (i.e. sclerosi amiotrofica laterale, infarti cerebrali, lesioni del midollo

spinale) che purtroppo possono portare un individuo alla perdita del controllo volontario dei muscoli

riducendo così la capacità di comunicazione. Tale condizione rende difficile e in alcuni casi impossibile

l’utilizzo dei comuni dispositivi di assistenza. Un sistema BCI è una soluzione potenzialmente efficace

sia per ripristinare parzialmente le funzioni comunicative di base, sia per fornire un contributo alla

riabilitazione del controllo muscolare.

L’obiettivo di questo studio è quello di implementare un sistema BCI (Brain Computer Interface)

basato sul motor imagery per il controllo di una protesi robotica che esegua compiti di raggiungimento

lungo traiettorie predefinite. Un sistema di questo tipo per la riabilitazione motoria in soggetti patologici

deve avere le caratteristiche di robustezza, facilità di utilizzo e rapidità della sessione di addestramento.

Per questo motivo il focus di questo lavoro è stato di implementare e valutare le performance di alcuni

degli algoritmi presenti in letteratura che estraggono le caratteristiche del segnale, ai fini della

classificazione e di svilupparne di nuovi.

Nel 1999 Pfurtscheller et al. adattarono l’algoritmo denominato Common Spatial Pattern al

riconoscimento ed alla classificazione delle intenzioni di movimento.

A causa della variabilità inter ed intra individuale, dei rumori ambientali e della presenza di artefatti

legati al movimento ed ad altri fattori fisiologici, la sfida principale è quella di ottimizzare la

localizzazione di pattern differenti per diversi compiti di immaginazione motoria, sia nello spazio che in

frequenza, in modo automatico. Inoltre, per soggetti patologici, tale sfida diventa più ardua. Spinta da

questi motivi e dall’avanzare del livello della tecnologia, la ricerca negli ultimi anni è molto attiva

nell’implementazione di algoritmi che permettano la creazione di sistemi BCI basati sul motor imagery

sempre meno affetti da errori e sempre più semplici e confortevoli nell’utilizzo.

Questo lavoro di tesi, attraverso la ricerca in letteratura, l’implementazione e la sperimentazione di

algoritmi per un sistema BCI finalizzato al controllo di una protesi robotica, si pone l’obiettivo di dare

un contributo a tale causa.

Il primo capitolo introduce i sistemi BCI e l’aspetto fisiologico relativo al motor imagery. Il secondo

capitolo è un’analisi degli algoritmi presenti in letteratura volti ad identificare le intenzioni di

movimento. Nel terzo capitolo sono descritte le modalità di acquisizione degli esperimenti condotti in

laboratorio. Nel quarto capitolo sono illustrati gli algoritmi implementati. Il quinto ed il sesto capitolo

mostrano i risultati ottenuti e le conclusioni.

Tale lavoro ci ha permesso di valutare direttamente le performance di algoritmi presenti nella

letteratura di questi ultimi anni e, a partire da questi, di implementarne di nuovi.

Sebbene gli algoritmi implementati abbiano performance simili all’algoritmo Common Spatial

Pattern, hanno il vantaggio di identificare in modo automatico la localizzazione delle features sia nello

spazio che nel tempo. Questo si rivela utile proprio con gli utenti finali del sistema BCI implementato,

caratterizzati potenzialmente da un’elevata variabilità di localizzazione dell’attività cerebrale

significativa.

INDICE

1. IL SEGNALE EEG E I SISTEMI BCI

1.1 Introduzione sui sistemi Brain Computer Interfaces 1.2 Cenni di anatomia del cervello 1.3 Modalità di acquisizione dei segnali cerebrali 1.4 Introduzione all’ElettroEncefaloGrafia

1.4.1 Standard 10-20 1.4.2 Ritmi EEG 1.4.3 Applicazioni EEG

1.5 Tipologie di sistemi BCI basati su segnali EEG 1.5.1 Segnali di controllo

1.5.1.1 Potenziali Evocati 1.5.1.2 Visual Evoked Potential: VEP 1.5.1.3 Slow Cortical Potential: SCP 1.5.1.4 Fenomeni di sincronizzazione/desincronizzazione evento correlati

1.5.1.4.1 Fenomeni ERD/ERS: Background fisiologico

2. ALGORITMI PER L’IDENTIFICAZIONE DEI FENOMENI ERD /ERS IN APPLICAZIONI BCI

2.1 Common Spatial Patterns: CSP 2.2 Common Spatial Spectral Patterns: CSSP 2.3 Common Sparse Spectral Spatial Patterns: CSSSP 2.4 SPECtral Common Spatial Patterns: SPEC-CSP 2.5 Spatially Sparsed Common Spatial Patterns: SSCSP 2.6 Frequency Weighted Method: FWM 2.7 Disciminative Common Spatial Patterns: dCSP 2.8 Invariant Common Spatial Patterns: I-CSP 2.9 Sub Band Common Spatial Patterns: SBCSP

3. METODOLOGIA DI ACQUISIZIONE E SIGNAL PRE-PROCESS ING

3.1 Sistema di acquisizione 3.1.1 Hardware di acquisizione 3.1.2 Software di acquisizione

3.2 Protocollo di acquisizione 3.3 Configurazione elettrodi 3.4 Referenziazione e rimozione di artefatti

3.4.1 Artefatti oculari 3.4.2 Referenziazione

3.5 Pre-processing dei segnali

4. ANALISI DEI SEGNALI

4.1 Metodo di analisi in potenza 4.2 Common Spatial Patterns 4.3 Spatially Sparsed Common Spatial Patterns

4.4 Frequency Weighted Method 4.5 Sub Band Common Spatial Patterns

4.5.1 Sub Band Common Spatial Patterns: metodo alternativo 4.6 Riassunto descrittivo dei metodi implementati

5. RISULTATI

5.1 Risultati

6. CONCLUSIONI

7. BIBLIOGRAFIA

SINTESI

Introduzione Con il termine Brain Computer Interfaces (BCI) s’intende un sistema in grado di decodificare le

intenzioni dell’utilizzatore sulla base della misura e l’interpretazione dell’attività cerebrale al fine di

controllare dispositivi esterni.

Diverse patologie neurologiche (i.e. sclerosi amiotrofica laterale, ischemia cerebrale, lesioni del

midollo spinale) possono portare alla perdita del controllo della muscolatura compromettendo in

modo significativo le capacità di comunicazione, percezione ed azione. Tale condizione rende

difficile e in alcuni casi impossibile l’utilizzo dei comuni dispositivi di assistenza. Un sistema BCI è

una soluzione potenzialmente efficace sia per ripristinare parzialmente le funzioni comunicative di

base nel paziente con grave compromissione, sia per fornire un contributo alla riabilitazione del

controllo neuromotorio in pazienti con ischemia cerebrale, in associazione con sistemi di feedback

(visivo/propriocettivo) o di assistenza al movimento (robot riabilitativo).

SIGNAL PROCESSING and ACQUISITION SIGNAL

CLASSIFICATION

APPLICATION OUTPUT

������������ ���� ������ ����������� � ������

Motivazione ed obiettivi L’utilizzo efficace di sistemi di BCI nella riabilitazione neuromotoria in pazienti con ischemia

cerebrale richiede algoritmi con le caratteristiche di robustezza, facilità di utilizzo e rapidità della

sessione di addestramento.

L’obiettivo di questo studio è stato quello di sviluppare e validare algoritmi di BCI (Brain

Computer Interface) non invasivo basato su tecniche di Motor Imagery (MI) per la sua applicazione

in protocolli di riabilitazione neuromotoria dell’arto superiore in pazienti con ischemia cerebrale.

Gli algoritmi sviluppati sono basati sulla estrazione di features associate all’immaginazione del

movimento, e sono stati validati sperimentalmente con diverse condizioni di feedback associate al

movimento (nessun feedback, feedback visivo con visualizzazione di movimento di un arto virtuale,

feedback propriocettivo con stimolazione propriocettiva in grado di generare un movimento

illusorio).

Metodi ed attività Il focus di questo lavoro di tesi è stato lo sviluppo, l’implementazione e la valutazione sperimentale

delle performance di alcuni degli algoritmi che estraggono le caratteristiche del segnale ai fini della

classificazione e di svilupparne di nuovi.

(a) (b)

Figura 2 – Principio di funzionamento dell’algoritmo (a) e localizzazione dei CSP associati al Motor Imagery (b)

E’ noto che l’esecuzione o l’immaginazione del movimento di una parte del corpo determina

un’attività elettroencefalografica di desincronizzazione (Event Related Desynchronization ERD)

osservabile nei ritmi alfa (7- 12Hz) e beta (13-30Hz), osservabili tipicamente nelle aree

controlaterali alle parti del corpo in movimento.

Filtri spaziali possono essere calcolati per ottimizzare la discriminazione dell’attività di MI

rispetto ad un altro stato mentale, ed ottenere quindi una classificazione efficace dell’intenzione di

movimento. La tecnica dei Common Spatial Pattern (CSP) consente la costruzione di una matrice di

proiezione che proietti i segnali dallo spazio originale dei canali in un nuovo spazio con la

proprietà che il primo e l’ultimo canale abbiano rispettivamente varianza massima per una

condizione e minima per l’altra, ad esempio movimento immaginato (MOVE) verso attività mentale

di rilassamento (REST) come possiamo osservare in figura 3.

�������������������������������� ����� �����������������

Per la costruzione della matrice di proiezione è necessario disporre di un dataset di training dove

le epoche siano etichettate per le due condizioni da discriminare (ad esempio MOVE vs. REST). È

opportuno filtrare i dati nella banda frequenziale di interesse poiché la varianza di dati filtrati in una

banda è correlabile alla potenza spettrale in tale banda. Un modo di ottenere la matrice di proiezione

VAR MAX

VAR MAX VAR MIN

VAR MIN

SEGNALE ORIGINALE

PRIMO ED ULTIMO FILTRO SPAZIALE

SEGNALE PROIETTATO

REST MOVE REST MOVE

Trial i Trial i+1 Trial i Trial i+1

è la diagonalizzazione simultanea della matrice differenza (attività discriminativa) e della matrice

somma (attività comune) delle matrici di covarianza di ciascuna classe.

Sebbene l’algoritmo CSP abbia una buona efficacia di funzionamento, negli ultimi anni sono state

proposte numerose varianti di questo algoritmo con lo scopo di ottimizzare le informazioni sia

riguardo alla loro localizzazione spaziale (filtri spaziali) sia al loro contenuto frequenziale (filtri

temporali).

In questo lavoro di tesi sono state implementate le varianti più significative degli algoritmi basati

su CSP. La maggior parte degli algoritmi analizzati effettua un’ottimizzazione frequenziale (in

termini di discriminazione) prima di processare il segnale con l’algoritmo CSP. La restante parte

delle varianti dei CSP invece, effettua un’ulteriore ottimizzazione spaziale agendo sulla

formulazione matematica dell’algoritmo di base.

A titolo di esempio, per quanto riguarda gli algoritmi che effettuano un’ottimizzazione

frequenziale, sono stati analizzati ed implementati:

algoritmo Frequency Weighted Method (FWM): Il FWM ottimizza ogni canale nello spazio di

Fourier pesandone lo spettro con un vettore calcolato basandosi sull’analisi del discriminante

lineare di Fisher.

algoritmo SubBand-CSP (SBCSP): Il SBCSP filtra il canale in sottobande strette tramite filtri

di Gabor e, per ogni sottobanda, calcola i CSP e ne estrae un punteggio tramite analisi del

discriminante lineare. Una volta ottenuti i punteggi per ogni sottobanda si esegue un’eliminazione

ricorsiva delle stesse mediante algoritmi di Support Vector Machine fino ad ottenerne solamente un

prefissato numero (chiamato ordine dei SBCSP). A questo punto il segnale è filtrato nelle rimanenti

sottobande e ne sono calcolati i CSP.

Algoritmo SpatiallySparseCSP (SSCSP): Lo SSCSP svolge un’ulteriore ottimizzazione

spaziale, formulando il classico problema dei CSP come un problema di ottimizzazione con vincoli

e aggiungendo un termine di sparsità, legato al rapporto tra la norma uno e la norma due dei filtri da

trovare, regolato con un iperparametro che determina il grado di sparsità.

Per la valutazione di questi algoritmi e per la realizzazione del sistema BCI, abbiamo effettuato

acquisizioni su quattro volontari sani. E’ stato stabilito un paradigma sperimentale illustrato in

figura 4.

���������������������������������� �������� �� ������

Per ciascun soggetto sono state acquisite quattro sessioni, ognuna di quaranta epoche, in cui si

richiedeva di eseguire un compito di immaginazione di movimento del braccio destro o di rimanere

a riposo. La scelta di queste due classi è finalizzata all’utilizzo ultimo del sistema BCI da

implementare: il controllo di un esoscheletro robotico che esegua compiti di raggiungimento lungo

traiettorie predefinite.

Le quattro sessioni si distinguono fra loro dal tipo di feedback fornito al soggetto utilizzatore. I

feedback forniti consistevano in tre tipologie:

• feedback visivo, in cui il soggetto vedeva in prima persona un braccio virtuale muoversi in

relazione al compito di movimento, feedback modulato sulla base della classificazione on-

line dell’attività mentale di Motor Imagery

• feedback propriocettivo, in cui il soggetto, in aggiunta al feedback visivo, riceveva uno

stimolo vibrazionale ad 80 Hz sul tendine dell’avambraccio in relazione al compito di

movimento, feedback modulato sulla base della classificazione on-line dell’attività

mentale di Motor Imagery. Lo stimolo propriocettivo era fornito con un apposito

dispositivo realizzato presso il laboratorio PERCRO in grado di indurre una illusione di

Fixation cross

8 7 6 5 4 3 2 1 0

beep cue End Random Intervall

R

movimento concorde con la distensione del muscolo interessato (una stimolazione sulla

inserzione del tendine del bicipite induce una illusione di estensione del gomito).

• Feedback pre-calcolato, in cui il feedback visivo e propriocettivo erano precalcolati e non

dipendente dall’attività mentale del soggetto.

I feedback sono stati calcolati con l’algoritmo CSP filtrando in segnale nella banda 10-24Hz che,

dall’analisi di dataset acquisiti precedentemente a questi, è risultata la migliore.

I dataset sono stati acquisiti con una configurazione di elettrodi che, oltre a coprire la zona della

corteccia sensitivo-motoria per rilevare il segnale utile, rileva anche il segnale di blinking oculare

con due elettrodi posti nella zona frontale.

Le acquisizioni sono state effettuate con gli strumenti della Guger Technologies® comprendenti

una cuffia (g.EEGcap) con alloggiamenti per elettrodi attivi (g.ladyBIRD), un preamplificatore

(g.GAMMAsys), un amplificatore (g.USBamp) interfacciato al tool simulink® di Matlab®. Per le

analisi dei segnali è stato utilizzato il software Matlab® della MathWorks® con i tools open source

EEGlab e BCIlab della SCCN (Swartz Center for Computational Neuroscience) e il tools

g.BSAnalyze della Guger Technologies®. Le analisi statistiche sono state eseguite con il software

SPSS.

Una volta acquisiti i dataset è stata condotta un’analisi sia nello spazio che in frequenza. La

rimozione degli artefatti offline è un procedimento che richiede un notevole dispendio di tempo e

una buona abilità nell’esperienza di analisi dei segnali. Per ovviare a questa problematica abbiamo

implementato un metodo automatico per la rimozione degli artefatti oculari finalizzato a trovare una

matrice di proiezione, attraverso l’analisi delle componenti indipendenti, che proietti i dati e

ricostruisca il segnale eliminando gli artefatti.

Tale metodo si articola come segue:

• eliminazione automatica di epoche anomale;

• calcolo delle componenti indipendenti;

• calcolo della correlazione spaziale tra i vettori della matrice di mixing e dei vettori

costruiti ad hoc che pesano maggiormente gli elettrodi posti nella zona frontale;

• ricostruzione del segnale eliminando le componenti relative ai vettori che hanno

dimostrato una correlazione nel passo sopra.

Tale metodo ha dimostrato funzionare solo in dataset in cui si riusciva ad eliminare tutte le epoche

artefattuate con il metodo automatico. Nel caso in cui non tutte le epoche anomale venivano

reiettate, non riuscivamo ad identificare e isolare le componenti dovute al blinking oculare, quindi,

utilizzando questo metodo, si rischiava di eliminare anche parte del segnale utile. Per questo

motivo, nelle analisi successive, non abbiamo eseguito la rimozione degli artefatti con tale metodo

in vista di implementare un sistema che lavori in tempo reale.

Ogni algoritmo implementato è stato valutato offline su ognuno dei 4 dataset acquisiti da ciascun

soggetto. Per ogni dataset abbiamo estratto due valori di correct rate di classificazione utilizzando

alternativamente la metà delle features come training e l’altra metà come test.

L’implementazione in matlab® degli algoritmi ci ha permesso di sviluppare un nuovo algoritmo. Il

nuovo algoritmo, denominato nella tesi con l’acronimo SBCSPv3, è un’alternativa al metodo

SBCSP che evita la Recursive Features Elimination attribuendo all’andamento dei punteggi per

ogni sottobanda una maschera in frequenza di un filtro. Tale algoritmo ha dimostrato funzionare

bene solamente quando la sessione di training era consistente. In figura 5 si riporta un esempio

dell’andamento di tali filtri.

Abbiamo valutato inoltre l’effetto che la sparsità dei filtri produce sugli algoritmi che operano una

ottimizzazione frequenziale, sostituendo il calcolo dei filtri CSP con il calcolo dei filtri

SpatiallySparseCSP. Tale introduzione non comporta evidenti miglioramenti in termini di

accuratezza di classificazione, ma solo di localizzazione spaziale delle componenti

elettroencefalografiche associate alle due classi.

�������!��"���� � �� ����������� #� ���������� ������������� �������������������������$���%������������������ ����� ������ ����� ������������$������&���� ����������' �� �%�������������(�

�������� � ��� ��������������� ������ �����

Risultati raggiunti Dall’analisi visiva dei filtri spaziali ottenuti con i vari algoritmi abbiamo costatato che, mentre

per la classe di movimento i filtri spaziali sono tutti simili, la classe di riposo presenta un’elevata

variabilità nella disposizione di tali filtri. Questo si verifica perché la classe di riposo non è

determinata da variazioni specifiche del segnale.

Statisticamente abbiamo analizzato i risultati con test multivariati mediante un’analisi ANOVA

Within-Subjects a due fattori (tipologie di algoritmi, tipologie di feedback) e confronti multipli

post-hoc.

����������

�������)��" �� ������ ����' �� '������������������ �� �� �� ����� �������� ������ ���� ��� �� �������������������*$��+��,"�*' �� +�����*� ��� +�� ������� ������� �$��-�

�� ���������.�'���'�� ��������� ���'��*������������' ����� ����+��

A causa della bassa numerosità dei dati non è stato possibile cogliere differenze statitische

significative (in termini di correct rate di classificazione) tra le performance dei diversi algoritmi. Si

evidenzia comunque nel caso della condizione di feedback visivo (in assenza del feedback

propriocettivo che facilita il compito di immaginazione motoria) una migliore prestazione degli

algoritmi che eseguono una ottimizzazione sia nel dominio temporale sia in quello spaziale rispetto

al classico algoritmo CSP (figura 6).

E’ stata invece riscontrata una differenza statistica significativa nella tipologia di feedback fornito:

quando al soggetto è stato fornito un feedback propriocettivo le classificazioni sono risultate

significativamente migliori di quando è stato fornito un feedback di tipo solo visivo, confermando

che tale stimolazione migliora l’attività di Motor Imagery.

Conclusioni e lavori futuri In questo lavoro di tesi è stato realizzato un sistema BCI basato sul motor imagery per il controllo

di una protesi robotica, sono stati implementati e valutati vari algoritmi per l’estrazione delle

caratteristiche del segnale e, sulla base di questi, ne è stato ideato uno nuovo. L’analisi dei segnali

EEG ha permesso inoltre di implementare un metodo per la rimozione automatica degli artefatti

oculari.

Sviluppi futuri di questo lavoro comprendono di:

- standardizzare l’estensione dell’algoritmo CSP a più di due classi per incrementare le

potenzialità dei sistemi BCI;

- migliorare l’algoritmo proposto con l’introduzione di una analisi statistica nel calcolo dei

punteggi;

- integrare il riconoscimento delle variazioni in potenza dei segnali elettroencefalografici

legate all’immaginazione di movimento con il riconoscimento di altri tipi di variazioni del

segnale EEG relative allo stesso compito (i.e. Bereitshaftspotential);

- migliorare l’algoritmo di rimozione automatica degli artefatti rendendolo più robusto rispetto

a singole epoche rumorose;

- acquisire ed analizzare dati da più soggetti;

- portare tale sistema da soggetti sani a soggetti patologici.

1

1. IL SEGNALE EEG E SISTEMI BCI

In questo primo capitolo si introduce il concetto di interfaccia computer-cervello. A questo

proposito vengono descritte brevemente l’anatomia e la fisiologia del sistema nervoso centrale e le

varie tecniche di acquisizione dei segnali cerebrali con un particolare focus

sull’ElettroEncefaloGrafia.

Infine vengono elencati i segnali di controllo utilizzati nei sistemi BCI basati sui segnali

elettroencefalografici, con particolare riguardo per i fenomeni di sincronizzazione e

desincronizzazione dei ritmi cerebrali correlati ad uno stato mentale.

1.1 Introduzione sui sistemi Brain Computer Interface

Da più di dieci anni la ricerca è volta all’implementazione di sistemi Brain Computer Interface

che, secondo la definizione di Wolpaw (2002), “è un sistema di comunicazione in cui i messaggi e i

comandi che l’individuo invia verso l’ambiente esterno non passano attraverso i normali canali di

output del cervello, rappresentati da nervi periferici e muscoli”. In un BCI basato sull’EEG, per

esempio, i messaggi sono codificati attraverso attività elettroencefalografica.

Un sistema BCI si pone dunque l’obiettivo di decodificare e classificare i segnali derivanti

dall’attività cerebrale al fine di fornire dei comandi per il controllo di varie applicazioni.

Schematicamente possiamo riassumere la struttura di un sistema BCI nei seguenti blocchi:

1. Sorgente: Segnali cerebrali

2. Acquisizione

3. Elaborazione del segnale di controllo

4. Classificazione del comando

5. Risposta

2

������������� ����������� �����������������������������

1.2 Cenni Di Anatomia Del Cervello

Il cervello, insieme al midollo spinale, costituisce il sistema nervoso centrale (SNC) che ha la

funzione di interpretare i segnali che provengono sia dall’esterno sia dall’interno del corpo ed

elaborare le risposte.

Strutturalmente il cervello è diviso in tre parti: una parte mediana detta diencefalo e due parti

simmetriche (emisferi cerebrali) che costituiscono il telencefalo. I due emisferi sono separati, fino al

nucleo di materia bianca detto corpo calloso, dalla scissura interemisferica che, con le scissure di

Rolando e di Silvio, divide ciascun emisfero in quattro lobi: frontale, parietale, temporale e

occipitale (figura 1.2). Ogni lobo è a sua volta diviso da solchi in circonvoluzioni nelle quali si

trovano le aree di proiezione, con funzioni specifiche, motorie e sensoriali.

Nel 1909 Brodmann valutò la distribuzione degli strati neuronali in tutta la corteccia cerebrale e

caratterizzò così 52 aree corticali differenti. Solo molti anni dopo è stata descritta la sede corticale

di molte funzioni ed è stato confermato che i confini di queste zone spesso coincidono con quelli

delle aree descritte da Brodmann. Schematicamente si possono riconoscere le seguenti aree

cerebrali principali: aree sensitive primarie e motorie primarie; aree sensitive secondarie e motorie

secondarie; aree associative.

ACQUISIZIONE SEGNALE

PRE-PROCESSING

FEATURES EXTRACTION

CLASSIFICAZIONE DEL COMANDO

ATTUATORE / BIO-FEEDBACK

3

Tuttavia, il concetto di localizzazione non può essere rigidamente definito, poiché ogni area

cerebrale si integra con le altre in un quadro di coordinamento generale.

Ai fini di questa tesi sono di particolare interesse la corteccia sensoriale e quella motoria le quali

sono tra loro connesse da un ponte di fibre nervose. Nelle aree sensitive primarie avviene la

percezione cosciente degli stimoli elementari. L’area sensitiva primaria più estesa è quella per la

sensibilità somatica generale (corteccia somato-sensoriale), localizzata nella circonvoluzione post-

centrale del lobo parietale. Dal punto di vista strutturale è costituita da una tipica corteccia a sei

strati in cui è molto sviluppato quello granulare. In questa area è possibile riconoscere una

������� ��� � ������ ������ ���������� ���������� � �� ��������� ��� ��������������� ������ ����������������������������������� ��������������������������!"�������������������� ������������������������� ���� ��#������� ������ ������ �� ������ ��� �"� ��� ����� �������� ���������� ���� ��#�������#��������!"����������������#�� ������������� ��������������������������������������������������!"���������#���#�� ����������������������������������������������#���#�!"����������$���������������#������������������"��������������#�"����������������#��%�&�

4

rappresentazione somatotopica della periferia. Ciò significa che la sensibilità somatica di parti

diverse del corpo viene proiettata in porzioni della circonvoluzione post-centrale ben precise e

distinte, la cui estensione corticale è proporzionale alla ricchezza di innervazione del territorio

sensitivo periferico, ma non alla sua estensione. Come vediamo in figura 1.3 è possibile disegnare

un diagramma, detto homunculus sensitivus , equivalente alla rappresentazione del corpo a livello di

quest’area. La corteccia motoria primaria è invece deputata all’esecuzione dei movimenti volontari

ed è prevalentemente localizzata nella circonvoluzione pre-centrale del lobo frontale. Come per la

corteccia sensitiva primaria, anche per la corteccia motoria primaria si può disegnare un

homunculus, in questo caso motorius.

������� �'� � (������� ������ ������ ���� ������ �������������� ������ ����� �������� ��������!� �� ����$����� �������#�� ������!� )���� �������� ������� ���� ���������������������� ����������������� *� �$����������� ���������� ���������� �����#���� �����������������������+���������������������������������������,��������#�������������������������+���������������#����������������������������������

5

Il cervello è costituito da 1010 – 1011 neuroni intimamente interconnessi da assoni e dendriti. Le

cellule neuronali costituiscono, insieme alle cellule gliali, il tessuto nervoso. Le cellule gliali

superano numericamente quelle neuronali e hanno sia una funzione nutritiva, di sostegno e di

protezione per i neuroni sia un ruolo nella trasmissione degli impulsi nervosi.

Esistono diversi tipi di neuroni corticali. Essi non sono distribuiti in maniera casuale sulla

superficie della corteccia cerebrale, ma mostrano un certo ordine di disposizione nella corteccia,

formando i cosiddetti strati corticali. Si possono distinguere due tipi principali di cellule neuronali

corticali: le cellule piramidali e le cellule non piramidali.

1.3 Modalità Di Acquisizione Dei Segnali Cerebrali

Per misurare l’attività cerebrale esistono varie tecniche basate su diversi principi fisici. Di

seguito si riporta una breve descrizione di queste.

fMRI: functional Magnetic Resonance Imaging, tecnica di imaging non invasiva che permette di

rilevare informazioni sul metabolismo cerebrale usando il segnale BOLD (Blood Oxygen Level

Dependent). Grazie alla buona risoluzione spaziale attraverso l’analisi fMRI sono stati condotti

studi sui possibili segnali di controllo per un sistema BCI [5][7]. La bassa risoluzione temporale, le

dimensioni e il costo dell’equipaggiamento non permettono un’implementazione di sistemi BCI

portatili e accessibili a tutti.

MEG: Magneto EncefaloGraphy, misura il campo magnetico prodotto dalle correnti interne.

Presenta una buona risoluzione sia spaziale che temporale che ha permesso lo studio accurato delle

caratteristiche dei segnali cerebrali [6], ma anche questa tecnica, a causa dei piccoli campi

magnetici da misurare e della consistenza del sistema di misura, non è utilizzata per

l’implementazione di sistemi BCI volti al largo consumo ma piuttosto per indagini di tipo

neurofisiologico.

PET: Positron Emission Tomography, misura l’attività metabolica tramite la rilevazione

dell’attività di radioisotopi immessi nel paziente. Non è possibile usare questa tecnica per un

6

sistema BCI a causa della bassa risoluzione spaziale e soprattutto per l’invasività e il costo di

produzione del radiofarmaco.

NIRS: Near-InfraRed Spectroscopy, è una tecnica diagnostica non invasiva ed in tempo reale, in

grado di misurare l’ossigenazione tissutale utilizzando strumentazioni portatili, relativamente a

basso costo. Questa tecnica potrà essere usata in futuro per applicazioni BCI [3][4].

ECoG: ElectroCorticoGrafia, tecnica con ottima risoluzione spaziale e temporale, bassa

vulnerabilità agli artefatti muscolari e ambientali ma, data la sua invasività, non è pensabile di

applicarla per sistemi BCI portatili sebbene negli ultimi dieci anni siano stati sviluppati sistemi che

utilizzano l’ECoG anche su soggetti umani [8][9][10][11].

EEG: ElettroEncefaloGrafia, grazie alla buona risoluzione temporale, alla facilità di uso e alla

non invasività è la scelta più comune per l’acquisizione dati nei sistemi BCI anche se porta con se lo

svantaggio di una bassa risoluzione spaziale dovuta alla dispersione del segnale nel mezzo

conduttore.

-���������������������%�&

-��

���

���

���

�����

����

%��

&

-���������������������%�&

-��

���

���

���

�����

����

%��

&

������� �.� � ���������� ��� ��#����� ������ �� ��� ��,���������� ��� �������� //0� ������� ��������������������������� �����������1!������������������������� �����������2!�

7

1.4 Introduzione all’ElettroEncefaloGrafia

L’EEG registra l’attività cerebrale risultante sulla superficie dell’encefalo. I segnali

elettroencefalografici (EEG) non derivano dalla somma dei potenziali di azione degli assoni

neuronali ma dai potenziali dendritici incrociati delle cellule piramidali che sono orientate

verticalmente nella corteccia, con i loro dendriti disposti parallelamente uno all’altro. La variazione

di potenziale di una parte della cellula rispetto ad un’altra crea un campo che imprime una corrente

extracellulare, pertanto una differenza di potenziale risulta misurabile in superficie.

La prima testimonianza relativa a registrazioni di attività bioelettriche cerebrali risale al 1875,

quando Richard Caton pubblicò i risultati dei suoi esperimenti su animali. Successivamente, nel

1924, Hans Berger riuscì ad ottenere la prima registrazione di segnali elettrici cerebrali su un uomo,

usando strisce metalliche attaccate allo scalpo del soggetto come elettrodi e un sensibile

galvanometro come strumento di registrazione. Berger fu il primo ad osservare i pattern temporali

delle onde elettriche cerebrali e dal 1924 al 1938 egli pose le basi per molte delle presenti

applicazioni dell’elettroencefalografia e coniò il termine elettroencefalogramma, usato oggi

comunemente per descrivere la registrazione dei potenziali elettrici cerebrali [1].

1.4.1 Standard 10-20

Ad oggi è consolidato l’uso dello standard 10-20 per la registrazione dell’EEG che consiste nel

trovare il centro della testa alla metà della lunghezza nasion-inion e collocare gli elettrodi lungo

cinque linee trasversali a distanze pari al 10% o al 20% di tale lunghezza.

8

1.4.2 Ritmi EEG

L’attività ritmica del cervello è caratterizzata da frequenze tipiche la cui composizione armonica

è generalmente complessa.

Cinque tipi di onde sono particolarmente importanti:

ALPHA (�). Sono nel range frequenziale tra gli 8 e i 13 Hz con 30-50 �V di ampiezza e sono

caratteristiche di condizioni di veglia e di riposo mentale, ma non sono presenti nel sonno fatta

eccezione per lo stadio REM .

BETA (�). Variano tra 13 e 30 Hz e hanno voltaggi bassi tra 5-30 �V. Le onde Beta sono

associate a stati di attenzione.

THETA (�). Le onde Theta sono presenti tra 4 – 7 Hz con ampiezze in genere maggiori di 20

�V. Sono onde associate allo stress emozionale come la frustrazione e il disappunto ma sono

presenti anche in stati di ispirazione creativa e di profonda meditazione. Nei soggetti adulti in fase

di veglia l’attività Theta è generalmente assente, ma appare durante il sonno o l’iperventilazione,

mentre si trova abitualmente nei bambini.

��������3��-��������������������������������45�4�������,���������������������//0�

9

DELTA (�). Presentano una frequenza compresa tra 0.5 e 4 Hz ; sono presenti nel bambino ma

non in condizioni fisiologiche nello stato di veglia nell'età adulta; compaiano nell'anestesia generale

ed in alcune malattie cerebrali e sono predominanti durante le fasi del sonno.

MU (�). Hanno contenuto frequenziale tra i 7 – 12 Hz. Sono onde associate all’attività motoria e

sono registrate maggiormente nei pressi della corteccia motoria. Diminuiscono con il movimento o

con l’intenzione di movimento. La differenza tra le onde � e le onde � risiede nel fatto che mentre le

prime sono misurate sull’area motoria le � sono misurate sull’area occipitale. Il ritmo �-occipitale si

si distingue molto bene nel tracciato elettroencefalografico quando il soggetto chiude gli occhi e

riflette uno stato di inattivazione della corteccia visiva, mentre il ritmo � (denominato anche Sensori

Motor Rhithm, SMR) è molto più debole in ampiezza e lo si riesce a vedere solo dopo un accurato

signal processing.

1.4.3 Applicazioni EEG

Dal punto di vista diagnostico l'elettroencefalogramma viene generalmente eseguito a causa di

traumi cranici, infezioni cerebrali, problemi di memoria, disturbi cerebrovascolari, disturbi del

sonno ed inoltre ha un’elevata sensibilità nella diagnosi di epilessia.

Dal punto di vista della ricerca dal 1974 si fanno i primi passi verso la diretta comunicazione tra

computer e cervello attraverso l’elaborazione di segnali elettroencefalografici [19].

1.5 Tipologie di sistemi BCI basati su segnali EEG

Possiamo classificare i sistemi BCI in base a due principali caratteristiche:

esogeni/endogeni a seconda della necessità di avere o meno uno stimolo esterno per elicitare il

segnale di interesse ;

dipendenti/indipendenti riferito alla dipendenza della stimolazione delle normali vie di uscita

(sensi) per elicitare il segnale di interesse.

10

Generalmente i BCI di tipo esogeno, rispetto a quelli endogeni, hanno il vantaggio di essere più

robusti alla variabilità inter-individuale e di avere un elevato rate di trasferimento dell’informazione

a discapito della necessità di avere un equipaggiamento per la stimolazione e quindi un utilizzo

meno confortevole.

In un sistema BCI indipendente le normali vie di uscita non hanno un ruolo essenziale quindi

anche persone con gravi disabilità sono in grado di utilizzarlo. Questi motivi fanno sì che il focus

della ricerca siano i sistemi BCI esogeni e indipendenti.

Inoltre possiamo distinguere sistemi BCI sincroni da sistemi asincroni ( self paced ) a seconda se

l’utente è vincolato da un preciso istante scandito esternamente in cui fornire il comando oppure è

libero di fornirlo quando vuole.

La tipologia di BCI dipende molto dal protocollo di acquisizione e quindi dal tipo di segnale di

controllo che si intende utilizzare.

1.5.1 Segnali di controllo

Di seguito si riporta una breve descrizione dei vari segnali di controllo maggiormente utilizzati

nei sistemi brain computer interface:

1.5.1.1 Potenziali Evocati

I Potenziali Evocati sono una variazione di voltaggio del tracciato EEG a seguito di una

stimolazione di una via sensoriale. Poiché tali variazioni sono piccole rispetto all’intero tracciato si

rilevano attraverso un processo di media (averaging) su più trial che permette di ridurre le

variazioni che non sono sincronizzate con lo stimolo. Così facendo l’onda evocata media si

evidenzia nettamente e si caratterizza per la polarità (Positiva o Negativa) e per la latenza dallo

stimolo.

I parametri analizzati nello studio dei potenziali evocati sono quindi l’ampiezza, la latenza e la

topografia (da quale regione dello scalpo proviene).

11

Si possono distinguere i potenziali evocati in due tipi fondamentali:

- Stimolo-correlati: sono dipendenti dalle caratteristiche fisiche dello stimolo e hanno una

latenza dipendente dall’ambito temporale della percezione.

- Evento-correlati o ERPs (Event Related Potentials): dipendono dal contenuto informativo dello

stimolo e dal contesto psicologico e compaiono solamente quando il soggetto presta attenzione allo

stimolo.

Lo studio di questi tipi di potenziali è incominciato attorno agli anni settanta e nel corso del

tempo per ogni componente è stato dato un nome che ne riassume la polarità e la latenza.

Nell’ambito dei sistemi BCI il potenziale ERP più usato è stato il P300 grazie a Farwell e

Donchin [12] che nel 1988 inventarono il P300 speller che consiste nel presentare all’utente una

matrice di lettere 6x6 le cui righe e colonne lampeggiano a frequenze differenti e attraverso un

operazione di media sul tracciato EEG dell’utente viene individuata la lettera alla quale questo

ultimo presta attenzione.

Su questo tipo di potenziale la ricerca è tuttora attiva [13][14].

1.5.1.2 Visual Evoked Potential: VEP

Rappresentano la risposta (di tipo esogeno) registrata nella zona occipitale a seguito di stimoli

visivi. Gli SSVEP (Steady State Visual Evoked Potential) differentemente dai VEP presentano uno

stimolo costante ad una determinata frequenza. Questa tipologia di risposta è oggi la preferita per il

comando di on/off: ad esempio se presentiamo all’utente due LED che si illuminano a frequenze

differenti (i.e. 8Hz e 13Hz) possiamo attivare o disattivare un certo tipo di controllo a seconda delle

risposte cerebrali ad una o all’altra frequenza [15].

1.5.1.3 Slow Cortical Potential: SCP

Il tracciato EEG è in parte composto da lenti cambiamenti di voltaggio originati negli strati

superficiali della corteccia dai dendriti dei neuroni piramidali [16]. Queste variazioni si identificano

12

in frequenze sotto i 10 Hz includendo armoniche molto vicine alla continua. Gli SCP negativi sono

in genere associati con il movimento e con altre funzioni che implicano l’attivazione corticale,

mentre SCP positivi sono associati ad una diminuzione dell’attivazione corticale[17]. Ad oggi è

dimostrato che gli utenti possono imparare a controllare questi potenziali per utilizzare sistemi BCI.

Purtroppo la fase di apprendimento da parte del soggetto può durare alcune settimane e il rate di

trasferimento dell’informazione non è elevato.

1.5.1.4 Fenomeni di sincronizzazione/desincronizzazione evento correlati

Sino dai tempi di Berger (1930) è stato dimostrato che alcuni tipi di eventi possono bloccare o

“desincronizzare” l’attività delle onde alpha nell’andamento del segnale EEG. Un esempio di

questo fenomeno fu descritto da Peneld e Jasper (1954) [20] a seguito di un esperimento condotto

con Albert Einstein come soggetto al quale venne richiesto di fare un calcolo matematico:

“…Einstein was found to show a fairly continuous alpha rhythm while carrying out rather

intricate mathematical operations, which, however, were fairly automatic for him. Suddenly his

alpha waves dropped out and he appeared restless. When asked if there was anything wrong, he

replied that he had found a mistake in the calculations he had made the day before. He asked to

telephone Princeton immediately.”

In un esperimento del 1970, condotto da Lopes da Silva misurando l’ECoG su di un cane, fu

dimostrato che quando questo dormiva l’attività delle onde alpha, beta e gamma era comune in tutta

la corteccia, mentre quando il cane era sveglio e prestava attenzione a qualche stimolo questo tipo

di attività era molto più variabile sia nello spazio che nella frequenza.

Questo tipo di fenomeno fu denominato Event Related De/Synchronization (ERD/ERS) da

Pfurtscheller a Aranibar nel 1979 [22]. A differenza dei tradizionali potenziali evento correlati

(ERPs) che possono essere considerati come risposte post-sinaptiche dei principali neuroni

piramidali a seguito di uno stimolo, i fenomeni ERD/ERS possono essere visti come generati da

cambiamenti dei parametri che controllano le oscillazioni nelle reti neuronali [21].

13

I principali fattori che determinano le proprietà delle oscillazioni di un tracciato EEG sono:

- Le proprietà intrinseche della membrana dei neuroni e le dinamiche dei processi di sinapsi;

- La forza e l’estensione delle interconnessioni tra gli elementi della rete di neuroni.

Possiamo assumere che gli ERPs rappresentano le risposte dei neuroni corticali dovute a

cambiamenti nelle attività afferenti, mentre gli ERD/ERS riflettono i cambiamenti nelle interazioni

locali tra i principali neuroni e interneuroni che comandano le componenti frequenziali del tracciato

EEG [23].

I fenomeni ERD/ERS, a differenza degli ERPs, sono definiti “not phase-locked” a causa della

forte dipendenza dal contenuto frequenziale.

Seguendo le raccomandazioni di Pfurtscheller e Lopes da Silva [23], per riferire un ERD/ERS in

un tracciato EEG dobbiamo prima di tutto specificare la banda frequenziale nella quale ha senso

parlare di desincronizzazione solo se la baseline (misurata qualche secondo prima dell’evento)

presenta un chiaro picco nello spettro di potenza; analogamente ha senso parlare di sincronizzazione

se l’evento risultante mostra una componente ritmica nello spettro di potenza che non era presente

nella baseline.

Questi autori suggeriscono anche il modo per quantificare i fenomeni di ERD/ERS [24]. Per

diminuire l’errore e rendere più robusta la misura è fortemente consigliato avere un numero di trial

event-related maggiore di dieci. I passi per la quantificazione dell’ERD/ERS sono:

a- collezionare l’andamento dell’elettrodo di interesse nelle varie epoche

b- filtrare il segnale nella frequenza di interesse,

c- calcolare la potenza elevando al quadrato i campioni filtrati,

d- calcolare la media su tutti i trials

e- eseguire uno smooth dei dati nel tempo.

f- Infine, indicando con A la potenza nel periodo temporale successivo all’evento e con R la

potenza nel periodo di baseline possiamo calcolare il valore della percentuale di ERD/ERS come

ERD% = (A – R)/R * 100.

14

I passi sopraccitati per la quantificazione dell’ERS/ERD sono illustrati in figura 1.6. Tale figura

è l’analisi di un’epoca dove il soggetto immaginava il movimento della mano destra. Il dataset

proviene da una acquisizione da noi eseguita in laboratorio e il canale preso in considerazione è

solamente il C3.

a

b

c

d

e

f

��������6��-�����������������������������������������,���������������������������������������������� ����� 7� ������� ���$�������������� ��� ��#������� ������ ����� ������� ��� �!� �����#������$��������������$�����������'��������#��������� �����������������1���������������������� �!��������� ��������������������� �!��������� ��� ������������������������45��8�� ��� �!��������� ���,����������������������������� �!������������������������������������� �������������� �!�+���������������� ��� ����� � ���� ����� ���� ���� ��������� ������� ��� �� �������� ������� ��� �!� �������� ���,��������������� ������ ������������������� ���������� ����� 95-!:-;�44� ��#�� ��� �������� �������$�������������������������������������������$�������������������������5�#�����)����#������+�������������������������

15

Generalmente possiamo considerare questi fenomeni evento-correlati come l’incremento o il

decremento di potenza in una determinata banda. Per questo motivo la cosa più importante da fare

in un analisi di ERD/ERS è determinare i limiti del filtro passa banda. A questo proposito esistono

due metodi principali:

1- determinare le frequenze più reattive confrontando gli spettri di potenza di due segmenti

temporali presi rispettivamente nel periodo pre-evento e post-evento.

2- fare una analisi tempo-frequenza attraverso i classici metodi (spettrogramma, wavelet)

Il primo metodo consiste nel comparare due densità spettrali di potenza calcolate su periodi di

circa un secondo e mediate su tutti i trial. È possibile eseguire la comparazione facendone la

differenza per ogni trial e graficando la media di questa differenza all’interno di un intervallo di

confidenza del 99% (pari a tre deviazioni standard). Di seguito, in figura 1.8, si riporta un esempio

di questo metodo applicato ad un dataset dove il soggetto immagina di muovere la mano destra e

l’elettrodo considerato è il C3 situato nell’emisfero sinistro in corrispondenza della corteccia

sensori-motoria.

%8�&�

%8�&�

��������<�� ���������������������������������������,������������ �������������� ������������������������������� ������� ��� ��#������� ����������� ������ ����� ������� =����� ������� �������� ����� ���������� ��� ������>� ���������� ��� �������� ���������� ������ ������������ �����������������������������������������������1�=��������������������+��������������#���������������������� ��� ���� ������>� ���������� ��� �������� ���$�������� ����$�����#����� ��� ����������� ��� ������#���������������������������#����������#�����������$�����#������������������������������������������������������������������������������������

16

Il secondo metodo fa uso di quelle tecniche che forniscono una rappresentazione in un piano

tempo-frequenza, nel senso che localizzano temporalmente le componenti spettrali. Di queste

tecniche le più importanti sono la Short Time Fourier Trasform (STFT) e l’analisi Wavelet. La

prima analizza il segnale calcolando la trasformata di Fourier di segmenti di uguale durata

temporale. Tale operazione, se la finestra di osservazione è rettangolare, può essere considerata

come campionamento dello spettro continuo mediante una funzione sinc (trasformata di Fourier

della finestra rettangolare). La risoluzione frequenziale è quindi inversamente proporzionale alla

durata temporale della finestra ed è costante su tutta la banda frequenziale. L’analisi Wavelet supera

il limite di risoluzione fissa della STFT costruendo il piano tempo-frequenza analizzando il segnale

attraverso versioni scalate e traslate di una funzione chiamata “wavelet madre”. Questo algoritmo

permette di rispettare il teorema di Nyquist alle varie frequenze.

Di fondamentale importanza è normalizzare la rappresentazione sul periodo di baseline per

evidenziare i decrementi o gli incrementi di potenza.

Di seguito si riporta la visualizzazione tempo-frequenza con la tecnica STFT dell’elettrodo C3 di

un dataset con il compito di motor imaging della mano destra.

[

��������?��0����������������,�������������������������������������������� ��������������������������������������������7���@���������������������������1�������������������A$����������������������������������+��$�����������'��

17

È ben noto che l’ampiezza delle fluttuazioni diminuisce all’aumentare della frequenza: questa

relazione è valida sia per frequenze relativamente distanti tra loro (basse beta ~20Hz e oscillazioni

gamma 40Hz) sia per frequenze molto vicine tra loro come le alpha a 10Hz e a 12Hz. Per questo

motivo l’analisi della banda individuale deve essere eseguita considerando piccole bande

frequenziali per evidenziare meglio le differenze anche a frequenze più alte: la variabilità della

banda alpha essendo maggiore in ampiezza potrebbe coprire quella della banda beta.

1.5.1.4.1 Fenomeni ERS/ERD: Background Fisiologico

L’incremento ed il decremento della potenza in una determinata banda correlato a eventi sensori-

motori e di immaginazione motoria è un campo di indagine ancora aperto sebbene siano stati

condotti numerosi studi a riguardo. Generalmente possiamo dire che l’ampiezza di specifici ritmi

corticali cambia a seguito di determinati eventi[24] e che questo comportamento è diverso nei due

emisferi cerebrali (concetto di lateralizzazione [29]).

È ormai consolidato che il movimento di alcune parti del corpo è preceduto dalla

desincronizzazione (blocking) delle onde alpha (mu) 8-13Hz e delle onde beta 14-25Hz e la

cessazione di tale movimento è spesso seguito da una sincronizzazione delle onde beta nella regione

precentrale del cervello [30]. La lateralizzazione dell’attività neurale correlata al movimento è

generalmente associata ad una significativa desinscronizzazione sul lato controlaterale del

movimento e una significativa sincronizzazione nel lato ipsilaterale al termine del movimento. Ad

esempio, riscontriamo una diminuizione di potenza nelle onde alpha e beta circa un secondo prima

che venga eseguito un movimento nella zona controlaterale che diventa bilaterale durante

l’esecuzione del movimento e, alla fine del movimento, è associato un aumento di potenza

ipsilaterale. Questo fenomeno è riscontrato ampiamente sia nel caso di movimenti eseguiti che nel

caso di movimenti immaginati.

18

Lo scenario appena descritto è un quadro semplificato di ciò che accade, in realtà il fenomeno è

molto più complesso a causa della vastità di esperienze senso-motorie possibili, della variabilità

interindividuale e delle condizioni ambientali.

Ad esempio la durata del movimento (breve o continuo) non mostra significative differenze sulle

desincronizazioni mu e beta prima dell’esecuzione ma mostra differenze sul ritorno alla baseline

(sincronizzazione): la potenza nella banda mu ritorna più velocemente al valore di base nel caso di

movimento continuo piuttosto che nel caso di movimento breve e, mentre in quest’ultimo caso non

si nota una significativa differenza nella lateralizzazione, nel caso di movimento continuo la beta

ERS è situata maggiormente nell’emisfero ipsilaterale [25].

Gli ERD che compaiono prima del movimento e durante il movimento immaginato potrebbero

riflettere uno stesso tipo di preparazione o preselezione delle reti neuronali nell’area sensori

motoria.[26].

Il ritmo mu si presenta in assenza di elaborazione di informazioni sensoriali o di uscite motorie.

Per questo porta a pensare che tale ritmo rifletta uno stato di “idling” nella corteccia, quindi è stato

ipotizzato che gli ERS a 10Hz sono prodotti dalla de-attivazione delle aree corticali e potrebbero

rappresentare un’attività inibitoria della corteccia[24][26][32].

Oltre ad aver osservato il presentarsi di fenomeni ERD prima e durante il movimento e fenomeni

ERS alla fine dello stesso, sono stati osservati ERD e ERS allo stesso tempo ma in differenti

locazioni dello scalpo. Questo fenomeno è stato denominato “focal ERD/surround ERS”[33] ed è

interpretato come una inibizione della rete neuronale corticale nella zona non direttamente

interessata nell’esecuzione del task.

I fenomeni di ERS nella banda beta che si verificano al termine del movimento (beta rebound

post movement) si presentano con distinte distribuzioni spaziali dopo differenti tipi di motor-

imagery. Pfurtscheller e Escalante nel 2009 hanno trovato che il beta rebound dopo un rapido

movimento dei piedi (sia eseguito che immaginato) è un fenomeno abbastanza stabile e potrebbe

essere utilizzato come un ‘Brain Switch’ nei sistemi BCI [34].

19

Il vantaggio di questo tipo di segnale è che mostra un pattern simile sia per movimenti attivi che

passivi, immaginati o indotti con stimolazione elettrica o vibrotattile.

L’ingresso di un sistema BCI deve essere “Affidabile e significativamente correlato a stati

specifici del cervello ” [31].

In questo lavoro di tesi abbiamo usato il segnale di controllo chiamato “Motor Imagery” (MI),

definito come una simulazione mentale del movimento, che ha mostrato essere una strategia

mentale efficiente per le applicazioni dirette di BCI [49].

20

2. ALGORITMI PER L’IDENTIFICAZIONE DEI FENOMENI ERD/ ERS

IN APPLICAZIONI BCI

Nel primo capitolo abbiamo gia discusso circa l’identificazione dei fenomeni di sincronizzazione

e desincronizzazione ma sempre prendendo in analisi un singolo elettrodo ed una singola banda

frequenziale, metodo che consente in maniera limitata l’estrazione delle caratteristiche che

permettono la classificazione di due diversi stati mentali.

Quello che vorremmo idealmente è un metodo di estrazione delle caratteristiche che sia quanto

più insensibile alla variabilità inter ed intra individuale. A tale proposito recentemente sono stati

implementati diversi algoritmi con lo scopo di individuare sia spazialmente che temporalmente le

caratteristiche salienti di un segnale EEG che permettano di distinguere due diversi stati mentali del

soggetto utilizzatore di un sistema BCI. Gli stati mentali presi in considerazione sono per la

maggior parte il movimento immaginato di varie parti del corpo tra cui: la mano destra, la mano

sinistra, i piedi e la lingua. Queste parti del corpo sono state scelte a causa della loro vasta

rappresentazione sulla corteccia sensori-motoria.

Di seguito si riporta l’analisi degli algoritmi presenti in letteratura volti all’estrazione delle

caratteristiche per la classificazione di due diversi stati mentali. Tali algoritmi sono recenti varianti

dell’algoritmo CSP (Pfurtscheller et al. 1999) che sarà descritto nel primo paragrafo di questo

capitolo.

Diverse estensioni dell’algoritmo CSP si pongono diversi obiettivi. La maggior parte è incentrata

nell’ottimizzazione della localizzazione sia spaziale che frequenziale delle caratteristiche salienti

delle classi da discriminare. Altri, come il “SCSP” e l’ “I-CSP”, hanno l’obiettivo di rimuovere le

componenti meno rilevanti dai filtri spaziali. Altri ancora, come il d-CSP, hanno l’obiettivo di

ottimizzare ulteriormente la localizzazione spaziale agendo sulla formulazione matematica del

problema.

21

2.1 Common Spatial Patterns: CSP

Con il termine “Common Spatial Patterns” si intende un metodo per costruire filtri spaziali che

portino a nuove serie temporali con la proprietà di avere varianza massima per una condizione e

nello stesso tempo minima per l’altra.

Questo metodo è stato introdotto da Koles et al. nel 1990 [35] con lo scopo diagnostico di

distinguere automaticamente una popolazione di individui sani da una di individui malati. In seguito

questo algoritmo è stato utilizzato per estrarre componenti anormali nel tracciato EEG [36] e per la

localizzione delle sorgenti (Koles et al. 1995).

Dal 1999 grazie al lavoro di Muller, Pfurtscheller e Flyvbjergc [48] è stato utilizzato con

successo nella discriminazione di due diversi stati mentali.

È un approccio di tipo esplorativo (o data-driven cioè che non richiede la conoscenza a priori del

modello probabilistico) basato sulla diagonalizzazione simultanea delle matrici di covarianza

relative alle due classi da discriminare.

Il fine di tale metodo è la costruzione di una matrice di proiezione che proietti i segnali dallo

spazio originale dei sensori ad uno spazio surrogato dei sensori con la proprietà che il primo e

l’ultimo canale abbiano rispettivamente varianza minima (o massima) per una condizione e varianza

massima (o minima) per l’altra.

Per la costruzione della matrice di proiezione è necessario disporre di un dataset di training dove

i trials siano classificati (etichettati) per le due condizioni da discriminare.

Prendiamo Xdi � ℜ NxT i dati grezzi del trial i nella condizione d � {a,b} ( che in un esperimento

di motor imagery possono essere il movimento della mano destra e il movimento della mano

sinistra) come una matrice NxT con N i canali dell’EEG e T gli istanti temporali relativi ad un trial.

Un istante temporale può essere quindi visto come un punto in uno spazio N-dimensionale e un

tracciato EEG come la distribuzione di tali punti. Se eliminiamo la componente continua filtrando

con un filtro passa alto, la media di tale distribuzione è nulla. Questo ci costringe a cercare

22

informazioni caratteristiche nei momenti del secondo ordine come la covarianza. Le matrici di

covarianza vengono calcolate e normalizzate nel seguente modo

Rai = Xa

i XaiT / trace(Xa

i XaiT)

Rbi = Xb

i XbiT / trace(Xb

i XbiT)

La normalizzazione sulla somma della diagonale della matrice di covarianza è eseguita in modo

da eliminare le variazioni intertrials dei valori assoluti dei momenti.

Calcolate le matrici di covarianza per ogni trial queste vengono mediate in modo da avere le

matrici di covarianza per le due condizioni a e b:

Ra = <Rai> trial

Rb = <Rbi> trial

A questo punto possiamo calcolare la matrice di covarianza composta :

Rc = Ra + Rb

È utile adesso cercare la matrice di sbiancamento della covarianza composta cioè rendere tale

matrice ortogonale in modo che la sua covarianza sia la matrice di identità. Per cercare la matrice di

sbiancamento si fattorizza la matrice nei suoi autovettori :

Rc = Bc � BcT

Dove Bc (NxN) sono gli autovettori tali che BcBcT=I NxN e � (NxN) è la corrispondente matrice

diagonale degli autovalori. La matrice di sbiancamento che equalizza la varianza nello spazio

attraversato dagli autovettori è ottenuta nel seguente modo:

W = �-1/2 BcT

Ora si trasformano le matrici di covarianza individualmente in modo da portarle nello stesso

spazio e che condividano quindi gli stessi autovalori:

Sa = W Ra WT

Sb = W Rb WT

Le matrici Sa e Sb condividono gli stessi autovalori dal momento che

Sa + Sb = W Rc WT

23

Se decomponiamo queste matrici otteniamo quindi:

Sa = U �a UT

Sb = U �b UT

I corrispondenti autovalori sono tali che �a + �b = I dove con I si intende la matrice di identità.

Di conseguenza la proiezione dell’EEG sbiancato su U ci darà vettori caratteristici ottimali per la

discriminazione delle due popolazioni rispetto alla loro varianza.

La matrice di proiezione di interesse è quindi:

PT = UT W

E le serie temporali si ottengono filtrando nel seguente modo:

Z = PT X

Invertendo questa equazione otteniamo nuovamente i dati originali dai coefficienti di espansione:

X = (P -1)T Z

In questo caso le colonne della matrice P sono i filtri spaziali (righe della matrice PT) e le righe

della matrice A=(P -1) sono i pattern spaziali. Ogni filtro pj estrae l’attività del pattern aj.

Se avessimo indicato con Z = WX il filtraggio spaziale avremmo avuto le righe della matrice W

come filtri spaziali e le colonne della matrice W–1 come patterns spaziali.

Questa trattazione può essere riassunta brevemente con la simultanea diagonalizzazione delle

due matrici di covarianza normalizzate �a e �b :

P T �a P = �a

P T �b P = �b

Dove la matrice P è determinata dalla condizione �a + �b = I , che è risolvibile risolvendo il

problema denominato “generalized eigenvalue problem” :

24

�a p = � �b p

Indicando con � j (d) gli elementi diagonali di �(d) nella condizione (d) troviamo la condizione

particolare che: � j a + � j

b = 1. Quindi un valore prossimo a 1 di � j a (� j

b) indica che il

corrispondente filtro spaziale pj produce una alta varianza nella condizione a (b) e una varianza

piccola per la condizione b (a).

Koles [36] spiega che la decomposizione appena vista offre una base comune per le due

condizioni in quanto il segnale filtrato xCSP(t) = PTx(t) è incorrelato in entrambe le condizioni, la cui

incorrelazione implicherebbe indipendenza nel caso di variabili aleatorie Gaussiane.

Un’altra visione dello stesso problema si ottiene valutando le attività comune e quelle

differenziali nel seguente modo:

Ac = �a + �b

Ad = �a – �b

Dove con Ac indichiamo l’attività comune alla quale non siamo interessati e con Ad si intende

l’attività discriminativa (i.e. la differenza della potenza di banda tra le due condizioni). Quindi una

soluzione per questo problema si può ottenere risolvendo lo stesso problema generalizzato degli

autovalori :

maximize{ p � ℜ C } [pT Ad p / pT Ac p ]

Pertanto possiamo notare che i filtri pj hanno l’obiettivo di massimizzare le differenze tra �ja – �j

b

(assumendo come sopra che � j a + � j

b = 1).

Abbiamo precedentemente stabilito che una volta ricavata la matrice P di proiezione, ordinata

secondo valori crescenti degli autovalori, si ottiene la proiezione dei dati nello spazio degli elettrodi

surrogati.

Z = PT Xi

Questi nuovi dati Z (coefficienti di espansione) hanno la proprietà che la varianza della prima

riga è massima per i trials del gruppo a ed allo stesso tempo è minima per i trials del gruppo b

25

mentre per l’ultima riga succede l’opposto. Quindi, ai fini della classificazione, utilizziamo solo m

filtri e le features che estraiamo sono rappresentate dalla varianza dei coefficienti di espansione

normalizzata in scala logaritmica. Indicando con varip la varianza della p-esima riga di Zi il vettore

delle features per il trial i è composto dalle varianze normalizzate delle prime e delle ultime m

righe:

fpi = log ( varp

i / sum(varip=1:m; N-m : m )

La trasformazione logaritmica è eseguita con lo scopo di approssimare la distribuzione degli

elementi di f i ad una distribuzione normale.

La varianza estratta per segnali prefiltrati passa banda corrisponde alla potenza spettrale in tale

banda. La lunghezza dell’intervallo che usiamo per estrarre le features è scelta in base a un

compromesso: finestre temporali brevi offrono ad un ridotto tempo di ritardo di estrazione delle

features a scapito di una più elevata sensibilità a disturbi, mentre finestre temporali lunghe

corrispondono ad un maggiore ritardo nell'estrazione delle features ma anche ad una maggiore

robustezza a disturbi transitori..

Data la linearità del metodo l’operazione di filtraggio in frequenza può essere eseguita sia prima

che dopo il filtraggio spaziale, anche se questo non sempre applicabile a causa della stima non

ottima della matrice di covarianza [37].

Per l’interpretazione fisiologica dei filtri spaziali (colonne della matrice P) e dei patterns spaziali

(colonne della matrice (P-1)T ) bisogna ricordare che l’algoritmo CSP non è volto alla separazione di

sorgenti ma a massimizzare la varianza per una classe minimizzandola per l’altra. Ad esempio,

considerando un filtro che massimizza la varianza per la classe movimento dei piedi e la minimizza

per la classe movimento della mano destra, un focus di tale filtro sull’emisfero sinistro

(preponderante per il movimento della mano destra) potrebbe avere diverse spiegazioni: può essere

originato da un ERD causato dal movimento della mano destra, da un ERS causato dal movimento

dei piedi oppure dalla somma dei due effetti (anche se per il compito di discriminazione questo

ultimo caso sarebbe dannoso [37]).

26

Oltre al numero di filtri che si possono scegliere (nella maggior parte degli studi vengono usati

solamente il primo e l’ultimo), altro parametro fondamentale nell’applicazione dei CSP è la banda

frequenziale entro la quale filtriamo il segnale. Una scelta molto comune è quella di filtrare il

segnale in un intervallo 7-30Hz in modo da includere i fenomeni di desincronizzazione e

sincronizzazione dei ritmi alpha e beta. Con lo scopo di aumentare l’accuratezza della

classificazione e di migliorare l’approccio a sistemi BCI basati su algoritmi CSP sono stati proposte

diverse varianti di tale metodo incentrate sull’ottimizzazione delle frequenze da analizzare.

Un approccio di tipo “brute force” implementato è quello di aumentare il numero dei canali EEG

con gli stessi canali filtrati a bande differenti. Questo approccio porta a dei buoni risultati tuttavia il

numero di frequenze analizzate diviene elevato (solitamente maggiore di 50 bande) con un

conseguente notevole aumento del costo computazionale.

2.2 Common Spatial Spectral Patterns: CSSP

Con lo scopo di ridurre il tempo di training e di selezionare automaticamente le frequenze ottime

alla discriminazione nel 2005 è stata introdotta una nuova versione dell’algoritmo CSP [38]. Tale

versione è un’estensione dei CSP nello spazio delle fasi sfruttando il concetto di caos deterministico

basso dimensionale sebbene i sistemi naturali deterministici e a basse dimensioni siano pochi. Nel

senso matematico un sistema deterministico significa che esiste un sistema autonomo definibile

attraverso una equazione differenziale � = f(y) in uno spazio � � ℜ D del quale possiamo misurare

una singola quantità s = h(y).

Questo sistema possiede D variabili naturali delle quali possiamo misurare solo una proiezione

non lineare in un valore scalare. Per recuperare le proprietà deterministiche di questo sistema

dobbiamo ricostruire uno spazio della fase equivalente allo spazio �. A questo scopo ci viene in

aiuto il metodo chiamato “time delay embedding method” che consiste nel costruire un nuovo

vettore di misura ricavato dal vettore originale ritardato di un tempo �. Lo scopo dei CSSP non è di

27

ricostruire l’intera dinamica del segnale EEG ma di estrarre caratteristiche robuste. A tale scopo

l’equazione finale del “classico” algoritmo CSP si trasforma come segue:

Zk = P(0)X k + P( �)�

( �)X k

Dove l’operatore �( �) ha la proprietà di ritardo di un tempo �.

Per agire in questo modo al segnale EEG dobbiamo concatenare il segnale EEG ritardato come

segue:

� = [ X k ; �( �)X k ]

Adesso, chiamando p la i-esima riga della matrice di decomposizione della matrice P* = [P( �)

P(0)] possiamo scrivere:

=

=

���

����

�+=

=+=

=+=

C

c

kc

c

ckc

c

cc

C

c

kcc

kcc

kkki

Xp

Xp

XpXp

XpXpZ

1

)()()0(

1

)()()0(

)()()0(ˆ

ττ

ττ

ττ

δγγ

γ

δ

δ

Dove (�c) c=1,..,C è un filtro spaziale puro e ��

��

� −

c

c

c

c pp

γγ

ττ )(1)0(

,0,...,0,876

definisce il filtro FIR per ogni

elettrodo c . I coefficienti di �c sono definiti così:

( ) ( )( ))0(

2)(2)0(

c

ccc

psign

pp τ

γ+

=

A questo punto può essere parametrizzato il filtro FIR con un angolo �c(�) come segue:

( )( )

( ) �

��

−∈���

����

�=Φ

2,

2tan

0 ππτ

τ

c

cc p

pa

Questo metodo aggiungendo nuovi canali al tracciato, ottenuti ritardando di un tempo � gli

originali e processandoli con un algoritmo CSP riesce a calcolare contemporaneamente sia i classici

filtri spaziali che nuovi semplici filtri FIR. In questo modo ottiene l’ottimizzazione simultanea di

filtri spaziali e frequenziali. Tuttavia, con solo un tempo di ritardo, la flessibilità del filtro in

frequenza è molto limitata. Aggiungendo tempi di ritardo si moltiplicano i canali da elaborare ed

28

aumentano le variabili da parametrizzare quindi è stato concluso che per questo metodo la scelta di

un solo tempo di ritardo è la scelta migliore. È da notare inoltre che per ogni canale di ingresso

viene definito un filtro temporale.

2.3 Common Sparse Spectral Spatial Pattern: CSSSP

A causa della limitata flessibilità dei filtri frequenziali nell’algoritmo CSSP, nel 2006 è stato

implementato un nuovo algoritmo denominato CSSSP [39] con lo scopo di migliorare ancora la

classificazione dei segnali cerebrali correlati ai fenomeni di ERD/ERS dovuti all’esecuzione, alla

immaginazione e alla stimolazione del movimento.

Questo algoritmo si basa sia sull’idea fondamentale dei CSP, cioè quella di trovare filtri spaziali

p le cui proiezioni abbiano potenza elevata per una classe e minima per l’altra, sia sul principio dei

CSSP che è quello di combinare filtri spaziali e frequenziali calcolandoli simultaneamente.

Al contrario dei CSSP nei CSSSP non viene calcolato un filtro FIR per ogni canale ma ne viene

calcolato solamente uno sebbene con una complessità molto maggiore.

L’algoritmo CSSSP elude il problema della selezione manuale delle bande frequenziali in

un'altra maniera. Per ogni condizione (classe) viene calcolata la matrice di covarianza tra il segnale

originale e il segnale ritardato di un tempo � assumendo che traslando temporalmente il segnale

originale la matrice calcolata sia identica.

Indicando con b(i) i coefficienti del filtro FIR digitale il problema si risolve attraverso le seguenti

equazioni:

( ) ( )

( ) ( ) ( ) 1

;maxmax

21

1

0 1

1

1

0 11,,

=��

��

�Σ+Σ��

����

�+

��

���

��

���

��

���

��

���

��

��

����

����

�+

� �

� �

=

=

=

==

pjbjbp

pjbjbp

classeclasse

T T

j

T

classe

T T

j

T

pbbp

ττ

υ

τ

τ

υ

τ

τ

τ

Dove con τyΣ si intende la matrice di covarianza per la classe y calcolata tra i segnali originali e

i segnali ritardati di �. In questo modo con la tecnica standard dei CSP possiamo calcolare i filtri

29

ottimi p per ogni coefficiente b quindi per ogni classe otteniamo un filtro frequenziale ed un pattern

spaziale. Dal momento che il primo coefficiente b(1) viene assunto pari ad 1, rimane un problema

T-1 dimensionale che può essere risolto con la tecnica del gradiente sempre che T non sia troppo

grande. All’aumentare di T aumenta la complessità del filtro frequenziale che deve essere

controllata per non cadere nell’overfitting. Un metodo per contenere l’eccessiva complessità è

quello di vincolare le soluzioni per i coefficienti b introducendo un termine di regolarizzazione C.

( ) ( )

( ) ( ) ( ) 1

;maxmax

21

1

0 1

1

1

0 11,,

=��

��

�Σ+Σ��

����

�+

−��

���

��

���

��

���

��

���

��

��

����

����

�+

� �

� �

=

=

=

==

pjbjbp

bT

Cpjbjbp

classeclasse

T T

j

T

classe

T T

j

T

pbbp

ττ

υ

τ

τ

υ

τ

τ

τ

Il termine di regolarizzazione C deve essere scelto non negativo: scegliendolo uguale a zero si

annulla questa regolarizzazione e aumenta il problema di overfitting, scegliendo un valore alto (i.e.

5) si ottengono soluzioni sparse per i coefficienti di b fino ad annullare l’effetto del filtro FIR.

2.4 Spectral-Common Spatial Patterns: SPEC-CSP

Una ulteriore variante dell’algoritmo CSP simile alle due precedentemente descritte è il metodo

denominato SPEC-CSP [40].

È una generalizzazione dei CSP che incorpora pesi non omogenei della matrice cross-spettro

intesa come la trasformata di Fourier della matrice di covarianza.

Anche qui indichiamo con X �ℜ d x N il segnale di un singolo trial composto di T istanti

temporali e d canali. Il vettore delle features viene chiamato “log-power features” ed è formato nel

seguente modo:

( ) jTjj

Tjjjj wBBwBwX log,; =Φ ( con j = 1,…,J numero di trial)

Dove con wj �ℜ d si intende il filtro spaziale che proietta il segnale in una singola dimensione e

con Bj �ℜ NxN. Il simbolo T rappresenta la coniugata trasposta che per segnali reali corrisponde

semplicemente alla trasposta.

30

Se indichiamo il classico algoritmo dei CSP come:

{[ ][ ] wXXEw

wXXEwTT

TT

Rw d−

+

max

Risolvibile con il seguente problema generalizzato degli autovalori:

�+w = � �– w

Dove �c:= E[XXT], �ℜ dxd (c �{ +,–}) è la matrice di covarianza.

L’autovettore corrispondente al più grande autovalore � è l’ottimo del problema di

massimizzazione.

Negli SPEC-CSP questo problema viene formulato nel dominio della frequenza come segue:

{[ ] [ ]

[ ] [ ]−+

−+

+

)(var)(var

),(),(max

wsws

wsEwsE ααα

In questo modo si indicano la potenza spettrale del segnale proiettato dal filtro w come sk(w) ed i

coefficienti discreti del filtro frequenziale come � = �k con k=1,…,N e quindi:

( ) �=

=N

kkk wsws

1

)(, αα

I coefficienti del filtro ottimali sono dati da:

[ ] [ ][ ] [ ]−+

−++

+

−∝

)(var)(var

)()(

wsws

wsEwsE

kk

kkopt

kα ; [ ] [ ][ ] [ ]+−

+−−

+

−∝

)(var)(var

)()(

wsws

wsEwsE

kk

kkopt

Che vengono posti uguali a zero nel caso il numeratore sia negativo.

Poiché il segnale filtrato spazio-temporalmente s(w,�) è lineare rispetto ai coefficienti spettrali �k

(per k=1,…,N) e assumendo che le componenti frequenziali sono indipendenti le une dalle altre

possiamo dire che:

( )[ ] [ ]�=

=N

k

ckk

c wsws1

2 )(var,var αα con c �{+,–}

I coefficienti del filtro vengono normalizzati in modo tale che la loro somma sia uguale a uno.

31

A questo punto, usando le proiezioni spaziali w e i filtri temporali �, la “log-power feature” può

essere scritta così:

( ) jTkk

Tk

N

kjkjjj wxxwBwX ˆˆlog,;

1,�

=

=Φ α ( con j = 1,…,J numero di trial)

In questa equazione abbiamo indicato con kx)� Cd la k-esima componente della trasformata di

Fuorier di X.

I filtri spaziali e quelli temporali vengono aggiornati iterativamente.

La matrice di covarianza del segnale filtrato temporalmente può essere scritta come :

( ) �=

=N

kkkVV

1

αα

Dove Txkk xxV

))= (per k = 1,…,N) è la matrice cross spettro.

Per incorporare i filtri temporali nell’algoritmo CSP possiamo quindi risolvere, ad ogni passo, il

problema generalizzato degli autovalori modificato come segue:

ww )()( αλα −+ Σ=Σ

Dove �c(�) = E[V(�)]c.

Partendo con i coefficienti del filtro spettrale omogenei ( �k=1 k∀ ) alternativamente vengono

aggiornati i filtri spaziali e quelli spettrali fino alla convergenza.

Il training del classificatore si articola quindi in due passi: nel primo sono ottimizzati i

coefficienti di wk e �k; nel secondo viene allenato il classificatore LDA sul vettore delle features.

Test di validazione mostrano che questo algoritmo ottiene le stesse performance del precedente

CSSSP ma il tempo di elaborazione è minore e non ci sono parametri da settare.

2.5 Spatially Sparsed Common Spatial Pattern: SSCSP

Recentemente è stato sviluppato un metodo per ridurre lo svantaggio dei CSP legato ai disturbi

del segnale EEG. Tale metodo proposto da Arvaneh et al [41] è chiamato Spatially Sparsed

Common Spatial Pattern e si pone l’obiettivo di migliorare l’algoritmo CSP ‘sparsificando’ i filtri

32

spaziali mantenendoli tra loro incorrelati. Questo tipo di approccio ottimizza i filtri spaziali

enfatizzando le regioni che hanno un’alta varianza tra le due classi e attenuando le regioni che

hanno una varianza bassa o irregolare spesso dovuta al rumore o agli artefatti. Si cerca quindi di

rimuovere le informazioni meno rilevanti, rumorose e correlate attraverso un’estensione

dell’algoritmo CSP effettuata, come vedremo, con l’aggiunta di un termine di regolarizzazione.

Per affrontare la trattazione dei SSCSP riprendiamo alcuni concetti dei classici CSP.

Indichiamo con X �ℜ N x S il segnale non processato di un singolo trial e con W la matrice di

proiezione tale che il segnale filtrato Z si ottiene moltiplicandola per il segnale grezzo: Z = WX. In

questo caso le righe della matrice W sono i filtri spaziali mentre le colonne della matrice W–1 sono i

patterns spaziali. Riportiamo i passaggi analitici dell’algoritmo classico dei CSP indicando con Cd

la stima della matrice di covarianza della classe d={ 1,2}. La diagonalizzazione della somma delle

due matrici si ottiene come:

Tccc FFCCC ψ=+= 21

Dove Fc è la matrice degli autovettori corrispondenti alla matrice degli autovalori . La matrice

di sbiancamento si ottiene quindi:

TcFP 2/1−=ψ

Possiamo quindi proiettare le matrici di covarianza attraverso la matrice di sbiancamento P:

TPPCC 1*1 = ; TPPCC 2

*2 =

In questo modo le matrici C*1 e C*2 condividono gli stessi autovettori:

TUU 1*1C Λ= ; TUU 2

*2C Λ= ; con I=Λ+Λ 21

Dove I è la matrice identità, U la matrice degli autovettori e le matrici � denotano le matrici

diagonali degli autovalori.

È possibile definire la matrice di proiezione dei CSP come:

PUW T=

La quale proietta le matrici di covarianza di ciascuna classe come segue:

33

11*1

**1 Λ=== UPPCUWWCC TTT ; 22

*2

**2 Λ=== UPPCUWWCC TTT

Dal momento che la somma degli autovalori � è sempre uno, la massima varianza per una classe

comporta la minima varianza per l’altra.

Alla luce di questo possiamo formulare il classico problema CSP come un problema di

ottimizzazione:

{ ��

���

� + ��+==

m

mi

Tii

m

i

Tii

w

wCwwCwi

2

11

12min

Con i seguenti vincoli:

1)( 21 =+ Tii wCCw per i ={1,2,…,2m}

0)( 21 =+ Tji wCCw per i , j ={1,2,…,2m} con i j

Le righe della matrice di proiezione sono indicate con con wi �ℜ 1 x N .

Con m si indicano il numero di filtri da trovare (di solito m = 1). I vincoli corrispondono a

all’equazione W(C1+C2)WT = I.

La sparsità dei filtri si può indurre aggiungendo un termine di regolarizazione dato dalla norma

euclidea: 0

y (norma euclidea di y) è la misura della sparsità data dagli elementi non nulli di y.

Essendo proibitivo computazionalmente risolvere un problema con la norma-0 si usa una

approssimazione di questa data da: 2

10 y

yy = dove con ( )pp

N

p

pyyy

1

1 ++= Κ .

Questo termine si introduce nel problema di minimizzazione come segue:

{ ( )��

��

�+��

���

� +− ���=+==

m

i i

im

mi

Tii

m

i

Tii

w w

wrwCwwCwr

i

2

1 2

12

11

121min

Dove r è un parametro da definire che specifica il trade-off tra accuratezza di classificazione e

‘sparsità’. La scelta del parametro r viene fatta in modo euristico: viene scelto il coefficiente r che

restituisce in media il più alto valore di una cross-validazione 10x10.

34

Altro vantaggio da questo metodo è che la sparsità dei filtri mappati sullo scalpo mette bene in

evidenza le zone che hanno maggiore rilevanza ai fini della classificazione e quindi i risultati

ottenuti sono neurofisiologicamente meglio interpretabili.

Gli autori di questo algoritmo [41] hanno dimostrato che le performance migliorano rispetto ai

CSP classici quando abbiamo a che fare con dati rumorosi e limitati.

2.6 Frequency Weighted Method: FWM

Nel 2010 Liu et al. [42] hanno proposto un metodo che si pone l’obiettivo di migliorare le

performance dei CSP basandosi sull’idea di trovare un vettore che pesi le diverse componenti

frequenziali in base alla loro importanza per il compito di discriminazione.

Indicando con x un canale del tracciato EEG in una finestra temporale di interesse viene

calcolata la trasformata di Fourier y = fft(x). A questo punto si cerca un vettore w che pesi lo spettro

del segnale nel seguente modo:

yw(k) = w(k) y(k)

Dove k è l’indice delle frequenze.

Lo spettro così pesato (yw) è antitrasformato: xw = ifft(yw).

I canali pesati in frequenza sono processati con l’algoritmo classico dei CSP.

Il punto chiave di questo lavoro è ovviamente trovare il vettore dei pesi w.

Il metodo usato dagli autori [42] è basato sul classificatore lineare di Fisher (LDA: linear

discriminant analysis). Per completezza della trattazione viene riportato di seguito un breve

riassunto del metodo Fisher’s LDA.

L’algoritmo LDA calcola la direzione che massimizza il coefficiente di Rayleigh tra la matrice di

scatter tra le classi e la matrice di scatter.

Questo algoritmo (Fisher’s-LDA) si dimostra efficace per variabili con distribuzione gaussiana,

per questo motivo viene effettuata una trasformazione logaritmica dello spettro frequenziale:

z = log |y|

35

Tale trasformazione porta ad avere una densità di probabilità approssimativamente gaussiana.

A questo punto, per descrivere il funzionamento dell’algoritmo LDA, chiamiamo zd un vettore,

ottenuto come sopra, che rappresenta il singolo trial della classe d � {1,2} e žd rappresenta la media

ottenuta su tutti i trial della classe d.

La matrice di scatter della generica classe d è:

( )( )� −−=T

ddddd zzzzS

La matrice di scatter all’interno delle classi è:

SW = S1 + S2

E la matrice di scatter tra le classi è:

SB = (ž1 – ž2) (ž1 – ž2)T

La separabilità è quindi definita massimizzando la seguente equazione:

( )wSw

wSwwJ

WT

BT

=

Il vettore w che massimizza J(�) è dimostrato essere:

w = 1−WS (ž1 – ž2)

Tornando all’algoritmo FWM, trovato questo vettore tramite Fisher’s LDA, vengono applicate le

seguenti regole:

- Del vettore w, essendo un vettore di pesi e non una direzione di proiezione, si considera solo il

suo valore assoluto.

- Idealmente la correlazione tra frequenze differenti dovrebbe essere zero e quindi la matrice di

scatter Sd dovrebbe essere diagonale. Il realtà questo non succede e si approssima l’algoritmo

prendendo i soli elementi diagonali.

- Per il calcolo di w viene usata solo la prima metà dello spettro (fino a fc/2 dove con fc si intende

la frequenza di campionamento).

36

- I valori corrispondenti a valori non interi delle frequenze sono mediati per avere il valore alla

frequenza intera.

- Se lo spettro stimato con la fft appare oscillatorio si esegue un’operazione di smooth su di esso.

Questo algoritmo (FWM) è stato comparato con un approccio prima definito ‘brute force’. I

risultati mostrano che non viene raggiunto lo stesso livello di performance. I punti a svantaggio di

questo approccio sono: la stima dello spettro frequenziale è spesso oscillatorio e l’operazione di

media su esso effettuata ne peggiora la stima; la trasformazione logaritmica effettuata sulla stima

dello spettro approssima la distribuzione di questo a una gaussiana ma la reale distribuzione non è

di tipo normale e questo fa si che l’algoritmo LDA non sia ottimale; l’indipendenza

dell’ottimizzazione frequenziale dall’ottimizzazione dei filtri spaziali è un compromesso tra il costo

computazionale e l’accuratezza di classificazione.

2.7 Discriminative Common Spatial Patterns: dCSP

I “discriminative-CSP”, chiamati così da Wang nel 2010 [43], sono un’estensione dei CSP

convenzionali basata sull’idea di costruire un criterio simile a quello di Fisher: massimizzare lo

scatter tra le classi (between-class scatter) minimizzando contemporaneamente lo scatter

all’interno di ciascuna classe.

L’aspetto che Wang tende a migliorare nei CSP è di prendere in considerazione non solo la

potenza media tra le due classi (identificata con la somma delle matrici di covarianza) ma anche

l’informazione derivante dallo scatter all’interno delle classi (within-class scatter) in quanto se gli

elementi in una stessa classe sono molto dispersi tra loro la distanza delle medie di ciascuna classe

non è più discriminativa. La misura della dispersione intra-classe (within-class scatter) sarà definita

con una stima delle varianze.

Riprendiamo brevemente i CSP per introdurre i dCSP.

Con Xic�ℜ K x N intendiamo l’i-esimo trial del tracciato EEG con K elettrodi e N istanti temporali

classificabile nella classe c = {+ , –}.

37

La matrice di covarianza per ciascuna classe è quindi:

( )�=

=Σcn

i

Tci

ci

c

c XXn 1

1

Dove nc è il numero di trial di una determinata classe c. L’algoritmo CSP, come gia detto,

calcola i filtri attraverso la simultanea diagonalizzazione delle matrici �+ e �– la quale è equivalente

a massimizzare o minimizzare il seguente quoziente di Rayleigh:

w* = { }ww

wwT

T

w K −

+

ℜ∈ ΣΣ

min max,arg

I filtri sono dunque calcolati risolvendo il seguente problema generalizzato degli autovalori:

�+ w = � �– w

Dove gli autovalori � rappresentano il rapporto delle varianze nelle due condizioni: il filtro

associato al più grande autovalore � implica una grande varianza per la condizione +

simultaneamente a una varianza piccola per la condizione – ; viceversa per un filtro associato al più

piccolo autovalore.

Delle varianze del segnale così filtrato (corrispondenti alla potenza spettrale per segnali filtrati

anche in frequenza) ne viene effettuata la trasformazione logaritmica (per approssimarne la

distribuzione ad una normale) e vengono usate come features da dare in pasto ad un classificatore

lineare (LDA).

Riprendendo il criterio di Fisher di massimizzare lo scatter between-class (Sb) e minimizzare lo

scatter within-class (Sw), per i dCSP vengono definite le seguenti matrici di scatter:

Sb= |wT �+ w – wT �– w |

( )( ){ }

2

, 1

1� �

−+∈ =−+

Σ−+

=c

n

i

cTTci

ci

Tw

c

wwwXXwnn

S

Quindi la ricerca dei filtri avviene massimizzando il seguente quoziente:

( )( ){ }

2

, 1

1� �

−+∈ =−+

−+

Σ−+

Σ−Σ=

c

n

i

cTTci

ci

T

TT

w

b

c

wwwXXwnn

wwww

S

S

38

La matrice di scatter within-class (Sw) viene approssimata come segue:

( )( ){ }

wXXwnn

Sc

n

i

cTci

ci

Tw

c2

, 1

1� �

−+∈ =−+

Σ−+

La massimizzazione di Sb/ Sw diventa dunque una ricerca del limite inferiore della seguente

disequazione:

( )( ){ }

wXXwnn

wwww

S

S

c

n

i

cTci

ci

T

TT

w

b

c2

, 1

1� �

−+∈ =−+

−+

Σ−+

Σ−Σ≥

Quindi la funzione obiettivo, omettendo la costante 1/(n+ +n -), diventa:

( )( )( )

{ }wXXw

wwwwwC

c

n

i

cTci

ci

T

TT

c

���

����

�Σ−

Σ−Σ=

� �−+∈ =

−+

, 1

2

Riconducibile al seguente problema generalizzato degli autovalori:

Sbw = �Sww

Dove

Sb = �+ - �–

Sw = ( )( ){ }� �−+∈ =Σ−

, 1

2

c

n

i

cTci

ci

c XX

Nel caso in cui Sw risulti singolare (o quasi) Wang aggiunge un piccolo termine di

regolarizzazione � e risolve il seguente problema:

(Sw+ �I)-1Sbw = �w

I risultati di questo procedimento sono stati confrontati con quelli dei vincitori della “BCI

competition 2003” sul dataset IVa (imaginary left hand, right hand, right foot movement).

È stato osservato che i dCSP migliorano le performance dei CSP nei casi dove il numero di trials

per il training è alto. Sembrerebbe quindi che con questo tipo di algoritmo si dia luogo ad uno

spiccato fenomeno di overfitting dei dati. Tuttavia sono correntemente in studio i problemi teorici e

sperimentali di questo metodo.

39

2.8 Invariant Common Spatial Patterns: I-CSP

Questo metodo, ideato e sperimentato nel 2008 da Blankertz et al. [44], si pone lo scopo di

rendere i filtri CSP insensibili a non-stazionarità e altri disturbi ambientali e individuali che possono

presentarsi durante un’applicazione BCI.

Nella maggior parte dei sistemi BCI basati sul motor-imagery l’utente controlla l’interfaccia

adattando la propria strategia mentale basandosi su di un segnale di feedback restituito dal sistema.

Nello scenario generale possiamo distinguere due modalità di apprendimento per l’apprendimento

nei sistemi BCI:

- è l’utente che adatta il suo comportamento con lo scopo di controllare il feedback fornitogli;

- è il sistema che apprende grazie ad un’analisi statistica effettuata nella sessione di calibrazione.

La maggior parte dei sistemi adotta una combinazione di queste due modalità.

Perché l’apprendimento (machine learning) sia ottimo bisognerebbe che il sistema fosse

invariante a fluttuazioni del segnale non legate al task che avvengono durante la registrazione.

Di queste fluttuazioni, oltre agli artefatti come il movimento oculare e i potenziali muscolari, è di

rilevante importanza il ritmo -occipitale che si sovrappone in frequenza al ritmo di interesse. A

causa del volume di condizione la sovrapposizione non è solo frequenziale ma anche parzialmente

spaziale. Per tale motivo diviene importante il filtraggio spaziale.

Per questo studio Blankertz et al. si sono serviti di dataset relativi al motor imagery della mano

destra e sinistra con i seguenti accorgimenti:

- il task viene comunicato all’utente con una lettera al centro dello schermo sovrapposto ad una

fixation-cross che deve essere osservata al fine di evitare movimenti oculari;

- il task viene comunicato all’utente all’interno di una casella che si sposta nello schermo (al fine

di obbligare a movimenti oculari);

- l’esperimento di motor imagery viene condotto con uno stimolo acustico mentre il soggetto

mantiene gli occhi chiusi (al fine di avere un forte ritmo -occipitale dovuto allo stato di

inattivazione della corteccia visiva)

40

- al soggetto viene fornito un feedback incoerente e gli viene chiesto di controllarlo al fine di

stimolare movimenti oculari e muscolari.

Accenniamo nuovamente la teoria dei classici CSP indicando con Sd e Sc le attività

discriminative e comuni trovate rispettivamente dalla differenza e dalla somma delle matrice di

covarianza nella classe d={1,2} indicata con �(d).

Sd= �(1)- �(2) : attività discriminativa

Sc= �(1)+ �(2) : attività comune

I filtri spaziali v �ℜ C (con c numero dei canali) possono essere ricavati dunque dalle soluzioni

estreme del seguente problema:

{ }vSv

vSv

cT

dT

v cℜ∈minmax,

Dove il numeratore vTSdv = vT(�(1)- �(2))v , che vogliamo massimizzare, è la media della

differenza di potenza nelle due condizioni e il denominatore vTSdv = vT(�(1) + �(2))v va minimizzato

poiché non apporta nessun contributo alla discriminazione.

Questa massimizzazione viene risolta dal seguente generalized eigenvalue problem:

Sdv = �Scv

Oppure, usando la stessa notazione di [45],:

{ ( )vSv cT

v Cℜ∈

min tale che vT �(1)v - vT �(2)v = �

Che significa trovare la minima norma di v nella condizione in cui la media della differenza di

potenza sia pari a �. Con questa notazione chiamiamo dunque filtri i vettori vj(j= 1…c) che

inseriamo nelle colonne di una matrice V e pattern le righe della matrice A=V-1, quindi il filtro vj

estrae solo le attività derivanti dal pattern aj.

Il metodo ICSP consiste nell’incorporare alla attività comune Sc un termine che rappresenti i

disturbi comuni alle due classi misurati a priori.

Viene assunto che � sia la matrice di covarianza di un segnale Y indotto dai possibili disturbi.

41

Usando questa notazione l’obiettivo è dunque quello di trovare un filtro spaziale vj(1) per la classe

1 che oltre a massimizzare la varianza di [X1 vj(1)] minimizzi allo stesso tempo le varianze di [X2

vj(1)] e di [Y vj

(1)] e un filtro spaziale duale vj(2) per la classe 2 che oltre a massimizzare la varianza di

[X2 vj(2)] minimizzi allo stesso tempo le varianze di [X1 vj

(2)] e di [Y vj(2)].

Nella pratica tale obiettivo può essere effettuato risolvendo i seguenti due problemi generalizzati

degli autovalori:

V(1)T�(1)V = D(1) con V(1)T((1-�)(�(1)+ �(1))+ � �) V(1)= I

V(2)T�(2)V = D(1) con V(2)T((1-�)(�(2)+ �(2))+ � �) V(2)= I

Dove � � [0,1] è un iper-parametro che gestisce il trade-off tra la discriminazione dell’attività di

una classe con l’attività comune alle classi e l’attività di una classe con la matrice di invarianza

caratterizzata da �. Per � = 0 il problema si riconduce ai classici CSP; per � = 1 la discriminazione

viene fatta in base al solo termine di invarianza. Quando � = 0.5 il problema è simile alla strategia

one-vs-rest per i CSP a 3 classi [46].

La matrice � viene assunta essere un termine additivo alle due covarianze ( �(c)= �(c) + � ,

dove con �(c) si intende la matrice di covarianza legata solamente al task della classe c e non ai

disturbi) e può essere calcolata nelle modalità riportate in [44].

Le performance di questo algoritmo sui dataset sopra discussi sono superiori a quelle dei classici

CSP. Ad esempio, per l’esperimento condotto con il soggetto ad occhi chiusi, il classico CSP

riporta nella visualizzazione spaziale di uno dei due pattern più discriminativi una forte componente

nella zona occipitale (correlata chiaramente al ritmo -occipitale) mentre nella visualizzazione del

pattern più discriminativo ottenuto con ICSP si nota l’esclusione della componente sulla zona

occipitale che comporta nel corrispondente filtro una forte componente nei pressi dell’elettrodo C4

(situato nell’emisfero destro della corteccia sensori motoria).

Una limitazione di questo metodo è il fatto che le componenti di disturbo sono caratterizzate in

anticipo stimando un’appropriata matrice di covarianza. Perciò l’algoritmo si rivela efficace qualora

si abbiano informazioni neurofisiologiche consistenti di tale matrice.

42

2.9 Sub-Band Common Spatial Patterns: SBCSP

“Sub Band Common Spatial Patterns” è un metodo sviuppato da Novi et al. nel 2007 [47], che al

posto di costruire filtri FIR temporali (come i CSSP e i CSSSP [38][39]) decompone il segnale

filtrandolo in sottobande frequenziali processando i segnali filtrati in ciascuna sottobanda con un

semplice algoritmo CSP. Per ogni sotto banda calcola un punteggio in base al criterio di Fisher il

quale è utilizzato per selezionare un numero prefissato di sottobande di interesse per la

discriminazione dell’attività cerebrale. I metodi di fusione che Novi et al. propongono sono due e

sono chiamati “Recursive Band Elimination” (RBE) e “Meta-Classifier” (MC).

Il filtraggio è implementato attraverso la parametrizzazione dei filtri di Gabor la cui risposta

all’impulso è definita da una funzione armonica moltiplicata per una funzione Gaussiana:

( ) ���

����

�+−= tjf

tftg 02

2

0 exp,,σ

σ

dove la larghezza di banda è proporzionale a � e la frequenza di centro banda è f0.

Modificando tali parametri è possibile costruire un set di filtri da convolvere con il segnale per

avere il segnale filtrato nelle varie sottobande.

L’algoritmo CSP per calcolare la matrice di proiezione P rimane sostanzialmente lo stesso e

viene calcolato per ogni sottobanda (k) in modo da avere:

)()()( kkCSP

k XPZ =

Dove con Z(k) è la proiezione che massimizza la differenza in varianza per le due classi che, nel

caso specifico, significa massimizzare le differenze nella potenza spettrale della banda k.

Le features per i SBCSP sono definite nel modo classico per ogni sottobanda k:

( )( )�

��

�=

� = rp

kp

kpk

p Z

Zf

2

)(

)()(

var

varlog

con p=(1…2r) dove con r si intende il numero di filtri utilizzato (di solito r =1).

43

Il punteggio per ogni sottobanda viene estratto con un analisi di tipo Fisher’s LDA in cui si

calcola una matrice di proiezione WLDA che garantisce la massima separabilità massimizzando il

rapporto tra la varianza between-class (SB) e la varianza within-class (SW).

Indicando con md(k) la media delle features fp

(k) calcolata per la classe d={1,2} sul training set

filtrato nella sottobanda k, possiamo indicare le matrici SB e SW come segue:

( )( )( ) ( )��

∈∈

−+−=

−−=

)2(

2)(2

)(

)1(

2)(1

)()(

)(1

)(2

)(1

)(2

)(

)()( classef

kkp

classef

kkp

kW

TkkkkkB

kp

kp

mfmfS

mmmmS

Quindi la funzione di costo della sottobanda k da massimizzare è definita come:

)()()(

)()()()(

kLDA

kW

TkLDA

kLDA

kB

TkLDAk

WSW

WSWG =

La matrice WLDA, per un problema a due classi, proietta i dati in uno spazio monodimensionale; è

quindi possibile definire un punteggio sk per ogni sottobanda attraverso la seguente moltiplicazione:

sk = )()( kp

TkLDA fW

Il valore di punteggio così trovato viene usato come feature della k-esima sottobanda.

I metodi di selezione delle features si possono essenzialmente dividere in due tipologie

denominate ‘wrapper type’ e ‘filter type’. In generale, i metodi di tipo wrapper che includono

classificatori a scatola chiusa hanno delle performance migliori rispetto ai metodi di tipo filter.

Un metodo per selezionare le features di tipo wrapper è il Support Vector Machine Recursive

Feature Elimination (SVM RFE). Da questo metodo si deriva il Recursive Band Elimination (RBE)

che è uno degli approcci utilizzati nel lavoro di Novi et al.

Tale approccio si pone l’obiettivo di separare i dati del vettore dei punteggi (features) D

=[s1,…,sc]�ℜ c trovando un vettore di pesi WSVM �ℜ c e un offset b�ℜ tali che:

( )bXWsignX SVM +α

44

La selezione è fatta rimuovendo ad ogni iterazione la banda con il più piccolo 2SVMW . Verranno

usate sole le rimanenti m bande dove m è denominato ordine di RBE e deciso empiricamente.

Un altro metodo è basato sul classificatore di Bayes assumendo che i punteggi siano distribuiti

normalmente:

( ) ( ) ( )��

��

� −−=−

2)(

2)(2

12)(

2exp2|

ki

kikk

iik

swsp

σµπσ

Nei classificatori Bayesiani è usato spesso il logaritmo del rapporto delle probabilità, quindi

definito un vettore di K elementi come segue:

( )( )���

����

�=

2

1

||

logwsp

wspX

k

kK

È dimostrato che questa soluzione non è ottimale se le matrici di covarianza delle classi sono

differenti. Per questo motivo Novi et al. implementano un classificatore addizionale SVM, in uscita

al primo classificatore, con lo scopo di compensare gli errori del singolo classificatore Bayesiano.

Per la valutazione delle performance, questo algoritmo (SBCSP con 24 filtri di Gabor aventi

larghezza di banda di 4Hz) è stato testato sul dataset IVa della BCI competition III del 2005 e

confrontato con il CSP (settato manualmente attraverso una ricerca esaustiva al fine di avere la

migliore performance possibile) e con i CSSP, CSSSP i parametri dei quali sono stati impostati

manualmente secondo quanto stabilito dagli autori.

45

3. METODOLOGIA DI ACQUISIZIONE E SIGNAL PRE-PROCESS ING

In questo capitolo sarà descritto il protocollo di acquisizione adottato in questo lavoro. Nel primo

paragrafo è descritto il sistema di acquisizione in termini di strumentazione hardware e software.

Verrà descritto in seguito il posizionamento degli elettrodi sullo scalpo per la registrazione. Un

ulteriore paragrafo sarà dedicato alla scelta della referenziazione utilizzata e della rimozione degli

artefatti oculari in tempo reale. Abbiamo constatato che i metodi di rimozione degli artefatti oculari

in tempo reale non incidono significativamente sull’efficienza di classificazione ed abbiamo scelto

di non utilizzarli per non appesantire l’onere computazionale del sistema. L’ultimo paragrafo è

dedicato invece al preprocessamento.

3.1 Sistema di acquisizione

3.1.1 Hardware di acquisizione

Il sistema di acquisizione usato per estrarre l’attività cerebrale è costituito dall’amplificatore

“g.USBamp®” con il preamplificatore g.GAMMAsys, elettrodi attivi e cuffia “g.EEGcap®” della

ditta g.tec “Guger Technologies®”.

L’amplificatore g.USBamp (figura 3.1 a) permette di acquisire 16 canali con 24 bit di risoluzione

campionando simultaneamente tutti i canali a 38,4KHz. Per registrare più di 16 canali

contemporaneamente è previsto l’uso di più g.USBamp connessi tra loro. Il range di ingresso dei

canali è di ±250mV. Tale dispositivo è connesso al PC tramite la porta USB e interfacciato in

simulink® grazie ad un apposito tool aggiuntivo.

Il g.EEGcap (figura 3.1 b) è una cuffia con alloggiamenti per elettrodi che seguono la

denominazione dello standard 10-20.

Gli elettrodi usati sono elettrodi attivi (figura 3.1 c) che si fissano sulla cuffia e si connettono al

g.USBamp mediante il preamplificatore g.GAMMAsys.

46

La cuffia è fissata sulla testa con tre fasce elastiche: una passa sotto il mento e le altre due fissate

ad una quarta fascia elastica indossata intorno al torace. Dopo aver indossato la cuffia g.EEGcap si

inietta il gel conduttivo tra elettrodi e cute per migliorare la conduttività elettrica.

������������� ����������������������������������������� ����������!��"�#$%�

3.1.2 Software di acquisizione

Gli strumenti software utilizzati sono: il tool Simulink® della Mathworks® per l’acquisizione in

tempo reale, il software g.BSanalyze della g.tec ed i toolbox EEGlab e BCIlab implementati dalla

SCCN (Swartz Center for Computational Neuroscience).

3.2 Protocollo di acquisizione

Il soggetto, una volta indossata la cuffia ed applicato il gel elettrolitico affinché tutti gli elettrodi

funzionino correttamente, si trova seduto a settanta centimetri da uno schermo di sedici pollici.

Ogni dataset di acquisizione consiste in quattro sessioni della durata di circa sette minuti

contenenti ciascuno quaranta epoche (trial).

Ogni trial ha durata di otto secondi e si articola in questa sequenza: appare una croce nel centro

dello schermo (fixation cross), dopo 1,5 secondi viene emesso un suono per avvertire l’utente del

successivo inizio del compito e, un secondo dopo il beep, una lettera indica quale tipo di compito

svolgere per i successivi cinque secondi. Tra un trial e l’altro è interposto un intervallo variabile dai

tre ai cinque secondi dove lo schermo è nero.

ba c

47

��������&�'��(��((����������������!���������

Si richiede al soggetto di inibire per quanto possibile i movimenti oculari durante il periodo di

task mantenendo lo sguardo sulla fixation cross.

Ogni trial viene etichettato a seconda dalla tipologia di task eseguito (coerente con la lettera che

compare).

Si è scelto di acquisire sessioni dove i task proposti all’utente consistevano nel movimento

immaginato della mano destra (classe R) e nel riposo (classe S) dove il soggetto non doveva pensare

di muoversi. Questa scelta è stata guidata dall’applicazione ultima che vorremo fare del sistema

BCI che consiste nel controllo di una protesi robotica per eseguire compiti di raggiungimento lungo

traiettorie predefinite. Per comandare il braccio meccanico l’utilizzatore dovrà immaginare di

muovere il proprio braccio mentre per comandarne l’arresto l’utilizzatore non dovrà fare altro che

stare a riposo.

Il compito etichettato con R consisteva nell’immaginare di prendere un oggetto sul tavolo e di

rimetterlo al suo posto mentre il compito S nel mantenere uno stato di riposo.

La prima sessione è stata utilizzata come training per l’addestramento del classificatore. Nelle

sessioni successive il soggetto, oltre a vedere sullo schermo il normale paradigma di acquisizione,

riceveva anche un feedback coerente con la risposta del classificatore. Abbiamo utilizzato due

tipologie di feedback: visivo e propriocettivo. Quella di tipo visivo consisteva in una barra situata

nella parte inferiore dello schermo che si dilatava orizzontalmente in direzioni opposte per le due

classi. Quella di tipo propriocettivo consisteva in uno stimolatore vibro-tattile, appositamente creato

Fixationcross

876543210

beep cue End cue RandomIntervall

R

Fixationcross

876543210

beep cue End cue RandomIntervall

R

48

dal laboratorio PERCRO dell’istituto S.Anna, che stimolava il tendine dell’avambraccio quando era

riconosciuta la classe di movimento.

Nella prima sessione, quella di training, al soggetto era fornito un feedback pre-calcolato sia

visivo che propriocettivo. Nelle altre tre sessioni era sempre presente il feedback visivo mentre il

feedback propriocettivo non veniva presentato in una di queste.

����������'���(����)������((�(�������(������������������

3.3 Configurazione degli elettrodi

Gli elettrodi sono stati posizionati e nominati in accordo con la configurazione standard 10-20.

Sono stati utilizzati in tutto diciassette elettrodi di cui tredici localizzati nella zona sensitivo-

motoria, due localizzati nella zona frontale vicino agli occhi, un elettrodo di ground posto nella

zona frontale e l’elettrodo di riferimento nel lobo dell’orecchio.

La scelta di usare pochi elettrodi (rispetto ai centodiciotto che troviamo spesso in letteratura) è

finalizzata ad alleggerire l’hardware di acquisizione ed il carico computazionale di un futuro

sistema BCI portatile.

49

��������*�'�+��)��������������!���!�((�����%����!����������������!���!�((�������!!������������(�,����(�����%����!������������!���!�((�����)���(�!��#�����!!��������!���!�((����������)������(��

��

Gli elettrodi della zona sensori motoria sono quelli usati per la classificazione degli stati mentali

mentre gli elettrodi nella zona frontale sono stati usati per le prove di rimozione degli artefatti

oculari. Il posizionamento dell’elettrodo di ground è di poca rilevanza in quanto la referenziazione è

possibile effettuarla analiticamente.

3.4 Referenziazione e rimozione degli artefatti

In questo paragrafo discuteremo brevemente gli aspetti relativi alla referenziazione del segnale

ed alla rimozione degli artefatti. Le analisi sono state condotte facendo uso dell’ “analisi delle

componenti indipendenti” (ICA).

Tale analisi sfrutta la natura multicanale delle acquisizioni per estrarre caratteristiche comuni su

canali diversi.

L’analisi ICA è denominata anche “Blind Source Separation” (BSS) che letteralmente significa

separazione cieca delle sorgenti poiché non fa nessuna assunzione sul processo di mescolamento

delle sorgenti.

50

La base teorica dell’ICA è che le nostre osservazioni x �ℜ NxT sono frutto di un mescolamento

delle sorgenti s �ℜ MxT dove T denota il tempo di osservazione e il numero di canali N si assume

che sia maggiore o uguale al numero delle sorgenti M che supponiamo indipendenti.

Chiamando A �ℜ NxN la matrice di mixing possiamo indicare le nostre osservazioni come x=As.

Lo scopo della separazione delle sorgenti è quello di trovare una matrice di de-mixing W tale che le

componenti del vettore in uscita dall’operazione u=Wx siano quanto più possibile statisticamente

indipendenti tra loro. I due limiti principali di questa tecnica riguardano l’impossibilità di

determinare sia l’ordine che le energie (varianze) delle componenti.

Esistono due tipi di approcci per la stima delle sorgenti: gli approcci Higher Order Statistic

(HOS) che fanno uso della cumulante del quarto ordine (kurtosi) o della negentropia per

massimizzare la non gaussianità e gli approcci Information Theoretic che utilizzano misure di

indipendenza statistica basate sulla teoria dell’informazione. La descrizione di tali approcci viene

omessa poiché elude dagli scopi di questa tesi.

3.4.1 Artefatti oculari

La rimozione degli artefatti oculari in tempo reale è una sfida ancora aperta. Risultati accettabili

sono stati ottenuti solamente in presenza del tracciato elettro-oculografico. La registrazione

dell’elettro-oculogramma (eog) è alquanto scomoda per l’utilizzatore a causa del posizionamento

degli elettrodi vicino agli occhi. Quindi, dopo aver analizzato la letteratura in merito ai metodi di

riduzione automatica degli artefatti [50-51-52-53-54-55-56], abbiamo provato a mettere a punto un

sistema che permettesse la rimozione automatica degli artefatti oculari senza la registrazione

dell’elettro-oculogramma.

Nell’analisi off-line, i passi per la rimozione degli artefatti sono i seguenti:

1. eliminare le porzioni di segnale inaccettabili (i.e. onde quadre, saturazione di un elettrodo)

tramite ispezione visiva;

2. dividere i dati in epoche;

51

3. ricavare le componenti indipendenti da queste epoche;

4. creare un grafico tempo-epoche dove si mostra l’attivazione delle componenti allo scopo di

individuare quelle componenti dovute a singole epoche;

5. ispezionare visivamente ed eliminare tali epoche se presenti;

6. ricavare nuovamente le componenti indipendenti;

7. ispezionare le nuove componenti nel tempo, in frequenza e nello spazio per distinguere quelle

di interesse dalle altre.

Come si nota dall’elenco questo processo è dispendioso in termini di tempo di lavoro e non si

adatta ad un sistema in tempo reale.

Per l’implementazione di un metodo di rimozione degli artefatti abbiamo supposto che la matrice

di mixing ottenuta possa essere usata anche per il dataset successivo come un filtraggio spaziale e

che nei canali Fp1 e Fp2 si trovi gran parte dei disturbi oculari che diffondono, tramite il volume di

conduzione, a tutti gli altri elettrodi.

Il nostro metodo consiste quindi nell’estrarre le componenti indipendenti e nel calcolare la

correlazione tra le colonne della matrice di mixing (che esprimono il peso di una componente su

ogni canale) con dei vettori creati ad-hoc che pesano maggiormente gli elettrodi frontali rispetto agli

altri. Le colonne la cui correlazione con questi vettori supera una soglia prefissata (0.6) vengono

annullate per la futura ricostruzione del segnale.

La figure successive mostrano lo scalp plot delle componenti indipendenti (colonne della matrice

di mixing) in cui sono state cerchiate in rosso quelle che superano la suddetta soglia di correlazione

con i vettori da noi creati.

52

��������-�'�.������)�����!!����������(������������(��#�����������������/��(��!����������(�������!�(����!����(�)�((������,����(����(���(������(��

Una volta ottenuta la nuova matrice di mixing, annullando le componenti situate in prossimità

degli elettrodi oculari abbiamo filtrato il dataset originale con tale matrice.

Ovviamente i primi canali, dove per altro si possono notare i disturbi dati dal blink degli occhi,

vengono notevolmente attenuati e tali disturbi vengono attenuati quindi anche negli altri canali.

Di seguito si riporta un grafico temporale contenente cinque epoche di un dataset prima e dopo il

filtraggio con ICA.

��������0�'�$���!(�(����!!��������������(���(�������!����(�)�((��(����(��#+1�1������(���,��������!���(���(����������!����!��������(�(������,�(��!����������(������������(��1����(�����������!���(�������(���(������(���(�������!��������������!!����������(�������!�(��(������)������(����!��

�!�((�����)���(�!��

53

A questo punto abbiamo controllato se con la matrice di mixing calcolata in una sessione

potessimo filtrare anche la sessione cronologicamente successiva. In figura 3.7 osserviamo i grafici

relativi al filtraggio di un dataset con la matrice di mixing ottenuta dal dataset precedente a questo.

��������2�'�$���!(�(����!!���������������!����(�)�((�����!�����((���(������!����(����������3��4������!��!�(����!!����������������!��������(����������(��

��

Dalle figure 3.6 e 3.7 notiamo che il risultato ottenuto è simile nei due casi: vengono attenuati gli

andamenti dei primi due elettrodi e i potenziali dovuti a questi negli altri elettrodi.

Abbiamo constatato che tale metodo di rimozione non incrementa l’efficienza delle

caratteristiche estratte dal segnale in termini di classificazione.

Per questo motivo nelle analisi successive i dati non sono stati filtrati dagli artefatti.

3.4.1 Referenziazione

I canali grezzi ottenuti con il nostro sistema di acquisizione sono referenziati rispetto

all’elettrodo di riferimento situato centralmente nell’area pre-frontale (punto chiamato AFz nello

standard 10-20, si veda la figura 3.3 per ulteriori chiarimenti). Allo scopo della nostra analisi è

importante la topografia del segnale in quanto i segnali di interesse sono generati principalmente

nella corteccia sensori motoria. Il fatto che gli elettrodi nominati C3 e C4 sono situati nella zona di

maggiore interesse per i segnali elicitati dal movimento, potrebbe far pensare che un

referenziamento di tipo laplaciano (differenziale) attorno a questi elettrodi aumenti il rapporto

54

segnale/rumore. In realtà diversi studi e prove da noi effettuate mostrano che un referenziamento

laplaciano introduca rumore poiché le zone di interesse non sono sempre situate precisamente in

queste locazioni.

Un referenziamento vivamente consigliato in molti studi è il CAR (Common Average

Reference) che consiste nel sottrarre la media di tutti gli elettrodi per ogni istante ad ogni elettrodo.

Questa referenziazione infatti diminuisce il rango della matrice dei dati ed è importante da

svolgere poiché il rumore dovuto all’elettrodo di ground potrebbe inficiare la classificazione.

In figura 3.8 si riporta un esempio dove le componenti indipendenti sono state ottenute dopo un

accurato processo di pulizia.

��������5�'�6���!����������������!��������(�������������(��(������!������(������!!����������(������������(���((���(����������������(����������������!�����

In questo grafico si nota bene che la prima componente è dovuta ai muscoli orbicolari (deputati

allo sbattimento delle palpebre) mentre la seconda componente ha chiaramente un contenuto

frequenziale molto più esteso delle altre che fa pensare a una componente dovuta all’attivazione dei

muscoli mandibolari o temporali. In realtà questa seconda componente è dovuta unicamente alla

referenziazione. Questo si nota effettuando la “Common Average Reference” e graficando

nuovamente sia l’attivazione temporale delle componenti che la localizzazione delle stesse. Si nota

55

in questi nuovi grafici che la seconda componente si è attenuata molto (non è andata a zero) e la sua

localizzazione spaziale non è più in prossimità dell’elettrodo di riferimento.

��������7�'��(�������������(������������(�����)�������5����������(�������!8��������������+������1,������$�)�������

��

Fatte queste considerazioni abbiamo deciso di re-referenziare ogni dataset alla media comune.

3.5 Pre-Processing dei segnali

Il segnale viene acquisito tramite il modello simulink che vediamo in figura 3.10.

��������9�'�:���!!������!��;�����������������������!���

In uscita dal blocco g.USBamp abbiamo il segnale campionato a 256Hz e filtrato, con un filtro di

basso livello presente all’interno del g.USBamp, tra 5Hz e 32Hz.

56

Nel caso della prima sessione di acquisizione, non essendo ancora stata trovata la matrice di

proiezione e i pesi del classificatore, il segnale in uscita dal blocco viene direttamente salvato in una

variabile “.mat” come una matrice. Tale matrice, oltre ad avere i canali EEG acquisiti, contiene un

canale indicante il tempo ed uno relativo al trigger.

Nelle analisi off-line abbiamo caricato la variabile .mat relativa ad una sessione e, tramite un

algoritmo automatico da noi implementato basato sul software EEGlab, abbiamo definito la

locazione spaziale dei canali, le epoche relative ai diversi compiti e un ulteriore filtraggio passa

banda dai 7Hz ai 30Hz.

Attraverso altri algoritmi, di cui parleremo nel capitolo successivo, abbiamo ricavato i valori

della matrice di proiezione e dei pesi del classificatore (rispettivamente blocchi “WV_CSP” e

“WV” in figura 3.10).

Il blocco “spatial filter” implementa una funzione che proietta il segnale in due canali evento

correlati utilizzando il primo e ultimo filtro spaziale della matrice di proiezione WV_CSP. Tali

canali vengono poi filtrati attraverso un filtro implementato nei blocchi “bandpower_ch1” e

“bandpower_ch2”. Questi blocchi cambiano a seconda dell’algoritmo che usiamo per estrarre le

features. Il blocco “classifier” lo vediamo esteso in figura 3.11.

���������'��������������!��!�����<�!����)���=���!�����!!������!��;�������!��

57

Tale blocco effettua la trasformazione logaritmica delle due proiezioni spaziali, moltiplica il

risultato per i relativi pesi del classificatore e aggiunge il bias.

Il classificatore usato è di tipo lineare quindi contiene tre costanti che sono rispettivamente: il

peso della prima variabile, il peso della seconda e un offset additivo che centra il feedback su zero.

Il feedback è calcolato quindi come un numero che sarà positivo per una classe e negativo per

l’altra classe. Tale numero può essere usato come segnale di controllo per fornire un feedback

all’utilizzatore. In questo lavoro di tesi sono stati implementati feedback di tipo visivo e feedback di

tipo meccanico. Il feedback più semplice è costituito da una barra centrata nello schermo che si

muove a seconda del segnale di controllo. Altro feedback visivo è rappresentato da un braccio

virtuale che segue nei movimenti il segnale di controllo. I feedback di tipo meccanico sono due: un

esoscheletro per braccio [57], ed uno stimolatore propriocettivo da applicare ai tendini

dell’avambraccio sviluppato appositamente per sistemi BCI dal laboratorio PERCRO (Perceptual

Robotica).

58

4. ANALISI DEI SEGNALI

In questo capitolo saranno discusse le implementazioni degli algoritmi che estraggono le

caratteristiche dal segnale EEG al fine di riconoscere due diversi stati mentali (e.g. movimento

immaginato vs riposo).

Ogni algoritmo che discuteremo può essere integrato con il modello generale di acquisizione

visto nel paragrafo 3.5.

Tutti gli algoritmi ricevono in ingresso i canali relativi agli elettrodi della zona sensitivo-motoria

filtrati nella banda 7-30Hz e referenziati rispetto alla media comune.

Gli algoritmi che fanno uso della tecnica Common Spatial Patterns vengono applicati ai sognali

osservati nell’intervallo temporale che va da 1 secondo dopo l’evento a 2 secondi dopo l’evento.

Nel primo paragrafo è descritto il metodo per l’estrazione dei fenomeni ERD/ERS che, facendo

uso di un solo elettrodo, raggiunge basse performance di classificazione. Nel secondo sarà illustrato

come il classico algoritmo dei CSP è stato implementato in questo lavoro. Nei paragrafi successivi

saranno descritte le estensioni dell’algoritmo classico implementate. Di tali estensioni possiamo

distinguere le due che effettuano un ottimizzazione frequenziale (denominate SBCSPv1 e FWMv1)

e quella che effettua una rimozione dei canali meno rilevanti attraverso il metodo di sparsificazione

(Sparse-CSP).

Inoltre in questo capitolo saranno presentati anche algoritmi ideati in questa tesi che si possono

classificare in integrazioni delle varianti suddette (SBCSPv2 FWMv2) e in varianti implementative

del metodo di ricerca delle migliori sottobande (SBCSPv3 SBCSPv4).

Nell’ultimo paragrafo di questo capitolo è possibile trovare una tabella riassuntiva dei metodi

implementati in questo lavoro di tesi.

4.1 Metodo di analisi in potenza

Questo metodo è l’unico di quelli implementati che non fa uso della tecnica Common Spatial

59

Patterns discussa ampiamente nel terzo capitolo.

Tale metodo si basa sulla conoscenza a priori della locazione in frequenza della variazione di

potenza spettrale relativa ad un compito di motor imagery rispetto allo stato di riposo. Ad esempio è

ben noto che il movimento immaginato della mano destra produce una desincronizzazione delle

onde alfa e beta nella zona controlaterale della corteccia sensitivo-motoria. Quindi per il movimento

della mano destra avremo una desincronizzazione (decremento di potenza) nella parte sinistra della

corteccia sensitivo-motoria (elettrodo C3) nei ritmi alfa e beta. Tale fenomeno è visualizzabile in

figura 4.1 dove sono mostrati i grafici tempo-frequenza delle epoche relative al movimento

immaginato della mano destra (prima riga) e del compito di riposo (seconda riga) per gli elettrodi

C3, Cz e C4, rispettivamente da sinistra verso destra. Questi grafici sono estratti da 50 epoche e

mostrano solamente significative (p=0.01).

Come da letteratura, si nota una netta desincronizzazione sull’elettrodo C3 durante il compito di

movimento immaginato della mano destra per le frequenze alfa e beta mentre per gli altri elettrodi il

fenomeno è molto meno marcato. Per il compito di riposo non si notano oscillazioni significative su

nessuno dei tre elettrodi.

�������������� ���������� ����������������������������������������������������������������������������������������������������������������������������������������������������������������������

�������

Task REST; Electrode C3 Task REST; Electrode C4Task REST; Electrode CzTask REST; Electrode C3Task REST; Electrode C3 Task REST; Electrode C4Task REST; Electrode C4Task REST; Electrode CzTask REST; Electrode Cz

Task RIGHT; Electrode C3 Task RIGHT; Electrode Cz Task RIGHT; Electrode C4Task RIGHT; Electrode C3Task RIGHT; Electrode C3 Task RIGHT; Electrode Cz Task RIGHT; Electrode C4

60

Per scegliere la frequenza su cui calcolare la desincronizzazione si esegue un’analisi sulla

differenza delle densità spettrali di potenza calcolate nel periodo pre-evento e post-evento come

mostra la figura 1.8.

Con questo semplice metodo otteniamo scarsi risultati di classificazione per il principale motivo

che utilizza un solo elettrodo.

4.2 Common Spatial Patterns

L’algoritmo CSP si basa sulla diagonalizzazione simultanea delle matrici di covarianza relative

alle due classi da distinguere. Per l’implementazione di questo algoritmo abbiamo seguito due

strade.

La prima, descritta da Pfurtscheller et al. [48], consiste nel calcolare la matrice di sbiancamento

W della covarianza composita (somma delle matrici di covarianza, Rc).

Rc = U D UT;

W= TUD 1−

Con tale matrice di sbiancamento W bisogna poi proiettare le singole matrici di covarianza. In

questo modo, le due matrici di covarianza proiettate, condivideranno gli stessi autovalori. Il

prodotto tra la matrice trasposta di tali autovalori e la matrice di sbiancamento risulta essere la

matrice di proiezione PCSP che ha la proprietà di contenere filtri (righe di PCSP) che massimizzano la

varianza per una classe e contemporaneamente la minimizzano per l’altra classe.

La seconda strada che abbiamo seguito porta allo stesso risultato diagonalizzando

simultaneamente le matrici ricavate dalla somma e dalla differenza delle due matrici di covarianza.

Gli autovettori derivanti da tale diagonalizzazione sono i filtri che cerchiamo.

Poiché quest’ultima maniera di ricavare la matrice di proiezione richiede meno passaggi a livello

computazionale e fornisce gli stessi risultati è stata da noi preferita.

La figura 4.2 mostra graficamente il funzionamento dell’algoritmo CSP. I canali che vediamo

sono le proiezioni ottenute rispettivamente dal primo e ultimo filtro della matrice PCSP.

61

�������� ���!���������������������������������������������"������� �������������������������

Il grafico è diviso in epoche ed in rosso sono marcati gli eventi relativi al compito di motor

imagery della mano destra mentre in verde quelli relativi al compito di riposo. Notiamo che la

varianza della prima proiezione cresce quando si presenta l’evento di tipo “1” mentre diminuisce

con l’altro evento. Per la seconda proiezione il fenomeno è meno marcato in quanto la classe alla

quale è correlata, classe di riposo, non presenta significative variazioni di potenza.

������������#�������������� �������$#��������������������������� ��������

62

Infatti se osserviamo la localizzazione dei filtri ottenuti (figura 4.3) notiamo che mentre per il

primo filtro (relativo alla classe di movimento) il pattern è sempre simile per i diversi dataset, per

l’ultimo filtro (relativo alla classe di riposo) il pattern del filtro ha un’elevata variabilità.

Una volta proiettato il segnale nello spazio surrogato degli elettrodi con la matrice PCSP si

procede estraendone le caratteristiche per la classificazione. Ricordando che il segnale è gia filtrato

in nella banda 7-30Hz, tali caratteristiche sono calcolate attraverso la trasformazione logaritmica

della varianza normalizzata dei segnali proiettati. Usando solamente il primo ed ultimo filtro

avremo due features per epoca estratte come segue:

( )( ) ( ) ;

varvarvar

log21

11 ��

����

+=

ZZ

Zf

( )( ) ( )���

����

+=

21

22 varvar

varlog

ZZ

Zf

dove con Z1,Z2 si intendono le proiezioni del segnale dovute al primo ed ultimo filtro.

La trasformazione logaritmica è eseguita con lo scopo di approssimare la distribuzione degli

elementi di f ad una distribuzione normale. La scelta della finestra temporale su cui estrarre la

varianza è un compromesso tra la prontezza di risposta del sistema e la robustezza del feedback. Se

ne scegliamo una breve avremo un controllo più rapido ma affetto da maggiore variabilità, se invece

ne scegliamo una molto lunga avremo una risposta più stabile ma con un tempo di ritardo notevole.

In questo lavoro di tesi abbiamo scelto di calcolare la varianza in intervallo temporale di 1

secondo.

La classificazione è eseguita addestrando un classificatore lineare e sarà discussa più in dettaglio

nel quinto capitolo.

4.3 Spatially Sparsed Common Spatial Patterns

Questo metodo, proposto da Arvaneh et al. [41], formula l’algoritmo CSP come un problema di

ottimizzazione per introdurre un termine che determini la sparsità. Nell’ambito matematico una

matrice sparsa è una matrice i cui valori sono quasi tutti uguali a zero. Tale algoritmo è stato

proposto per raggiungere una migliore accuratezza di classificazione eliminando i canali irrilevanti

63

o rumorosi e conservando soltanto il numero minimo di canali necessario senza compromettere

l’accuratezza di classificazione ottenuta utilizzando tutti i canali.

La trattazione matematica dell’algoritmo in questione è gia stata effettuata nel paragrafo 2.5

quindi ci limitiamo a riportare la formulazione finale che consiste nella risoluzione dei CSP come

un problema di ricerca del minimo:

{ ( )��

��

�+��

���

� +− ���=+==

m

i i

im

mi

Tii

m

i

Tii

w w

wrwCwwCwr

i

2

1 2

12

11

121min

Con i vincoli:

1)( 21 =+ Tii wCCw per i ={1,2,…,2m}

0)( 21 =+ Tji wCCw per i , j ={1,2,…,2m} con i � j

Il parametro r può variare tra 0 e 1 controlla la sparsità. Il valore ottimo di tale parametro è stato

scelto in [41] basandosi sull’accuratezza delle cross validazioni. Per il nostro lavoro, dopo aver

sperimentato diversi valori, abbiamo scelto uguale a r = 0.02.

Il problema di minimizzazione è stato risolto utilizzando un metodo di programmazione

quadratica sequenziale in ambiente Matlab.

In figura 4.5 si riportano i confronti tra i normali filtri CSP ottenuti analiticamente ed i filtri

sparsificati ottenuti con il parametro r posto uguale a 0.02. Nonostante si utilizzi un numero di

canali limitato ed usiamo un parametro r molto piccolo si può notare ugualmente l’effetto della

sparsificazione.

Questo algoritmo, oltre a fornire risultati grafici più facilmente interpretabili, elimina le

componenti meno significative dei CSP al fine di ottenere risultati più robusti. Tale operazione è

integrabile anche con altre varianti dell’algoritmo CSP.

64

��������%���$������������� �������$#������� ����������������������������&& �'�����������������������������������(�������������������������������$#��������������������������� ��������������

�$#������� ������

4.4 Frequency Weighted Method

Tale algoritmo, gia discusso nel paragrafo 2.6, si propone di implementare un filtro ottimo

frequenziale prima di calcolare i CSP.

Di tale filtro vengono calcolati i coefficienti tramite analisi di Fisher nello spazio di Fourier.

Per ogni canale viene stimata trasformata di Fourier. La trasformata di Fourier di un segnale

reale gode della proprietà di simmetria coniugata quindi è possibile salvare, in vettore Y, solo i

coefficienti relativi alle frequenze positive. Di ciascuna componente di Y calcolata nelle diverse

epoche, viene effettuata la trasformazione logaritmica del valore assoluto per approssimarne la

distribuzione ad una gaussiana.

65

A questo punto avremo due matrici Z per ciascuna classe organizzate in canali x frequenze x

epoche.

Per ogni canale (riga della matrice Z) calcoliamo la varianza tra le classi Sb e intra classe Sw

utilizzando solamente la diagonale delle rispettive matrici di covarianza (per il procedimento

matematico si veda il paragrafo 2.6 di questa tesi). Per trovare il vettore che massimizzi il rapporto

Sb / Sw è sufficiente moltiplicare l’inversa di Sw per la differenza delle matrici dei valori medi di Z.

Ogni vettore così ottenuto rappresenta nel dominio della frequenza i coefficienti discreti di un

filtro in frequenza applicato al rispettivo canale. È possibile modificare tali filtri sulla base di

informazioni a priori che riguardano la localizzazione in frequenza del segnale di interesse, cioè

porlo a zero prima dei 7Hz e dopo i 30Hz. In figura 4.4 è mostrato un esempio dell’andamento di

tali filtri per gli elettrodi più significativi.

��������������� ����������������� ��������������������������������(���(��������������������� ��������

Una volta filtrato nel dominio della frequenza ogni canale occorre antitrasformare rispetto a

Fourier per tornare nel dominio del tempo.

A questo punto abbiamo i canali ottimizzati per la discriminazione delle classi mediante il

filtraggio in frequenza dai quali possiamo ricavare i filtri spaziali con la tecnica dei CSP.

66

4.5 Sub Band Common Spatial Patterns

L’algoritmo SubBand-Common Spatial Pattern (SB-CSP) è stato proposto in [47] con lo scopo

di fornire un criterio per la scelta della migliore banda frequenziale ai fini della classificazione. A

tale scopo il segnale è diviso in sottobande strette (larghezza di banda a -3dB di 3Hz) e viene

valutata la percentuale di classificazione tramite CSP, considerando ogni sottobanda singolarmente.

La suddivisione in bande è eseguita filtrando il segnale mediante filtri di Gabor. Il filtro di Gabor

è un filtro lineare la cui risposta all’impulso è definita da una funzione armonica (esponenziale

complesso) moltiplicata per una funzione Gaussiana. Quindi la trasformata di Fourier della risposta

all’impulso risulta essere la convoluzione delle due funzioni. Il procedimento è mostrato in figura

4.6.

��������)���������������*���+��������������������������**�������� �����������*����������������������������������������������������������������� ���������������������������������+�������������

�����������**�������� �����������*��������������������� �������������������������������������� ������������� �������������������������� ������������� ������������������

67

Come abbiamo appena visto si può pensare la risposta in frequenza del filtro di Gabor come una

Gaussiana centrata nella frequenza fondamentale della funzione armonica. La formula matematica

di tale filtro è :

( ) ���

����

�+−= tjf

tftg 02

2

0 exp,,σ

σ

dove con f0 si indica la frequenza della funzione armonica e con � la larghezza della funzione

Gaussiana. Al diminuire del parametro � otteniamo, in frequenza, una banda progressivamente più

larga. Per l’operazione di filtraggio in sottobande strette abbiamo scelto di esaminare tutte le

frequenze nell’intervallo frequenziale dai 7Hz ai 30Hz con un valore del parametro � = 0.09 che

corrisponde ad una larghezza di banda del filtro a -3dB di 3Hz. Quindi il banco di filtri che

abbiamo usato si compone 23 filtri

Per filtrare il segnale nel tempo bisogna fare in modo che sia garantita la relazione di simmetria

coniugata del filtro ovvero modulo pari e fase dispari. Occorrerebbe quindi filtrare con il filtro

normale, con il suo coniugato e poi sommare. Per questioni computazionali abbiamo scelto di

filtrare con la parte reale del filtro e di moltiplicare per due il risultato.

Per ogni sottobanda k in cui filtriamo il segnale sono calcolati i CSP, quindi si proietta il segnale

con il primo ed ultimo filtro ed infine estratte le features come:

( )( ) ( ) ;

varvar

varlog

21

11 ��

����

+=

ZZ

Zf k

( )( ) ( )���

����

+=

21

22 varvar

varlog

ZZ

Zf k

dove l’apice k indica la k-esima sottobanda e Z indica le proiezioni ottenute tramite filtraggio

spaziale con i CSP.

A questo punto, ammettendo l’ipotesi di omoschedasticità (ossia che le varianze delle classi

siano uguali), si esegue l’analisi discriminate lineare che trova un iper-piano di separazione tra le

classi. Moltiplicando scalarmene il vettore dei coefficienti del piano per le features si ottiene la

distanza di queste dal piano determinandone così la classe di appartenenza. Il calcolo dei

coefficienti del piano di separazione è effettuata in Matlab dal comando classify.

68

Per un problema bidimensionale e lineare, come il nostro, i coefficienti saranno relativi ad una

retta ossia due coefficienti moltiplicativi ed una costante additiva.

Con lo scopo di assegnare un punteggio ad ogni sottobanda moltiplichiamo scalarmente i

coefficienti della retta per ogni vettore delle features.

Finita l’analisi delle sottobande si otterrà come risultato una matrice X le cui righe corrispondono

a ciascuna epoca e le colonne ai punteggi di ogni sottobanda.

����

����

=

KsottobandaNepocasottobandaNepoca

Ksottobandaepocasottobandaepoca

X

_/_......1_/_

............

............

_/1_......1_/1_

Su questa matrice X abbiamo fatto un’analisi di tipo Recursive Features Elimination (RFE)

basata sul classificatore Support Vector Machine (SVM), [59] [60].

Supponendo di avere N epoche e K sottobande tale analisi si compone dei seguenti passi:

- Dati di ingresso: X0 �ℜ N x K con il vettore delle classi y �ℜ N

- Inizializzare il vettore delle features (sottobande) che rimarranno: f �ℜ K

- Iterare le seguenti operazioni fino ad ottenere un numero T predefinito di features rimanenti:

- Restringere la matrice di ingresso come X = X0 (: , f)

- Allenare il classificatore in modo da determinare i coefficienti �

- Calcolare il vettore dei pesi di dimensione uguale al vettore f : �=k

kkk Xyw α

- Trovare l’indice del minimo valore del valore assoluto del vettore w

- Eliminare le colonna di X e di f relative all’indici trovato.

Il numero T di features che rimarranno viene denominato ordine di RFE-SVM.

69

L’ordine scelto delle features rimanenti è stato posto uguale a quattro in accordo con il valore

riportato nell’articolo [47]. Abbiamo trovato che nella maggior parte dei casi le sottobande

rimanenti sono centrate sui ritmi alfa.

A titolo di esempio riportiamo un caso dove le bande frequenziali rimanenti sono” sono centrate

in 11, 12, 13 e 22 Hz.

Dopo questa operazione abbiamo il segnale filtrato nelle sottobande più significative del quale è

possibile calcolare i CSP ed estrarne le features.

Possiamo integrare questa procedura con l’algoritmo Spatially Sparse CSP. Tale integrazione si

dimostra utile quando si verifica la presenza simultanea di fenomeni di sincronizzazione e di

desincronizzazione in locazioni differenti dello scalpo. L’utilità consiste nell’evitare di prendere

entrambe le zone poiché, dato che la classificazione si basa sulle variazioni in potenza del segnale,

tale simultaneità potrebbe inficiare la discriminazione. In questa tesi sono state implementate e

sperimentate entrambe le opzioni e chiameremo con SBCSPv1 la versione in cui usiamo i CSP e

con SBCSPv2 la versione in cui usiamo gli SparseCSP.

4.5.1 Sub Band Common Spatial patterns: metodo alternativo

In fase di implementazione dell’algoritmo SBCSP siamo giunti ad un metodo alternativo per la

scelta della banda frequenziale.

Questo metodo si differenzia dal precedente per la scelta del punteggio da attribuire alla

sottobanda e per il diverso criterio di selezione delle sottobande frequenziali.

Per ogni sottobanda si estraggono le features secondo il procedimento relativo all’algoritmo

classico dei CSP. Dei vettori delle features estratte per ogni condizione sono calcolati i valori di

scatter between-class (Sb) e di scatter within-class (Sw). Indicando con m1, m2 le medie dei vettori

delle features relative rispettivamente alla classe 1 e 2, i valori Sb e Sw per ogni sottobanda sono

calcolati come segue:

Sb = (m2 – m1)* (m2 – m1)’

70

Sw = �(f1 – m1)* (f1 – m1)’ + �(f2 – m2)* (f2 – m2)’

Come punteggio della sottobanda in questione si calcola il rapporto di tali valori:

Sk =Sb/Sw

Il vettore Sk è quindi normalizzato e, tramite il comando yulewalk di Matlab, si calcolano i

coefficienti temporali di un filtro IIR i cui pesi frequenziali siano corrispondenti ai valori discreti

del vettore Sk. In figura 4.7 possiamo vedere un esempio di tali filtri. Si nota chiaramente che le

frequenze più discriminanti sono intorno alla banda alfa.

��������,���-��������� ������ ���������������������������������������������������"����������$.�$#����

Anche qui, come nel caso precedente, è possibile integrare la variante Sparse-CSP nel calcolo

dei Common Spatial Patterns. In questa tesi indichiamo con la notazione SBCSPv3 quando

calcoliamo i filtri CSP e la notazione SBCSPv4 quando calcoliamo gli Spatially-Sparse-CSP.

4.6 Riassunto descrittivo dei metodi implementati

In tabella 4.1 riportiamo un riassunto schematico dei metodi implementati in questo lavoro di tesi.

ACRONIMO DESCRIZIONE

CSP si riferisce alla classica versione dei Common Spatial Pattern.

SCSP si calcolano Common Spatial Pattern sparsificati ottenuti formulando il

71

classico problema CSP come un problema di ricerca dell’ottimo e aggiungendo

nell’equazione un elemento dato dal rapporto della norma pesato con uno con

la norma due di ogni singolo filtro con un parametro r di 0.02.

FWM si implementa il metodo basato nel formulare un vettore di pesi frequenziali per

ogni canale ottenuti mediante analisi di Fisher delle singole epoche nel

dominio della frequqnza. I dati così pesati vengono processati con l’algoritmo

CSP.

FWMv2 indichiamo l’algoritmo utilizza gli stessi pesi frequenziali dell metodo FWM e

successivamente calcola i CSP sparsificati.

SBCSPv1 i dati sono filtrati in 23 sottobande comprese tra i 7Hz e i 30Hz di larghezza

±1.5Hz mediante un banco di filtri di Gabor e per ogni sottobanda è calcolato

un punteggio attraverso l’analisi del discriminante lineare (Fisher LDA). Con il

metodo SVM-RFE (Support Vector Machine – Recursive Features

Elimination) sono successivamente selezionate le quattro (valore dipendente

dall’ordine del SBCSP) sottobande più discriminative. Il dataset, filtrato nelle

quattro sottobande così scelte, è processato con il classico algotimo CSP.

SBCSPv2 si effettua la stessa selezione delle bande del metodo sopra con la differenza

che alla fine non vengono calcolati i CSP ma gli SparseCSP.

SBCSPv3 i dati vengono sono filtrati in 23 sottobande e di ogni sottobanda e calcolate le

features con il metodo CSP. Per ogni singola sottobanda estraiamo un

72

punteggio calcolato come il rapporto tra la matrice di scatter between-class e

la matrice di scatter within-class delle features. Il valore di tale punteggio per

ciascuna sottobanda è utilizzato come peso discreto nel dominio della fequenza

di un filtro IIR di ordine 8 utilizzando il metodo di fitting ai minimi quadrati. Il

dataset processato con tale filtro viene dato in pasto al classico algoritmo CSP.

SBCSPv4 il dataset è processato con un filtro calcolato come nella precedente versione e

sono successivamente calcolati gli Sparse-CSP.

/�*���������0��������������������������������������������������1������������23� (�$.�$#� (�$.�$#��(�$.�$#������������������������������������

72

5. RISULTATI

Il questo capitolo si illustreranno e discuteranno i risultati di classificazione dell’attività

cerebrale ottenuti mediante l’implementazione delle varianti dell’algoritmo Common Spatial

Patterns presenti in letteratura e delle varianti implementate durante questo lavoro.

In appendice A.2 si riporta inoltre la base teorica delle tecniche di classificazione e validazione

utilizzate.

5.1 Risultati

I dataset esaminati sono stati ottenuti dalle acquisizioni effettuate su quattro soggetti (tre di sesso

femminile e uno di sesso maschile in un’età compresa tra i venti e i trenta anni) i quali hanno svolto

ognuno quattro sessioni di 40 trial ciascuna.

Di ogni sessione per ognuno degli 8 algoritmi implementati (descritti nel capitolo 4 di questa

tesi) sono stati collezionati 100 valori di correct rate seguendo un metodo surrogato alla k-fold-

cross-validation (per ulteriori dettagli si veda l’appendice A.2),.

I valori medi di correct rate medi di classificazione ottenuti per ognuna delle quattro sessioni

effettuate da ciascun soggetto sono riportati in appendice A.1.

Per una breve descrizione di ciascuno di questi algoritmi si rimanda alla tabella 4.1.

Ognuno di questi algoritmi prende in ingresso i dati di ogni epoca nell’intervallo temporale di 1

secondo che inizia un secondo dopo l’evento, campionati a 256Hz e filtrati in una banda compresa

tra i 7Hz ai 30Hz e restituisce due features per trial calcolate come il logaritmo della varianza dei

due canali proiettati.

Le sessioni acquisite si differenziano per il tipo di feedback fornito e sono state proposte ai

soggetti sempre con lo stesso ordine: la prima con feedback precalcolato propriocettivo e visivo

(all’utente veniva mostrato il feedback corretto indipendentemente dalla sua attività motoria), la

73

seconda con feedback di tipo propriocettivo e visivo, la terza con il solo feedback visivo e l’ultima

con entrambi i feedback.

L’analisi statistica è stata condotta sui valori di correct rate ottenuti per ogni sessione utilizzando

il metodo ANOVA multifattoriale usando come fattori il tipo di algoritmo utilizzato, la sessione di

acquisizione ed il soggetto.

Dalle analisi effettuate non abbiamo riscontrato interazioni significative tra i fattori analizzati. I

grafici dei singoli confronti effettuati per ogni soggetto e per ogni sessione si riportano in appendice

A.1.

In figura 5.1 si riporta un grafico a barre dove per ogni algoritmo viene indicato il numero di

volte in cui ha ottenuto le migliori performance all’interno di un singolo confronto.

������������� ��������������������� ����������������������������������� ��������������������

�������������� ������������� �����

In figura 5.2 si riporta l’effetto che della sparsificazione dei filtri sugli algoritmi CSP, FWM e

SB-CSP. Per l’algoritmo SB-CSP l’introduzione della sparsificazione dei filtri porta a risultati

peggiori in termini di classificazione in modo significativo. Per gli altri algoritmi non riscontriamo

variazioni significative.

74

������������������������������������������������������������������� �� !"#��$%���!& !"�

Dalle analisi effettuate è risultato significativo il confronto effettuato con i feedback diversi.

Quello che abbiamo notato è che, mentre per il feedback visivo gli algoritmi presentano

CSPSparse-CSP

CSP FWM SB-CSP

SB-CSPFWMCSP

Sparse-CSP CSP

75

performance differenti, per il feedback prorpriocettivo le performance degli algoritmi sono simili e

non statisticamente differenti. Questo si può vedere in figura 5.3 dove si riportano i valori di correct

rate medi ottenuti dalle classificazioni delle tre sessioni con feedback precalcolato, propriocettivo e

visivo con gli algoritmi CSP, FWMv1 e SBCSPv1.

��������'���"����� ������������������ �� !"#��$%#�!& !"������������������������(��)��������������������������#�������������������������

Figura 5.4 – Performance degli algoritmi CSP, FWM, SBCSP nelle sessioni con feedback propriocettivo e feedback visivo. A destra abbiamo sulle ascisse gli algoritmi nell’ordine sopracitatto e sulle ascisse le performance ottenute nel caso di feedback visivo in blu e propriocettivo in verde. A sinistra sulle ascisse abbiamo feedback visivo (1) e feedback propriocettivo (2), nel grafico abbiamo gli algoritmi nell’ordine CSP, FWM SBCSP.

CSP

76

Nelle figure che seguono si riporta un confronto tra la distribuzione dei filtri spaziali ottenuti con

algoritmi diversi.

��������*��� ��������������������������������������������+�������������� �������������

In figura 5.8 vediamo un esempio di filtri spaziali calcolati con quattro diversi algoritmi: CSP,

FWM, SB-v1, Sb-v2. Tra questi algoritmi cambia il contenuto frequenziale del segnale su cui

calcolare i filtri spaziali. Notiamo che per il primo filtro, relativo alla condizione di movimento

immaginato del braccio destro, la distribuzione spaziale rimane pressoché invariata nei quattro casi

mentre cambia in modo più evidentemente per il secondo filtro relativo alla classe di riposo. Per i

CSP (in alto a destra nella figura) i filtri sono calcolati nell’intervallo frequenziale da 7Hz a 30Hz.

Per l’algoritmo FWM ogni canale ha un peso frequenziale ottimo nello stesso intervallo. Per SB-v1

il segnale è filtrato in quattro sottobande di ampiezza di 1.5Hz con centri banda in 10 11 12 e 24 Hz.

Per SB-v2 il segnale è filtrato nelle stesse sottobande ma i filtri spaziali sono calcolati con il metodo

di sparsificazione.

CSP FWM

SB-v1 SB-v2

77

Quello che si nota da tali confronti è che il contenuto frequenziale ottimo cambia la disposizione

del filtro per la classe di riposo. Il problema principale è che non abbiamo informazioni a priori sul

tipo di attività a riposo e questo rende difficile l’interpretazione di tali filtri.

78

6. CONCLUSIONI

L’obiettivo di questo studio è stato quello di implementare e valutare all’interno di un sistema di

BCI (Brain Computer Interface) basato sul motor imagery le caratteristiche di alcuni algoritmi

innovativi di ottimizzazione delle caratteristiche del segnale utilizzate per l’identificazione

dell’attività cerebrale.

L’intenzione di movimento come segnale di controllo permette di avere sistemi BCI che non

necessitano di stimoli esterni e che siano utilizzabili i modo intuitivo e confortevole anche da

soggetti privi di abilità motorie per il controllo di dispositivi di assistenza robotica, protesi e altre di

forme più generali di comunicazione e riabilitazione.

L’immaginazione del movimento di una parte del corpo influenza il tracciato

elettroencefalografico con variazioni di potenza in alcune bande frequenziali localizzate in

determinate zone dello scalpo. La localizzazione sia spaziale che frequenziale cambia da un

individuo all’altro e anche all’interno di uno stesso individuo nell’arco del tempo. Inoltre tale

variabilità è accentuata in soggetti che soffrono di malattie neurodegenerative o ictus i quali sono i

principali destinatari dei sistemi BCI. Per ovviare alla variabilità di questo segnale di controllo negli

ultimi dieci anni sono stati sviluppati numerosi algoritmi che identifichino in modo automatico ed

ottimizzato tali fenomeni. Il primo algoritmo utilizzato a questo scopo è denominato Common

Spatial Patterns (CSP) filtra spazialmente il segnale in modo da massimizzare la differenza di

potenza spettrale tra le due diverse classi da discriminare. Offre il vantaggio di sfruttare le

potenzialità derivanti da un numero elevato di elettrodi (come la localizzazione e la robustezza a

disturbi esterni) riducendone la complessità computazionale a due soli canali discriminativi. La

letteratura e le prove sperimentali dimostrano che con tale algoritmo si raggiunge un’accuratezza di

classificazione attorno al 90%.

79

Dal momento che i CSP localizzano automaticamente l’attività significativa nello spazio ma non

in frequenza, gli algoritmi che tentano di migliorare tali performance sono quasi tutti incentrati nella

ricerca di un metodo automatico che trovi la banda frequenziale ottima sulla quale applicare i CSP.

In questo lavoro di tesi sono stati implementati alcuni di questi algoritmi e ne sono state valutate

le performance.

Per l’acquisizione dei dati sono stati utilizzati gli strumenti della “Guger Technologies®” per la

parte hardware e il tool simulink della MathWorks® per la parte software. Per l’analisi dei segnali e

l’implementazione degli algoritmi abbiamo utilizzato il software Matlab con i tools open source

EEGlab e BCIlab della SCCN (Swartz Center for Computational Neuroscience).

I dati utilizzati per confrontare le prestazioni degli algoritmi implementati provengono da

acquisizioni effettuate durante il lavoro di tesi su quattro soggetti sani e consistono di circa 160

epoche per ognuno, nelle quali era richiesto di immaginare il movimento del braccio destro o di

rimanere a riposo con l’obiettivo di controllare una protesi robotica in compiti di raggiungimento

lungo traiettorie predefinite. Per ogni soggetto sono state acquisite quattro sessioni. Le sessioni si

differenziavano tra loro dal tipo di feedback fornito. In tutte e quattro le sessioni veniva fornito un

feedback di tipo visivo consistente nel vedere un braccio virtuale che si muoveva in relazione al tipo

di task. In tre delle quattro sessioni, oltre al feedback visivo, veniva fornito anche un feedback di

tipo propriocettivo, con un apparecchio costruito appositamente in laboratorio, consistente nella

stimolazione vibrotattile del tendine dell’avambraccio.

Gli algoritmi denominati FWM e SB-CSP cercano automaticamente di ottimizzare la banda

frequenziale, il primo pesando ogni canale direttamente nello spazio di Fourier mentre l’algoritmo

SB-CSP valutando in predefinite sottobande le uscite dei CSP e le relative features. L’algoritmo

Sparse-CSP, che “sparsifica” i filtri spaziali, cerca invece un’ulteriore ottimizzazione spaziale

eliminando le componenti meno rilevanti dai filtri.

80

Abbiamo riscontrato che le performance degli algoritmi sperimentati variano sia tra i soggetti

che tra le sessioni ma mediamente non abbiamo notato evidenti miglioramenti rispetto

all’accuratezza del 90% conseguita con l’algoritmo CSP.

Tali varianti hanno dimostrato performance migliori della classica versione dei CSP solo nelle

sessioni in cui il soggetto riceveva un feedback di tipo visivo. Potrebbe essere di aiuto nel caso di

acquisizioni con un grande numero di elettrodi e per acquisizioni effettuate su soggetti patologici.

Le varianti SB-v3 e SB-v4, che implementano una maschera in frequenza di un filtro basandosi sul

rapporto tra le matrici di scatter between class e within class delle features, anch’esse peggiorano le

performance dei normali CSP. Un possibile miglioramento di queste varianti potrebbe essere quello

di scegliere tale maschera analizzando statisticamente le distribuzioni bidimensionali delle features

per le due classi.

Sviluppi futuri del presente lavoro di tesi comprendono di standardizzare l’estensione

dell’algoritmo CSP a più di due classi per incrementare le potenzialità del sistema BCI. Altri

sviluppi comprendono l’integrarsi del riconoscimento delle variazioni in potenza del segnale

elettroencefalografici legate all’immaginazione di movimento con il riconoscimento altri tipi di

variazioni del segnale elettroencefalografici legate allo stesso compito (i.e. Bereitshaftspotential)

81

BIBLIOGRAFIA

[1] . Autori vari, “Anatomia dell’Uomo”, 2001, Edi.Ermes s.r.l., Milano

[2] . D. De Rossi , “Dispense Fenomeni Bioelettrici”

[3] . Coyle, Ward, Markham, McDarby, “On the suitability of near-infrared (NIR) systems for next-generation brain–computer interfaces”, Physiological measurement, 25, 815-822, 2004

[4] . R. Sitarama, H. Zhanga, C. Guana, M. Thulasidasa, Y. Hoshic, A. Ishikawae, K. Shimizue, N. Birbaumer, “Temporal classification of multichannel near-infrared spectroscopy signals of motor imagery for developing a brain–computer interface”, NeuroImage, Volume 34, Issue 4, Pages 1416-1427, 15 February 2007.

[5] . N. Weiskopf, K. Mathiak, S. W. Bock, F. Scharnowski, R. Veit, W. Grodd, R. Goebel, N. Birbaumer, “Principles of a Brain-Computer Interface (BCI) Based on Real-Time Functional Magnetic Resonance Imaging (fMRI)”, IEEE transactions on biomedical engineering, vol. 51, no. 6, pages 966, june 2004.

[6] . “Selecting features for BCI control based on a covert spatial attention paradigm”, M. van Gervena, A. Bahramisharif, T. Heskes, O. Jensen, Neural Networks 22 (2009), Pages 1271_1277, 2009

[7] . N. Birbaumer and L. G. Cohen, “Brain–computer interfaces: communication and restoration of movement in paralysis”, J. Physiol. 2007;579;621-636; Jan 18, 2007;

[8] . Gerwin Schalk, “Can Electrocorticography (ECoG) Support Robust and Powerful Brain–Computer Interfaces?” ,Front Neuroengineering. 2010; 3: 9. Published online 2010 June 24

[9] . E.A. Felton, J. A. Wilson, J. C. Williams, P. C. Garell, “Electrocorticographically controlled brain–computer interfaces using motor and sensory imagery in patients with temporary subdural electrode implants: Report of four cases”, J Neurosurg 106:495–500, 2007

[10] . D. J. Krusienski, J. J. Shih, “Control of a Visual Keyboard Using an Electrocorticographic Brain–Computer Interface”, Neurorehabilitation and Neural Repair 25(4) 323 –331, 2011

[11] . Y. Liu, M. Sharma, C. M. Gaona, J. D. Breshears, J. Roland , Z. V. Freudenburg1, K. Q. Weinberger, E. C. Leuthardt, “Decoding Ipsilateral Finger Movements from EcoG Signals in Humans”, 2011

[12] . Farwell LA, Donchin E. “Talking off the top of your head: toward a mental prothesis utilizing event-related brain potentials.” Electroenceph clin Neurophysiol 1988;70:510–523.

[13] . Wolpaw JR, Birbaumer N, McFarland DJ, Pfurtscheller G, Vaughan TM, “ Brain-computer interfaces for communication and control”. Clin Neurophysiol. 2002 Jun;113(6):767-91.

[14] . J N Mak, Y Arbel, J W Minett, L M McCanel, B Yuksel, D Ryan, D Thompson, L Bianchi, D Erdogmus, “Optimizing the P300-based brain–computer interface: current status, limitations and future directions”, Journal of Neural Engineering Volume 8 , 2011.

82

[15] . G. Pfurtscheller, T. Solis-Escalante, R. Ortner, P. Linortner, G. R. Müller-Putz, “Self-Paced Operation of an SSVEP-Based Orthosis With and Without an Imagery-Based ‘Brain Switch’: A Feasibility Study Towards a Hybrid BCI”, IEEE Transactions On Neural Systems And Rehabilitation Engineering, Vol. 18, No. 4, August 2010 409

[16] . Birbaumer, Elbert, Canavan, Rockstroh, “ Slow potentials of the cerebral cortex and behavior”, Physiol. Rev., 70, 1-41, 1990

[17] . Birbaumer, “Slow cortical potentials: their origin, meaning, and clinical use”. In G. J. M. van Boxtel & K. B. E Böcker, (Eds.), Brain and behavior past, present, and future (pp. 25-39). Tilburg: Tilburg University Press, 1997

[18] . Kozelka, J. W., & Pedley, “Beta and mu rhythms.”, J Clin Neurophysiol, 7, 191-207, 1990.

[19] . Vidal JJ, “Toward direct brain-computer communication.”, Annu Rev Biophys Bioeng. 1973;2:157-80, 1973

[20] . W. Peneld and H. Jasper. “Epilepsy and the Functional Anatomy of the Human Brain.” Little, Brown, 1954.

[21] . F.H. Lopes da Silva, A. Hoeks, A. Smits, and L.H. Zetterberg. “Model of brain rhythmic activity: The alpha-rhythm of the thalamus.” Kybernetik, 15:23 37, 1974.

[22] . G. Pfurtscheller and A. Aranibar, “Evaluation of event-related desynchronization (ERD) preceding and following voluntary selfpaced movements.”, Electroenceph. clin. Neurophysiol., 46:138 146, 1979.

[23] . G. Pfurtscheller and F.H. Lopes da Silva, “Event related EEG/MEG synchronization and desynchronization: basic prnciples”, Clinical Neurophysiology 110, 1842-1857, 1999

[24] . Gert Pfurtscheller and Fernando H. Lopes da Silva, “ Event-related desynchronization. Handbook of Electroencephalography and Clinical Neurophysiology” Revised Series, volume 6. Elsevier Science B.V., 1999.

[25] . C.S. Nam, T. Jeon, Y.J. Kim, I. Lee, K. Park, “Movement imagery-related lateralization of event-related (de)synchronization (ERD/ERS): Motor-imagery duration effects”, Clinical Neurophysiology 122, 567-577, 2011

[26] . C. Neuper, M.Wortz, G.Pfurtscheller, “ERD/ERS pattern reflecting sensorimotor activation and deactivation”, Neuper & Klimesh (Eds.), Progress in Brain Reserch, Vol.159, Chapter 14, 2006

[27] . F. C. Hummel, C. Gerloff, “Interregional long-range and short-range synchrony: a basis for complex sensorimotor processing”, Neuper & Klimesh (Eds.), Progress in Brain Reserch, Vol.159, Chapter 15, 2006

[28] . G.Pfurtscheller , C. Brunner, A. Schlogl, F.H. Lopes da Silva, “Mu rhytm (de)synchronization and EEG single-trial classification of different motor imagery tasks”, NeuroImage 31, 153-159, 2006

[29] . L Leocania, C. Toroa, P. Zhuanga, C. Gerloffa, M. Hallet, “Event-related desynchronization in reaction time paradigms: a comparison with event-related potentials and corticospinal

83

excitability”, Clinical Neurophysiology Volume 112, Issue 5, Pages 923-930, May 2001

[30] . G. Pfurtscheller, W. Sager, W. Wege, “Correlations between CT scan and sensorimotor EEG rhytms in patients with cerebrovascular disorders.” Electroencephalogr Clin Beurophysiol, 90, 456-60, 1994

[31] . G. Pfurtscheller, Ch. Neuper, D. Flotzinger, M. Pregenzer, “EEG-based discrimination between imagination of right and left hand movement”, Electroencephalography and Clinical Neurophysiology Volume 103, Issue 6, Pages 642-651, December 1997

[32] . Kalcher J, Flotzinger D, Neuper C, Gölly S, Pfurtscheller G, “Graz brain-computer interface II: towards communication between humans and computers based on online classification of three different EEG patterns.”, Department of Medical Informatics, Graz University of Technology, Austria. Med Biol Eng Comput. 1996

[33] . P. Suffczynski, J.P. Pjin, G. Pfurtscheller, F.H. Lopes da Silva, "Event-related dynamics of apha band rhythms: a neuronal network model of docal ERD/surround ERS", Handbook of elecroncephalography and Clinical neurophysiology, Vol 6 Elseiver Amsterdam,pp 67-85,1999

[34] . G. Pfurtscheller , T. Solis-Escalante, “Could the beta rebound in the EEG be suitable to realize a ‘brain switch’?”, Clinical Neurophysiology 120, 24–29, 2009

[35] . Zoltan J. Koles, Michael S. Lazar, and Steven Z. Zhou. “Spatial Patterns underlying Population Differences in the Background EEG”. Brain Topography, Volume 2, Number 4, 1990

[36] . Z. J. Koles. “The quantitative extraction and topographic mapping of the abnormal components in the clinical EEG.” Electroencephalogr. Clin. Neurophysiol., 79(6):440–447, 1991.

[37] . B. Blankertz, R. Tomioka. S. Lemm, M. Kawanabc, K.R. Muller, “Optimizing spatial filters for robust EEG single-trial analysis”, IEEE signal processing magazine, vol XX, 2008

[38] . S. Lemm, B. Blankertz, G. Curio, Klaus-Robert Müller. “Spatio-Spectral Filters for Improving the Classification of Single Trial EEG.” IEEE Transactions on Biomedical” Engineering, Vol. 52, No. 9, September 2005

[39] . G. Dornhege, B. Blankertz, M. Krauledat, F. Losch, G. Curio, Klaus-Robert Müller. “Combined optimization of spatial and temporal filters for improving Brain-Computer Interfacing.” IEEE Transactions on Biomedical Engineering, Vol. 53, No. 11, Novembre 2006

[40] . R. Tomioka, G. Dornhege, K. Aihara, and K.-R. Müller, “An iterative algorithm for spatio-temporal filter optimization,” in Proc. 3rd Int. Brain-Computer Interface Workshop Training Course 2006, Verlag der Technischen Universität Graz, Graz, Austria, pp. 22–23., 2006

[41] . Mahnaz Arvaneh, Cuntai Guan, Kai Keng Ang, Hiok Chai Quek, “Spatially Sparsed Common Spatial Pattern To Improve Bci Performance”, 2011

[42] . G. Liu, G. Huang, J. Meng, X. Zhu, “A frequency-weighted method combined with Common Spatial Patterns for electroencephalogram classification in brain-computer interface”, Biomedical Signal Processing and Control, 174180, 2010

84

[43] . Haixian Wang , “Optimizing spatial filters for single-trial EEG classification via a discriminant extension to CSP: the Fisher criterion”, International Federation for Medical and Biological Engineering 2011

[44] . B. Blankertz, M. Kawanabe, R. Tomioka, F. Hohlefeld, V. Nikulin, and K.-R. Muller, “Invariant common spatial patterns: Alleviating nonstationarities in brain-computer interfacing” ,NIPS 20, 2008.

[45] . S. Mika, G. Rätsch, J. Weston, B. Schölkopf, A. Smola, and K.-R. Müller, “Invariant Feature Extraction and Classification in Kernel Spaces”, in: S. Solla, T. Leen, and K.-R.Müller, eds., Advances in Neural Information Processing Systems, vol. 12, 526–532, MIT Press, 2000.

[46] . G. Dornhege, B. Blankertz, G. Curio, Klaus-Robert Müller. “Boosting Bit Rates in Noninvasive EEG Single-Trial Classifications by Feature Combination and Multiclass Paradigms.” IEEE Trans. Biomed. Eng., vol. 51, p. 993-1002, 2004.

[47] . Q. Novi, C. Guan, T. Huy Dat, P. Xue, “Sub-Band Common Spatial Pattern (SBCSP) for Brain-Computer Interface”, Proceeding of the 3rd International IEEE EMBS Conference on Neural Engineering, 2007

[48] . Johannes Muller-Gerkinga, Gert Pfurtscheller, Henrik Flyvbjergc, “Designing optimal spatial filters for single-trial EEG classification in a movement task”, Clinical Neurophysiology 110, pages 787-798, 1999

[49] . G. Pfurtscheller, C. Neuper, “Motor imagery and direct brain– computer Communication”, Neural Engineering: Merging Engineering and Neuroscience, Proc. IEEE (Special Issue), vol. 89 (7), 2001, pp. 1123– 1134.

[50] . Marijn van Vliet,“Effectiveness of Automatic EOG Regression”, University of Twente, Netherlands, 2006

[51] . LI Ming-Ai YANG Lin-Bao YANG Jin-Fu, “A Fully Automatic Method of Removing EOG Artifacts from EEG Recordings”, School of Electronic Information and Control Engineering, Beijing University of Technology, China,

[52] . Mehrdad Fatourechi 1, Ali Bashashati1, Rabab K Ward, Gary E Birch, “EMG and EOG Artifacts in Brain Computer Interface Systems: A Survey”, 2009

[53] . Zahmeeth Sakkaff and Asiri Nanayakkara, “Removal of ocular artifacts from EEG signals in Brain Computer Interface”,Institute of Fundamental Studies, Hanthana Road, Kandy, Proceedings of the Technical Sessions, 24 (2008) 51-57

[54] . Filipa Campos Viola, Jeremy Thorne, Barrie Edmonds, Till Schneider, Tom Eichele, Stefan Debener, “Semi-automatic identification of independent components representing EEG artifact”, Clinical Neurophysiology 120 (2009) 868–877

[55] . German Gomez-Herrero, Wim De Clercq, Haroon Anwar, Olga Kara1, Karen Egiazarian, Sabine Van Huffel, Wim Van Paesschen, “Automatic Removal of Ocular Artifacts in the EEG without an EOG Reference Channel”, NORSIG 2006

85

[56] . Irene Winkler, Stefan Haufe, Michael Tangermann, “Automatic Classification of Artifactual ICA Components for Artifact Removal in EEG Signals”, Winkler et al. Behavioral and Brain Functions 2011

[57] . Salsedo Fabio, Dettori Andrea, Bergamasco Massimo, Franceschini Marco, Frisoli Antonio, Rocchi Fabrizio, "Exoskeleton Interface Apparatus", EP1581368 App N. EP, 2002

[58] . G. Dornhege, José del R. Millán, Thilo Hinterberger, Dennis McFarland, K.-R. Müller, “Toward Brain-Computer Interfacing.” Cambridge, MA: MIT Press, 2007.

[59] . Isabelle Guyon, Bernhard E. Boser, Vladimir Vapnik, “Automatic Capacity Tuning of Very Large VC-Dimension Classifiers.”, NIPS 1992: 147-155, 1992

[60] . Isabelle Guyon, Jason Weston, Stephen Barnhill and Vladimir Vapnik, “Gene Selection for Cancer Classification using Support Vector Machines”, Machine Learning, 46, 380-422, 2002

86

APPENDICE A.1

Valori medi di correct rate di classificazione ottenuti per ognuna delle quattro sessioni effettuate

da ciascun soggetto:

CSP SCSP FWM FWMv2 SBCSPv1 SBCSPv2 SBCSPv3 SBCSPv40,8782 0,94 0,8718 0,8659 0,9088 0,9024 0,9529 0,950,9312 0,9088 0,9065 0,9188 0,9106 0,9218 0,9318 0,93240,9757 0,9786 0,9757 0,9643 0,9564 0,9393 0,9512 0,93350,9454 0,8969 0,9354 0,8654 0,9308 0,9038 0,8971 0,90410,8273 0,8445 0,9118 0,8609 0,86 0,8373 0,8606 0,87120,8536 0,9382 0,8373 0,8245 0,9682 0,9582 0,8571 0,83710,9614 0,9529 0,9657 0,97 0,9657 0,99 0,7853 0,810,8257 0,8186 0,9329 0,9271 0,8257 0,8086 0,8412 0,8176

0,994 0,94 0,964 0,99 1 0,928 0,9235 0,96350,8918 0,8873 0,87 0,8482 0,9145 0,9227 0,7759 0,86470,8371 0,8014 0,8543 0,7971 0,7786 0,7871 0,7029 0,7276

0,791 0,817 0,794 0,724 0,746 0,785 0,7541 0,75710,908 0,875 0,825 0,887 0,877 0,797 0,7406 0,7524

0,9278 0,9133 0,9078 0,9156 0,9356 0,9311 0,8594 0,810,695 0,805 0,8733 0,8317 0,89 0,8583 0,6782 0,7029

0,8138 0,8025 0,82 0,8038 0,8738 0,8638 0,7529 0,7935

Deviazioni standard di correct rate di classificazione ottenuti per ognuna delle quattro sessioni

effettuate da ciascun soggetto:

CSP SCSP FWM FWMv2 SBCSPv1 SBCSPv2 SBCSPv3 SBCSPv40,066 0,0529 0,0706 0,0739 0,0617 0,0627 0,0458 0,049

0,0592 0,0671 0,0586 0,054 0,0582 0,0615 0,0571 0,05310,034 0,0329 0,0409 0,0448 0,0441 0,0531 0,0481 0,0463

0,0602 0,0591 0,0616 0,076 0,0642 0,0806 0,0655 0,06180,0832 0,0925 0,0769 0,0832 0,0842 0,0978 0,0805 0,07420,1008 0,0631 0,106 0,102 0,049 0,0584 0,0716 0,06730,0637 0,0675 0,0613 0,0585 0,0613 0,0366 0,087 0,09530,1277 0,1298 0,0824 0,1065 0,1386 0,1365 0,0759 0,07590,0239 0,0725 0,0482 0,0302 0 0,0653 0,0551 0,04250,0892 0,0818 0,084 0,0914 0,0773 0,0724 0,0805 0,07260,1219 0,1314 0,1235 0,1303 0,129 0,1175 0,0962 0,08670,1065 0,1215 0,1127 0,1199 0,1132 0,1038 0,0882 0,08870,0734 0,1038 0,1184 0,0837 0,0952 0,1141 0,0811 0,0886

0,073 0,0783 0,0758 0,0792 0,0673 0,0737 0,0719 0,08880,1774 0,1536 0,1363 0,1371 0,1281 0,1467 0,1107 0,0966

0,125 0,1259 0,1169 0,1221 0,0879 0,1193 0,0927 0,0951

87

������������������������� �������������

��

������������������������������������� ��!��������"��#��������� ��������"��#��#�##�����

#���� �����������#�����������$���%�##���������#!�##��#����������������!�����������!����!���������#�����

����������%������� �������&&��������'���(��"����&������%������� ��!)��)������������� ��!�� �������*�

�����##������������� ��!�����������&��#������!���"�*�����������+������!�����������&������#������!���"����

88

����������,�������������������"��#��#�##�����#���� �����������#��������,���

89

����������-�������������������"��#��#�##�����#���� �����������#��������-���

����������.����� ����&�����������"��#��#�##�����#���� �����������#��������.��

90

����������/�����#������� �����������!��#!���#���������

����������0�����#������� �����������!��#!����#�##�����

91

����������1�������������������#����������!��#!���������� �� �������#����� ����!� ���##�"�����#�##����������#��������