Metodi di analisi di segnali EEG in applicazioni di Brain Computer Interfaces
Transcript of Metodi di analisi di segnali EEG in applicazioni di Brain Computer Interfaces
UNIVERSITÀ DEGLI STUDI DI PISA
FACOLTÀ DI INGNEGNERIA
Corso di Laurea Specialistica in Ingegneria Biomedica
TESI DI LAUREA:
METODI DI ANALISI DI SEGNALI EEG IN APPLICAZIONI DI BRAIN COMPUTER INTERFACE
Relatori Candidato
�Ing. Nicola Vanello Michele Barsotti
������Dott. Antonio Frisoli
Ing. Daniele Leonardis
ANNO ACCADEMICO 2010/2011�
RIASSUNTO ANALITICO
Con il termine Brain Computer Interface (BCI) s’intende un sistema in grado di decodificare le
intenzioni dell’utilizzatore misurandone l’attività cerebrale al fine di controllare dispositivi esterni.
Esistono patologie o eventi (i.e. sclerosi amiotrofica laterale, infarti cerebrali, lesioni del midollo
spinale) che purtroppo possono portare un individuo alla perdita del controllo volontario dei muscoli
riducendo così la capacità di comunicazione. Tale condizione rende difficile e in alcuni casi impossibile
l’utilizzo dei comuni dispositivi di assistenza. Un sistema BCI è una soluzione potenzialmente efficace
sia per ripristinare parzialmente le funzioni comunicative di base, sia per fornire un contributo alla
riabilitazione del controllo muscolare.
L’obiettivo di questo studio è quello di implementare un sistema BCI (Brain Computer Interface)
basato sul motor imagery per il controllo di una protesi robotica che esegua compiti di raggiungimento
lungo traiettorie predefinite. Un sistema di questo tipo per la riabilitazione motoria in soggetti patologici
deve avere le caratteristiche di robustezza, facilità di utilizzo e rapidità della sessione di addestramento.
Per questo motivo il focus di questo lavoro è stato di implementare e valutare le performance di alcuni
degli algoritmi presenti in letteratura che estraggono le caratteristiche del segnale, ai fini della
classificazione e di svilupparne di nuovi.
Nel 1999 Pfurtscheller et al. adattarono l’algoritmo denominato Common Spatial Pattern al
riconoscimento ed alla classificazione delle intenzioni di movimento.
A causa della variabilità inter ed intra individuale, dei rumori ambientali e della presenza di artefatti
legati al movimento ed ad altri fattori fisiologici, la sfida principale è quella di ottimizzare la
localizzazione di pattern differenti per diversi compiti di immaginazione motoria, sia nello spazio che in
frequenza, in modo automatico. Inoltre, per soggetti patologici, tale sfida diventa più ardua. Spinta da
questi motivi e dall’avanzare del livello della tecnologia, la ricerca negli ultimi anni è molto attiva
nell’implementazione di algoritmi che permettano la creazione di sistemi BCI basati sul motor imagery
sempre meno affetti da errori e sempre più semplici e confortevoli nell’utilizzo.
Questo lavoro di tesi, attraverso la ricerca in letteratura, l’implementazione e la sperimentazione di
algoritmi per un sistema BCI finalizzato al controllo di una protesi robotica, si pone l’obiettivo di dare
un contributo a tale causa.
Il primo capitolo introduce i sistemi BCI e l’aspetto fisiologico relativo al motor imagery. Il secondo
capitolo è un’analisi degli algoritmi presenti in letteratura volti ad identificare le intenzioni di
movimento. Nel terzo capitolo sono descritte le modalità di acquisizione degli esperimenti condotti in
laboratorio. Nel quarto capitolo sono illustrati gli algoritmi implementati. Il quinto ed il sesto capitolo
mostrano i risultati ottenuti e le conclusioni.
Tale lavoro ci ha permesso di valutare direttamente le performance di algoritmi presenti nella
letteratura di questi ultimi anni e, a partire da questi, di implementarne di nuovi.
Sebbene gli algoritmi implementati abbiano performance simili all’algoritmo Common Spatial
Pattern, hanno il vantaggio di identificare in modo automatico la localizzazione delle features sia nello
spazio che nel tempo. Questo si rivela utile proprio con gli utenti finali del sistema BCI implementato,
caratterizzati potenzialmente da un’elevata variabilità di localizzazione dell’attività cerebrale
significativa.
INDICE
1. IL SEGNALE EEG E I SISTEMI BCI
1.1 Introduzione sui sistemi Brain Computer Interfaces 1.2 Cenni di anatomia del cervello 1.3 Modalità di acquisizione dei segnali cerebrali 1.4 Introduzione all’ElettroEncefaloGrafia
1.4.1 Standard 10-20 1.4.2 Ritmi EEG 1.4.3 Applicazioni EEG
1.5 Tipologie di sistemi BCI basati su segnali EEG 1.5.1 Segnali di controllo
1.5.1.1 Potenziali Evocati 1.5.1.2 Visual Evoked Potential: VEP 1.5.1.3 Slow Cortical Potential: SCP 1.5.1.4 Fenomeni di sincronizzazione/desincronizzazione evento correlati
1.5.1.4.1 Fenomeni ERD/ERS: Background fisiologico
2. ALGORITMI PER L’IDENTIFICAZIONE DEI FENOMENI ERD /ERS IN APPLICAZIONI BCI
2.1 Common Spatial Patterns: CSP 2.2 Common Spatial Spectral Patterns: CSSP 2.3 Common Sparse Spectral Spatial Patterns: CSSSP 2.4 SPECtral Common Spatial Patterns: SPEC-CSP 2.5 Spatially Sparsed Common Spatial Patterns: SSCSP 2.6 Frequency Weighted Method: FWM 2.7 Disciminative Common Spatial Patterns: dCSP 2.8 Invariant Common Spatial Patterns: I-CSP 2.9 Sub Band Common Spatial Patterns: SBCSP
3. METODOLOGIA DI ACQUISIZIONE E SIGNAL PRE-PROCESS ING
3.1 Sistema di acquisizione 3.1.1 Hardware di acquisizione 3.1.2 Software di acquisizione
3.2 Protocollo di acquisizione 3.3 Configurazione elettrodi 3.4 Referenziazione e rimozione di artefatti
3.4.1 Artefatti oculari 3.4.2 Referenziazione
3.5 Pre-processing dei segnali
4. ANALISI DEI SEGNALI
4.1 Metodo di analisi in potenza 4.2 Common Spatial Patterns 4.3 Spatially Sparsed Common Spatial Patterns
4.4 Frequency Weighted Method 4.5 Sub Band Common Spatial Patterns
4.5.1 Sub Band Common Spatial Patterns: metodo alternativo 4.6 Riassunto descrittivo dei metodi implementati
5. RISULTATI
5.1 Risultati
6. CONCLUSIONI
7. BIBLIOGRAFIA
SINTESI
Introduzione Con il termine Brain Computer Interfaces (BCI) s’intende un sistema in grado di decodificare le
intenzioni dell’utilizzatore sulla base della misura e l’interpretazione dell’attività cerebrale al fine di
controllare dispositivi esterni.
Diverse patologie neurologiche (i.e. sclerosi amiotrofica laterale, ischemia cerebrale, lesioni del
midollo spinale) possono portare alla perdita del controllo della muscolatura compromettendo in
modo significativo le capacità di comunicazione, percezione ed azione. Tale condizione rende
difficile e in alcuni casi impossibile l’utilizzo dei comuni dispositivi di assistenza. Un sistema BCI è
una soluzione potenzialmente efficace sia per ripristinare parzialmente le funzioni comunicative di
base nel paziente con grave compromissione, sia per fornire un contributo alla riabilitazione del
controllo neuromotorio in pazienti con ischemia cerebrale, in associazione con sistemi di feedback
(visivo/propriocettivo) o di assistenza al movimento (robot riabilitativo).
�
SIGNAL PROCESSING and ACQUISITION SIGNAL
CLASSIFICATION
APPLICATION OUTPUT
������������ ���� ������ ����������� � ������
Motivazione ed obiettivi L’utilizzo efficace di sistemi di BCI nella riabilitazione neuromotoria in pazienti con ischemia
cerebrale richiede algoritmi con le caratteristiche di robustezza, facilità di utilizzo e rapidità della
sessione di addestramento.
L’obiettivo di questo studio è stato quello di sviluppare e validare algoritmi di BCI (Brain
Computer Interface) non invasivo basato su tecniche di Motor Imagery (MI) per la sua applicazione
in protocolli di riabilitazione neuromotoria dell’arto superiore in pazienti con ischemia cerebrale.
Gli algoritmi sviluppati sono basati sulla estrazione di features associate all’immaginazione del
movimento, e sono stati validati sperimentalmente con diverse condizioni di feedback associate al
movimento (nessun feedback, feedback visivo con visualizzazione di movimento di un arto virtuale,
feedback propriocettivo con stimolazione propriocettiva in grado di generare un movimento
illusorio).
Metodi ed attività Il focus di questo lavoro di tesi è stato lo sviluppo, l’implementazione e la valutazione sperimentale
delle performance di alcuni degli algoritmi che estraggono le caratteristiche del segnale ai fini della
classificazione e di svilupparne di nuovi.
(a) (b)
Figura 2 – Principio di funzionamento dell’algoritmo (a) e localizzazione dei CSP associati al Motor Imagery (b)
E’ noto che l’esecuzione o l’immaginazione del movimento di una parte del corpo determina
un’attività elettroencefalografica di desincronizzazione (Event Related Desynchronization ERD)
osservabile nei ritmi alfa (7- 12Hz) e beta (13-30Hz), osservabili tipicamente nelle aree
controlaterali alle parti del corpo in movimento.
Filtri spaziali possono essere calcolati per ottimizzare la discriminazione dell’attività di MI
rispetto ad un altro stato mentale, ed ottenere quindi una classificazione efficace dell’intenzione di
movimento. La tecnica dei Common Spatial Pattern (CSP) consente la costruzione di una matrice di
proiezione che proietti i segnali dallo spazio originale dei canali in un nuovo spazio con la
proprietà che il primo e l’ultimo canale abbiano rispettivamente varianza massima per una
condizione e minima per l’altra, ad esempio movimento immaginato (MOVE) verso attività mentale
di rilassamento (REST) come possiamo osservare in figura 3.
�������������������������������� ����� �����������������
�
Per la costruzione della matrice di proiezione è necessario disporre di un dataset di training dove
le epoche siano etichettate per le due condizioni da discriminare (ad esempio MOVE vs. REST). È
opportuno filtrare i dati nella banda frequenziale di interesse poiché la varianza di dati filtrati in una
banda è correlabile alla potenza spettrale in tale banda. Un modo di ottenere la matrice di proiezione
VAR MAX
VAR MAX VAR MIN
VAR MIN
SEGNALE ORIGINALE
PRIMO ED ULTIMO FILTRO SPAZIALE
SEGNALE PROIETTATO
REST MOVE REST MOVE
Trial i Trial i+1 Trial i Trial i+1
è la diagonalizzazione simultanea della matrice differenza (attività discriminativa) e della matrice
somma (attività comune) delle matrici di covarianza di ciascuna classe.
Sebbene l’algoritmo CSP abbia una buona efficacia di funzionamento, negli ultimi anni sono state
proposte numerose varianti di questo algoritmo con lo scopo di ottimizzare le informazioni sia
riguardo alla loro localizzazione spaziale (filtri spaziali) sia al loro contenuto frequenziale (filtri
temporali).
In questo lavoro di tesi sono state implementate le varianti più significative degli algoritmi basati
su CSP. La maggior parte degli algoritmi analizzati effettua un’ottimizzazione frequenziale (in
termini di discriminazione) prima di processare il segnale con l’algoritmo CSP. La restante parte
delle varianti dei CSP invece, effettua un’ulteriore ottimizzazione spaziale agendo sulla
formulazione matematica dell’algoritmo di base.
A titolo di esempio, per quanto riguarda gli algoritmi che effettuano un’ottimizzazione
frequenziale, sono stati analizzati ed implementati:
algoritmo Frequency Weighted Method (FWM): Il FWM ottimizza ogni canale nello spazio di
Fourier pesandone lo spettro con un vettore calcolato basandosi sull’analisi del discriminante
lineare di Fisher.
algoritmo SubBand-CSP (SBCSP): Il SBCSP filtra il canale in sottobande strette tramite filtri
di Gabor e, per ogni sottobanda, calcola i CSP e ne estrae un punteggio tramite analisi del
discriminante lineare. Una volta ottenuti i punteggi per ogni sottobanda si esegue un’eliminazione
ricorsiva delle stesse mediante algoritmi di Support Vector Machine fino ad ottenerne solamente un
prefissato numero (chiamato ordine dei SBCSP). A questo punto il segnale è filtrato nelle rimanenti
sottobande e ne sono calcolati i CSP.
Algoritmo SpatiallySparseCSP (SSCSP): Lo SSCSP svolge un’ulteriore ottimizzazione
spaziale, formulando il classico problema dei CSP come un problema di ottimizzazione con vincoli
e aggiungendo un termine di sparsità, legato al rapporto tra la norma uno e la norma due dei filtri da
trovare, regolato con un iperparametro che determina il grado di sparsità.
Per la valutazione di questi algoritmi e per la realizzazione del sistema BCI, abbiamo effettuato
acquisizioni su quattro volontari sani. E’ stato stabilito un paradigma sperimentale illustrato in
figura 4.
���������������������������������� �������� �� ������
Per ciascun soggetto sono state acquisite quattro sessioni, ognuna di quaranta epoche, in cui si
richiedeva di eseguire un compito di immaginazione di movimento del braccio destro o di rimanere
a riposo. La scelta di queste due classi è finalizzata all’utilizzo ultimo del sistema BCI da
implementare: il controllo di un esoscheletro robotico che esegua compiti di raggiungimento lungo
traiettorie predefinite.
Le quattro sessioni si distinguono fra loro dal tipo di feedback fornito al soggetto utilizzatore. I
feedback forniti consistevano in tre tipologie:
• feedback visivo, in cui il soggetto vedeva in prima persona un braccio virtuale muoversi in
relazione al compito di movimento, feedback modulato sulla base della classificazione on-
line dell’attività mentale di Motor Imagery
• feedback propriocettivo, in cui il soggetto, in aggiunta al feedback visivo, riceveva uno
stimolo vibrazionale ad 80 Hz sul tendine dell’avambraccio in relazione al compito di
movimento, feedback modulato sulla base della classificazione on-line dell’attività
mentale di Motor Imagery. Lo stimolo propriocettivo era fornito con un apposito
dispositivo realizzato presso il laboratorio PERCRO in grado di indurre una illusione di
Fixation cross
8 7 6 5 4 3 2 1 0
beep cue End Random Intervall
R
movimento concorde con la distensione del muscolo interessato (una stimolazione sulla
inserzione del tendine del bicipite induce una illusione di estensione del gomito).
• Feedback pre-calcolato, in cui il feedback visivo e propriocettivo erano precalcolati e non
dipendente dall’attività mentale del soggetto.
I feedback sono stati calcolati con l’algoritmo CSP filtrando in segnale nella banda 10-24Hz che,
dall’analisi di dataset acquisiti precedentemente a questi, è risultata la migliore.
I dataset sono stati acquisiti con una configurazione di elettrodi che, oltre a coprire la zona della
corteccia sensitivo-motoria per rilevare il segnale utile, rileva anche il segnale di blinking oculare
con due elettrodi posti nella zona frontale.
Le acquisizioni sono state effettuate con gli strumenti della Guger Technologies® comprendenti
una cuffia (g.EEGcap) con alloggiamenti per elettrodi attivi (g.ladyBIRD), un preamplificatore
(g.GAMMAsys), un amplificatore (g.USBamp) interfacciato al tool simulink® di Matlab®. Per le
analisi dei segnali è stato utilizzato il software Matlab® della MathWorks® con i tools open source
EEGlab e BCIlab della SCCN (Swartz Center for Computational Neuroscience) e il tools
g.BSAnalyze della Guger Technologies®. Le analisi statistiche sono state eseguite con il software
SPSS.
Una volta acquisiti i dataset è stata condotta un’analisi sia nello spazio che in frequenza. La
rimozione degli artefatti offline è un procedimento che richiede un notevole dispendio di tempo e
una buona abilità nell’esperienza di analisi dei segnali. Per ovviare a questa problematica abbiamo
implementato un metodo automatico per la rimozione degli artefatti oculari finalizzato a trovare una
matrice di proiezione, attraverso l’analisi delle componenti indipendenti, che proietti i dati e
ricostruisca il segnale eliminando gli artefatti.
Tale metodo si articola come segue:
• eliminazione automatica di epoche anomale;
• calcolo delle componenti indipendenti;
• calcolo della correlazione spaziale tra i vettori della matrice di mixing e dei vettori
costruiti ad hoc che pesano maggiormente gli elettrodi posti nella zona frontale;
• ricostruzione del segnale eliminando le componenti relative ai vettori che hanno
dimostrato una correlazione nel passo sopra.
Tale metodo ha dimostrato funzionare solo in dataset in cui si riusciva ad eliminare tutte le epoche
artefattuate con il metodo automatico. Nel caso in cui non tutte le epoche anomale venivano
reiettate, non riuscivamo ad identificare e isolare le componenti dovute al blinking oculare, quindi,
utilizzando questo metodo, si rischiava di eliminare anche parte del segnale utile. Per questo
motivo, nelle analisi successive, non abbiamo eseguito la rimozione degli artefatti con tale metodo
in vista di implementare un sistema che lavori in tempo reale.
Ogni algoritmo implementato è stato valutato offline su ognuno dei 4 dataset acquisiti da ciascun
soggetto. Per ogni dataset abbiamo estratto due valori di correct rate di classificazione utilizzando
alternativamente la metà delle features come training e l’altra metà come test.
L’implementazione in matlab® degli algoritmi ci ha permesso di sviluppare un nuovo algoritmo. Il
nuovo algoritmo, denominato nella tesi con l’acronimo SBCSPv3, è un’alternativa al metodo
SBCSP che evita la Recursive Features Elimination attribuendo all’andamento dei punteggi per
ogni sottobanda una maschera in frequenza di un filtro. Tale algoritmo ha dimostrato funzionare
bene solamente quando la sessione di training era consistente. In figura 5 si riporta un esempio
dell’andamento di tali filtri.
Abbiamo valutato inoltre l’effetto che la sparsità dei filtri produce sugli algoritmi che operano una
ottimizzazione frequenziale, sostituendo il calcolo dei filtri CSP con il calcolo dei filtri
SpatiallySparseCSP. Tale introduzione non comporta evidenti miglioramenti in termini di
accuratezza di classificazione, ma solo di localizzazione spaziale delle componenti
elettroencefalografiche associate alle due classi.
�������!��"���� � �� ����������� #� ���������� ������������� �������������������������$���%������������������ ����� ������ ����� ������������$������&���� ����������' �� �%�������������(�
�������� � ��� ��������������� ������ �����
Risultati raggiunti Dall’analisi visiva dei filtri spaziali ottenuti con i vari algoritmi abbiamo costatato che, mentre
per la classe di movimento i filtri spaziali sono tutti simili, la classe di riposo presenta un’elevata
variabilità nella disposizione di tali filtri. Questo si verifica perché la classe di riposo non è
determinata da variazioni specifiche del segnale.
Statisticamente abbiamo analizzato i risultati con test multivariati mediante un’analisi ANOVA
Within-Subjects a due fattori (tipologie di algoritmi, tipologie di feedback) e confronti multipli
post-hoc.
����������
�������)��" �� ������ ����' �� '������������������ �� �� �� ����� �������� ������ ���� ��� �� �������������������*$��+��,"�*' �� +�����*� ��� +�� ������� ������� �$��-�
�� ���������.�'���'�� ��������� ���'��*������������' ����� ����+��
A causa della bassa numerosità dei dati non è stato possibile cogliere differenze statitische
significative (in termini di correct rate di classificazione) tra le performance dei diversi algoritmi. Si
evidenzia comunque nel caso della condizione di feedback visivo (in assenza del feedback
propriocettivo che facilita il compito di immaginazione motoria) una migliore prestazione degli
algoritmi che eseguono una ottimizzazione sia nel dominio temporale sia in quello spaziale rispetto
al classico algoritmo CSP (figura 6).
E’ stata invece riscontrata una differenza statistica significativa nella tipologia di feedback fornito:
quando al soggetto è stato fornito un feedback propriocettivo le classificazioni sono risultate
significativamente migliori di quando è stato fornito un feedback di tipo solo visivo, confermando
che tale stimolazione migliora l’attività di Motor Imagery.
Conclusioni e lavori futuri In questo lavoro di tesi è stato realizzato un sistema BCI basato sul motor imagery per il controllo
di una protesi robotica, sono stati implementati e valutati vari algoritmi per l’estrazione delle
caratteristiche del segnale e, sulla base di questi, ne è stato ideato uno nuovo. L’analisi dei segnali
EEG ha permesso inoltre di implementare un metodo per la rimozione automatica degli artefatti
oculari.
Sviluppi futuri di questo lavoro comprendono di:
- standardizzare l’estensione dell’algoritmo CSP a più di due classi per incrementare le
potenzialità dei sistemi BCI;
- migliorare l’algoritmo proposto con l’introduzione di una analisi statistica nel calcolo dei
punteggi;
- integrare il riconoscimento delle variazioni in potenza dei segnali elettroencefalografici
legate all’immaginazione di movimento con il riconoscimento di altri tipi di variazioni del
segnale EEG relative allo stesso compito (i.e. Bereitshaftspotential);
- migliorare l’algoritmo di rimozione automatica degli artefatti rendendolo più robusto rispetto
a singole epoche rumorose;
- acquisire ed analizzare dati da più soggetti;
- portare tale sistema da soggetti sani a soggetti patologici.
1
1. IL SEGNALE EEG E SISTEMI BCI
In questo primo capitolo si introduce il concetto di interfaccia computer-cervello. A questo
proposito vengono descritte brevemente l’anatomia e la fisiologia del sistema nervoso centrale e le
varie tecniche di acquisizione dei segnali cerebrali con un particolare focus
sull’ElettroEncefaloGrafia.
Infine vengono elencati i segnali di controllo utilizzati nei sistemi BCI basati sui segnali
elettroencefalografici, con particolare riguardo per i fenomeni di sincronizzazione e
desincronizzazione dei ritmi cerebrali correlati ad uno stato mentale.
1.1 Introduzione sui sistemi Brain Computer Interface
Da più di dieci anni la ricerca è volta all’implementazione di sistemi Brain Computer Interface
che, secondo la definizione di Wolpaw (2002), “è un sistema di comunicazione in cui i messaggi e i
comandi che l’individuo invia verso l’ambiente esterno non passano attraverso i normali canali di
output del cervello, rappresentati da nervi periferici e muscoli”. In un BCI basato sull’EEG, per
esempio, i messaggi sono codificati attraverso attività elettroencefalografica.
Un sistema BCI si pone dunque l’obiettivo di decodificare e classificare i segnali derivanti
dall’attività cerebrale al fine di fornire dei comandi per il controllo di varie applicazioni.
Schematicamente possiamo riassumere la struttura di un sistema BCI nei seguenti blocchi:
1. Sorgente: Segnali cerebrali
2. Acquisizione
3. Elaborazione del segnale di controllo
4. Classificazione del comando
5. Risposta
2
������������� ����������� �����������������������������
1.2 Cenni Di Anatomia Del Cervello
Il cervello, insieme al midollo spinale, costituisce il sistema nervoso centrale (SNC) che ha la
funzione di interpretare i segnali che provengono sia dall’esterno sia dall’interno del corpo ed
elaborare le risposte.
Strutturalmente il cervello è diviso in tre parti: una parte mediana detta diencefalo e due parti
simmetriche (emisferi cerebrali) che costituiscono il telencefalo. I due emisferi sono separati, fino al
nucleo di materia bianca detto corpo calloso, dalla scissura interemisferica che, con le scissure di
Rolando e di Silvio, divide ciascun emisfero in quattro lobi: frontale, parietale, temporale e
occipitale (figura 1.2). Ogni lobo è a sua volta diviso da solchi in circonvoluzioni nelle quali si
trovano le aree di proiezione, con funzioni specifiche, motorie e sensoriali.
Nel 1909 Brodmann valutò la distribuzione degli strati neuronali in tutta la corteccia cerebrale e
caratterizzò così 52 aree corticali differenti. Solo molti anni dopo è stata descritta la sede corticale
di molte funzioni ed è stato confermato che i confini di queste zone spesso coincidono con quelli
delle aree descritte da Brodmann. Schematicamente si possono riconoscere le seguenti aree
cerebrali principali: aree sensitive primarie e motorie primarie; aree sensitive secondarie e motorie
secondarie; aree associative.
ACQUISIZIONE SEGNALE
PRE-PROCESSING
FEATURES EXTRACTION
CLASSIFICAZIONE DEL COMANDO
ATTUATORE / BIO-FEEDBACK
3
Tuttavia, il concetto di localizzazione non può essere rigidamente definito, poiché ogni area
cerebrale si integra con le altre in un quadro di coordinamento generale.
Ai fini di questa tesi sono di particolare interesse la corteccia sensoriale e quella motoria le quali
sono tra loro connesse da un ponte di fibre nervose. Nelle aree sensitive primarie avviene la
percezione cosciente degli stimoli elementari. L’area sensitiva primaria più estesa è quella per la
sensibilità somatica generale (corteccia somato-sensoriale), localizzata nella circonvoluzione post-
centrale del lobo parietale. Dal punto di vista strutturale è costituita da una tipica corteccia a sei
strati in cui è molto sviluppato quello granulare. In questa area è possibile riconoscere una
������� ��� � ������ ������ ���������� ���������� � �� ��������� ��� ��������������� ������ ����������������������������������� ��������������������������!"�������������������� ������������������������� ���� ��#������� ������ ������ �� ������ ��� �"� ��� ����� �������� ���������� ���� ��#�������#��������!"����������������#�� ������������� ��������������������������������������������������!"���������#���#�� ����������������������������������������������#���#�!"����������$���������������#������������������"��������������#�"����������������#��%�&�
4
rappresentazione somatotopica della periferia. Ciò significa che la sensibilità somatica di parti
diverse del corpo viene proiettata in porzioni della circonvoluzione post-centrale ben precise e
distinte, la cui estensione corticale è proporzionale alla ricchezza di innervazione del territorio
sensitivo periferico, ma non alla sua estensione. Come vediamo in figura 1.3 è possibile disegnare
un diagramma, detto homunculus sensitivus , equivalente alla rappresentazione del corpo a livello di
quest’area. La corteccia motoria primaria è invece deputata all’esecuzione dei movimenti volontari
ed è prevalentemente localizzata nella circonvoluzione pre-centrale del lobo frontale. Come per la
corteccia sensitiva primaria, anche per la corteccia motoria primaria si può disegnare un
homunculus, in questo caso motorius.
������� �'� � (������� ������ ������ ���� ������ �������������� ������ ����� �������� ��������!� �� ����$����� �������#�� ������!� )���� �������� ������� ���� ���������������������� ����������������� *� �$����������� ���������� ���������� �����#���� �����������������������+���������������������������������������,��������#�������������������������+���������������#����������������������������������
5
Il cervello è costituito da 1010 – 1011 neuroni intimamente interconnessi da assoni e dendriti. Le
cellule neuronali costituiscono, insieme alle cellule gliali, il tessuto nervoso. Le cellule gliali
superano numericamente quelle neuronali e hanno sia una funzione nutritiva, di sostegno e di
protezione per i neuroni sia un ruolo nella trasmissione degli impulsi nervosi.
Esistono diversi tipi di neuroni corticali. Essi non sono distribuiti in maniera casuale sulla
superficie della corteccia cerebrale, ma mostrano un certo ordine di disposizione nella corteccia,
formando i cosiddetti strati corticali. Si possono distinguere due tipi principali di cellule neuronali
corticali: le cellule piramidali e le cellule non piramidali.
1.3 Modalità Di Acquisizione Dei Segnali Cerebrali
Per misurare l’attività cerebrale esistono varie tecniche basate su diversi principi fisici. Di
seguito si riporta una breve descrizione di queste.
fMRI: functional Magnetic Resonance Imaging, tecnica di imaging non invasiva che permette di
rilevare informazioni sul metabolismo cerebrale usando il segnale BOLD (Blood Oxygen Level
Dependent). Grazie alla buona risoluzione spaziale attraverso l’analisi fMRI sono stati condotti
studi sui possibili segnali di controllo per un sistema BCI [5][7]. La bassa risoluzione temporale, le
dimensioni e il costo dell’equipaggiamento non permettono un’implementazione di sistemi BCI
portatili e accessibili a tutti.
MEG: Magneto EncefaloGraphy, misura il campo magnetico prodotto dalle correnti interne.
Presenta una buona risoluzione sia spaziale che temporale che ha permesso lo studio accurato delle
caratteristiche dei segnali cerebrali [6], ma anche questa tecnica, a causa dei piccoli campi
magnetici da misurare e della consistenza del sistema di misura, non è utilizzata per
l’implementazione di sistemi BCI volti al largo consumo ma piuttosto per indagini di tipo
neurofisiologico.
PET: Positron Emission Tomography, misura l’attività metabolica tramite la rilevazione
dell’attività di radioisotopi immessi nel paziente. Non è possibile usare questa tecnica per un
6
sistema BCI a causa della bassa risoluzione spaziale e soprattutto per l’invasività e il costo di
produzione del radiofarmaco.
NIRS: Near-InfraRed Spectroscopy, è una tecnica diagnostica non invasiva ed in tempo reale, in
grado di misurare l’ossigenazione tissutale utilizzando strumentazioni portatili, relativamente a
basso costo. Questa tecnica potrà essere usata in futuro per applicazioni BCI [3][4].
ECoG: ElectroCorticoGrafia, tecnica con ottima risoluzione spaziale e temporale, bassa
vulnerabilità agli artefatti muscolari e ambientali ma, data la sua invasività, non è pensabile di
applicarla per sistemi BCI portatili sebbene negli ultimi dieci anni siano stati sviluppati sistemi che
utilizzano l’ECoG anche su soggetti umani [8][9][10][11].
EEG: ElettroEncefaloGrafia, grazie alla buona risoluzione temporale, alla facilità di uso e alla
non invasività è la scelta più comune per l’acquisizione dati nei sistemi BCI anche se porta con se lo
svantaggio di una bassa risoluzione spaziale dovuta alla dispersione del segnale nel mezzo
conduttore.
-���������������������%�&
-��
���
���
���
�����
����
%��
&
-���������������������%�&
-��
���
���
���
�����
����
%��
&
������� �.� � ���������� ��� ��#����� ������ �� ��� ��,���������� ��� �������� //0� ������� ��������������������������� �����������1!������������������������� �����������2!�
7
1.4 Introduzione all’ElettroEncefaloGrafia
L’EEG registra l’attività cerebrale risultante sulla superficie dell’encefalo. I segnali
elettroencefalografici (EEG) non derivano dalla somma dei potenziali di azione degli assoni
neuronali ma dai potenziali dendritici incrociati delle cellule piramidali che sono orientate
verticalmente nella corteccia, con i loro dendriti disposti parallelamente uno all’altro. La variazione
di potenziale di una parte della cellula rispetto ad un’altra crea un campo che imprime una corrente
extracellulare, pertanto una differenza di potenziale risulta misurabile in superficie.
La prima testimonianza relativa a registrazioni di attività bioelettriche cerebrali risale al 1875,
quando Richard Caton pubblicò i risultati dei suoi esperimenti su animali. Successivamente, nel
1924, Hans Berger riuscì ad ottenere la prima registrazione di segnali elettrici cerebrali su un uomo,
usando strisce metalliche attaccate allo scalpo del soggetto come elettrodi e un sensibile
galvanometro come strumento di registrazione. Berger fu il primo ad osservare i pattern temporali
delle onde elettriche cerebrali e dal 1924 al 1938 egli pose le basi per molte delle presenti
applicazioni dell’elettroencefalografia e coniò il termine elettroencefalogramma, usato oggi
comunemente per descrivere la registrazione dei potenziali elettrici cerebrali [1].
1.4.1 Standard 10-20
Ad oggi è consolidato l’uso dello standard 10-20 per la registrazione dell’EEG che consiste nel
trovare il centro della testa alla metà della lunghezza nasion-inion e collocare gli elettrodi lungo
cinque linee trasversali a distanze pari al 10% o al 20% di tale lunghezza.
8
1.4.2 Ritmi EEG
L’attività ritmica del cervello è caratterizzata da frequenze tipiche la cui composizione armonica
è generalmente complessa.
Cinque tipi di onde sono particolarmente importanti:
ALPHA (�). Sono nel range frequenziale tra gli 8 e i 13 Hz con 30-50 �V di ampiezza e sono
caratteristiche di condizioni di veglia e di riposo mentale, ma non sono presenti nel sonno fatta
eccezione per lo stadio REM .
BETA (�). Variano tra 13 e 30 Hz e hanno voltaggi bassi tra 5-30 �V. Le onde Beta sono
associate a stati di attenzione.
THETA (�). Le onde Theta sono presenti tra 4 – 7 Hz con ampiezze in genere maggiori di 20
�V. Sono onde associate allo stress emozionale come la frustrazione e il disappunto ma sono
presenti anche in stati di ispirazione creativa e di profonda meditazione. Nei soggetti adulti in fase
di veglia l’attività Theta è generalmente assente, ma appare durante il sonno o l’iperventilazione,
mentre si trova abitualmente nei bambini.
��������3��-��������������������������������45�4�������,���������������������//0�
9
DELTA (�). Presentano una frequenza compresa tra 0.5 e 4 Hz ; sono presenti nel bambino ma
non in condizioni fisiologiche nello stato di veglia nell'età adulta; compaiano nell'anestesia generale
ed in alcune malattie cerebrali e sono predominanti durante le fasi del sonno.
MU (�). Hanno contenuto frequenziale tra i 7 – 12 Hz. Sono onde associate all’attività motoria e
sono registrate maggiormente nei pressi della corteccia motoria. Diminuiscono con il movimento o
con l’intenzione di movimento. La differenza tra le onde � e le onde � risiede nel fatto che mentre le
prime sono misurate sull’area motoria le � sono misurate sull’area occipitale. Il ritmo �-occipitale si
si distingue molto bene nel tracciato elettroencefalografico quando il soggetto chiude gli occhi e
riflette uno stato di inattivazione della corteccia visiva, mentre il ritmo � (denominato anche Sensori
Motor Rhithm, SMR) è molto più debole in ampiezza e lo si riesce a vedere solo dopo un accurato
signal processing.
1.4.3 Applicazioni EEG
Dal punto di vista diagnostico l'elettroencefalogramma viene generalmente eseguito a causa di
traumi cranici, infezioni cerebrali, problemi di memoria, disturbi cerebrovascolari, disturbi del
sonno ed inoltre ha un’elevata sensibilità nella diagnosi di epilessia.
Dal punto di vista della ricerca dal 1974 si fanno i primi passi verso la diretta comunicazione tra
computer e cervello attraverso l’elaborazione di segnali elettroencefalografici [19].
1.5 Tipologie di sistemi BCI basati su segnali EEG
Possiamo classificare i sistemi BCI in base a due principali caratteristiche:
esogeni/endogeni a seconda della necessità di avere o meno uno stimolo esterno per elicitare il
segnale di interesse ;
dipendenti/indipendenti riferito alla dipendenza della stimolazione delle normali vie di uscita
(sensi) per elicitare il segnale di interesse.
10
Generalmente i BCI di tipo esogeno, rispetto a quelli endogeni, hanno il vantaggio di essere più
robusti alla variabilità inter-individuale e di avere un elevato rate di trasferimento dell’informazione
a discapito della necessità di avere un equipaggiamento per la stimolazione e quindi un utilizzo
meno confortevole.
In un sistema BCI indipendente le normali vie di uscita non hanno un ruolo essenziale quindi
anche persone con gravi disabilità sono in grado di utilizzarlo. Questi motivi fanno sì che il focus
della ricerca siano i sistemi BCI esogeni e indipendenti.
Inoltre possiamo distinguere sistemi BCI sincroni da sistemi asincroni ( self paced ) a seconda se
l’utente è vincolato da un preciso istante scandito esternamente in cui fornire il comando oppure è
libero di fornirlo quando vuole.
La tipologia di BCI dipende molto dal protocollo di acquisizione e quindi dal tipo di segnale di
controllo che si intende utilizzare.
1.5.1 Segnali di controllo
Di seguito si riporta una breve descrizione dei vari segnali di controllo maggiormente utilizzati
nei sistemi brain computer interface:
1.5.1.1 Potenziali Evocati
I Potenziali Evocati sono una variazione di voltaggio del tracciato EEG a seguito di una
stimolazione di una via sensoriale. Poiché tali variazioni sono piccole rispetto all’intero tracciato si
rilevano attraverso un processo di media (averaging) su più trial che permette di ridurre le
variazioni che non sono sincronizzate con lo stimolo. Così facendo l’onda evocata media si
evidenzia nettamente e si caratterizza per la polarità (Positiva o Negativa) e per la latenza dallo
stimolo.
I parametri analizzati nello studio dei potenziali evocati sono quindi l’ampiezza, la latenza e la
topografia (da quale regione dello scalpo proviene).
11
Si possono distinguere i potenziali evocati in due tipi fondamentali:
- Stimolo-correlati: sono dipendenti dalle caratteristiche fisiche dello stimolo e hanno una
latenza dipendente dall’ambito temporale della percezione.
- Evento-correlati o ERPs (Event Related Potentials): dipendono dal contenuto informativo dello
stimolo e dal contesto psicologico e compaiono solamente quando il soggetto presta attenzione allo
stimolo.
Lo studio di questi tipi di potenziali è incominciato attorno agli anni settanta e nel corso del
tempo per ogni componente è stato dato un nome che ne riassume la polarità e la latenza.
Nell’ambito dei sistemi BCI il potenziale ERP più usato è stato il P300 grazie a Farwell e
Donchin [12] che nel 1988 inventarono il P300 speller che consiste nel presentare all’utente una
matrice di lettere 6x6 le cui righe e colonne lampeggiano a frequenze differenti e attraverso un
operazione di media sul tracciato EEG dell’utente viene individuata la lettera alla quale questo
ultimo presta attenzione.
Su questo tipo di potenziale la ricerca è tuttora attiva [13][14].
1.5.1.2 Visual Evoked Potential: VEP
Rappresentano la risposta (di tipo esogeno) registrata nella zona occipitale a seguito di stimoli
visivi. Gli SSVEP (Steady State Visual Evoked Potential) differentemente dai VEP presentano uno
stimolo costante ad una determinata frequenza. Questa tipologia di risposta è oggi la preferita per il
comando di on/off: ad esempio se presentiamo all’utente due LED che si illuminano a frequenze
differenti (i.e. 8Hz e 13Hz) possiamo attivare o disattivare un certo tipo di controllo a seconda delle
risposte cerebrali ad una o all’altra frequenza [15].
1.5.1.3 Slow Cortical Potential: SCP
Il tracciato EEG è in parte composto da lenti cambiamenti di voltaggio originati negli strati
superficiali della corteccia dai dendriti dei neuroni piramidali [16]. Queste variazioni si identificano
12
in frequenze sotto i 10 Hz includendo armoniche molto vicine alla continua. Gli SCP negativi sono
in genere associati con il movimento e con altre funzioni che implicano l’attivazione corticale,
mentre SCP positivi sono associati ad una diminuzione dell’attivazione corticale[17]. Ad oggi è
dimostrato che gli utenti possono imparare a controllare questi potenziali per utilizzare sistemi BCI.
Purtroppo la fase di apprendimento da parte del soggetto può durare alcune settimane e il rate di
trasferimento dell’informazione non è elevato.
1.5.1.4 Fenomeni di sincronizzazione/desincronizzazione evento correlati
Sino dai tempi di Berger (1930) è stato dimostrato che alcuni tipi di eventi possono bloccare o
“desincronizzare” l’attività delle onde alpha nell’andamento del segnale EEG. Un esempio di
questo fenomeno fu descritto da Peneld e Jasper (1954) [20] a seguito di un esperimento condotto
con Albert Einstein come soggetto al quale venne richiesto di fare un calcolo matematico:
“…Einstein was found to show a fairly continuous alpha rhythm while carrying out rather
intricate mathematical operations, which, however, were fairly automatic for him. Suddenly his
alpha waves dropped out and he appeared restless. When asked if there was anything wrong, he
replied that he had found a mistake in the calculations he had made the day before. He asked to
telephone Princeton immediately.”
In un esperimento del 1970, condotto da Lopes da Silva misurando l’ECoG su di un cane, fu
dimostrato che quando questo dormiva l’attività delle onde alpha, beta e gamma era comune in tutta
la corteccia, mentre quando il cane era sveglio e prestava attenzione a qualche stimolo questo tipo
di attività era molto più variabile sia nello spazio che nella frequenza.
Questo tipo di fenomeno fu denominato Event Related De/Synchronization (ERD/ERS) da
Pfurtscheller a Aranibar nel 1979 [22]. A differenza dei tradizionali potenziali evento correlati
(ERPs) che possono essere considerati come risposte post-sinaptiche dei principali neuroni
piramidali a seguito di uno stimolo, i fenomeni ERD/ERS possono essere visti come generati da
cambiamenti dei parametri che controllano le oscillazioni nelle reti neuronali [21].
13
I principali fattori che determinano le proprietà delle oscillazioni di un tracciato EEG sono:
- Le proprietà intrinseche della membrana dei neuroni e le dinamiche dei processi di sinapsi;
- La forza e l’estensione delle interconnessioni tra gli elementi della rete di neuroni.
Possiamo assumere che gli ERPs rappresentano le risposte dei neuroni corticali dovute a
cambiamenti nelle attività afferenti, mentre gli ERD/ERS riflettono i cambiamenti nelle interazioni
locali tra i principali neuroni e interneuroni che comandano le componenti frequenziali del tracciato
EEG [23].
I fenomeni ERD/ERS, a differenza degli ERPs, sono definiti “not phase-locked” a causa della
forte dipendenza dal contenuto frequenziale.
Seguendo le raccomandazioni di Pfurtscheller e Lopes da Silva [23], per riferire un ERD/ERS in
un tracciato EEG dobbiamo prima di tutto specificare la banda frequenziale nella quale ha senso
parlare di desincronizzazione solo se la baseline (misurata qualche secondo prima dell’evento)
presenta un chiaro picco nello spettro di potenza; analogamente ha senso parlare di sincronizzazione
se l’evento risultante mostra una componente ritmica nello spettro di potenza che non era presente
nella baseline.
Questi autori suggeriscono anche il modo per quantificare i fenomeni di ERD/ERS [24]. Per
diminuire l’errore e rendere più robusta la misura è fortemente consigliato avere un numero di trial
event-related maggiore di dieci. I passi per la quantificazione dell’ERD/ERS sono:
a- collezionare l’andamento dell’elettrodo di interesse nelle varie epoche
b- filtrare il segnale nella frequenza di interesse,
c- calcolare la potenza elevando al quadrato i campioni filtrati,
d- calcolare la media su tutti i trials
e- eseguire uno smooth dei dati nel tempo.
f- Infine, indicando con A la potenza nel periodo temporale successivo all’evento e con R la
potenza nel periodo di baseline possiamo calcolare il valore della percentuale di ERD/ERS come
ERD% = (A – R)/R * 100.
14
I passi sopraccitati per la quantificazione dell’ERS/ERD sono illustrati in figura 1.6. Tale figura
è l’analisi di un’epoca dove il soggetto immaginava il movimento della mano destra. Il dataset
proviene da una acquisizione da noi eseguita in laboratorio e il canale preso in considerazione è
solamente il C3.
a
b
c
d
e
f
��������6��-�����������������������������������������,���������������������������������������������� ����� 7� ������� ���$�������������� ��� ��#������� ������ ����� ������� ��� �!� �����#������$��������������$�����������'��������#��������� �����������������1���������������������� �!��������� ��������������������� �!��������� ��� ������������������������45��8�� ��� �!��������� ���,����������������������������� �!������������������������������������� �������������� �!�+���������������� ��� ����� � ���� ����� ���� ���� ��������� ������� ��� �� �������� ������� ��� �!� �������� ���,��������������� ������ ������������������� ���������� ����� 95-!:-;�44� ��#�� ��� �������� �������$�������������������������������������������$�������������������������5�#�����)����#������+�������������������������
15
Generalmente possiamo considerare questi fenomeni evento-correlati come l’incremento o il
decremento di potenza in una determinata banda. Per questo motivo la cosa più importante da fare
in un analisi di ERD/ERS è determinare i limiti del filtro passa banda. A questo proposito esistono
due metodi principali:
1- determinare le frequenze più reattive confrontando gli spettri di potenza di due segmenti
temporali presi rispettivamente nel periodo pre-evento e post-evento.
2- fare una analisi tempo-frequenza attraverso i classici metodi (spettrogramma, wavelet)
Il primo metodo consiste nel comparare due densità spettrali di potenza calcolate su periodi di
circa un secondo e mediate su tutti i trial. È possibile eseguire la comparazione facendone la
differenza per ogni trial e graficando la media di questa differenza all’interno di un intervallo di
confidenza del 99% (pari a tre deviazioni standard). Di seguito, in figura 1.8, si riporta un esempio
di questo metodo applicato ad un dataset dove il soggetto immagina di muovere la mano destra e
l’elettrodo considerato è il C3 situato nell’emisfero sinistro in corrispondenza della corteccia
sensori-motoria.
%8�&�
%8�&�
��������<�� ���������������������������������������,������������ �������������� ������������������������������� ������� ��� ��#������� ����������� ������ ����� ������� =����� ������� �������� ����� ���������� ��� ������>� ���������� ��� �������� ���������� ������ ������������ �����������������������������������������������1�=��������������������+��������������#���������������������� ��� ���� ������>� ���������� ��� �������� ���$�������� ����$�����#����� ��� ����������� ��� ������#���������������������������#����������#�����������$�����#������������������������������������������������������������������������������������
16
Il secondo metodo fa uso di quelle tecniche che forniscono una rappresentazione in un piano
tempo-frequenza, nel senso che localizzano temporalmente le componenti spettrali. Di queste
tecniche le più importanti sono la Short Time Fourier Trasform (STFT) e l’analisi Wavelet. La
prima analizza il segnale calcolando la trasformata di Fourier di segmenti di uguale durata
temporale. Tale operazione, se la finestra di osservazione è rettangolare, può essere considerata
come campionamento dello spettro continuo mediante una funzione sinc (trasformata di Fourier
della finestra rettangolare). La risoluzione frequenziale è quindi inversamente proporzionale alla
durata temporale della finestra ed è costante su tutta la banda frequenziale. L’analisi Wavelet supera
il limite di risoluzione fissa della STFT costruendo il piano tempo-frequenza analizzando il segnale
attraverso versioni scalate e traslate di una funzione chiamata “wavelet madre”. Questo algoritmo
permette di rispettare il teorema di Nyquist alle varie frequenze.
Di fondamentale importanza è normalizzare la rappresentazione sul periodo di baseline per
evidenziare i decrementi o gli incrementi di potenza.
Di seguito si riporta la visualizzazione tempo-frequenza con la tecnica STFT dell’elettrodo C3 di
un dataset con il compito di motor imaging della mano destra.
[
��������?��0����������������,�������������������������������������������� ��������������������������������������������7���@���������������������������1�������������������A$����������������������������������+��$�����������'��
17
È ben noto che l’ampiezza delle fluttuazioni diminuisce all’aumentare della frequenza: questa
relazione è valida sia per frequenze relativamente distanti tra loro (basse beta ~20Hz e oscillazioni
gamma 40Hz) sia per frequenze molto vicine tra loro come le alpha a 10Hz e a 12Hz. Per questo
motivo l’analisi della banda individuale deve essere eseguita considerando piccole bande
frequenziali per evidenziare meglio le differenze anche a frequenze più alte: la variabilità della
banda alpha essendo maggiore in ampiezza potrebbe coprire quella della banda beta.
1.5.1.4.1 Fenomeni ERS/ERD: Background Fisiologico
L’incremento ed il decremento della potenza in una determinata banda correlato a eventi sensori-
motori e di immaginazione motoria è un campo di indagine ancora aperto sebbene siano stati
condotti numerosi studi a riguardo. Generalmente possiamo dire che l’ampiezza di specifici ritmi
corticali cambia a seguito di determinati eventi[24] e che questo comportamento è diverso nei due
emisferi cerebrali (concetto di lateralizzazione [29]).
È ormai consolidato che il movimento di alcune parti del corpo è preceduto dalla
desincronizzazione (blocking) delle onde alpha (mu) 8-13Hz e delle onde beta 14-25Hz e la
cessazione di tale movimento è spesso seguito da una sincronizzazione delle onde beta nella regione
precentrale del cervello [30]. La lateralizzazione dell’attività neurale correlata al movimento è
generalmente associata ad una significativa desinscronizzazione sul lato controlaterale del
movimento e una significativa sincronizzazione nel lato ipsilaterale al termine del movimento. Ad
esempio, riscontriamo una diminuizione di potenza nelle onde alpha e beta circa un secondo prima
che venga eseguito un movimento nella zona controlaterale che diventa bilaterale durante
l’esecuzione del movimento e, alla fine del movimento, è associato un aumento di potenza
ipsilaterale. Questo fenomeno è riscontrato ampiamente sia nel caso di movimenti eseguiti che nel
caso di movimenti immaginati.
18
Lo scenario appena descritto è un quadro semplificato di ciò che accade, in realtà il fenomeno è
molto più complesso a causa della vastità di esperienze senso-motorie possibili, della variabilità
interindividuale e delle condizioni ambientali.
Ad esempio la durata del movimento (breve o continuo) non mostra significative differenze sulle
desincronizazioni mu e beta prima dell’esecuzione ma mostra differenze sul ritorno alla baseline
(sincronizzazione): la potenza nella banda mu ritorna più velocemente al valore di base nel caso di
movimento continuo piuttosto che nel caso di movimento breve e, mentre in quest’ultimo caso non
si nota una significativa differenza nella lateralizzazione, nel caso di movimento continuo la beta
ERS è situata maggiormente nell’emisfero ipsilaterale [25].
Gli ERD che compaiono prima del movimento e durante il movimento immaginato potrebbero
riflettere uno stesso tipo di preparazione o preselezione delle reti neuronali nell’area sensori
motoria.[26].
Il ritmo mu si presenta in assenza di elaborazione di informazioni sensoriali o di uscite motorie.
Per questo porta a pensare che tale ritmo rifletta uno stato di “idling” nella corteccia, quindi è stato
ipotizzato che gli ERS a 10Hz sono prodotti dalla de-attivazione delle aree corticali e potrebbero
rappresentare un’attività inibitoria della corteccia[24][26][32].
Oltre ad aver osservato il presentarsi di fenomeni ERD prima e durante il movimento e fenomeni
ERS alla fine dello stesso, sono stati osservati ERD e ERS allo stesso tempo ma in differenti
locazioni dello scalpo. Questo fenomeno è stato denominato “focal ERD/surround ERS”[33] ed è
interpretato come una inibizione della rete neuronale corticale nella zona non direttamente
interessata nell’esecuzione del task.
I fenomeni di ERS nella banda beta che si verificano al termine del movimento (beta rebound
post movement) si presentano con distinte distribuzioni spaziali dopo differenti tipi di motor-
imagery. Pfurtscheller e Escalante nel 2009 hanno trovato che il beta rebound dopo un rapido
movimento dei piedi (sia eseguito che immaginato) è un fenomeno abbastanza stabile e potrebbe
essere utilizzato come un ‘Brain Switch’ nei sistemi BCI [34].
19
Il vantaggio di questo tipo di segnale è che mostra un pattern simile sia per movimenti attivi che
passivi, immaginati o indotti con stimolazione elettrica o vibrotattile.
L’ingresso di un sistema BCI deve essere “Affidabile e significativamente correlato a stati
specifici del cervello ” [31].
In questo lavoro di tesi abbiamo usato il segnale di controllo chiamato “Motor Imagery” (MI),
definito come una simulazione mentale del movimento, che ha mostrato essere una strategia
mentale efficiente per le applicazioni dirette di BCI [49].
20
2. ALGORITMI PER L’IDENTIFICAZIONE DEI FENOMENI ERD/ ERS
IN APPLICAZIONI BCI
Nel primo capitolo abbiamo gia discusso circa l’identificazione dei fenomeni di sincronizzazione
e desincronizzazione ma sempre prendendo in analisi un singolo elettrodo ed una singola banda
frequenziale, metodo che consente in maniera limitata l’estrazione delle caratteristiche che
permettono la classificazione di due diversi stati mentali.
Quello che vorremmo idealmente è un metodo di estrazione delle caratteristiche che sia quanto
più insensibile alla variabilità inter ed intra individuale. A tale proposito recentemente sono stati
implementati diversi algoritmi con lo scopo di individuare sia spazialmente che temporalmente le
caratteristiche salienti di un segnale EEG che permettano di distinguere due diversi stati mentali del
soggetto utilizzatore di un sistema BCI. Gli stati mentali presi in considerazione sono per la
maggior parte il movimento immaginato di varie parti del corpo tra cui: la mano destra, la mano
sinistra, i piedi e la lingua. Queste parti del corpo sono state scelte a causa della loro vasta
rappresentazione sulla corteccia sensori-motoria.
Di seguito si riporta l’analisi degli algoritmi presenti in letteratura volti all’estrazione delle
caratteristiche per la classificazione di due diversi stati mentali. Tali algoritmi sono recenti varianti
dell’algoritmo CSP (Pfurtscheller et al. 1999) che sarà descritto nel primo paragrafo di questo
capitolo.
Diverse estensioni dell’algoritmo CSP si pongono diversi obiettivi. La maggior parte è incentrata
nell’ottimizzazione della localizzazione sia spaziale che frequenziale delle caratteristiche salienti
delle classi da discriminare. Altri, come il “SCSP” e l’ “I-CSP”, hanno l’obiettivo di rimuovere le
componenti meno rilevanti dai filtri spaziali. Altri ancora, come il d-CSP, hanno l’obiettivo di
ottimizzare ulteriormente la localizzazione spaziale agendo sulla formulazione matematica del
problema.
21
2.1 Common Spatial Patterns: CSP
Con il termine “Common Spatial Patterns” si intende un metodo per costruire filtri spaziali che
portino a nuove serie temporali con la proprietà di avere varianza massima per una condizione e
nello stesso tempo minima per l’altra.
Questo metodo è stato introdotto da Koles et al. nel 1990 [35] con lo scopo diagnostico di
distinguere automaticamente una popolazione di individui sani da una di individui malati. In seguito
questo algoritmo è stato utilizzato per estrarre componenti anormali nel tracciato EEG [36] e per la
localizzione delle sorgenti (Koles et al. 1995).
Dal 1999 grazie al lavoro di Muller, Pfurtscheller e Flyvbjergc [48] è stato utilizzato con
successo nella discriminazione di due diversi stati mentali.
È un approccio di tipo esplorativo (o data-driven cioè che non richiede la conoscenza a priori del
modello probabilistico) basato sulla diagonalizzazione simultanea delle matrici di covarianza
relative alle due classi da discriminare.
Il fine di tale metodo è la costruzione di una matrice di proiezione che proietti i segnali dallo
spazio originale dei sensori ad uno spazio surrogato dei sensori con la proprietà che il primo e
l’ultimo canale abbiano rispettivamente varianza minima (o massima) per una condizione e varianza
massima (o minima) per l’altra.
Per la costruzione della matrice di proiezione è necessario disporre di un dataset di training dove
i trials siano classificati (etichettati) per le due condizioni da discriminare.
Prendiamo Xdi � ℜ NxT i dati grezzi del trial i nella condizione d � {a,b} ( che in un esperimento
di motor imagery possono essere il movimento della mano destra e il movimento della mano
sinistra) come una matrice NxT con N i canali dell’EEG e T gli istanti temporali relativi ad un trial.
Un istante temporale può essere quindi visto come un punto in uno spazio N-dimensionale e un
tracciato EEG come la distribuzione di tali punti. Se eliminiamo la componente continua filtrando
con un filtro passa alto, la media di tale distribuzione è nulla. Questo ci costringe a cercare
22
informazioni caratteristiche nei momenti del secondo ordine come la covarianza. Le matrici di
covarianza vengono calcolate e normalizzate nel seguente modo
Rai = Xa
i XaiT / trace(Xa
i XaiT)
Rbi = Xb
i XbiT / trace(Xb
i XbiT)
La normalizzazione sulla somma della diagonale della matrice di covarianza è eseguita in modo
da eliminare le variazioni intertrials dei valori assoluti dei momenti.
Calcolate le matrici di covarianza per ogni trial queste vengono mediate in modo da avere le
matrici di covarianza per le due condizioni a e b:
Ra = <Rai> trial
Rb = <Rbi> trial
A questo punto possiamo calcolare la matrice di covarianza composta :
Rc = Ra + Rb
È utile adesso cercare la matrice di sbiancamento della covarianza composta cioè rendere tale
matrice ortogonale in modo che la sua covarianza sia la matrice di identità. Per cercare la matrice di
sbiancamento si fattorizza la matrice nei suoi autovettori :
Rc = Bc � BcT
Dove Bc (NxN) sono gli autovettori tali che BcBcT=I NxN e � (NxN) è la corrispondente matrice
diagonale degli autovalori. La matrice di sbiancamento che equalizza la varianza nello spazio
attraversato dagli autovettori è ottenuta nel seguente modo:
W = �-1/2 BcT
Ora si trasformano le matrici di covarianza individualmente in modo da portarle nello stesso
spazio e che condividano quindi gli stessi autovalori:
Sa = W Ra WT
Sb = W Rb WT
Le matrici Sa e Sb condividono gli stessi autovalori dal momento che
Sa + Sb = W Rc WT
23
Se decomponiamo queste matrici otteniamo quindi:
Sa = U �a UT
Sb = U �b UT
I corrispondenti autovalori sono tali che �a + �b = I dove con I si intende la matrice di identità.
Di conseguenza la proiezione dell’EEG sbiancato su U ci darà vettori caratteristici ottimali per la
discriminazione delle due popolazioni rispetto alla loro varianza.
La matrice di proiezione di interesse è quindi:
PT = UT W
E le serie temporali si ottengono filtrando nel seguente modo:
Z = PT X
Invertendo questa equazione otteniamo nuovamente i dati originali dai coefficienti di espansione:
X = (P -1)T Z
In questo caso le colonne della matrice P sono i filtri spaziali (righe della matrice PT) e le righe
della matrice A=(P -1) sono i pattern spaziali. Ogni filtro pj estrae l’attività del pattern aj.
Se avessimo indicato con Z = WX il filtraggio spaziale avremmo avuto le righe della matrice W
come filtri spaziali e le colonne della matrice W–1 come patterns spaziali.
Questa trattazione può essere riassunta brevemente con la simultanea diagonalizzazione delle
due matrici di covarianza normalizzate �a e �b :
P T �a P = �a
P T �b P = �b
Dove la matrice P è determinata dalla condizione �a + �b = I , che è risolvibile risolvendo il
problema denominato “generalized eigenvalue problem” :
24
�a p = � �b p
Indicando con � j (d) gli elementi diagonali di �(d) nella condizione (d) troviamo la condizione
particolare che: � j a + � j
b = 1. Quindi un valore prossimo a 1 di � j a (� j
b) indica che il
corrispondente filtro spaziale pj produce una alta varianza nella condizione a (b) e una varianza
piccola per la condizione b (a).
Koles [36] spiega che la decomposizione appena vista offre una base comune per le due
condizioni in quanto il segnale filtrato xCSP(t) = PTx(t) è incorrelato in entrambe le condizioni, la cui
incorrelazione implicherebbe indipendenza nel caso di variabili aleatorie Gaussiane.
Un’altra visione dello stesso problema si ottiene valutando le attività comune e quelle
differenziali nel seguente modo:
Ac = �a + �b
Ad = �a – �b
Dove con Ac indichiamo l’attività comune alla quale non siamo interessati e con Ad si intende
l’attività discriminativa (i.e. la differenza della potenza di banda tra le due condizioni). Quindi una
soluzione per questo problema si può ottenere risolvendo lo stesso problema generalizzato degli
autovalori :
maximize{ p � ℜ C } [pT Ad p / pT Ac p ]
Pertanto possiamo notare che i filtri pj hanno l’obiettivo di massimizzare le differenze tra �ja – �j
b
(assumendo come sopra che � j a + � j
b = 1).
Abbiamo precedentemente stabilito che una volta ricavata la matrice P di proiezione, ordinata
secondo valori crescenti degli autovalori, si ottiene la proiezione dei dati nello spazio degli elettrodi
surrogati.
Z = PT Xi
Questi nuovi dati Z (coefficienti di espansione) hanno la proprietà che la varianza della prima
riga è massima per i trials del gruppo a ed allo stesso tempo è minima per i trials del gruppo b
25
mentre per l’ultima riga succede l’opposto. Quindi, ai fini della classificazione, utilizziamo solo m
filtri e le features che estraiamo sono rappresentate dalla varianza dei coefficienti di espansione
normalizzata in scala logaritmica. Indicando con varip la varianza della p-esima riga di Zi il vettore
delle features per il trial i è composto dalle varianze normalizzate delle prime e delle ultime m
righe:
fpi = log ( varp
i / sum(varip=1:m; N-m : m )
La trasformazione logaritmica è eseguita con lo scopo di approssimare la distribuzione degli
elementi di f i ad una distribuzione normale.
La varianza estratta per segnali prefiltrati passa banda corrisponde alla potenza spettrale in tale
banda. La lunghezza dell’intervallo che usiamo per estrarre le features è scelta in base a un
compromesso: finestre temporali brevi offrono ad un ridotto tempo di ritardo di estrazione delle
features a scapito di una più elevata sensibilità a disturbi, mentre finestre temporali lunghe
corrispondono ad un maggiore ritardo nell'estrazione delle features ma anche ad una maggiore
robustezza a disturbi transitori..
Data la linearità del metodo l’operazione di filtraggio in frequenza può essere eseguita sia prima
che dopo il filtraggio spaziale, anche se questo non sempre applicabile a causa della stima non
ottima della matrice di covarianza [37].
Per l’interpretazione fisiologica dei filtri spaziali (colonne della matrice P) e dei patterns spaziali
(colonne della matrice (P-1)T ) bisogna ricordare che l’algoritmo CSP non è volto alla separazione di
sorgenti ma a massimizzare la varianza per una classe minimizzandola per l’altra. Ad esempio,
considerando un filtro che massimizza la varianza per la classe movimento dei piedi e la minimizza
per la classe movimento della mano destra, un focus di tale filtro sull’emisfero sinistro
(preponderante per il movimento della mano destra) potrebbe avere diverse spiegazioni: può essere
originato da un ERD causato dal movimento della mano destra, da un ERS causato dal movimento
dei piedi oppure dalla somma dei due effetti (anche se per il compito di discriminazione questo
ultimo caso sarebbe dannoso [37]).
26
Oltre al numero di filtri che si possono scegliere (nella maggior parte degli studi vengono usati
solamente il primo e l’ultimo), altro parametro fondamentale nell’applicazione dei CSP è la banda
frequenziale entro la quale filtriamo il segnale. Una scelta molto comune è quella di filtrare il
segnale in un intervallo 7-30Hz in modo da includere i fenomeni di desincronizzazione e
sincronizzazione dei ritmi alpha e beta. Con lo scopo di aumentare l’accuratezza della
classificazione e di migliorare l’approccio a sistemi BCI basati su algoritmi CSP sono stati proposte
diverse varianti di tale metodo incentrate sull’ottimizzazione delle frequenze da analizzare.
Un approccio di tipo “brute force” implementato è quello di aumentare il numero dei canali EEG
con gli stessi canali filtrati a bande differenti. Questo approccio porta a dei buoni risultati tuttavia il
numero di frequenze analizzate diviene elevato (solitamente maggiore di 50 bande) con un
conseguente notevole aumento del costo computazionale.
2.2 Common Spatial Spectral Patterns: CSSP
Con lo scopo di ridurre il tempo di training e di selezionare automaticamente le frequenze ottime
alla discriminazione nel 2005 è stata introdotta una nuova versione dell’algoritmo CSP [38]. Tale
versione è un’estensione dei CSP nello spazio delle fasi sfruttando il concetto di caos deterministico
basso dimensionale sebbene i sistemi naturali deterministici e a basse dimensioni siano pochi. Nel
senso matematico un sistema deterministico significa che esiste un sistema autonomo definibile
attraverso una equazione differenziale � = f(y) in uno spazio � � ℜ D del quale possiamo misurare
una singola quantità s = h(y).
Questo sistema possiede D variabili naturali delle quali possiamo misurare solo una proiezione
non lineare in un valore scalare. Per recuperare le proprietà deterministiche di questo sistema
dobbiamo ricostruire uno spazio della fase equivalente allo spazio �. A questo scopo ci viene in
aiuto il metodo chiamato “time delay embedding method” che consiste nel costruire un nuovo
vettore di misura ricavato dal vettore originale ritardato di un tempo �. Lo scopo dei CSSP non è di
27
ricostruire l’intera dinamica del segnale EEG ma di estrarre caratteristiche robuste. A tale scopo
l’equazione finale del “classico” algoritmo CSP si trasforma come segue:
Zk = P(0)X k + P( �)�
( �)X k
Dove l’operatore �( �) ha la proprietà di ritardo di un tempo �.
Per agire in questo modo al segnale EEG dobbiamo concatenare il segnale EEG ritardato come
segue:
� = [ X k ; �( �)X k ]
Adesso, chiamando p la i-esima riga della matrice di decomposizione della matrice P* = [P( �)
P(0)] possiamo scrivere:
�
�
=
=
���
����
�+=
=+=
=+=
C
c
kc
c
ckc
c
cc
C
c
kcc
kcc
kkki
Xp
Xp
XpXp
XpXpZ
1
)()()0(
1
)()()0(
)()()0(ˆ
ττ
ττ
ττ
δγγ
γ
δ
δ
Dove (�c) c=1,..,C è un filtro spaziale puro e ��
�
�
��
�
� −
c
c
c
c pp
γγ
ττ )(1)0(
,0,...,0,876
definisce il filtro FIR per ogni
elettrodo c . I coefficienti di �c sono definiti così:
( ) ( )( ))0(
2)(2)0(
c
ccc
psign
pp τ
γ+
=
A questo punto può essere parametrizzato il filtro FIR con un angolo �c(�) come segue:
( )( )
( ) �
��
−∈���
����
�=Φ
2,
2tan
0 ππτ
τ
c
cc p
pa
Questo metodo aggiungendo nuovi canali al tracciato, ottenuti ritardando di un tempo � gli
originali e processandoli con un algoritmo CSP riesce a calcolare contemporaneamente sia i classici
filtri spaziali che nuovi semplici filtri FIR. In questo modo ottiene l’ottimizzazione simultanea di
filtri spaziali e frequenziali. Tuttavia, con solo un tempo di ritardo, la flessibilità del filtro in
frequenza è molto limitata. Aggiungendo tempi di ritardo si moltiplicano i canali da elaborare ed
28
aumentano le variabili da parametrizzare quindi è stato concluso che per questo metodo la scelta di
un solo tempo di ritardo è la scelta migliore. È da notare inoltre che per ogni canale di ingresso
viene definito un filtro temporale.
2.3 Common Sparse Spectral Spatial Pattern: CSSSP
A causa della limitata flessibilità dei filtri frequenziali nell’algoritmo CSSP, nel 2006 è stato
implementato un nuovo algoritmo denominato CSSSP [39] con lo scopo di migliorare ancora la
classificazione dei segnali cerebrali correlati ai fenomeni di ERD/ERS dovuti all’esecuzione, alla
immaginazione e alla stimolazione del movimento.
Questo algoritmo si basa sia sull’idea fondamentale dei CSP, cioè quella di trovare filtri spaziali
p le cui proiezioni abbiano potenza elevata per una classe e minima per l’altra, sia sul principio dei
CSSP che è quello di combinare filtri spaziali e frequenziali calcolandoli simultaneamente.
Al contrario dei CSSP nei CSSSP non viene calcolato un filtro FIR per ogni canale ma ne viene
calcolato solamente uno sebbene con una complessità molto maggiore.
L’algoritmo CSSSP elude il problema della selezione manuale delle bande frequenziali in
un'altra maniera. Per ogni condizione (classe) viene calcolata la matrice di covarianza tra il segnale
originale e il segnale ritardato di un tempo � assumendo che traslando temporalmente il segnale
originale la matrice calcolata sia identica.
Indicando con b(i) i coefficienti del filtro FIR digitale il problema si risolve attraverso le seguenti
equazioni:
( ) ( )
( ) ( ) ( ) 1
;maxmax
21
1
0 1
1
1
0 11,,
=��
�
�
��
�
�Σ+Σ��
�
����
�+
��
���
��
���
��
���
��
���
��
�
�
��
�
����
����
�+
� �
� �
−
=
−
=
−
=
−
==
pjbjbp
pjbjbp
classeclasse
T T
j
T
classe
T T
j
T
pbbp
ττ
υ
τ
τ
υ
τ
τ
τ
Dove con τyΣ si intende la matrice di covarianza per la classe y calcolata tra i segnali originali e
i segnali ritardati di �. In questo modo con la tecnica standard dei CSP possiamo calcolare i filtri
29
ottimi p per ogni coefficiente b quindi per ogni classe otteniamo un filtro frequenziale ed un pattern
spaziale. Dal momento che il primo coefficiente b(1) viene assunto pari ad 1, rimane un problema
T-1 dimensionale che può essere risolto con la tecnica del gradiente sempre che T non sia troppo
grande. All’aumentare di T aumenta la complessità del filtro frequenziale che deve essere
controllata per non cadere nell’overfitting. Un metodo per contenere l’eccessiva complessità è
quello di vincolare le soluzioni per i coefficienti b introducendo un termine di regolarizzazione C.
( ) ( )
( ) ( ) ( ) 1
;maxmax
21
1
0 1
1
1
0 11,,
=��
�
�
��
�
�Σ+Σ��
�
����
�+
−��
���
��
���
��
���
��
���
��
�
�
��
�
����
����
�+
� �
� �
−
=
−
=
−
=
−
==
pjbjbp
bT
Cpjbjbp
classeclasse
T T
j
T
classe
T T
j
T
pbbp
ττ
υ
τ
τ
υ
τ
τ
τ
Il termine di regolarizzazione C deve essere scelto non negativo: scegliendolo uguale a zero si
annulla questa regolarizzazione e aumenta il problema di overfitting, scegliendo un valore alto (i.e.
5) si ottengono soluzioni sparse per i coefficienti di b fino ad annullare l’effetto del filtro FIR.
2.4 Spectral-Common Spatial Patterns: SPEC-CSP
Una ulteriore variante dell’algoritmo CSP simile alle due precedentemente descritte è il metodo
denominato SPEC-CSP [40].
È una generalizzazione dei CSP che incorpora pesi non omogenei della matrice cross-spettro
intesa come la trasformata di Fourier della matrice di covarianza.
Anche qui indichiamo con X �ℜ d x N il segnale di un singolo trial composto di T istanti
temporali e d canali. Il vettore delle features viene chiamato “log-power features” ed è formato nel
seguente modo:
( ) jTjj
Tjjjj wBBwBwX log,; =Φ ( con j = 1,…,J numero di trial)
Dove con wj �ℜ d si intende il filtro spaziale che proietta il segnale in una singola dimensione e
con Bj �ℜ NxN. Il simbolo T rappresenta la coniugata trasposta che per segnali reali corrisponde
semplicemente alla trasposta.
30
Se indichiamo il classico algoritmo dei CSP come:
{[ ][ ] wXXEw
wXXEwTT
TT
Rw d−
+
∈
max
Risolvibile con il seguente problema generalizzato degli autovalori:
�+w = � �– w
Dove �c:= E[XXT], �ℜ dxd (c �{ +,–}) è la matrice di covarianza.
L’autovettore corrispondente al più grande autovalore � è l’ottimo del problema di
massimizzazione.
Negli SPEC-CSP questo problema viene formulato nel dominio della frequenza come segue:
{[ ] [ ]
[ ] [ ]−+
−+
+
−
)(var)(var
),(),(max
wsws
wsEwsE ααα
In questo modo si indicano la potenza spettrale del segnale proiettato dal filtro w come sk(w) ed i
coefficienti discreti del filtro frequenziale come � = �k con k=1,…,N e quindi:
( ) �=
=N
kkk wsws
1
)(, αα
I coefficienti del filtro ottimali sono dati da:
[ ] [ ][ ] [ ]−+
−++
+
−∝
)(var)(var
)()(
wsws
wsEwsE
kk
kkopt
kα ; [ ] [ ][ ] [ ]+−
+−−
+
−∝
)(var)(var
)()(
wsws
wsEwsE
kk
kkopt
kα
Che vengono posti uguali a zero nel caso il numeratore sia negativo.
Poiché il segnale filtrato spazio-temporalmente s(w,�) è lineare rispetto ai coefficienti spettrali �k
(per k=1,…,N) e assumendo che le componenti frequenziali sono indipendenti le une dalle altre
possiamo dire che:
( )[ ] [ ]�=
=N
k
ckk
c wsws1
2 )(var,var αα con c �{+,–}
I coefficienti del filtro vengono normalizzati in modo tale che la loro somma sia uguale a uno.
31
A questo punto, usando le proiezioni spaziali w e i filtri temporali �, la “log-power feature” può
essere scritta così:
( ) jTkk
Tk
N
kjkjjj wxxwBwX ˆˆlog,;
1,�
=
=Φ α ( con j = 1,…,J numero di trial)
In questa equazione abbiamo indicato con kx)� Cd la k-esima componente della trasformata di
Fuorier di X.
I filtri spaziali e quelli temporali vengono aggiornati iterativamente.
La matrice di covarianza del segnale filtrato temporalmente può essere scritta come :
( ) �=
=N
kkkVV
1
αα
Dove Txkk xxV
))= (per k = 1,…,N) è la matrice cross spettro.
Per incorporare i filtri temporali nell’algoritmo CSP possiamo quindi risolvere, ad ogni passo, il
problema generalizzato degli autovalori modificato come segue:
ww )()( αλα −+ Σ=Σ
Dove �c(�) = E[V(�)]c.
Partendo con i coefficienti del filtro spettrale omogenei ( �k=1 k∀ ) alternativamente vengono
aggiornati i filtri spaziali e quelli spettrali fino alla convergenza.
Il training del classificatore si articola quindi in due passi: nel primo sono ottimizzati i
coefficienti di wk e �k; nel secondo viene allenato il classificatore LDA sul vettore delle features.
Test di validazione mostrano che questo algoritmo ottiene le stesse performance del precedente
CSSSP ma il tempo di elaborazione è minore e non ci sono parametri da settare.
2.5 Spatially Sparsed Common Spatial Pattern: SSCSP
Recentemente è stato sviluppato un metodo per ridurre lo svantaggio dei CSP legato ai disturbi
del segnale EEG. Tale metodo proposto da Arvaneh et al [41] è chiamato Spatially Sparsed
Common Spatial Pattern e si pone l’obiettivo di migliorare l’algoritmo CSP ‘sparsificando’ i filtri
32
spaziali mantenendoli tra loro incorrelati. Questo tipo di approccio ottimizza i filtri spaziali
enfatizzando le regioni che hanno un’alta varianza tra le due classi e attenuando le regioni che
hanno una varianza bassa o irregolare spesso dovuta al rumore o agli artefatti. Si cerca quindi di
rimuovere le informazioni meno rilevanti, rumorose e correlate attraverso un’estensione
dell’algoritmo CSP effettuata, come vedremo, con l’aggiunta di un termine di regolarizzazione.
Per affrontare la trattazione dei SSCSP riprendiamo alcuni concetti dei classici CSP.
Indichiamo con X �ℜ N x S il segnale non processato di un singolo trial e con W la matrice di
proiezione tale che il segnale filtrato Z si ottiene moltiplicandola per il segnale grezzo: Z = WX. In
questo caso le righe della matrice W sono i filtri spaziali mentre le colonne della matrice W–1 sono i
patterns spaziali. Riportiamo i passaggi analitici dell’algoritmo classico dei CSP indicando con Cd
la stima della matrice di covarianza della classe d={ 1,2}. La diagonalizzazione della somma delle
due matrici si ottiene come:
Tccc FFCCC ψ=+= 21
Dove Fc è la matrice degli autovettori corrispondenti alla matrice degli autovalori . La matrice
di sbiancamento si ottiene quindi:
TcFP 2/1−=ψ
Possiamo quindi proiettare le matrici di covarianza attraverso la matrice di sbiancamento P:
TPPCC 1*1 = ; TPPCC 2
*2 =
In questo modo le matrici C*1 e C*2 condividono gli stessi autovettori:
TUU 1*1C Λ= ; TUU 2
*2C Λ= ; con I=Λ+Λ 21
Dove I è la matrice identità, U la matrice degli autovettori e le matrici � denotano le matrici
diagonali degli autovalori.
È possibile definire la matrice di proiezione dei CSP come:
PUW T=
La quale proietta le matrici di covarianza di ciascuna classe come segue:
33
11*1
**1 Λ=== UPPCUWWCC TTT ; 22
*2
**2 Λ=== UPPCUWWCC TTT
Dal momento che la somma degli autovalori � è sempre uno, la massima varianza per una classe
comporta la minima varianza per l’altra.
Alla luce di questo possiamo formulare il classico problema CSP come un problema di
ottimizzazione:
{ ��
���
� + ��+==
m
mi
Tii
m
i
Tii
w
wCwwCwi
2
11
12min
Con i seguenti vincoli:
1)( 21 =+ Tii wCCw per i ={1,2,…,2m}
0)( 21 =+ Tji wCCw per i , j ={1,2,…,2m} con i j
Le righe della matrice di proiezione sono indicate con con wi �ℜ 1 x N .
Con m si indicano il numero di filtri da trovare (di solito m = 1). I vincoli corrispondono a
all’equazione W(C1+C2)WT = I.
La sparsità dei filtri si può indurre aggiungendo un termine di regolarizazione dato dalla norma
euclidea: 0
y (norma euclidea di y) è la misura della sparsità data dagli elementi non nulli di y.
Essendo proibitivo computazionalmente risolvere un problema con la norma-0 si usa una
approssimazione di questa data da: 2
10 y
yy = dove con ( )pp
N
p
pyyy
1
1 ++= Κ .
Questo termine si introduce nel problema di minimizzazione come segue:
{ ( )��
�
�
��
�
�+��
���
� +− ���=+==
m
i i
im
mi
Tii
m
i
Tii
w w
wrwCwwCwr
i
2
1 2
12
11
121min
Dove r è un parametro da definire che specifica il trade-off tra accuratezza di classificazione e
‘sparsità’. La scelta del parametro r viene fatta in modo euristico: viene scelto il coefficiente r che
restituisce in media il più alto valore di una cross-validazione 10x10.
34
Altro vantaggio da questo metodo è che la sparsità dei filtri mappati sullo scalpo mette bene in
evidenza le zone che hanno maggiore rilevanza ai fini della classificazione e quindi i risultati
ottenuti sono neurofisiologicamente meglio interpretabili.
Gli autori di questo algoritmo [41] hanno dimostrato che le performance migliorano rispetto ai
CSP classici quando abbiamo a che fare con dati rumorosi e limitati.
2.6 Frequency Weighted Method: FWM
Nel 2010 Liu et al. [42] hanno proposto un metodo che si pone l’obiettivo di migliorare le
performance dei CSP basandosi sull’idea di trovare un vettore che pesi le diverse componenti
frequenziali in base alla loro importanza per il compito di discriminazione.
Indicando con x un canale del tracciato EEG in una finestra temporale di interesse viene
calcolata la trasformata di Fourier y = fft(x). A questo punto si cerca un vettore w che pesi lo spettro
del segnale nel seguente modo:
yw(k) = w(k) y(k)
Dove k è l’indice delle frequenze.
Lo spettro così pesato (yw) è antitrasformato: xw = ifft(yw).
I canali pesati in frequenza sono processati con l’algoritmo classico dei CSP.
Il punto chiave di questo lavoro è ovviamente trovare il vettore dei pesi w.
Il metodo usato dagli autori [42] è basato sul classificatore lineare di Fisher (LDA: linear
discriminant analysis). Per completezza della trattazione viene riportato di seguito un breve
riassunto del metodo Fisher’s LDA.
L’algoritmo LDA calcola la direzione che massimizza il coefficiente di Rayleigh tra la matrice di
scatter tra le classi e la matrice di scatter.
Questo algoritmo (Fisher’s-LDA) si dimostra efficace per variabili con distribuzione gaussiana,
per questo motivo viene effettuata una trasformazione logaritmica dello spettro frequenziale:
z = log |y|
35
Tale trasformazione porta ad avere una densità di probabilità approssimativamente gaussiana.
A questo punto, per descrivere il funzionamento dell’algoritmo LDA, chiamiamo zd un vettore,
ottenuto come sopra, che rappresenta il singolo trial della classe d � {1,2} e žd rappresenta la media
ottenuta su tutti i trial della classe d.
La matrice di scatter della generica classe d è:
( )( )� −−=T
ddddd zzzzS
La matrice di scatter all’interno delle classi è:
SW = S1 + S2
E la matrice di scatter tra le classi è:
SB = (ž1 – ž2) (ž1 – ž2)T
La separabilità è quindi definita massimizzando la seguente equazione:
( )wSw
wSwwJ
WT
BT
=
Il vettore w che massimizza J(�) è dimostrato essere:
w = 1−WS (ž1 – ž2)
Tornando all’algoritmo FWM, trovato questo vettore tramite Fisher’s LDA, vengono applicate le
seguenti regole:
- Del vettore w, essendo un vettore di pesi e non una direzione di proiezione, si considera solo il
suo valore assoluto.
- Idealmente la correlazione tra frequenze differenti dovrebbe essere zero e quindi la matrice di
scatter Sd dovrebbe essere diagonale. Il realtà questo non succede e si approssima l’algoritmo
prendendo i soli elementi diagonali.
- Per il calcolo di w viene usata solo la prima metà dello spettro (fino a fc/2 dove con fc si intende
la frequenza di campionamento).
36
- I valori corrispondenti a valori non interi delle frequenze sono mediati per avere il valore alla
frequenza intera.
- Se lo spettro stimato con la fft appare oscillatorio si esegue un’operazione di smooth su di esso.
Questo algoritmo (FWM) è stato comparato con un approccio prima definito ‘brute force’. I
risultati mostrano che non viene raggiunto lo stesso livello di performance. I punti a svantaggio di
questo approccio sono: la stima dello spettro frequenziale è spesso oscillatorio e l’operazione di
media su esso effettuata ne peggiora la stima; la trasformazione logaritmica effettuata sulla stima
dello spettro approssima la distribuzione di questo a una gaussiana ma la reale distribuzione non è
di tipo normale e questo fa si che l’algoritmo LDA non sia ottimale; l’indipendenza
dell’ottimizzazione frequenziale dall’ottimizzazione dei filtri spaziali è un compromesso tra il costo
computazionale e l’accuratezza di classificazione.
2.7 Discriminative Common Spatial Patterns: dCSP
I “discriminative-CSP”, chiamati così da Wang nel 2010 [43], sono un’estensione dei CSP
convenzionali basata sull’idea di costruire un criterio simile a quello di Fisher: massimizzare lo
scatter tra le classi (between-class scatter) minimizzando contemporaneamente lo scatter
all’interno di ciascuna classe.
L’aspetto che Wang tende a migliorare nei CSP è di prendere in considerazione non solo la
potenza media tra le due classi (identificata con la somma delle matrici di covarianza) ma anche
l’informazione derivante dallo scatter all’interno delle classi (within-class scatter) in quanto se gli
elementi in una stessa classe sono molto dispersi tra loro la distanza delle medie di ciascuna classe
non è più discriminativa. La misura della dispersione intra-classe (within-class scatter) sarà definita
con una stima delle varianze.
Riprendiamo brevemente i CSP per introdurre i dCSP.
Con Xic�ℜ K x N intendiamo l’i-esimo trial del tracciato EEG con K elettrodi e N istanti temporali
classificabile nella classe c = {+ , –}.
37
La matrice di covarianza per ciascuna classe è quindi:
( )�=
=Σcn
i
Tci
ci
c
c XXn 1
1
Dove nc è il numero di trial di una determinata classe c. L’algoritmo CSP, come gia detto,
calcola i filtri attraverso la simultanea diagonalizzazione delle matrici �+ e �– la quale è equivalente
a massimizzare o minimizzare il seguente quoziente di Rayleigh:
w* = { }ww
wwT
T
w K −
+
ℜ∈ ΣΣ
min max,arg
I filtri sono dunque calcolati risolvendo il seguente problema generalizzato degli autovalori:
�+ w = � �– w
Dove gli autovalori � rappresentano il rapporto delle varianze nelle due condizioni: il filtro
associato al più grande autovalore � implica una grande varianza per la condizione +
simultaneamente a una varianza piccola per la condizione – ; viceversa per un filtro associato al più
piccolo autovalore.
Delle varianze del segnale così filtrato (corrispondenti alla potenza spettrale per segnali filtrati
anche in frequenza) ne viene effettuata la trasformazione logaritmica (per approssimarne la
distribuzione ad una normale) e vengono usate come features da dare in pasto ad un classificatore
lineare (LDA).
Riprendendo il criterio di Fisher di massimizzare lo scatter between-class (Sb) e minimizzare lo
scatter within-class (Sw), per i dCSP vengono definite le seguenti matrici di scatter:
Sb= |wT �+ w – wT �– w |
( )( ){ }
2
, 1
1� �
−+∈ =−+
Σ−+
=c
n
i
cTTci
ci
Tw
c
wwwXXwnn
S
Quindi la ricerca dei filtri avviene massimizzando il seguente quoziente:
( )( ){ }
2
, 1
1� �
−+∈ =−+
−+
Σ−+
Σ−Σ=
c
n
i
cTTci
ci
T
TT
w
b
c
wwwXXwnn
wwww
S
S
38
La matrice di scatter within-class (Sw) viene approssimata come segue:
( )( ){ }
wXXwnn
Sc
n
i
cTci
ci
Tw
c2
, 1
1� �
−+∈ =−+
Σ−+
≤
La massimizzazione di Sb/ Sw diventa dunque una ricerca del limite inferiore della seguente
disequazione:
( )( ){ }
wXXwnn
wwww
S
S
c
n
i
cTci
ci
T
TT
w
b
c2
, 1
1� �
−+∈ =−+
−+
Σ−+
Σ−Σ≥
Quindi la funzione obiettivo, omettendo la costante 1/(n+ +n -), diventa:
( )( )( )
{ }wXXw
wwwwwC
c
n
i
cTci
ci
T
TT
c
���
����
�Σ−
Σ−Σ=
� �−+∈ =
−+
, 1
2
Riconducibile al seguente problema generalizzato degli autovalori:
Sbw = �Sww
Dove
Sb = �+ - �–
Sw = ( )( ){ }� �−+∈ =Σ−
, 1
2
c
n
i
cTci
ci
c XX
Nel caso in cui Sw risulti singolare (o quasi) Wang aggiunge un piccolo termine di
regolarizzazione � e risolve il seguente problema:
(Sw+ �I)-1Sbw = �w
I risultati di questo procedimento sono stati confrontati con quelli dei vincitori della “BCI
competition 2003” sul dataset IVa (imaginary left hand, right hand, right foot movement).
È stato osservato che i dCSP migliorano le performance dei CSP nei casi dove il numero di trials
per il training è alto. Sembrerebbe quindi che con questo tipo di algoritmo si dia luogo ad uno
spiccato fenomeno di overfitting dei dati. Tuttavia sono correntemente in studio i problemi teorici e
sperimentali di questo metodo.
39
2.8 Invariant Common Spatial Patterns: I-CSP
Questo metodo, ideato e sperimentato nel 2008 da Blankertz et al. [44], si pone lo scopo di
rendere i filtri CSP insensibili a non-stazionarità e altri disturbi ambientali e individuali che possono
presentarsi durante un’applicazione BCI.
Nella maggior parte dei sistemi BCI basati sul motor-imagery l’utente controlla l’interfaccia
adattando la propria strategia mentale basandosi su di un segnale di feedback restituito dal sistema.
Nello scenario generale possiamo distinguere due modalità di apprendimento per l’apprendimento
nei sistemi BCI:
- è l’utente che adatta il suo comportamento con lo scopo di controllare il feedback fornitogli;
- è il sistema che apprende grazie ad un’analisi statistica effettuata nella sessione di calibrazione.
La maggior parte dei sistemi adotta una combinazione di queste due modalità.
Perché l’apprendimento (machine learning) sia ottimo bisognerebbe che il sistema fosse
invariante a fluttuazioni del segnale non legate al task che avvengono durante la registrazione.
Di queste fluttuazioni, oltre agli artefatti come il movimento oculare e i potenziali muscolari, è di
rilevante importanza il ritmo -occipitale che si sovrappone in frequenza al ritmo di interesse. A
causa del volume di condizione la sovrapposizione non è solo frequenziale ma anche parzialmente
spaziale. Per tale motivo diviene importante il filtraggio spaziale.
Per questo studio Blankertz et al. si sono serviti di dataset relativi al motor imagery della mano
destra e sinistra con i seguenti accorgimenti:
- il task viene comunicato all’utente con una lettera al centro dello schermo sovrapposto ad una
fixation-cross che deve essere osservata al fine di evitare movimenti oculari;
- il task viene comunicato all’utente all’interno di una casella che si sposta nello schermo (al fine
di obbligare a movimenti oculari);
- l’esperimento di motor imagery viene condotto con uno stimolo acustico mentre il soggetto
mantiene gli occhi chiusi (al fine di avere un forte ritmo -occipitale dovuto allo stato di
inattivazione della corteccia visiva)
40
- al soggetto viene fornito un feedback incoerente e gli viene chiesto di controllarlo al fine di
stimolare movimenti oculari e muscolari.
Accenniamo nuovamente la teoria dei classici CSP indicando con Sd e Sc le attività
discriminative e comuni trovate rispettivamente dalla differenza e dalla somma delle matrice di
covarianza nella classe d={1,2} indicata con �(d).
Sd= �(1)- �(2) : attività discriminativa
Sc= �(1)+ �(2) : attività comune
I filtri spaziali v �ℜ C (con c numero dei canali) possono essere ricavati dunque dalle soluzioni
estreme del seguente problema:
{ }vSv
vSv
cT
dT
v cℜ∈minmax,
Dove il numeratore vTSdv = vT(�(1)- �(2))v , che vogliamo massimizzare, è la media della
differenza di potenza nelle due condizioni e il denominatore vTSdv = vT(�(1) + �(2))v va minimizzato
poiché non apporta nessun contributo alla discriminazione.
Questa massimizzazione viene risolta dal seguente generalized eigenvalue problem:
Sdv = �Scv
Oppure, usando la stessa notazione di [45],:
{ ( )vSv cT
v Cℜ∈
min tale che vT �(1)v - vT �(2)v = �
Che significa trovare la minima norma di v nella condizione in cui la media della differenza di
potenza sia pari a �. Con questa notazione chiamiamo dunque filtri i vettori vj(j= 1…c) che
inseriamo nelle colonne di una matrice V e pattern le righe della matrice A=V-1, quindi il filtro vj
estrae solo le attività derivanti dal pattern aj.
Il metodo ICSP consiste nell’incorporare alla attività comune Sc un termine che rappresenti i
disturbi comuni alle due classi misurati a priori.
Viene assunto che � sia la matrice di covarianza di un segnale Y indotto dai possibili disturbi.
41
Usando questa notazione l’obiettivo è dunque quello di trovare un filtro spaziale vj(1) per la classe
1 che oltre a massimizzare la varianza di [X1 vj(1)] minimizzi allo stesso tempo le varianze di [X2
vj(1)] e di [Y vj
(1)] e un filtro spaziale duale vj(2) per la classe 2 che oltre a massimizzare la varianza di
[X2 vj(2)] minimizzi allo stesso tempo le varianze di [X1 vj
(2)] e di [Y vj(2)].
Nella pratica tale obiettivo può essere effettuato risolvendo i seguenti due problemi generalizzati
degli autovalori:
V(1)T�(1)V = D(1) con V(1)T((1-�)(�(1)+ �(1))+ � �) V(1)= I
V(2)T�(2)V = D(1) con V(2)T((1-�)(�(2)+ �(2))+ � �) V(2)= I
Dove � � [0,1] è un iper-parametro che gestisce il trade-off tra la discriminazione dell’attività di
una classe con l’attività comune alle classi e l’attività di una classe con la matrice di invarianza
caratterizzata da �. Per � = 0 il problema si riconduce ai classici CSP; per � = 1 la discriminazione
viene fatta in base al solo termine di invarianza. Quando � = 0.5 il problema è simile alla strategia
one-vs-rest per i CSP a 3 classi [46].
La matrice � viene assunta essere un termine additivo alle due covarianze ( �(c)= �(c) + � ,
dove con �(c) si intende la matrice di covarianza legata solamente al task della classe c e non ai
disturbi) e può essere calcolata nelle modalità riportate in [44].
Le performance di questo algoritmo sui dataset sopra discussi sono superiori a quelle dei classici
CSP. Ad esempio, per l’esperimento condotto con il soggetto ad occhi chiusi, il classico CSP
riporta nella visualizzazione spaziale di uno dei due pattern più discriminativi una forte componente
nella zona occipitale (correlata chiaramente al ritmo -occipitale) mentre nella visualizzazione del
pattern più discriminativo ottenuto con ICSP si nota l’esclusione della componente sulla zona
occipitale che comporta nel corrispondente filtro una forte componente nei pressi dell’elettrodo C4
(situato nell’emisfero destro della corteccia sensori motoria).
Una limitazione di questo metodo è il fatto che le componenti di disturbo sono caratterizzate in
anticipo stimando un’appropriata matrice di covarianza. Perciò l’algoritmo si rivela efficace qualora
si abbiano informazioni neurofisiologiche consistenti di tale matrice.
42
2.9 Sub-Band Common Spatial Patterns: SBCSP
“Sub Band Common Spatial Patterns” è un metodo sviuppato da Novi et al. nel 2007 [47], che al
posto di costruire filtri FIR temporali (come i CSSP e i CSSSP [38][39]) decompone il segnale
filtrandolo in sottobande frequenziali processando i segnali filtrati in ciascuna sottobanda con un
semplice algoritmo CSP. Per ogni sotto banda calcola un punteggio in base al criterio di Fisher il
quale è utilizzato per selezionare un numero prefissato di sottobande di interesse per la
discriminazione dell’attività cerebrale. I metodi di fusione che Novi et al. propongono sono due e
sono chiamati “Recursive Band Elimination” (RBE) e “Meta-Classifier” (MC).
Il filtraggio è implementato attraverso la parametrizzazione dei filtri di Gabor la cui risposta
all’impulso è definita da una funzione armonica moltiplicata per una funzione Gaussiana:
( ) ���
����
�+−= tjf
tftg 02
2
0 exp,,σ
σ
dove la larghezza di banda è proporzionale a � e la frequenza di centro banda è f0.
Modificando tali parametri è possibile costruire un set di filtri da convolvere con il segnale per
avere il segnale filtrato nelle varie sottobande.
L’algoritmo CSP per calcolare la matrice di proiezione P rimane sostanzialmente lo stesso e
viene calcolato per ogni sottobanda (k) in modo da avere:
)()()( kkCSP
k XPZ =
Dove con Z(k) è la proiezione che massimizza la differenza in varianza per le due classi che, nel
caso specifico, significa massimizzare le differenze nella potenza spettrale della banda k.
Le features per i SBCSP sono definite nel modo classico per ogni sottobanda k:
( )( )�
�
�
�
��
�
�=
� = rp
kp
kpk
p Z
Zf
2
)(
)()(
var
varlog
con p=(1…2r) dove con r si intende il numero di filtri utilizzato (di solito r =1).
43
Il punteggio per ogni sottobanda viene estratto con un analisi di tipo Fisher’s LDA in cui si
calcola una matrice di proiezione WLDA che garantisce la massima separabilità massimizzando il
rapporto tra la varianza between-class (SB) e la varianza within-class (SW).
Indicando con md(k) la media delle features fp
(k) calcolata per la classe d={1,2} sul training set
filtrato nella sottobanda k, possiamo indicare le matrici SB e SW come segue:
( )( )( ) ( )��
∈∈
−+−=
−−=
)2(
2)(2
)(
)1(
2)(1
)()(
)(1
)(2
)(1
)(2
)(
)()( classef
kkp
classef
kkp
kW
TkkkkkB
kp
kp
mfmfS
mmmmS
Quindi la funzione di costo della sottobanda k da massimizzare è definita come:
)()()(
)()()()(
kLDA
kW
TkLDA
kLDA
kB
TkLDAk
WSW
WSWG =
La matrice WLDA, per un problema a due classi, proietta i dati in uno spazio monodimensionale; è
quindi possibile definire un punteggio sk per ogni sottobanda attraverso la seguente moltiplicazione:
sk = )()( kp
TkLDA fW
Il valore di punteggio così trovato viene usato come feature della k-esima sottobanda.
I metodi di selezione delle features si possono essenzialmente dividere in due tipologie
denominate ‘wrapper type’ e ‘filter type’. In generale, i metodi di tipo wrapper che includono
classificatori a scatola chiusa hanno delle performance migliori rispetto ai metodi di tipo filter.
Un metodo per selezionare le features di tipo wrapper è il Support Vector Machine Recursive
Feature Elimination (SVM RFE). Da questo metodo si deriva il Recursive Band Elimination (RBE)
che è uno degli approcci utilizzati nel lavoro di Novi et al.
Tale approccio si pone l’obiettivo di separare i dati del vettore dei punteggi (features) D
=[s1,…,sc]�ℜ c trovando un vettore di pesi WSVM �ℜ c e un offset b�ℜ tali che:
( )bXWsignX SVM +α
44
La selezione è fatta rimuovendo ad ogni iterazione la banda con il più piccolo 2SVMW . Verranno
usate sole le rimanenti m bande dove m è denominato ordine di RBE e deciso empiricamente.
Un altro metodo è basato sul classificatore di Bayes assumendo che i punteggi siano distribuiti
normalmente:
( ) ( ) ( )��
�
�
��
�
� −−=−
2)(
2)(2
12)(
2exp2|
ki
kikk
iik
swsp
σµπσ
Nei classificatori Bayesiani è usato spesso il logaritmo del rapporto delle probabilità, quindi
definito un vettore di K elementi come segue:
( )( )���
����
�=
2
1
||
logwsp
wspX
k
kK
È dimostrato che questa soluzione non è ottimale se le matrici di covarianza delle classi sono
differenti. Per questo motivo Novi et al. implementano un classificatore addizionale SVM, in uscita
al primo classificatore, con lo scopo di compensare gli errori del singolo classificatore Bayesiano.
Per la valutazione delle performance, questo algoritmo (SBCSP con 24 filtri di Gabor aventi
larghezza di banda di 4Hz) è stato testato sul dataset IVa della BCI competition III del 2005 e
confrontato con il CSP (settato manualmente attraverso una ricerca esaustiva al fine di avere la
migliore performance possibile) e con i CSSP, CSSSP i parametri dei quali sono stati impostati
manualmente secondo quanto stabilito dagli autori.
45
3. METODOLOGIA DI ACQUISIZIONE E SIGNAL PRE-PROCESS ING
In questo capitolo sarà descritto il protocollo di acquisizione adottato in questo lavoro. Nel primo
paragrafo è descritto il sistema di acquisizione in termini di strumentazione hardware e software.
Verrà descritto in seguito il posizionamento degli elettrodi sullo scalpo per la registrazione. Un
ulteriore paragrafo sarà dedicato alla scelta della referenziazione utilizzata e della rimozione degli
artefatti oculari in tempo reale. Abbiamo constatato che i metodi di rimozione degli artefatti oculari
in tempo reale non incidono significativamente sull’efficienza di classificazione ed abbiamo scelto
di non utilizzarli per non appesantire l’onere computazionale del sistema. L’ultimo paragrafo è
dedicato invece al preprocessamento.
3.1 Sistema di acquisizione
3.1.1 Hardware di acquisizione
Il sistema di acquisizione usato per estrarre l’attività cerebrale è costituito dall’amplificatore
“g.USBamp®” con il preamplificatore g.GAMMAsys, elettrodi attivi e cuffia “g.EEGcap®” della
ditta g.tec “Guger Technologies®”.
L’amplificatore g.USBamp (figura 3.1 a) permette di acquisire 16 canali con 24 bit di risoluzione
campionando simultaneamente tutti i canali a 38,4KHz. Per registrare più di 16 canali
contemporaneamente è previsto l’uso di più g.USBamp connessi tra loro. Il range di ingresso dei
canali è di ±250mV. Tale dispositivo è connesso al PC tramite la porta USB e interfacciato in
simulink® grazie ad un apposito tool aggiuntivo.
Il g.EEGcap (figura 3.1 b) è una cuffia con alloggiamenti per elettrodi che seguono la
denominazione dello standard 10-20.
Gli elettrodi usati sono elettrodi attivi (figura 3.1 c) che si fissano sulla cuffia e si connettono al
g.USBamp mediante il preamplificatore g.GAMMAsys.
46
La cuffia è fissata sulla testa con tre fasce elastiche: una passa sotto il mento e le altre due fissate
ad una quarta fascia elastica indossata intorno al torace. Dopo aver indossato la cuffia g.EEGcap si
inietta il gel conduttivo tra elettrodi e cute per migliorare la conduttività elettrica.
������������� ����������������������������������������� ����������!��"�#$%�
3.1.2 Software di acquisizione
Gli strumenti software utilizzati sono: il tool Simulink® della Mathworks® per l’acquisizione in
tempo reale, il software g.BSanalyze della g.tec ed i toolbox EEGlab e BCIlab implementati dalla
SCCN (Swartz Center for Computational Neuroscience).
3.2 Protocollo di acquisizione
Il soggetto, una volta indossata la cuffia ed applicato il gel elettrolitico affinché tutti gli elettrodi
funzionino correttamente, si trova seduto a settanta centimetri da uno schermo di sedici pollici.
Ogni dataset di acquisizione consiste in quattro sessioni della durata di circa sette minuti
contenenti ciascuno quaranta epoche (trial).
Ogni trial ha durata di otto secondi e si articola in questa sequenza: appare una croce nel centro
dello schermo (fixation cross), dopo 1,5 secondi viene emesso un suono per avvertire l’utente del
successivo inizio del compito e, un secondo dopo il beep, una lettera indica quale tipo di compito
svolgere per i successivi cinque secondi. Tra un trial e l’altro è interposto un intervallo variabile dai
tre ai cinque secondi dove lo schermo è nero.
ba c
47
��������&�'��(��((����������������!���������
Si richiede al soggetto di inibire per quanto possibile i movimenti oculari durante il periodo di
task mantenendo lo sguardo sulla fixation cross.
Ogni trial viene etichettato a seconda dalla tipologia di task eseguito (coerente con la lettera che
compare).
Si è scelto di acquisire sessioni dove i task proposti all’utente consistevano nel movimento
immaginato della mano destra (classe R) e nel riposo (classe S) dove il soggetto non doveva pensare
di muoversi. Questa scelta è stata guidata dall’applicazione ultima che vorremo fare del sistema
BCI che consiste nel controllo di una protesi robotica per eseguire compiti di raggiungimento lungo
traiettorie predefinite. Per comandare il braccio meccanico l’utilizzatore dovrà immaginare di
muovere il proprio braccio mentre per comandarne l’arresto l’utilizzatore non dovrà fare altro che
stare a riposo.
Il compito etichettato con R consisteva nell’immaginare di prendere un oggetto sul tavolo e di
rimetterlo al suo posto mentre il compito S nel mantenere uno stato di riposo.
La prima sessione è stata utilizzata come training per l’addestramento del classificatore. Nelle
sessioni successive il soggetto, oltre a vedere sullo schermo il normale paradigma di acquisizione,
riceveva anche un feedback coerente con la risposta del classificatore. Abbiamo utilizzato due
tipologie di feedback: visivo e propriocettivo. Quella di tipo visivo consisteva in una barra situata
nella parte inferiore dello schermo che si dilatava orizzontalmente in direzioni opposte per le due
classi. Quella di tipo propriocettivo consisteva in uno stimolatore vibro-tattile, appositamente creato
Fixationcross
876543210
beep cue End cue RandomIntervall
R
Fixationcross
876543210
beep cue End cue RandomIntervall
R
48
dal laboratorio PERCRO dell’istituto S.Anna, che stimolava il tendine dell’avambraccio quando era
riconosciuta la classe di movimento.
Nella prima sessione, quella di training, al soggetto era fornito un feedback pre-calcolato sia
visivo che propriocettivo. Nelle altre tre sessioni era sempre presente il feedback visivo mentre il
feedback propriocettivo non veniva presentato in una di queste.
����������'���(����)������((�(�������(������������������
�
3.3 Configurazione degli elettrodi
Gli elettrodi sono stati posizionati e nominati in accordo con la configurazione standard 10-20.
Sono stati utilizzati in tutto diciassette elettrodi di cui tredici localizzati nella zona sensitivo-
motoria, due localizzati nella zona frontale vicino agli occhi, un elettrodo di ground posto nella
zona frontale e l’elettrodo di riferimento nel lobo dell’orecchio.
La scelta di usare pochi elettrodi (rispetto ai centodiciotto che troviamo spesso in letteratura) è
finalizzata ad alleggerire l’hardware di acquisizione ed il carico computazionale di un futuro
sistema BCI portatile.
49
��������*�'�+��)��������������!���!�((�����%����!����������������!���!�((�������!!������������(�,����(�����%����!������������!���!�((�����)���(�!��#�����!!��������!���!�((����������)������(��
��
Gli elettrodi della zona sensori motoria sono quelli usati per la classificazione degli stati mentali
mentre gli elettrodi nella zona frontale sono stati usati per le prove di rimozione degli artefatti
oculari. Il posizionamento dell’elettrodo di ground è di poca rilevanza in quanto la referenziazione è
possibile effettuarla analiticamente.
3.4 Referenziazione e rimozione degli artefatti
In questo paragrafo discuteremo brevemente gli aspetti relativi alla referenziazione del segnale
ed alla rimozione degli artefatti. Le analisi sono state condotte facendo uso dell’ “analisi delle
componenti indipendenti” (ICA).
Tale analisi sfrutta la natura multicanale delle acquisizioni per estrarre caratteristiche comuni su
canali diversi.
L’analisi ICA è denominata anche “Blind Source Separation” (BSS) che letteralmente significa
separazione cieca delle sorgenti poiché non fa nessuna assunzione sul processo di mescolamento
delle sorgenti.
50
La base teorica dell’ICA è che le nostre osservazioni x �ℜ NxT sono frutto di un mescolamento
delle sorgenti s �ℜ MxT dove T denota il tempo di osservazione e il numero di canali N si assume
che sia maggiore o uguale al numero delle sorgenti M che supponiamo indipendenti.
Chiamando A �ℜ NxN la matrice di mixing possiamo indicare le nostre osservazioni come x=As.
Lo scopo della separazione delle sorgenti è quello di trovare una matrice di de-mixing W tale che le
componenti del vettore in uscita dall’operazione u=Wx siano quanto più possibile statisticamente
indipendenti tra loro. I due limiti principali di questa tecnica riguardano l’impossibilità di
determinare sia l’ordine che le energie (varianze) delle componenti.
Esistono due tipi di approcci per la stima delle sorgenti: gli approcci Higher Order Statistic
(HOS) che fanno uso della cumulante del quarto ordine (kurtosi) o della negentropia per
massimizzare la non gaussianità e gli approcci Information Theoretic che utilizzano misure di
indipendenza statistica basate sulla teoria dell’informazione. La descrizione di tali approcci viene
omessa poiché elude dagli scopi di questa tesi.
3.4.1 Artefatti oculari
La rimozione degli artefatti oculari in tempo reale è una sfida ancora aperta. Risultati accettabili
sono stati ottenuti solamente in presenza del tracciato elettro-oculografico. La registrazione
dell’elettro-oculogramma (eog) è alquanto scomoda per l’utilizzatore a causa del posizionamento
degli elettrodi vicino agli occhi. Quindi, dopo aver analizzato la letteratura in merito ai metodi di
riduzione automatica degli artefatti [50-51-52-53-54-55-56], abbiamo provato a mettere a punto un
sistema che permettesse la rimozione automatica degli artefatti oculari senza la registrazione
dell’elettro-oculogramma.
Nell’analisi off-line, i passi per la rimozione degli artefatti sono i seguenti:
1. eliminare le porzioni di segnale inaccettabili (i.e. onde quadre, saturazione di un elettrodo)
tramite ispezione visiva;
2. dividere i dati in epoche;
51
3. ricavare le componenti indipendenti da queste epoche;
4. creare un grafico tempo-epoche dove si mostra l’attivazione delle componenti allo scopo di
individuare quelle componenti dovute a singole epoche;
5. ispezionare visivamente ed eliminare tali epoche se presenti;
6. ricavare nuovamente le componenti indipendenti;
7. ispezionare le nuove componenti nel tempo, in frequenza e nello spazio per distinguere quelle
di interesse dalle altre.
Come si nota dall’elenco questo processo è dispendioso in termini di tempo di lavoro e non si
adatta ad un sistema in tempo reale.
Per l’implementazione di un metodo di rimozione degli artefatti abbiamo supposto che la matrice
di mixing ottenuta possa essere usata anche per il dataset successivo come un filtraggio spaziale e
che nei canali Fp1 e Fp2 si trovi gran parte dei disturbi oculari che diffondono, tramite il volume di
conduzione, a tutti gli altri elettrodi.
Il nostro metodo consiste quindi nell’estrarre le componenti indipendenti e nel calcolare la
correlazione tra le colonne della matrice di mixing (che esprimono il peso di una componente su
ogni canale) con dei vettori creati ad-hoc che pesano maggiormente gli elettrodi frontali rispetto agli
altri. Le colonne la cui correlazione con questi vettori supera una soglia prefissata (0.6) vengono
annullate per la futura ricostruzione del segnale.
La figure successive mostrano lo scalp plot delle componenti indipendenti (colonne della matrice
di mixing) in cui sono state cerchiate in rosso quelle che superano la suddetta soglia di correlazione
con i vettori da noi creati.
52
��������-�'�.������)�����!!����������(������������(��#�����������������/��(��!����������(�������!�(����!����(�)�((������,����(����(���(������(��
�
Una volta ottenuta la nuova matrice di mixing, annullando le componenti situate in prossimità
degli elettrodi oculari abbiamo filtrato il dataset originale con tale matrice.
Ovviamente i primi canali, dove per altro si possono notare i disturbi dati dal blink degli occhi,
vengono notevolmente attenuati e tali disturbi vengono attenuati quindi anche negli altri canali.
Di seguito si riporta un grafico temporale contenente cinque epoche di un dataset prima e dopo il
filtraggio con ICA.
��������0�'�$���!(�(����!!��������������(���(�������!����(�)�((��(����(��#+1�1������(���,��������!���(���(����������!����!��������(�(������,�(��!����������(������������(��1����(�����������!���(�������(���(������(���(�������!��������������!!����������(�������!�(��(������)������(����!��
�!�((�����)���(�!��
53
A questo punto abbiamo controllato se con la matrice di mixing calcolata in una sessione
potessimo filtrare anche la sessione cronologicamente successiva. In figura 3.7 osserviamo i grafici
relativi al filtraggio di un dataset con la matrice di mixing ottenuta dal dataset precedente a questo.
��������2�'�$���!(�(����!!���������������!����(�)�((�����!�����((���(������!����(����������3��4������!��!�(����!!����������������!��������(����������(��
��
Dalle figure 3.6 e 3.7 notiamo che il risultato ottenuto è simile nei due casi: vengono attenuati gli
andamenti dei primi due elettrodi e i potenziali dovuti a questi negli altri elettrodi.
Abbiamo constatato che tale metodo di rimozione non incrementa l’efficienza delle
caratteristiche estratte dal segnale in termini di classificazione.
Per questo motivo nelle analisi successive i dati non sono stati filtrati dagli artefatti.
3.4.1 Referenziazione
I canali grezzi ottenuti con il nostro sistema di acquisizione sono referenziati rispetto
all’elettrodo di riferimento situato centralmente nell’area pre-frontale (punto chiamato AFz nello
standard 10-20, si veda la figura 3.3 per ulteriori chiarimenti). Allo scopo della nostra analisi è
importante la topografia del segnale in quanto i segnali di interesse sono generati principalmente
nella corteccia sensori motoria. Il fatto che gli elettrodi nominati C3 e C4 sono situati nella zona di
maggiore interesse per i segnali elicitati dal movimento, potrebbe far pensare che un
referenziamento di tipo laplaciano (differenziale) attorno a questi elettrodi aumenti il rapporto
54
segnale/rumore. In realtà diversi studi e prove da noi effettuate mostrano che un referenziamento
laplaciano introduca rumore poiché le zone di interesse non sono sempre situate precisamente in
queste locazioni.
Un referenziamento vivamente consigliato in molti studi è il CAR (Common Average
Reference) che consiste nel sottrarre la media di tutti gli elettrodi per ogni istante ad ogni elettrodo.
Questa referenziazione infatti diminuisce il rango della matrice dei dati ed è importante da
svolgere poiché il rumore dovuto all’elettrodo di ground potrebbe inficiare la classificazione.
In figura 3.8 si riporta un esempio dove le componenti indipendenti sono state ottenute dopo un
accurato processo di pulizia.
��������5�'�6���!����������������!��������(�������������(��(������!������(������!!����������(������������(���((���(����������������(����������������!�����
In questo grafico si nota bene che la prima componente è dovuta ai muscoli orbicolari (deputati
allo sbattimento delle palpebre) mentre la seconda componente ha chiaramente un contenuto
frequenziale molto più esteso delle altre che fa pensare a una componente dovuta all’attivazione dei
muscoli mandibolari o temporali. In realtà questa seconda componente è dovuta unicamente alla
referenziazione. Questo si nota effettuando la “Common Average Reference” e graficando
nuovamente sia l’attivazione temporale delle componenti che la localizzazione delle stesse. Si nota
55
in questi nuovi grafici che la seconda componente si è attenuata molto (non è andata a zero) e la sua
localizzazione spaziale non è più in prossimità dell’elettrodo di riferimento.
��������7�'��(�������������(������������(�����)�������5����������(�������!8��������������+������1,������$�)�������
��
Fatte queste considerazioni abbiamo deciso di re-referenziare ogni dataset alla media comune.
3.5 Pre-Processing dei segnali
Il segnale viene acquisito tramite il modello simulink che vediamo in figura 3.10.
��������9�'�:���!!������!��;�����������������������!���
In uscita dal blocco g.USBamp abbiamo il segnale campionato a 256Hz e filtrato, con un filtro di
basso livello presente all’interno del g.USBamp, tra 5Hz e 32Hz.
56
Nel caso della prima sessione di acquisizione, non essendo ancora stata trovata la matrice di
proiezione e i pesi del classificatore, il segnale in uscita dal blocco viene direttamente salvato in una
variabile “.mat” come una matrice. Tale matrice, oltre ad avere i canali EEG acquisiti, contiene un
canale indicante il tempo ed uno relativo al trigger.
Nelle analisi off-line abbiamo caricato la variabile .mat relativa ad una sessione e, tramite un
algoritmo automatico da noi implementato basato sul software EEGlab, abbiamo definito la
locazione spaziale dei canali, le epoche relative ai diversi compiti e un ulteriore filtraggio passa
banda dai 7Hz ai 30Hz.
Attraverso altri algoritmi, di cui parleremo nel capitolo successivo, abbiamo ricavato i valori
della matrice di proiezione e dei pesi del classificatore (rispettivamente blocchi “WV_CSP” e
“WV” in figura 3.10).
Il blocco “spatial filter” implementa una funzione che proietta il segnale in due canali evento
correlati utilizzando il primo e ultimo filtro spaziale della matrice di proiezione WV_CSP. Tali
canali vengono poi filtrati attraverso un filtro implementato nei blocchi “bandpower_ch1” e
“bandpower_ch2”. Questi blocchi cambiano a seconda dell’algoritmo che usiamo per estrarre le
features. Il blocco “classifier” lo vediamo esteso in figura 3.11.
���������'��������������!��!�����<�!����)���=���!�����!!������!��;�������!��
�
57
Tale blocco effettua la trasformazione logaritmica delle due proiezioni spaziali, moltiplica il
risultato per i relativi pesi del classificatore e aggiunge il bias.
Il classificatore usato è di tipo lineare quindi contiene tre costanti che sono rispettivamente: il
peso della prima variabile, il peso della seconda e un offset additivo che centra il feedback su zero.
Il feedback è calcolato quindi come un numero che sarà positivo per una classe e negativo per
l’altra classe. Tale numero può essere usato come segnale di controllo per fornire un feedback
all’utilizzatore. In questo lavoro di tesi sono stati implementati feedback di tipo visivo e feedback di
tipo meccanico. Il feedback più semplice è costituito da una barra centrata nello schermo che si
muove a seconda del segnale di controllo. Altro feedback visivo è rappresentato da un braccio
virtuale che segue nei movimenti il segnale di controllo. I feedback di tipo meccanico sono due: un
esoscheletro per braccio [57], ed uno stimolatore propriocettivo da applicare ai tendini
dell’avambraccio sviluppato appositamente per sistemi BCI dal laboratorio PERCRO (Perceptual
Robotica).
58
4. ANALISI DEI SEGNALI
In questo capitolo saranno discusse le implementazioni degli algoritmi che estraggono le
caratteristiche dal segnale EEG al fine di riconoscere due diversi stati mentali (e.g. movimento
immaginato vs riposo).
Ogni algoritmo che discuteremo può essere integrato con il modello generale di acquisizione
visto nel paragrafo 3.5.
Tutti gli algoritmi ricevono in ingresso i canali relativi agli elettrodi della zona sensitivo-motoria
filtrati nella banda 7-30Hz e referenziati rispetto alla media comune.
Gli algoritmi che fanno uso della tecnica Common Spatial Patterns vengono applicati ai sognali
osservati nell’intervallo temporale che va da 1 secondo dopo l’evento a 2 secondi dopo l’evento.
Nel primo paragrafo è descritto il metodo per l’estrazione dei fenomeni ERD/ERS che, facendo
uso di un solo elettrodo, raggiunge basse performance di classificazione. Nel secondo sarà illustrato
come il classico algoritmo dei CSP è stato implementato in questo lavoro. Nei paragrafi successivi
saranno descritte le estensioni dell’algoritmo classico implementate. Di tali estensioni possiamo
distinguere le due che effettuano un ottimizzazione frequenziale (denominate SBCSPv1 e FWMv1)
e quella che effettua una rimozione dei canali meno rilevanti attraverso il metodo di sparsificazione
(Sparse-CSP).
Inoltre in questo capitolo saranno presentati anche algoritmi ideati in questa tesi che si possono
classificare in integrazioni delle varianti suddette (SBCSPv2 FWMv2) e in varianti implementative
del metodo di ricerca delle migliori sottobande (SBCSPv3 SBCSPv4).
Nell’ultimo paragrafo di questo capitolo è possibile trovare una tabella riassuntiva dei metodi
implementati in questo lavoro di tesi.
4.1 Metodo di analisi in potenza
Questo metodo è l’unico di quelli implementati che non fa uso della tecnica Common Spatial
59
Patterns discussa ampiamente nel terzo capitolo.
Tale metodo si basa sulla conoscenza a priori della locazione in frequenza della variazione di
potenza spettrale relativa ad un compito di motor imagery rispetto allo stato di riposo. Ad esempio è
ben noto che il movimento immaginato della mano destra produce una desincronizzazione delle
onde alfa e beta nella zona controlaterale della corteccia sensitivo-motoria. Quindi per il movimento
della mano destra avremo una desincronizzazione (decremento di potenza) nella parte sinistra della
corteccia sensitivo-motoria (elettrodo C3) nei ritmi alfa e beta. Tale fenomeno è visualizzabile in
figura 4.1 dove sono mostrati i grafici tempo-frequenza delle epoche relative al movimento
immaginato della mano destra (prima riga) e del compito di riposo (seconda riga) per gli elettrodi
C3, Cz e C4, rispettivamente da sinistra verso destra. Questi grafici sono estratti da 50 epoche e
mostrano solamente significative (p=0.01).
Come da letteratura, si nota una netta desincronizzazione sull’elettrodo C3 durante il compito di
movimento immaginato della mano destra per le frequenze alfa e beta mentre per gli altri elettrodi il
fenomeno è molto meno marcato. Per il compito di riposo non si notano oscillazioni significative su
nessuno dei tre elettrodi.
�������������� ���������� ����������������������������������������������������������������������������������������������������������������������������������������������������������������������
�������
Task REST; Electrode C3 Task REST; Electrode C4Task REST; Electrode CzTask REST; Electrode C3Task REST; Electrode C3 Task REST; Electrode C4Task REST; Electrode C4Task REST; Electrode CzTask REST; Electrode Cz
Task RIGHT; Electrode C3 Task RIGHT; Electrode Cz Task RIGHT; Electrode C4Task RIGHT; Electrode C3Task RIGHT; Electrode C3 Task RIGHT; Electrode Cz Task RIGHT; Electrode C4
60
Per scegliere la frequenza su cui calcolare la desincronizzazione si esegue un’analisi sulla
differenza delle densità spettrali di potenza calcolate nel periodo pre-evento e post-evento come
mostra la figura 1.8.
Con questo semplice metodo otteniamo scarsi risultati di classificazione per il principale motivo
che utilizza un solo elettrodo.
4.2 Common Spatial Patterns
L’algoritmo CSP si basa sulla diagonalizzazione simultanea delle matrici di covarianza relative
alle due classi da distinguere. Per l’implementazione di questo algoritmo abbiamo seguito due
strade.
La prima, descritta da Pfurtscheller et al. [48], consiste nel calcolare la matrice di sbiancamento
W della covarianza composita (somma delle matrici di covarianza, Rc).
Rc = U D UT;
W= TUD 1−
Con tale matrice di sbiancamento W bisogna poi proiettare le singole matrici di covarianza. In
questo modo, le due matrici di covarianza proiettate, condivideranno gli stessi autovalori. Il
prodotto tra la matrice trasposta di tali autovalori e la matrice di sbiancamento risulta essere la
matrice di proiezione PCSP che ha la proprietà di contenere filtri (righe di PCSP) che massimizzano la
varianza per una classe e contemporaneamente la minimizzano per l’altra classe.
La seconda strada che abbiamo seguito porta allo stesso risultato diagonalizzando
simultaneamente le matrici ricavate dalla somma e dalla differenza delle due matrici di covarianza.
Gli autovettori derivanti da tale diagonalizzazione sono i filtri che cerchiamo.
Poiché quest’ultima maniera di ricavare la matrice di proiezione richiede meno passaggi a livello
computazionale e fornisce gli stessi risultati è stata da noi preferita.
La figura 4.2 mostra graficamente il funzionamento dell’algoritmo CSP. I canali che vediamo
sono le proiezioni ottenute rispettivamente dal primo e ultimo filtro della matrice PCSP.
61
�������� ���!���������������������������������������������"������� �������������������������
�
Il grafico è diviso in epoche ed in rosso sono marcati gli eventi relativi al compito di motor
imagery della mano destra mentre in verde quelli relativi al compito di riposo. Notiamo che la
varianza della prima proiezione cresce quando si presenta l’evento di tipo “1” mentre diminuisce
con l’altro evento. Per la seconda proiezione il fenomeno è meno marcato in quanto la classe alla
quale è correlata, classe di riposo, non presenta significative variazioni di potenza.
������������#�������������� �������$#��������������������������� ��������
62
Infatti se osserviamo la localizzazione dei filtri ottenuti (figura 4.3) notiamo che mentre per il
primo filtro (relativo alla classe di movimento) il pattern è sempre simile per i diversi dataset, per
l’ultimo filtro (relativo alla classe di riposo) il pattern del filtro ha un’elevata variabilità.
Una volta proiettato il segnale nello spazio surrogato degli elettrodi con la matrice PCSP si
procede estraendone le caratteristiche per la classificazione. Ricordando che il segnale è gia filtrato
in nella banda 7-30Hz, tali caratteristiche sono calcolate attraverso la trasformazione logaritmica
della varianza normalizzata dei segnali proiettati. Usando solamente il primo ed ultimo filtro
avremo due features per epoca estratte come segue:
( )( ) ( ) ;
varvarvar
log21
11 ��
�
����
�
+=
ZZ
Zf
( )( ) ( )���
����
�
+=
21
22 varvar
varlog
ZZ
Zf
dove con Z1,Z2 si intendono le proiezioni del segnale dovute al primo ed ultimo filtro.
La trasformazione logaritmica è eseguita con lo scopo di approssimare la distribuzione degli
elementi di f ad una distribuzione normale. La scelta della finestra temporale su cui estrarre la
varianza è un compromesso tra la prontezza di risposta del sistema e la robustezza del feedback. Se
ne scegliamo una breve avremo un controllo più rapido ma affetto da maggiore variabilità, se invece
ne scegliamo una molto lunga avremo una risposta più stabile ma con un tempo di ritardo notevole.
In questo lavoro di tesi abbiamo scelto di calcolare la varianza in intervallo temporale di 1
secondo.
La classificazione è eseguita addestrando un classificatore lineare e sarà discussa più in dettaglio
nel quinto capitolo.
4.3 Spatially Sparsed Common Spatial Patterns
Questo metodo, proposto da Arvaneh et al. [41], formula l’algoritmo CSP come un problema di
ottimizzazione per introdurre un termine che determini la sparsità. Nell’ambito matematico una
matrice sparsa è una matrice i cui valori sono quasi tutti uguali a zero. Tale algoritmo è stato
proposto per raggiungere una migliore accuratezza di classificazione eliminando i canali irrilevanti
63
o rumorosi e conservando soltanto il numero minimo di canali necessario senza compromettere
l’accuratezza di classificazione ottenuta utilizzando tutti i canali.
La trattazione matematica dell’algoritmo in questione è gia stata effettuata nel paragrafo 2.5
quindi ci limitiamo a riportare la formulazione finale che consiste nella risoluzione dei CSP come
un problema di ricerca del minimo:
{ ( )��
�
�
��
�
�+��
���
� +− ���=+==
m
i i
im
mi
Tii
m
i
Tii
w w
wrwCwwCwr
i
2
1 2
12
11
121min
Con i vincoli:
1)( 21 =+ Tii wCCw per i ={1,2,…,2m}
0)( 21 =+ Tji wCCw per i , j ={1,2,…,2m} con i � j
Il parametro r può variare tra 0 e 1 controlla la sparsità. Il valore ottimo di tale parametro è stato
scelto in [41] basandosi sull’accuratezza delle cross validazioni. Per il nostro lavoro, dopo aver
sperimentato diversi valori, abbiamo scelto uguale a r = 0.02.
Il problema di minimizzazione è stato risolto utilizzando un metodo di programmazione
quadratica sequenziale in ambiente Matlab.
In figura 4.5 si riportano i confronti tra i normali filtri CSP ottenuti analiticamente ed i filtri
sparsificati ottenuti con il parametro r posto uguale a 0.02. Nonostante si utilizzi un numero di
canali limitato ed usiamo un parametro r molto piccolo si può notare ugualmente l’effetto della
sparsificazione.
Questo algoritmo, oltre a fornire risultati grafici più facilmente interpretabili, elimina le
componenti meno significative dei CSP al fine di ottenere risultati più robusti. Tale operazione è
integrabile anche con altre varianti dell’algoritmo CSP.
64
��������%���$������������� �������$#������� ����������������������������&& �'�����������������������������������(�������������������������������$#��������������������������� ��������������
�$#������� ������
4.4 Frequency Weighted Method
Tale algoritmo, gia discusso nel paragrafo 2.6, si propone di implementare un filtro ottimo
frequenziale prima di calcolare i CSP.
Di tale filtro vengono calcolati i coefficienti tramite analisi di Fisher nello spazio di Fourier.
Per ogni canale viene stimata trasformata di Fourier. La trasformata di Fourier di un segnale
reale gode della proprietà di simmetria coniugata quindi è possibile salvare, in vettore Y, solo i
coefficienti relativi alle frequenze positive. Di ciascuna componente di Y calcolata nelle diverse
epoche, viene effettuata la trasformazione logaritmica del valore assoluto per approssimarne la
distribuzione ad una gaussiana.
65
A questo punto avremo due matrici Z per ciascuna classe organizzate in canali x frequenze x
epoche.
Per ogni canale (riga della matrice Z) calcoliamo la varianza tra le classi Sb e intra classe Sw
utilizzando solamente la diagonale delle rispettive matrici di covarianza (per il procedimento
matematico si veda il paragrafo 2.6 di questa tesi). Per trovare il vettore che massimizzi il rapporto
Sb / Sw è sufficiente moltiplicare l’inversa di Sw per la differenza delle matrici dei valori medi di Z.
Ogni vettore così ottenuto rappresenta nel dominio della frequenza i coefficienti discreti di un
filtro in frequenza applicato al rispettivo canale. È possibile modificare tali filtri sulla base di
informazioni a priori che riguardano la localizzazione in frequenza del segnale di interesse, cioè
porlo a zero prima dei 7Hz e dopo i 30Hz. In figura 4.4 è mostrato un esempio dell’andamento di
tali filtri per gli elettrodi più significativi.
��������������� ����������������� ��������������������������������(���(��������������������� ��������
Una volta filtrato nel dominio della frequenza ogni canale occorre antitrasformare rispetto a
Fourier per tornare nel dominio del tempo.
A questo punto abbiamo i canali ottimizzati per la discriminazione delle classi mediante il
filtraggio in frequenza dai quali possiamo ricavare i filtri spaziali con la tecnica dei CSP.
66
4.5 Sub Band Common Spatial Patterns
L’algoritmo SubBand-Common Spatial Pattern (SB-CSP) è stato proposto in [47] con lo scopo
di fornire un criterio per la scelta della migliore banda frequenziale ai fini della classificazione. A
tale scopo il segnale è diviso in sottobande strette (larghezza di banda a -3dB di 3Hz) e viene
valutata la percentuale di classificazione tramite CSP, considerando ogni sottobanda singolarmente.
La suddivisione in bande è eseguita filtrando il segnale mediante filtri di Gabor. Il filtro di Gabor
è un filtro lineare la cui risposta all’impulso è definita da una funzione armonica (esponenziale
complesso) moltiplicata per una funzione Gaussiana. Quindi la trasformata di Fourier della risposta
all’impulso risulta essere la convoluzione delle due funzioni. Il procedimento è mostrato in figura
4.6.
�
��������)���������������*���+��������������������������**�������� �����������*����������������������������������������������������������������� ���������������������������������+�������������
�����������**�������� �����������*��������������������� �������������������������������������� ������������� �������������������������� ������������� ������������������
�
67
Come abbiamo appena visto si può pensare la risposta in frequenza del filtro di Gabor come una
Gaussiana centrata nella frequenza fondamentale della funzione armonica. La formula matematica
di tale filtro è :
( ) ���
����
�+−= tjf
tftg 02
2
0 exp,,σ
σ
dove con f0 si indica la frequenza della funzione armonica e con � la larghezza della funzione
Gaussiana. Al diminuire del parametro � otteniamo, in frequenza, una banda progressivamente più
larga. Per l’operazione di filtraggio in sottobande strette abbiamo scelto di esaminare tutte le
frequenze nell’intervallo frequenziale dai 7Hz ai 30Hz con un valore del parametro � = 0.09 che
corrisponde ad una larghezza di banda del filtro a -3dB di 3Hz. Quindi il banco di filtri che
abbiamo usato si compone 23 filtri
Per filtrare il segnale nel tempo bisogna fare in modo che sia garantita la relazione di simmetria
coniugata del filtro ovvero modulo pari e fase dispari. Occorrerebbe quindi filtrare con il filtro
normale, con il suo coniugato e poi sommare. Per questioni computazionali abbiamo scelto di
filtrare con la parte reale del filtro e di moltiplicare per due il risultato.
Per ogni sottobanda k in cui filtriamo il segnale sono calcolati i CSP, quindi si proietta il segnale
con il primo ed ultimo filtro ed infine estratte le features come:
( )( ) ( ) ;
varvar
varlog
21
11 ��
�
����
�
+=
ZZ
Zf k
( )( ) ( )���
����
�
+=
21
22 varvar
varlog
ZZ
Zf k
dove l’apice k indica la k-esima sottobanda e Z indica le proiezioni ottenute tramite filtraggio
spaziale con i CSP.
A questo punto, ammettendo l’ipotesi di omoschedasticità (ossia che le varianze delle classi
siano uguali), si esegue l’analisi discriminate lineare che trova un iper-piano di separazione tra le
classi. Moltiplicando scalarmene il vettore dei coefficienti del piano per le features si ottiene la
distanza di queste dal piano determinandone così la classe di appartenenza. Il calcolo dei
coefficienti del piano di separazione è effettuata in Matlab dal comando classify.
68
Per un problema bidimensionale e lineare, come il nostro, i coefficienti saranno relativi ad una
retta ossia due coefficienti moltiplicativi ed una costante additiva.
Con lo scopo di assegnare un punteggio ad ogni sottobanda moltiplichiamo scalarmente i
coefficienti della retta per ogni vettore delle features.
Finita l’analisi delle sottobande si otterrà come risultato una matrice X le cui righe corrispondono
a ciascuna epoca e le colonne ai punteggi di ogni sottobanda.
����
����
�
=
KsottobandaNepocasottobandaNepoca
Ksottobandaepocasottobandaepoca
X
_/_......1_/_
............
............
_/1_......1_/1_
Su questa matrice X abbiamo fatto un’analisi di tipo Recursive Features Elimination (RFE)
basata sul classificatore Support Vector Machine (SVM), [59] [60].
Supponendo di avere N epoche e K sottobande tale analisi si compone dei seguenti passi:
- Dati di ingresso: X0 �ℜ N x K con il vettore delle classi y �ℜ N
- Inizializzare il vettore delle features (sottobande) che rimarranno: f �ℜ K
- Iterare le seguenti operazioni fino ad ottenere un numero T predefinito di features rimanenti:
- Restringere la matrice di ingresso come X = X0 (: , f)
- Allenare il classificatore in modo da determinare i coefficienti �
- Calcolare il vettore dei pesi di dimensione uguale al vettore f : �=k
kkk Xyw α
- Trovare l’indice del minimo valore del valore assoluto del vettore w
- Eliminare le colonna di X e di f relative all’indici trovato.
Il numero T di features che rimarranno viene denominato ordine di RFE-SVM.
69
L’ordine scelto delle features rimanenti è stato posto uguale a quattro in accordo con il valore
riportato nell’articolo [47]. Abbiamo trovato che nella maggior parte dei casi le sottobande
rimanenti sono centrate sui ritmi alfa.
A titolo di esempio riportiamo un caso dove le bande frequenziali rimanenti sono” sono centrate
in 11, 12, 13 e 22 Hz.
Dopo questa operazione abbiamo il segnale filtrato nelle sottobande più significative del quale è
possibile calcolare i CSP ed estrarne le features.
Possiamo integrare questa procedura con l’algoritmo Spatially Sparse CSP. Tale integrazione si
dimostra utile quando si verifica la presenza simultanea di fenomeni di sincronizzazione e di
desincronizzazione in locazioni differenti dello scalpo. L’utilità consiste nell’evitare di prendere
entrambe le zone poiché, dato che la classificazione si basa sulle variazioni in potenza del segnale,
tale simultaneità potrebbe inficiare la discriminazione. In questa tesi sono state implementate e
sperimentate entrambe le opzioni e chiameremo con SBCSPv1 la versione in cui usiamo i CSP e
con SBCSPv2 la versione in cui usiamo gli SparseCSP.
4.5.1 Sub Band Common Spatial patterns: metodo alternativo
In fase di implementazione dell’algoritmo SBCSP siamo giunti ad un metodo alternativo per la
scelta della banda frequenziale.
Questo metodo si differenzia dal precedente per la scelta del punteggio da attribuire alla
sottobanda e per il diverso criterio di selezione delle sottobande frequenziali.
Per ogni sottobanda si estraggono le features secondo il procedimento relativo all’algoritmo
classico dei CSP. Dei vettori delle features estratte per ogni condizione sono calcolati i valori di
scatter between-class (Sb) e di scatter within-class (Sw). Indicando con m1, m2 le medie dei vettori
delle features relative rispettivamente alla classe 1 e 2, i valori Sb e Sw per ogni sottobanda sono
calcolati come segue:
Sb = (m2 – m1)* (m2 – m1)’
70
Sw = �(f1 – m1)* (f1 – m1)’ + �(f2 – m2)* (f2 – m2)’
Come punteggio della sottobanda in questione si calcola il rapporto di tali valori:
Sk =Sb/Sw
Il vettore Sk è quindi normalizzato e, tramite il comando yulewalk di Matlab, si calcolano i
coefficienti temporali di un filtro IIR i cui pesi frequenziali siano corrispondenti ai valori discreti
del vettore Sk. In figura 4.7 possiamo vedere un esempio di tali filtri. Si nota chiaramente che le
frequenze più discriminanti sono intorno alla banda alfa.
��������,���-��������� ������ ���������������������������������������������������"����������$.�$#����
Anche qui, come nel caso precedente, è possibile integrare la variante Sparse-CSP nel calcolo
dei Common Spatial Patterns. In questa tesi indichiamo con la notazione SBCSPv3 quando
calcoliamo i filtri CSP e la notazione SBCSPv4 quando calcoliamo gli Spatially-Sparse-CSP.
4.6 Riassunto descrittivo dei metodi implementati
In tabella 4.1 riportiamo un riassunto schematico dei metodi implementati in questo lavoro di tesi.
ACRONIMO DESCRIZIONE
CSP si riferisce alla classica versione dei Common Spatial Pattern.
SCSP si calcolano Common Spatial Pattern sparsificati ottenuti formulando il
71
classico problema CSP come un problema di ricerca dell’ottimo e aggiungendo
nell’equazione un elemento dato dal rapporto della norma pesato con uno con
la norma due di ogni singolo filtro con un parametro r di 0.02.
FWM si implementa il metodo basato nel formulare un vettore di pesi frequenziali per
ogni canale ottenuti mediante analisi di Fisher delle singole epoche nel
dominio della frequqnza. I dati così pesati vengono processati con l’algoritmo
CSP.
FWMv2 indichiamo l’algoritmo utilizza gli stessi pesi frequenziali dell metodo FWM e
successivamente calcola i CSP sparsificati.
SBCSPv1 i dati sono filtrati in 23 sottobande comprese tra i 7Hz e i 30Hz di larghezza
±1.5Hz mediante un banco di filtri di Gabor e per ogni sottobanda è calcolato
un punteggio attraverso l’analisi del discriminante lineare (Fisher LDA). Con il
metodo SVM-RFE (Support Vector Machine – Recursive Features
Elimination) sono successivamente selezionate le quattro (valore dipendente
dall’ordine del SBCSP) sottobande più discriminative. Il dataset, filtrato nelle
quattro sottobande così scelte, è processato con il classico algotimo CSP.
SBCSPv2 si effettua la stessa selezione delle bande del metodo sopra con la differenza
che alla fine non vengono calcolati i CSP ma gli SparseCSP.
SBCSPv3 i dati vengono sono filtrati in 23 sottobande e di ogni sottobanda e calcolate le
features con il metodo CSP. Per ogni singola sottobanda estraiamo un
72
punteggio calcolato come il rapporto tra la matrice di scatter between-class e
la matrice di scatter within-class delle features. Il valore di tale punteggio per
ciascuna sottobanda è utilizzato come peso discreto nel dominio della fequenza
di un filtro IIR di ordine 8 utilizzando il metodo di fitting ai minimi quadrati. Il
dataset processato con tale filtro viene dato in pasto al classico algoritmo CSP.
SBCSPv4 il dataset è processato con un filtro calcolato come nella precedente versione e
sono successivamente calcolati gli Sparse-CSP.
/�*���������0��������������������������������������������������1������������23� (�$.�$#� (�$.�$#��(�$.�$#������������������������������������
72
5. RISULTATI
Il questo capitolo si illustreranno e discuteranno i risultati di classificazione dell’attività
cerebrale ottenuti mediante l’implementazione delle varianti dell’algoritmo Common Spatial
Patterns presenti in letteratura e delle varianti implementate durante questo lavoro.
In appendice A.2 si riporta inoltre la base teorica delle tecniche di classificazione e validazione
utilizzate.
5.1 Risultati
I dataset esaminati sono stati ottenuti dalle acquisizioni effettuate su quattro soggetti (tre di sesso
femminile e uno di sesso maschile in un’età compresa tra i venti e i trenta anni) i quali hanno svolto
ognuno quattro sessioni di 40 trial ciascuna.
Di ogni sessione per ognuno degli 8 algoritmi implementati (descritti nel capitolo 4 di questa
tesi) sono stati collezionati 100 valori di correct rate seguendo un metodo surrogato alla k-fold-
cross-validation (per ulteriori dettagli si veda l’appendice A.2),.
I valori medi di correct rate medi di classificazione ottenuti per ognuna delle quattro sessioni
effettuate da ciascun soggetto sono riportati in appendice A.1.
Per una breve descrizione di ciascuno di questi algoritmi si rimanda alla tabella 4.1.
Ognuno di questi algoritmi prende in ingresso i dati di ogni epoca nell’intervallo temporale di 1
secondo che inizia un secondo dopo l’evento, campionati a 256Hz e filtrati in una banda compresa
tra i 7Hz ai 30Hz e restituisce due features per trial calcolate come il logaritmo della varianza dei
due canali proiettati.
Le sessioni acquisite si differenziano per il tipo di feedback fornito e sono state proposte ai
soggetti sempre con lo stesso ordine: la prima con feedback precalcolato propriocettivo e visivo
(all’utente veniva mostrato il feedback corretto indipendentemente dalla sua attività motoria), la
73
seconda con feedback di tipo propriocettivo e visivo, la terza con il solo feedback visivo e l’ultima
con entrambi i feedback.
L’analisi statistica è stata condotta sui valori di correct rate ottenuti per ogni sessione utilizzando
il metodo ANOVA multifattoriale usando come fattori il tipo di algoritmo utilizzato, la sessione di
acquisizione ed il soggetto.
Dalle analisi effettuate non abbiamo riscontrato interazioni significative tra i fattori analizzati. I
grafici dei singoli confronti effettuati per ogni soggetto e per ogni sessione si riportano in appendice
A.1.
In figura 5.1 si riporta un grafico a barre dove per ogni algoritmo viene indicato il numero di
volte in cui ha ottenuto le migliori performance all’interno di un singolo confronto.
�
������������� ��������������������� ����������������������������������� ��������������������
�������������� ������������� �����
�
�
In figura 5.2 si riporta l’effetto che della sparsificazione dei filtri sugli algoritmi CSP, FWM e
SB-CSP. Per l’algoritmo SB-CSP l’introduzione della sparsificazione dei filtri porta a risultati
peggiori in termini di classificazione in modo significativo. Per gli altri algoritmi non riscontriamo
variazioni significative.
74
������������������������������������������������������������������� �� !"#��$%���!& !"�
Dalle analisi effettuate è risultato significativo il confronto effettuato con i feedback diversi.
Quello che abbiamo notato è che, mentre per il feedback visivo gli algoritmi presentano
CSPSparse-CSP
CSP FWM SB-CSP
SB-CSPFWMCSP
Sparse-CSP CSP
75
performance differenti, per il feedback prorpriocettivo le performance degli algoritmi sono simili e
non statisticamente differenti. Questo si può vedere in figura 5.3 dove si riportano i valori di correct
rate medi ottenuti dalle classificazioni delle tre sessioni con feedback precalcolato, propriocettivo e
visivo con gli algoritmi CSP, FWMv1 e SBCSPv1.
��������'���"����� ������������������ �� !"#��$%#�!& !"������������������������(��)��������������������������#�������������������������
�
Figura 5.4 – Performance degli algoritmi CSP, FWM, SBCSP nelle sessioni con feedback propriocettivo e feedback visivo. A destra abbiamo sulle ascisse gli algoritmi nell’ordine sopracitatto e sulle ascisse le performance ottenute nel caso di feedback visivo in blu e propriocettivo in verde. A sinistra sulle ascisse abbiamo feedback visivo (1) e feedback propriocettivo (2), nel grafico abbiamo gli algoritmi nell’ordine CSP, FWM SBCSP.
CSP
76
Nelle figure che seguono si riporta un confronto tra la distribuzione dei filtri spaziali ottenuti con
algoritmi diversi.
��������*��� ��������������������������������������������+�������������� �������������
In figura 5.8 vediamo un esempio di filtri spaziali calcolati con quattro diversi algoritmi: CSP,
FWM, SB-v1, Sb-v2. Tra questi algoritmi cambia il contenuto frequenziale del segnale su cui
calcolare i filtri spaziali. Notiamo che per il primo filtro, relativo alla condizione di movimento
immaginato del braccio destro, la distribuzione spaziale rimane pressoché invariata nei quattro casi
mentre cambia in modo più evidentemente per il secondo filtro relativo alla classe di riposo. Per i
CSP (in alto a destra nella figura) i filtri sono calcolati nell’intervallo frequenziale da 7Hz a 30Hz.
Per l’algoritmo FWM ogni canale ha un peso frequenziale ottimo nello stesso intervallo. Per SB-v1
il segnale è filtrato in quattro sottobande di ampiezza di 1.5Hz con centri banda in 10 11 12 e 24 Hz.
Per SB-v2 il segnale è filtrato nelle stesse sottobande ma i filtri spaziali sono calcolati con il metodo
di sparsificazione.
CSP FWM
SB-v1 SB-v2
77
Quello che si nota da tali confronti è che il contenuto frequenziale ottimo cambia la disposizione
del filtro per la classe di riposo. Il problema principale è che non abbiamo informazioni a priori sul
tipo di attività a riposo e questo rende difficile l’interpretazione di tali filtri.
78
6. CONCLUSIONI
L’obiettivo di questo studio è stato quello di implementare e valutare all’interno di un sistema di
BCI (Brain Computer Interface) basato sul motor imagery le caratteristiche di alcuni algoritmi
innovativi di ottimizzazione delle caratteristiche del segnale utilizzate per l’identificazione
dell’attività cerebrale.
L’intenzione di movimento come segnale di controllo permette di avere sistemi BCI che non
necessitano di stimoli esterni e che siano utilizzabili i modo intuitivo e confortevole anche da
soggetti privi di abilità motorie per il controllo di dispositivi di assistenza robotica, protesi e altre di
forme più generali di comunicazione e riabilitazione.
L’immaginazione del movimento di una parte del corpo influenza il tracciato
elettroencefalografico con variazioni di potenza in alcune bande frequenziali localizzate in
determinate zone dello scalpo. La localizzazione sia spaziale che frequenziale cambia da un
individuo all’altro e anche all’interno di uno stesso individuo nell’arco del tempo. Inoltre tale
variabilità è accentuata in soggetti che soffrono di malattie neurodegenerative o ictus i quali sono i
principali destinatari dei sistemi BCI. Per ovviare alla variabilità di questo segnale di controllo negli
ultimi dieci anni sono stati sviluppati numerosi algoritmi che identifichino in modo automatico ed
ottimizzato tali fenomeni. Il primo algoritmo utilizzato a questo scopo è denominato Common
Spatial Patterns (CSP) filtra spazialmente il segnale in modo da massimizzare la differenza di
potenza spettrale tra le due diverse classi da discriminare. Offre il vantaggio di sfruttare le
potenzialità derivanti da un numero elevato di elettrodi (come la localizzazione e la robustezza a
disturbi esterni) riducendone la complessità computazionale a due soli canali discriminativi. La
letteratura e le prove sperimentali dimostrano che con tale algoritmo si raggiunge un’accuratezza di
classificazione attorno al 90%.
79
Dal momento che i CSP localizzano automaticamente l’attività significativa nello spazio ma non
in frequenza, gli algoritmi che tentano di migliorare tali performance sono quasi tutti incentrati nella
ricerca di un metodo automatico che trovi la banda frequenziale ottima sulla quale applicare i CSP.
In questo lavoro di tesi sono stati implementati alcuni di questi algoritmi e ne sono state valutate
le performance.
Per l’acquisizione dei dati sono stati utilizzati gli strumenti della “Guger Technologies®” per la
parte hardware e il tool simulink della MathWorks® per la parte software. Per l’analisi dei segnali e
l’implementazione degli algoritmi abbiamo utilizzato il software Matlab con i tools open source
EEGlab e BCIlab della SCCN (Swartz Center for Computational Neuroscience).
I dati utilizzati per confrontare le prestazioni degli algoritmi implementati provengono da
acquisizioni effettuate durante il lavoro di tesi su quattro soggetti sani e consistono di circa 160
epoche per ognuno, nelle quali era richiesto di immaginare il movimento del braccio destro o di
rimanere a riposo con l’obiettivo di controllare una protesi robotica in compiti di raggiungimento
lungo traiettorie predefinite. Per ogni soggetto sono state acquisite quattro sessioni. Le sessioni si
differenziavano tra loro dal tipo di feedback fornito. In tutte e quattro le sessioni veniva fornito un
feedback di tipo visivo consistente nel vedere un braccio virtuale che si muoveva in relazione al tipo
di task. In tre delle quattro sessioni, oltre al feedback visivo, veniva fornito anche un feedback di
tipo propriocettivo, con un apparecchio costruito appositamente in laboratorio, consistente nella
stimolazione vibrotattile del tendine dell’avambraccio.
Gli algoritmi denominati FWM e SB-CSP cercano automaticamente di ottimizzare la banda
frequenziale, il primo pesando ogni canale direttamente nello spazio di Fourier mentre l’algoritmo
SB-CSP valutando in predefinite sottobande le uscite dei CSP e le relative features. L’algoritmo
Sparse-CSP, che “sparsifica” i filtri spaziali, cerca invece un’ulteriore ottimizzazione spaziale
eliminando le componenti meno rilevanti dai filtri.
80
Abbiamo riscontrato che le performance degli algoritmi sperimentati variano sia tra i soggetti
che tra le sessioni ma mediamente non abbiamo notato evidenti miglioramenti rispetto
all’accuratezza del 90% conseguita con l’algoritmo CSP.
Tali varianti hanno dimostrato performance migliori della classica versione dei CSP solo nelle
sessioni in cui il soggetto riceveva un feedback di tipo visivo. Potrebbe essere di aiuto nel caso di
acquisizioni con un grande numero di elettrodi e per acquisizioni effettuate su soggetti patologici.
Le varianti SB-v3 e SB-v4, che implementano una maschera in frequenza di un filtro basandosi sul
rapporto tra le matrici di scatter between class e within class delle features, anch’esse peggiorano le
performance dei normali CSP. Un possibile miglioramento di queste varianti potrebbe essere quello
di scegliere tale maschera analizzando statisticamente le distribuzioni bidimensionali delle features
per le due classi.
Sviluppi futuri del presente lavoro di tesi comprendono di standardizzare l’estensione
dell’algoritmo CSP a più di due classi per incrementare le potenzialità del sistema BCI. Altri
sviluppi comprendono l’integrarsi del riconoscimento delle variazioni in potenza del segnale
elettroencefalografici legate all’immaginazione di movimento con il riconoscimento altri tipi di
variazioni del segnale elettroencefalografici legate allo stesso compito (i.e. Bereitshaftspotential)
81
BIBLIOGRAFIA
[1] . Autori vari, “Anatomia dell’Uomo”, 2001, Edi.Ermes s.r.l., Milano
[2] . D. De Rossi , “Dispense Fenomeni Bioelettrici”
[3] . Coyle, Ward, Markham, McDarby, “On the suitability of near-infrared (NIR) systems for next-generation brain–computer interfaces”, Physiological measurement, 25, 815-822, 2004
[4] . R. Sitarama, H. Zhanga, C. Guana, M. Thulasidasa, Y. Hoshic, A. Ishikawae, K. Shimizue, N. Birbaumer, “Temporal classification of multichannel near-infrared spectroscopy signals of motor imagery for developing a brain–computer interface”, NeuroImage, Volume 34, Issue 4, Pages 1416-1427, 15 February 2007.
[5] . N. Weiskopf, K. Mathiak, S. W. Bock, F. Scharnowski, R. Veit, W. Grodd, R. Goebel, N. Birbaumer, “Principles of a Brain-Computer Interface (BCI) Based on Real-Time Functional Magnetic Resonance Imaging (fMRI)”, IEEE transactions on biomedical engineering, vol. 51, no. 6, pages 966, june 2004.
[6] . “Selecting features for BCI control based on a covert spatial attention paradigm”, M. van Gervena, A. Bahramisharif, T. Heskes, O. Jensen, Neural Networks 22 (2009), Pages 1271_1277, 2009
[7] . N. Birbaumer and L. G. Cohen, “Brain–computer interfaces: communication and restoration of movement in paralysis”, J. Physiol. 2007;579;621-636; Jan 18, 2007;
[8] . Gerwin Schalk, “Can Electrocorticography (ECoG) Support Robust and Powerful Brain–Computer Interfaces?” ,Front Neuroengineering. 2010; 3: 9. Published online 2010 June 24
[9] . E.A. Felton, J. A. Wilson, J. C. Williams, P. C. Garell, “Electrocorticographically controlled brain–computer interfaces using motor and sensory imagery in patients with temporary subdural electrode implants: Report of four cases”, J Neurosurg 106:495–500, 2007
[10] . D. J. Krusienski, J. J. Shih, “Control of a Visual Keyboard Using an Electrocorticographic Brain–Computer Interface”, Neurorehabilitation and Neural Repair 25(4) 323 –331, 2011
[11] . Y. Liu, M. Sharma, C. M. Gaona, J. D. Breshears, J. Roland , Z. V. Freudenburg1, K. Q. Weinberger, E. C. Leuthardt, “Decoding Ipsilateral Finger Movements from EcoG Signals in Humans”, 2011
[12] . Farwell LA, Donchin E. “Talking off the top of your head: toward a mental prothesis utilizing event-related brain potentials.” Electroenceph clin Neurophysiol 1988;70:510–523.
[13] . Wolpaw JR, Birbaumer N, McFarland DJ, Pfurtscheller G, Vaughan TM, “ Brain-computer interfaces for communication and control”. Clin Neurophysiol. 2002 Jun;113(6):767-91.
[14] . J N Mak, Y Arbel, J W Minett, L M McCanel, B Yuksel, D Ryan, D Thompson, L Bianchi, D Erdogmus, “Optimizing the P300-based brain–computer interface: current status, limitations and future directions”, Journal of Neural Engineering Volume 8 , 2011.
82
[15] . G. Pfurtscheller, T. Solis-Escalante, R. Ortner, P. Linortner, G. R. Müller-Putz, “Self-Paced Operation of an SSVEP-Based Orthosis With and Without an Imagery-Based ‘Brain Switch’: A Feasibility Study Towards a Hybrid BCI”, IEEE Transactions On Neural Systems And Rehabilitation Engineering, Vol. 18, No. 4, August 2010 409
[16] . Birbaumer, Elbert, Canavan, Rockstroh, “ Slow potentials of the cerebral cortex and behavior”, Physiol. Rev., 70, 1-41, 1990
[17] . Birbaumer, “Slow cortical potentials: their origin, meaning, and clinical use”. In G. J. M. van Boxtel & K. B. E Böcker, (Eds.), Brain and behavior past, present, and future (pp. 25-39). Tilburg: Tilburg University Press, 1997
[18] . Kozelka, J. W., & Pedley, “Beta and mu rhythms.”, J Clin Neurophysiol, 7, 191-207, 1990.
[19] . Vidal JJ, “Toward direct brain-computer communication.”, Annu Rev Biophys Bioeng. 1973;2:157-80, 1973
[20] . W. Peneld and H. Jasper. “Epilepsy and the Functional Anatomy of the Human Brain.” Little, Brown, 1954.
[21] . F.H. Lopes da Silva, A. Hoeks, A. Smits, and L.H. Zetterberg. “Model of brain rhythmic activity: The alpha-rhythm of the thalamus.” Kybernetik, 15:23 37, 1974.
[22] . G. Pfurtscheller and A. Aranibar, “Evaluation of event-related desynchronization (ERD) preceding and following voluntary selfpaced movements.”, Electroenceph. clin. Neurophysiol., 46:138 146, 1979.
[23] . G. Pfurtscheller and F.H. Lopes da Silva, “Event related EEG/MEG synchronization and desynchronization: basic prnciples”, Clinical Neurophysiology 110, 1842-1857, 1999
[24] . Gert Pfurtscheller and Fernando H. Lopes da Silva, “ Event-related desynchronization. Handbook of Electroencephalography and Clinical Neurophysiology” Revised Series, volume 6. Elsevier Science B.V., 1999.
[25] . C.S. Nam, T. Jeon, Y.J. Kim, I. Lee, K. Park, “Movement imagery-related lateralization of event-related (de)synchronization (ERD/ERS): Motor-imagery duration effects”, Clinical Neurophysiology 122, 567-577, 2011
[26] . C. Neuper, M.Wortz, G.Pfurtscheller, “ERD/ERS pattern reflecting sensorimotor activation and deactivation”, Neuper & Klimesh (Eds.), Progress in Brain Reserch, Vol.159, Chapter 14, 2006
[27] . F. C. Hummel, C. Gerloff, “Interregional long-range and short-range synchrony: a basis for complex sensorimotor processing”, Neuper & Klimesh (Eds.), Progress in Brain Reserch, Vol.159, Chapter 15, 2006
[28] . G.Pfurtscheller , C. Brunner, A. Schlogl, F.H. Lopes da Silva, “Mu rhytm (de)synchronization and EEG single-trial classification of different motor imagery tasks”, NeuroImage 31, 153-159, 2006
[29] . L Leocania, C. Toroa, P. Zhuanga, C. Gerloffa, M. Hallet, “Event-related desynchronization in reaction time paradigms: a comparison with event-related potentials and corticospinal
83
excitability”, Clinical Neurophysiology Volume 112, Issue 5, Pages 923-930, May 2001
[30] . G. Pfurtscheller, W. Sager, W. Wege, “Correlations between CT scan and sensorimotor EEG rhytms in patients with cerebrovascular disorders.” Electroencephalogr Clin Beurophysiol, 90, 456-60, 1994
[31] . G. Pfurtscheller, Ch. Neuper, D. Flotzinger, M. Pregenzer, “EEG-based discrimination between imagination of right and left hand movement”, Electroencephalography and Clinical Neurophysiology Volume 103, Issue 6, Pages 642-651, December 1997
[32] . Kalcher J, Flotzinger D, Neuper C, Gölly S, Pfurtscheller G, “Graz brain-computer interface II: towards communication between humans and computers based on online classification of three different EEG patterns.”, Department of Medical Informatics, Graz University of Technology, Austria. Med Biol Eng Comput. 1996
[33] . P. Suffczynski, J.P. Pjin, G. Pfurtscheller, F.H. Lopes da Silva, "Event-related dynamics of apha band rhythms: a neuronal network model of docal ERD/surround ERS", Handbook of elecroncephalography and Clinical neurophysiology, Vol 6 Elseiver Amsterdam,pp 67-85,1999
[34] . G. Pfurtscheller , T. Solis-Escalante, “Could the beta rebound in the EEG be suitable to realize a ‘brain switch’?”, Clinical Neurophysiology 120, 24–29, 2009
[35] . Zoltan J. Koles, Michael S. Lazar, and Steven Z. Zhou. “Spatial Patterns underlying Population Differences in the Background EEG”. Brain Topography, Volume 2, Number 4, 1990
[36] . Z. J. Koles. “The quantitative extraction and topographic mapping of the abnormal components in the clinical EEG.” Electroencephalogr. Clin. Neurophysiol., 79(6):440–447, 1991.
[37] . B. Blankertz, R. Tomioka. S. Lemm, M. Kawanabc, K.R. Muller, “Optimizing spatial filters for robust EEG single-trial analysis”, IEEE signal processing magazine, vol XX, 2008
[38] . S. Lemm, B. Blankertz, G. Curio, Klaus-Robert Müller. “Spatio-Spectral Filters for Improving the Classification of Single Trial EEG.” IEEE Transactions on Biomedical” Engineering, Vol. 52, No. 9, September 2005
[39] . G. Dornhege, B. Blankertz, M. Krauledat, F. Losch, G. Curio, Klaus-Robert Müller. “Combined optimization of spatial and temporal filters for improving Brain-Computer Interfacing.” IEEE Transactions on Biomedical Engineering, Vol. 53, No. 11, Novembre 2006
[40] . R. Tomioka, G. Dornhege, K. Aihara, and K.-R. Müller, “An iterative algorithm for spatio-temporal filter optimization,” in Proc. 3rd Int. Brain-Computer Interface Workshop Training Course 2006, Verlag der Technischen Universität Graz, Graz, Austria, pp. 22–23., 2006
[41] . Mahnaz Arvaneh, Cuntai Guan, Kai Keng Ang, Hiok Chai Quek, “Spatially Sparsed Common Spatial Pattern To Improve Bci Performance”, 2011
[42] . G. Liu, G. Huang, J. Meng, X. Zhu, “A frequency-weighted method combined with Common Spatial Patterns for electroencephalogram classification in brain-computer interface”, Biomedical Signal Processing and Control, 174180, 2010
84
[43] . Haixian Wang , “Optimizing spatial filters for single-trial EEG classification via a discriminant extension to CSP: the Fisher criterion”, International Federation for Medical and Biological Engineering 2011
[44] . B. Blankertz, M. Kawanabe, R. Tomioka, F. Hohlefeld, V. Nikulin, and K.-R. Muller, “Invariant common spatial patterns: Alleviating nonstationarities in brain-computer interfacing” ,NIPS 20, 2008.
[45] . S. Mika, G. Rätsch, J. Weston, B. Schölkopf, A. Smola, and K.-R. Müller, “Invariant Feature Extraction and Classification in Kernel Spaces”, in: S. Solla, T. Leen, and K.-R.Müller, eds., Advances in Neural Information Processing Systems, vol. 12, 526–532, MIT Press, 2000.
[46] . G. Dornhege, B. Blankertz, G. Curio, Klaus-Robert Müller. “Boosting Bit Rates in Noninvasive EEG Single-Trial Classifications by Feature Combination and Multiclass Paradigms.” IEEE Trans. Biomed. Eng., vol. 51, p. 993-1002, 2004.
[47] . Q. Novi, C. Guan, T. Huy Dat, P. Xue, “Sub-Band Common Spatial Pattern (SBCSP) for Brain-Computer Interface”, Proceeding of the 3rd International IEEE EMBS Conference on Neural Engineering, 2007
[48] . Johannes Muller-Gerkinga, Gert Pfurtscheller, Henrik Flyvbjergc, “Designing optimal spatial filters for single-trial EEG classification in a movement task”, Clinical Neurophysiology 110, pages 787-798, 1999
[49] . G. Pfurtscheller, C. Neuper, “Motor imagery and direct brain– computer Communication”, Neural Engineering: Merging Engineering and Neuroscience, Proc. IEEE (Special Issue), vol. 89 (7), 2001, pp. 1123– 1134.
[50] . Marijn van Vliet,“Effectiveness of Automatic EOG Regression”, University of Twente, Netherlands, 2006
[51] . LI Ming-Ai YANG Lin-Bao YANG Jin-Fu, “A Fully Automatic Method of Removing EOG Artifacts from EEG Recordings”, School of Electronic Information and Control Engineering, Beijing University of Technology, China,
[52] . Mehrdad Fatourechi 1, Ali Bashashati1, Rabab K Ward, Gary E Birch, “EMG and EOG Artifacts in Brain Computer Interface Systems: A Survey”, 2009
[53] . Zahmeeth Sakkaff and Asiri Nanayakkara, “Removal of ocular artifacts from EEG signals in Brain Computer Interface”,Institute of Fundamental Studies, Hanthana Road, Kandy, Proceedings of the Technical Sessions, 24 (2008) 51-57
[54] . Filipa Campos Viola, Jeremy Thorne, Barrie Edmonds, Till Schneider, Tom Eichele, Stefan Debener, “Semi-automatic identification of independent components representing EEG artifact”, Clinical Neurophysiology 120 (2009) 868–877
[55] . German Gomez-Herrero, Wim De Clercq, Haroon Anwar, Olga Kara1, Karen Egiazarian, Sabine Van Huffel, Wim Van Paesschen, “Automatic Removal of Ocular Artifacts in the EEG without an EOG Reference Channel”, NORSIG 2006
85
[56] . Irene Winkler, Stefan Haufe, Michael Tangermann, “Automatic Classification of Artifactual ICA Components for Artifact Removal in EEG Signals”, Winkler et al. Behavioral and Brain Functions 2011
[57] . Salsedo Fabio, Dettori Andrea, Bergamasco Massimo, Franceschini Marco, Frisoli Antonio, Rocchi Fabrizio, "Exoskeleton Interface Apparatus", EP1581368 App N. EP, 2002
[58] . G. Dornhege, José del R. Millán, Thilo Hinterberger, Dennis McFarland, K.-R. Müller, “Toward Brain-Computer Interfacing.” Cambridge, MA: MIT Press, 2007.
[59] . Isabelle Guyon, Bernhard E. Boser, Vladimir Vapnik, “Automatic Capacity Tuning of Very Large VC-Dimension Classifiers.”, NIPS 1992: 147-155, 1992
[60] . Isabelle Guyon, Jason Weston, Stephen Barnhill and Vladimir Vapnik, “Gene Selection for Cancer Classification using Support Vector Machines”, Machine Learning, 46, 380-422, 2002
86
APPENDICE A.1
Valori medi di correct rate di classificazione ottenuti per ognuna delle quattro sessioni effettuate
da ciascun soggetto:
CSP SCSP FWM FWMv2 SBCSPv1 SBCSPv2 SBCSPv3 SBCSPv40,8782 0,94 0,8718 0,8659 0,9088 0,9024 0,9529 0,950,9312 0,9088 0,9065 0,9188 0,9106 0,9218 0,9318 0,93240,9757 0,9786 0,9757 0,9643 0,9564 0,9393 0,9512 0,93350,9454 0,8969 0,9354 0,8654 0,9308 0,9038 0,8971 0,90410,8273 0,8445 0,9118 0,8609 0,86 0,8373 0,8606 0,87120,8536 0,9382 0,8373 0,8245 0,9682 0,9582 0,8571 0,83710,9614 0,9529 0,9657 0,97 0,9657 0,99 0,7853 0,810,8257 0,8186 0,9329 0,9271 0,8257 0,8086 0,8412 0,8176
0,994 0,94 0,964 0,99 1 0,928 0,9235 0,96350,8918 0,8873 0,87 0,8482 0,9145 0,9227 0,7759 0,86470,8371 0,8014 0,8543 0,7971 0,7786 0,7871 0,7029 0,7276
0,791 0,817 0,794 0,724 0,746 0,785 0,7541 0,75710,908 0,875 0,825 0,887 0,877 0,797 0,7406 0,7524
0,9278 0,9133 0,9078 0,9156 0,9356 0,9311 0,8594 0,810,695 0,805 0,8733 0,8317 0,89 0,8583 0,6782 0,7029
0,8138 0,8025 0,82 0,8038 0,8738 0,8638 0,7529 0,7935
Deviazioni standard di correct rate di classificazione ottenuti per ognuna delle quattro sessioni
effettuate da ciascun soggetto:
CSP SCSP FWM FWMv2 SBCSPv1 SBCSPv2 SBCSPv3 SBCSPv40,066 0,0529 0,0706 0,0739 0,0617 0,0627 0,0458 0,049
0,0592 0,0671 0,0586 0,054 0,0582 0,0615 0,0571 0,05310,034 0,0329 0,0409 0,0448 0,0441 0,0531 0,0481 0,0463
0,0602 0,0591 0,0616 0,076 0,0642 0,0806 0,0655 0,06180,0832 0,0925 0,0769 0,0832 0,0842 0,0978 0,0805 0,07420,1008 0,0631 0,106 0,102 0,049 0,0584 0,0716 0,06730,0637 0,0675 0,0613 0,0585 0,0613 0,0366 0,087 0,09530,1277 0,1298 0,0824 0,1065 0,1386 0,1365 0,0759 0,07590,0239 0,0725 0,0482 0,0302 0 0,0653 0,0551 0,04250,0892 0,0818 0,084 0,0914 0,0773 0,0724 0,0805 0,07260,1219 0,1314 0,1235 0,1303 0,129 0,1175 0,0962 0,08670,1065 0,1215 0,1127 0,1199 0,1132 0,1038 0,0882 0,08870,0734 0,1038 0,1184 0,0837 0,0952 0,1141 0,0811 0,0886
0,073 0,0783 0,0758 0,0792 0,0673 0,0737 0,0719 0,08880,1774 0,1536 0,1363 0,1371 0,1281 0,1467 0,1107 0,0966
0,125 0,1259 0,1169 0,1221 0,0879 0,1193 0,0927 0,0951
87
������������������������� �������������
��
������������������������������������� ��!��������"��#��������� ��������"��#��#�##�����
#���� �����������#�����������$���%�##���������#!�##��#����������������!�����������!����!���������#�����
����������%������� �������&&��������'���(��"����&������%������� ��!)��)������������� ��!�� �������*�
�����##������������� ��!�����������&��#������!���"�*�����������+������!�����������&������#������!���"����
�
�
�
89
�
����������-�������������������"��#��#�##�����#���� �����������#��������-���
�
����������.����� ����&�����������"��#��#�##�����#���� �����������#��������.��
�
90
�
����������/�����#������� �����������!��#!���#���������
�
����������0�����#������� �����������!��#!����#�##�����
�
�