validatie van een vloeistofchromatografische methode voor

74
UNIVERSITEIT GENT FACULTEIT FARMACEUTISCHE WETENSCHAPPEN Vakgroep Farmaceutische Analyse Laboratorium voor Analytische Chemie Academiejaar 2010-2011 VALIDATIE VAN EEN VLOEISTOFCHROMATOGRAFISCHE METHODE VOOR DE BEPALING VAN ETHYLPARABEEN EN LITERATUURONDERZOEK – BELANG VAN HET TOLERANTIE-INTERVAL BIJ DE FARMACEUTISCHE METHODEVALIDATIE Arno VERMOTE Eerste Master in de Geneesmiddelenontwikkeling Promotor Dr. K. Van Uytfanghe Commissarissen Prof. Dr. L. Thienpont Prof. Dr. B. De Spiegeleer

Transcript of validatie van een vloeistofchromatografische methode voor

UNIVERSITEIT GENT

FACULTEIT FARMACEUTISCHE WETENSCHAPPEN

Vakgroep Farmaceutische Analyse

Laboratorium voor Analytische Chemie

Academiejaar 2010-2011

VALIDATIE VAN EEN VLOEISTOFCHROMATOGRAFISCHE METHODE VOOR

DE BEPALING VAN ETHYLPARABEEN EN LITERATUURONDERZOEK – BELANG

VAN HET TOLERANTIE-INTERVAL BIJ DE FARMACEUTISCHE

METHODEVALIDATIE

Arno VERMOTE

Eerste Master in de Geneesmiddelenontwikkeling

Promotor

Dr. K. Van Uytfanghe

Commissarissen

Prof. Dr. L. Thienpont

Prof. Dr. B. De Spiegeleer

UNIVERSITEIT GENT

FACULTEIT FARMACEUTISCHE WETENSCHAPPEN

Vakgroep Farmaceutische Analyse

Laboratorium voor Analytische Chemie

Academiejaar 2010-2011

VALIDATIE VAN EEN VLOEISTOFCHROMATOGRAFISCHE METHODE VOOR

DE BEPALING VAN ETHYLPARABEEN EN LITERATUURONDERZOEK – BELANG

VAN HET TOLERANTIE-INTERVAL BIJ DE FARMACEUTISCHE

METHODEVALIDATIE

Arno VERMOTE

Eerste Master in de Geneesmiddelenontwikkeling

Promotor

Dr. K. Van Uytfanghe

Commissarissen

Prof. Dr. L. Thienpont

Prof. Dr. B. De Spiegeleer

AUTEURSRECHT

“De auteur en de promotor geven de toelating deze masterproef voor consultatie beschikbaar te stellen

en delen ervan te kopiëren voor persoonlijk gebruik. Elk ander gebruik valt onder de beperkingen van

het auteursrecht, in het bijzonder met betrekking tot de verplichting uitdrukkelijk de bron te vermelden

bij het aanhalen van de resultaten uit deze masterproef.”

7 juni 2011

Promotor Auteur

Dr. K. Van Uytfanghe Arno Vermote

i

DANKWOORD

Voor u de inhoud van deze thesis leest, had ik graag nog even benadrukt dat deze scriptie niet had

kunnen geschreven worden zonder de hulp van een aantal mensen. Zij verdienen elk individueel een

speciaal woordje van dank.

In de eerste plaats zou ik graag Prof. Dr. L. Thienpont bedanken. Dankzij haar was het voor mij mogelijk

om deze thesis in het Laboratorium voor Analytische Chemie te schrijven. Daarnaast wil ik haar ook nog

bedanken voor de algemene leiding van deze meesterproef.

Te dikwijls behoren professoren tot het mannelijke geslacht, maar laat één ding duidelijk zijn: ik acht Prof.

Dr. L. Thienpont zeer hoog. Heel slimme vrouwen verdienen het om te doceren aan een universiteit om

trots op te zijn.

In je opleiding heb je niet alleen geduldige pedagogen nodig, maar ook kritische geesten die je

tegenspreken. Daarom ben ik Dr. D. Stöckl speciale dank verschuldigd. Uiteraard dank ik hem voor de

intensieve begeleiding en de lessen statistiek, maar daarnaast zeker en vast ook voor het delen van zijn

levenservaring. De werkelijkheid is niet altijd glorieus. De wetenschap reikt postiche een succesverhaal

zonder weerga aan. Geluk, succes, symbiose, maar “wetenschap maakt niet knap”!

Overigens, wat een zuur dankwoord, wat een cultuurpessimisme een pauselijke encycliek waardig. Dr. D.

Stöckl wordt bedankt om ons bij te brengen dat we vandaag onszelf moeten realiseren en onze toekomst

in handen moeten nemen.

Wie ik zeker niet mag vergeten is mijn promotor Dr. K. Van Uytfanghe. Deze sterke dame, die schijnbaar

nooit eigenwijs, knorrig, trots of vermoeid is, heeft mij heel wat praktische zaken bijgebracht. Haar

positieve ingesteldheid heeft een diepe indruk nagelaten. Graag zou ik haar ook bedanken voor het

nalezen van de thesis en de algemene begeleiding.

De doctoraatstudenten Hedwig Stepman en Sofie Van Houcke dank ik voor hun hulp en tips bij het

uitvoeren van de experimenten in het laboratorium. Zij weten de sfeer op het laboratorium ondanks alle

tegenslagen toch op te krikken.

Graag had ik ook nog mijn dank betuigd aan het personeel van het laboratorium voor Analytische

Chemie: Tania, Hilde, Linde en Sara. In het bijzonder zou ik Tania, die meermaals als een freule Francina

Fazant doorheen het labo laveerde, willen bedanken. Een allerfijnste vrouw, een fonkelende fee. Veel

fraaier dan een pauw.

Natuurlijk mag ik ook Manon niet vergeten. Samen met haar heb ik tijdens deze meesterproef een heel

leerrijke en aangename tijd gehad. Zij heeft mede gezorgd voor een aangename werksfeer.

Als laatste bedank ik ook nog mijn moeder en mijn zus. Ik dank hen voor de steun en vele

aanmoedigingen.

ii

INHOUDSOPGAVE

DANKWOORD ..................................................................................................................................... i

INHOUDSOPGAVE .............................................................................................................................. ii

LIJST MET GEBRUIKTE AFKORTINGEN ................................................................................................. iv

DEFINITIES ........................................................................................................................................ vi

1. INLEIDING ................................................................................................................................... 1

1.1. PARABENEN ................................................................................................................................... 1

1.1.1. Structuur en eigenschappen ......................................................................................... 1

1.1.2. Controverse en toxiciteit .............................................................................................. 2

1.2. VALIDATIE ...................................................................................................................................... 4

2. OBJECTIEVEN .............................................................................................................................. 8

3. MATERIALEN EN METHODEN ....................................................................................................... 9

3.1. MATERIALEN .................................................................................................................................. 9

3.1.1. Oplosmiddel en eluens ................................................................................................. 9

3.1.2. Bereiding van de stockoplossing, standaarden en stalen ................................................ 9

3.1.2.1. Lineariteit en kalibratie ............................................................................................... 10

3.1.2.2. Imprecisie .................................................................................................................... 11

3.1.2.3. Detectielimiet .............................................................................................................. 11

3.1.2.4. Juistheid ....................................................................................................................... 11

3.1.2.5. Systeemgeschiktheidstest ........................................................................................... 12

3.1.3. Apparatuur ................................................................................................................ 12

3.1.3.1. Analyse ........................................................................................................................ 12

3.1.3.2. Randapparatuur........................................................................................................... 13

3.2. METHODEN.................................................................................................................................. 13

3.2.1. Systeemfunctiecontrole .............................................................................................. 13

3.2.2. Systeemgeschiktheidscontrole .................................................................................... 13

3.2.3. Analyse ...................................................................................................................... 15

3.2.4. Validatie-experimenten .............................................................................................. 15

3.2.4.1. Lineariteit ..................................................................................................................... 16

3.2.4.2. Kalibratie ...................................................................................................................... 17

3.2.4.3. Imprecisie .................................................................................................................... 18

3.2.4.4. Detectielimiet .............................................................................................................. 20

3.2.4.5. Juistheid ....................................................................................................................... 21

3.2.4.6. Methodevergelijking ................................................................................................... 22

3.2.5. Dataverwerking en statistiek ...................................................................................... 24

3.2.6. Specificaties ............................................................................................................... 25

3.2.7. Literatuuronderzoek ................................................................................................... 25

iii

4. RESULTATEN EN DISCUSSIE ........................................................................................................ 26

4.1. EXPERIMENTEN ........................................................................................................................... 26

4.1.1. Systeemfunctiecontrole .............................................................................................. 26

4.1.2. Systeemgeschiktheidscontrole .................................................................................... 26

4.1.3. Lineariteit .................................................................................................................. 27

4.1.4. Kalibratie ................................................................................................................... 28

4.1.5. Imprecisie .................................................................................................................. 30

4.1.6. Detectielimiet ............................................................................................................ 32

4.1.7. Juistheid .................................................................................................................... 33

4.1.8. Methodevergelijking .................................................................................................. 35

4.1.9. Resultaten: samenvatting ........................................................................................... 39

4.2. LITERATUURONDERZOEK ............................................................................................................ 39

4.2.1. Introductie tot het statistisch concept van het tolerantie-interval ................................ 39

4.2.2. Het tolerantie-interval binnen het (bio)farmaceutische veld ........................................ 42

4.2.3. Belang van het tolerantie-interval bij de farmaceutische methodevalidatie ................. 44

5. CONCLUSIE ............................................................................................................................... 50

6. LITERATUURLIJST ...................................................................................................................... 51

APPENDIX: Detection decisions defined by the standard deviation of the blank – Questions from

“analytical freshmen”

iv

LIJST MET GEBRUIKTE AFKORTINGEN

βETI “β-expectation” tolerantie-interval

βCTI “β-content” tolerantie-interval

ANOVA Variantie-analyse (“Analysis of Variance”)

CI Confidentie-interval (“Confidence Interval”)

CL Betrouwbaarheidslimiet (“Confidence Limit”)

CLSI “Clinical and Laboratory Standards Institute”

CV Variatiecoëfficiënt (“Coefficient of Variation”)

CVwr Binnen-analyse variatiecoëfficiënt (“within run” CV)

CVT Totale variatiecoëfficiënt (“total” CV)

ELISA “Enzyme-Linked Immunosorbent Assay”

EP Evaluatie protocol (“Evaluation Protocol”)

FDA “Food and Drug Administration”

HPLC Hoge druk vloeistofchromatografie (“High Performance Liquid

Chromatography”)

ICH “International Conference on Harmonisation”

IQC Interne kwaliteitscontrole (“Internal Quality Control”)

ISO “International Organization for Standardization”

IUPAC “International Union of Pure and Applied Chemistry”

LCL Onderste betrouwbaarheidslimiet (“Lower Confidence Limit”)

LLoQ Onderste kwantificatielimiet (“Lower Limit of Quantitation”)

LoD Detectielimiet (“Limit of Detection”)

LoQ Kwantificatielimiet (“Limit of Quantitation”)

OLR Gewone lineaire regressie (“Ordinary Linear Regression”)

PI Predictie-interval (“prediction interval”)

psi “Pound-force per square Inch” (1 psi = 6,9 kPa)

p-waarde Probabiliteitswaarde

S/N Signaal tot ruis verhouding (“signal to noise ratio”)

SE Systematische fout (“Systematic Error”)

SFSTP “Société Française des Sciences et Techniques

Pharmaceutiques”

v

SST Systeemgeschiktheidstest (“System Suitability Test”)

sT Totale standaarddeviatie (“total standarddeviation”)

Swr Binnen-analyse standaarddeviatie (“within run

standarddeviation”)

TE Totale fout (“Total Error”)

TI Tolerantie-interval (“tolerance interval”)

TSH Thyroid Stimulerend Hormoon

UCL Bovenste betrouwbaarheidslimiet (“Upper Confidence Limit”)

ULoQ Bovenste kwantificatielimiet (“Upper Limit of Quantitation”)

USP “United States Pharmacopeia”

UV Ultraviolet

VIS Zichtbaar (“Visible”)

WLR Gewogen lineaire regressie (“Weighted Linear Regression”)

vi

DEFINITIES

De definities van de begrippen “measurand”, “analytical specificity”, “bias of measurements” en

“trueness” werden overgenomen uit EN/ISO 17511:

Measurand

Particular quantity subject to measurement.

Analytical specificity

Ability of a measurement procedure to measure solely the measurand.

Bias of measurements

Difference between the expectation of the results of measurement and a true value of the measurand.

Trueness of a measurement

Closeness of the agreement between the average value, obtained from a large series of results, and a

true value.

NOTE 1 Definition adapted from ISO 3534-1:1993, 3.12 that has ‘...test results and an accepted reference

value’, which can be a theoretical (true), assigned, consensus, or procedure-defined value.

NOTE 3 Trueness of measurement cannot be given a numerical value in terms of the measurand, only

ordinal values (e.g. sufficient, insufficient).

NOTE 4 The degree of trueness is usually expressed numerically by the statistical measure bias that is

inversely related to trueness and is the difference between the expectation of the results of

measurement and a true value of the measurand.

De definities van de begrippen “measurement procedure”, “accuracy”, “repeatability” en

“reproducibility” werden overgenomen uit de “Vocabulaire International des Termes Fondamentaux et

Généraux de Métrologie”:

Measurement procedure

Set of operations, described specifically, used in the performance of particular measurements according

to a given method.

vii

Accuracy of a measurement:

Closeness of the agreement between the result of a measurement and a true value of the measurand.

NOTE 1 Accuracy of measurement is related to both trueness of measurement and precision of

measurement.

NOTE 2 Accuracy cannot be given a numerical value in terms of the measurand, only descriptions such as

‘sufficient’ or ‘insufficient’ for a stated purpose.

NOTE 3 An estimator of an inverse measure of accuracy is “deviation”, defined as ‘value minus a

conventional true value’.

NOTE 4 ISO 3534-1, instead of “a true value” in the definition above, uses the concept “the accepted

reference value”, which can be a theoretical (true), assigned, consensus, or procedure-defined value.

Repeatability

Closeness of the agreement between the results of successive measurements of the same measurand

carried out under the same conditions of measurement.

Reproducibility

Closeness of the agreement between results of measurements of the same measurand carried out under

changed conditions of measurement.

De term “reference measurement procedure” werd overgenomen uit ISO 15193.

Reference measurement procedure

Thoroughly investigated measurement procedure shown to yield values having an uncertainty of

measurement commensurate with its intended use, especially in assessing the trueness of other

measurement procedures for the same quantity and in characterizing reference materials.

viii

Voor de term “precision” werd de definitie overgenomen uit ISO - Statistics - Vocabulary and symbols:

Precision of a measurement

The closeness of agreement between independent results of measurements obtained under stipulated

conditions.

Metrologische termen werden in het Nederlands vertaald volgens:

Accuracy Nauwkeurigheid

Trueness Juistheid

Precision Precisie

Repeatability Herhaalbaarheid

Reproducibility Reproduceerbaarheid

Limit of detection Aantoonbaarheidsgrens

Limit of quantification Bepaalbaarheidsgrens

Uncertainty of measurement Meetonzekerheid

1

1. INLEIDING

1.1. PARABENEN

1.1.1. Structuur en eigenschappen

Parabenen zijn alkylesters van parahydroxybenzoëzuur. Ze vormen een groep van chemische

producten, die gebruikt worden als conserveermiddel in cosmetica, voeding en farmaceutische

preparaten. Het gebruik van parabenen en hun zouten als conserveermiddel is te wijten aan hun

bactericide en fungicide eigenschappen. Ze zijn iets meer actief tegen fungi dan tegen bacteriën, maar

hun effectiviteit als bewaarmiddel, in combinatie met hun lage kostprijs en het feit dat ze al jarenlang

gebruikt worden, zorgt ervoor dat deze producten vandaag nog steeds heel vaak aangewend worden in

diverse producten en levensmiddelen (Soni et al., 2005). De apotheker kent deze parabenen dan ook en

gebruikt ze heel vaak in magistrale bereidingen voor de verduurzaming van bepaalde formulaties. In

zowel topische en vaginale preparaten, als in orale oplossingen en suspensies worden vaak parabenen

verwerkt. Ze zijn echter niet geschikt voor oftalmologische aanwending, gezien deze hydroxybenzoëzure

esters irritatie van de ogen kunnen veroorzaken.

Figuur 1.1. toont de algemene structuur van een parabeen, waarbij R een alkylketen voorstelt.

Parabenen bestaan uit een gesubstitueerde aromatische ring. Deze absorbeert elektromagnetische

straling in het UV-gebied. Hierdoor kunnen parabenen gedetecteerd worden met spectrofotometrische

technieken. De esters zijn witgekleurde, geurloze kristallijne poeders (The Merck Index, 13th edition).

Parabenen zijn actief in het pH-gebied 4 tot 8. De activiteit is iets hoger bij een lage pH. Bij een

pH hoger dan 8 wordt de esterbinding gehydrolyseerd en verliezen ze hun werking. De activiteit stijgt

naarmate de ketenlengte van de alkylgroep toeneemt, maar men moet er zich van vergewissen dat de

wateroplosbaarheid afneemt bij stijgende ketenlengte. Parabenen zijn dan ook slecht oplosbaar in

Figuur 1.1.: Algemene structuur van een parabeen

2

water, maar goed oplosbaar in ethanol en propyleenglycol. Deze laatste worden daardoor vaak gebruikt

als co-solvent in waterige magistrale bereidingen om de oplosbaarheid te verhogen. De oplosbaarheid in

water kan daarnaast ook nog opgekrikt worden door zouten te maken van deze geur- en kleurloze

esters. De zoutvorming heeft als nadeel dat de pH van het preparaat kan stijgen, waardoor de

esterbinding kan verbroken worden. Aqua conservans is een oplossing van methylparabeen en

propylparabeen in propyleenglycol of water; de combinatie van deze parabenen met korte alkylketen

zorgt voor een synergistisch effect en is een effectieve methode om de oplosbaarheid te verhogen.

Onder de commercieel beschikbare parabenen worden methyl-, ethyl-, propyl- en butylparabeen

heel vaak gebruikt. Minder vaak gebruikt zijn isopropyl-, isobutyl- en benzylparabeen. Alle parabenen die

in de handel verkrijgbaar zijn, worden synthetisch aangemaakt door esterificatie van

parahydroxybenzoëzuur met het gewenste alcohol. Sommige parabenen, zoals methylparabeen, komen

ook in de natuur voor.

Het werkingsmechanisme van parabenen als conserveermiddel berust op het feit dat ze de

fosfolipidendubbellaag kunnen penetreren. Op die manier zorgen ze voor een fysische verstoring van de

celmembraan met een desorganisatie van de protonengradiënt en verlies van chemi-osmotische kracht

tot gevolg (Denyer, 1995; Soni et al., 2005).

1.1.2. Controverse en toxiciteit

Het laatste decenium zijn parabenen in opspraak gekomen, omwille van hun mogelijke rol bij het

ontstaan van borstkanker. Eerst en vooral moeten we stellen dat epidemiologische, klinische en

experimentele studies bevestigen dat oestrogenen een belangrijke rol spelen bij de ontwikkeling, de

progressie en de behandeling van borstkanker. (Harvey, 2004). Dit roept de vraag op of chemicaliën, die

de menselijke cel kunnen binnentreden en oestrogene activiteit nabootsen een gelijkaardige rol hebben

bij borstkanker. Alle vaakgebruikte parabenen hebben oestrogene activiteit vertoond in zowel in vitro als

in vivo studies (Darbre & Harvey, 2008). Het is dan ook niet verbazend dat de meting van intacte esters

van zowel methyl-, ethyl-, propyl-, butyl-, als isobutylparabeen in humaan borstkankerweefsel de

internationale discussie rond deze bewaarmiddelen heeft gestimuleerd (Darbre et al., 2004).

Bij dermale applicatie kunnen parabenen doorheen de huid penetreren. De mate waarin de

absorptie plaatsvindt, stijgt met de lengte van de alkylketen, met uitzondering van methylparabeen dat

het makkelijkst doorheen de huid diffundeert (El Hussein et al., 2007). Hoewel er in de huid esterases

aanwezig zijn, die de esterbinding hydrolyseren, hebben studies aangetoond dat er bij applicatie toch

3

intacte parabenen in de diepere lagen van de huid voorkomen (Ishiwatari et al., 2007). Dit suggereert

dat de hydrolyse door de huidesterasen niet volledig is. Andere studies waarbij de concentratie van

intacte parabenen in bloed en urine werd gemeten, tonen gelijkaardige resultaten. De hoeveelheid

intacte parabenen die via de urine worden verwijderd, bleek echter laag (Soni et al., 2005).

Naast de absorptie blijkt ook de oestrogene activiteit van parabenen te stijgen met toenemende

ketenlengte (Byford et al., 2002). Meer recente inzichten tonen aan dat het weghalen van de alkylgroep

de oestrogene activiteit vermindert, maar niet volledig doet verdwijnen. Metabole hydrolyse van

parabenen door esterasen in de huid, lever en nier, met omzetting in parahydroxybenzoëzuur doet de

oestrogeniciteit dus niet volledig verdwijnen, in tegenstelling tot wat men eerst dacht (Darbre et al.,

2008).

Parabenen worden extensief gebruikt in de cosmetische, voedings- en farmaceutische industrie.

Vooral methyl- en propylparabeen zijn aanwezig in een grote meerderheid van cosmetische producten,

waaronder deodorants, crèmes en lotions. Moeten we ons, rekening houdend met de hierboven

beschreven controverse rond parabenen, zorgen maken over ons cosmeticagebruik? Voorlopig is er geen

sluitend antwoord te geven op deze vraag. Er zijn een aantal studies die beweren dat er een associatie

zou bestaan tussen het gebruik van parabenen in antitranspiratiemiddelen en het ontstaan van

borstkanker. Volgens Darbre et al. (2008) is er een disproportioneel hoge incidentie van borstkanker bij

vrouwen, waarbij de tumor zich bevindt in het bovenste, buitenste kwadrant van de borst, de regio het

dichtst bij de onderarm (waar de cosmetica wordt aangebracht). Of er echter een causaal verband

bestaat tussen het gebruik van parabenen in onderarmcosmetica en het ontwikkelen van borstkanker in

de regio het dichtst bij de onderarm is maar de vraag. Andere wetenschappers vermelden dat er een

grotere hoeveelheid epitheliaal borstweefsel aanwezig is in deze regio, wat dan de grotere incidentie zou

verklaren. Bovendien is uit in vivo studies gebleken dat ten opzichte van oestrogenen (als controle) de

parabenen met activiteit vele grootte-ordes minder actief zijn dan oestrogenen zelf (Golden et al., 2005).

Er bestaan ook studies die geen causaal verband hebben kunnen aantonen tussen parabeengebruik en

borstkanker. Het wetenschappelijk comité voor consumentenproducten van de Europese Unie volgt

eerder deze laatste resultaten, die de standpunten van Darbre weerleggen (SCCP, 2005).

In ieder geval is het wachten op gecontroleerde wetenschappelijke studies om onderbouwde

conclusies te kunnen stellen. Er is nood aan een gecontroleerde en gedetailleerde evaluatie van het

risico op borstkanker door het gebruik van cosmetica met parabenen. Verder moet er onderzocht

worden in hoeverre er interindividuele variatie bestaat tussen parabeenabsorptie, ontsnappen aan

4

esterase-activiteit en accumulatie in weefsels (Darbre et al., 2008). Bovendien kunnen enkel in vivo data

evidentie verschaffen over hoe hormoonactieve substanties beïnvloed worden door absorptie,

distributie, metabolisatie en excretie in het lichaam. Een gecombineerde in vitro/in vivo benadering is

nodig om een volledig begrip van de activiteit van de bewaarmiddelen in kwestie te bekomen (Golden et

al., 2005). In afwachting van deze studies laat de Europese Unie het gebruik van parabenen in

cosmetische producten toe met een maximale concentratie van elk 0,4% en een totale maximale

concentratie van 0,8% (EU Cosmetics Directive 76/768/EEC). Parabenen worden ook geregistreerd voor

hun gebruik in voedsel.

1.2. VALIDATIE

Als analyticus moet men weten dat vooraleer een methode kan aangewend worden, deze eerst

ontwikkeld moet worden en daarna gevalideerd. Door de grote verscheidenheid aan stalen, kolommen,

eluentia, operationele parameters… lijkt het ontwikkelen van een chromatografische methode erg

complex. Uiteraard is het kiezen van een doel en het consulteren van de literatuur een goede eerste

stap. Dit kan de onderzoeker heel wat onnodig experimenteel werk besparen. Toch kan men ook hier

nog steeds het overzicht over de vele publicaties verliezen. McDowall et al. hebben (naar USP<1058>)

een analytische kwaliteitsdriehoek opgesteld, waarvan een gereduceerde versie te zien is in Tabel 1.1. op

de volgende pagina (McDowall, 2010). Deze bondige versie van de analytische kwaliteitsdriehoek van

McDowall geeft een beknopt, maar duidelijk overzicht over hoe men van methode-ontwikkeling tot

goede analytische kwaliteit komt.

Het onderste deel van de analytische kwaliteitsdriehoek vormt de basis voor alle verdere

stappen en vertelt dat er eerst moet nagegaan worden of het toestel geschikt is voor het beoogde doel.

De analytische instrumentkwalificatie kan verder onderverdeeld worden in vier fasen, ook gekend als de

vier Q’s:

“Design Qualification”: definieert de vereisten (bijvoorbeeld vereisten voor de kwaliteit die nodig is

voor de analyse) van de gebruiker alvorens het toestel wordt aangekocht.

“Installation Qualification”: demonstreert dat de verschillende elementen correct geïnstalleerd

werden.

“Operation Qualification”: toont aan dat het geïnstalleerde systeem aan de specificaties voldoet.

“Performance Qualification”: toont aan dat het systeem dezelfde prestatie zoals gedefinieerd blijft

behouden.

5

Tabel 1.1.: Gereduceerde versie van de analytische kwaliteitsdriehoek volgens McDowall.

Wanneer wordt het

uitgevoerd?

Wat wordt er

gecontroleerd?

Tijdens de analytische metingen of experimenten

Systeemdrift

Kan bias tussen verschillende metingen of experimenten identificeren

Op de dag van de analyse

Voor de metingen

Bevestigt dat het systeem binnen vooraf bepaalde limieten functioneert

Voor applicatie van de methode

Bevestiging van operationele parameters

Monstervoorberei-ding

Bij het initieel opzetten van het instrument

Op regelmatige intervallen daarna

Geschiktheid van het instrument

Na deze eerste stap komt de analytische methodevalidatie, gevolgd door

systeemgeschiktheidscontroles. In deze thesis worden de systeemgeschiktheidscontroles omwille van

educatieve redenen gecombineerd met de methodevalidatie. Als laatste stap komen dan de interne

kwaliteitscontroles. Dit zou men kunnen zien als “methodeonderhoud”; de prestatie van de methode

moet continu op punt gehouden worden. In wat volgt wordt dieper ingegaan op de methodevalidatie. Er

wordt in deze inleiding niet verder ingegaan op de andere stappen van de analytische kwaliteitsdriehoek.

Deze scriptie is het relaas van de validatie van een vloeistofchromatografische methode voor de

bepaling van ethylparabeen. De International Organisation for Standardisation definieert in ISO-9000

validatie als: “The confirmation, through the provision of objective evidence, that requirements for a

specific intended use or application have been fulfilled.” Wanneer men een methode ontwikkelt, moet

deze dus voldoen aan specificaties voor een vooropgesteld doel (meestal is dat dan het oplossen van een

Analytische instrumentkwalificatie

Analytische methodevalidatie

Systeem-

geschiktheids-

controles

Kwaliteits- controles

6

analytische vraagstelling). Bij de start van een validatie maakt men een validatieplan op. Hierin worden

de verschillende uit te voeren stappen beschreven. Tabel 1.2. somt de verschillende stappen van een

validatieplan op wanneer een nieuw ontwikkelde methode wordt gevalideerd.

Tabel 1.2.: Validatieplan gebruikt bij de validatie van een nieuw ontwikkelde analytische methode (Stöckl, 2007)

1. Definieer het gebruik, het doel en het bereik van de methode

2. Definieer de prestatiekenmerken en de aanvaardbaarheidscriteria

3. Ontwikkel een validatieprotocol of werkprocedure voor de validatie

4. Bepaal de materialen bv. standaarden, reagentia en stalen

5. Voer de validatie-experimenten uit

6. Documenteer de validatie-experimenten en de resultaten in een validatierapport

7. Interpreteer de validatiegegevens en maak op statistiek gebaseerde beslissingen

Bij de validatie van een chromatografische methode worden verschillende

prestatiekarakteristieken onderzocht. Tabel 1.3. vat de verschillende prestatiekarakteristieken samen,

die in deze meesterproef aan bod komen. Deze worden verder in deze scriptie onder 3.2.4. ‘Validatie-

experimenten’ uitgebreider besproken.

Tabel 1.3.: Overzicht van de verschillende prestatiekarakteristieken die in deze thesis worden gecontroleerd

Bij het onderzoeken of aan de verschillende prestatiekenmerken wordt voldaan, wordt er

volgens een bepaald protocol gewerkt. Deze protocollen schrijven voor welke stappen er moeten

gevolgd worden om tot een bepaald resultaat te komen. Tijdens deze meesterproef wordt er gewerkt

volgens experimentele protocollen opgesteld door CLSI (“Clinical and Laboratory Standards Institute”). Er

wordt verder ingegaan op deze protocollen onder 3.2.4. ‘Validatie-experimenten’.

De validatiegegevens worden uiteindelijk met behulp van statistische (significantie)testen

geïnterpreteerd. Voor de validatie wordt onder meer gebruik gemaakt van “Method validation with

confidence”, geschreven door Dr. D. Stöckl. Gezien de concentratie van een staal nooit met absolute

zekerheid kan bepaald worden en altijd een schatting blijft, moet men een confidentie-interval (CI)

Prestatiekarakteristiek

Lineariteit

Imprecisie

Detectielimiet

Juistheid (Terugvinding)

Methodevergelijking

7

rapporteren om, met een bepaalde zekerheid, een idee te krijgen van de ligging van de ware waarde. De

titelkeuze voor het werk van Dr. D. Stöckl is dus niet in het minst toevallig. Tijdens een analytisch proces,

met staalname, staalopzuivering en de uiteindelijke analyse, treden fouten op. Voor elke meting bestaat

er dus een onzekerheid op de resultaten. Door het opstellen van confidentie-intervallen kunnen we toch

betrouwbare conclusies trekken uit de bekomen resultaten.

Het interpreteren van een confidentie-interval vraagt een woordje uitleg. We beschouwen eerst

de situatie waarbij een bepaald resultaat vergeleken wordt met de specificatie voor een stabiel proces.

Wanneer bij de meting van een staal de doelwaarde bekend is via een referentiemethode (in dit geval

bijvoorbeeld 10 ppm) en in het CI ligt, dan kunnen we op het 100(1-α)% significantieniveau besluiten dat

het bekomen resultaat niet significant verschilt van de doelwaarde.

Figuur 1.2. geeft een grafische voorstelling van de hierboven beschreven problematiek. Bij

situatie A en D ligt de doelwaarde (10 ppm) niet in het CI en kunnen we op het 100(1-α)%

significantieniveau besluiten dat de meting significant verschilt van de doelwaarde. In situatie B en C is

de doelwaarde wel inbegrepen in het CI. Deze metingen verschillen niet significant van de 10 ppm.

De interpretatie van deze intervallen verschilt echter wanneer er vergeleken wordt ten opzichte van een

limiet, bijvoorbeeld wanneer er nagegaan wordt of de metingen een bepaalde waarde (opnieuw 10 ppm)

al dan niet overschrijden. Opnieuw wordt Figuur 1.2. beschouwd, maar nu wordt deze anders

geïnterpreteerd. Situatie A in Figuur 1.2. overschrijdt de limiet niet op het 100(1-α)% significantieniveau.

Ofschoon bij situatie B het meetresultaat onder de grens ligt, zou het toch kunnen dat de maximale

concentratie wordt overschreden. In dit geval kunnen meerdere metingen het CI smaller maken en op

die manier uitsluitsel bieden. In geval C en D wordt de limiet van 10 ppm overschreden op het 100(1-α)%

significantieniveau.

Figuur 1.2.: Grafische weergave van verschillende situaties bij het interpreteren van confidentie-intervallen

8

2. OBJECTIEVEN

Deze scriptie bestaat uit twee luiken. Het eerste luik is een experimenteel gedeelte waarin de

validatie van een vloeistofchromatografische methode voor de bepaling van ethylparabeen wordt

uitgevoerd. Het tweede deel bestaat uit een literatuuronderzoek.

Voor het experimenteel gedeelte wordt door het Laboratorium voor Analytische Chemie

gedurende de volledige duur van de meesterproef een HPLC systeem ter beschikking gesteld. Bij de

methodevalidatie worden verschillende prestatiekarakteristieken onderzocht. Deze omvatten lineariteit,

imprecisie, detectielimiet, juistheid en uiteindelijk wordt er nog een methodevergelijking uitgevoerd.

Bovendien wordt er bij deze validatie, na een korte periode van kennismaking met de apparatuur,

zelfstandigheid verwacht bij het onderhouden en controleren van het toestel en materiaal. Voor het

plannen, uitvoeren, interpreteren en rapporteren van de analytische validatie-experimenten wordt in

eerste instantie bijstand verleend, maar finaal wordt ook bij deze zaken zelfstandigheid verwacht. Het

eluens en de verschillende analysestalen worden zelf bereid. Systeemfunctie- en

systeemgeschiktheidscontroles worden dagelijks bij aanvang van de metingen uitgevoerd.

In het tweede luik van deze meesterproef, de literatuurstudie, wordt er op zoek gegaan naar

informatie over het tolerantie-interval. Daarnaast wordt nagegaan of dit statistisch interval applicatie

vindt in de farmaceutische methodevalidatie. Uiteraard heeft de literatuurstudie ook als doel het

efficiënt en doelgericht zoeken naar informatie en het kritisch evalueren van de verschillende

informatiebronnen.

9

3. MATERIALEN EN METHODEN

3.1. MATERIALEN

3.1.1. Oplosmiddel en eluens

Voor het aanmaken van de stockoplossing van ethylparabeen en voor de testmix wordt gebruik

gemaakt van een mengsel van 60% methanol en 40% water als oplosmiddel. Er wordt methanol

(gradiënt kwaliteit) van ROMIL-SpSTM (Cambridge, GB) gebruikt. Methanol heeft een relatieve

moleculemassa van 32.04. De zuiverheid van het gebruikte methanol bedraagt ≥99.9%. Het water

(gradiënt kwaliteit) dat wordt gebruikt, wordt eveneens bekomen bij ROMIL-SpSTM. De relatieve

moleculemassa bedraagt 18.02; het residu is kleiner dan 0.0001%; de resistiviteit is groter dan 18

MOhm.m bij 25°C. De zuiverheid van het oplosmiddel wordt getest door injectie in het chromatografisch

systeem. Hierbij ligt de nadruk op het al dan niet voorkomen van interferenties in het retentiebereik van

3 tot 4 minuten.

Het eluens dat dagelijks wordt aangemaakt en gebruikt, heeft dezelfde samenstelling als het

oplosmiddel (60% methanol en 40% water). Methanol en water worden na mengen aan filtratie

onderworpen. Dit heeft als doel eventuele deeltjes uit de vloeistof te verwijderen. Bij het filtreren wordt

gebruik gemaakt van een “Alltech Solvent Filtration” apparaat (Deerfield, IL, VSA). Membraanfilters van

Durapore met poriëngrootte van 0.45 µm zijn van Millipore (Bedford, MA, VSA). Finaal wordt het eluens

nog in een sonificatiebad geplaatst (Branson 1210, Gent, België) om het te ontgassen. Het eluens wordt

elke morgen opnieuw aangemaakt in glazen flessen van 1000 ml met draaidop van Schott Duran (Mainz,

Duitsland).

De stockoplossing wordt aangemaakt in vials van 14 ml van GRACE (Deerfield, IL, VSA) met

draaidop. De standaarden worden aangemaakt in glazen maatkolven van Schott Duran.

3.1.2. Bereiding van de stockoplossing, standaarden en stalen

Alle oplossingen worden gravimetrisch aangemaakt en bewaard bij 4°C. Voor de stockoplossing

wordt ethylparabeen (“ethyl-4-hydroxybenzoate”) gebruikt, aangekocht bij Sigma-Aldrich (Bornem,

België, St Louis MO). Deze substantie heeft een relatieve moleculemassa van 166.2 en een zuiverheid

van ≥99%. Er wordt 6.160 mg ethylparabeen nauwkeurig afgewogen en opgelost in 9.238 g oplosmiddel.

De concentratie van de stockoplossing bedraagt op die manier 666.4 µg/g. Er wordt daarnaast ook een

aantal tussenverdunningen aangemaakt uit de stockoplossing. Tussenverdunning 1 heeft een

10

concentratie van 18.52 µg/g, tussenverdunning 2 een concentratie van 1.693 µg/g en tussenverdunning

3 heeft als concentratie 0.1713 µg/g.

Voor de verschillende validatie-experimenten worden een aantal standaarden en stalen

aangemaakt.

3.1.2.1. Lineariteit en kalibratie

Voor lineariteit en kalibratie worden primair twee standaarden aangemaakt, één met hoge en

één met lage concentratie. De standaard met lage concentratie wordt standaard 1 genoemd, deze met

hoge concentratie wordt standaard 5 genoemd. Standaarden 2, 3 en 4 worden aangemaakt volgens het

alternatieve mengprotocol zoals beschreven staat in het CLSI EP6 protocol (“Clinical and Laboratory

Standards Institute”). Tabel 3.1. geeft dit mengprotocol weer.

Tabel 3.1. : Alternatief mengprotocol beschreven in het CLSI EP6 protocol

1. Laag

2. Laag medium

3. Medium

4. Hoog medium

5. Hoog

Tussenverdunning 2 wordt 62 keer verdund

laag + medium (1:1)

laag + hoog (1:1)

hoog + medium (1:1)

Tussenverdunning 1 wordt 14 keer verdund

Uit oriënterende experimenten is gebleken dat de concentratie die overeenkomt met de

detectielimiet (“Limit of Detection”, LoD) ongeveer gelijk is aan 0.0050 µg/g. Wanneer we deze

concentratie injecteren, wordt een signaal tot ruis verhouding (“signal to noise ratio”, S/N ratio) van

ongeveer 3 bekomen. De concentratie van standaard 1 moet ongeveer gelijk zijn aan een concentratie

die een S/N ratio van 10 oplevert. Om een voldoende groot dynamisch bereik te bekomen, wordt ervoor

gezorgd dat standaard 1 een concentratie heeft van om en bij 0.015 µg/g (wat overeenstemt met 3 keer

LoD) en standaard 5 een concentratie van ongeveer 50 keer de concentratie van standaard 1 (0.75 µg/g).

Standaard 1 wordt ook soms de onderste kwantificatielimiet (“Lower Limit of Quantification”, LLoQ)

genoemd. Analoog wordt standaard 5 de bovenste kwantificatielimiet (“Upper Limit of Quantification”,

ULoQ) genoemd. Uiteindelijk zijn 0.02711 µg/g en 1.348 µg/g de concentraties van respectievelijk

standaard 1 en 5. De concentratie van standaard 5 is hoger dan wat we theoretisch hebben berekend,

maar dat vormt voor de doeleinden van deze scriptie geen probleem. Voor standaarden 2, 3 en 4 wordt

gebruik gemaakt van het mengprotocol, zoals beschreven in Tabel 3.1. Aan de hand van de massa’s die

11

gepipetteerd worden, kan de exacte concentratie van de standaarden berekend worden. Tabel 3.2. zet

de concentraties van de standaarden op een rij.

Tabel 3.2. : Concentraties van standaarden 1 tot en met 5

Standaard Concentratie (µg/g)

1 0.02711

2 0.3566

3 0.6869

4 1.017

5 1.348

3.1.2.2. Imprecisie

Voor de evaluatie van de imprecisie worden twee interne kwaliteitscontrole stalen (“Internal

Quality Control”, IQC) gemaakt. Eén van de stalen heeft een hoge concentratie (High IQC), de andere een

lage concentratie (Low IQC). De concentratie van het High IQC staal bedraagt 0.8853 µg/g, die van het

Low IQC staal 0.4598 µg/g. Beide stalen worden bereid vertrekkende uit de stockoplossing.

3.1.2.3. Detectielimiet

Voor de evaluatie van deze prestatiekarakteristiek wordt gedurende vijftien dagen elke dag een

nieuw staal aangemaakt met een concentratie die een S/N ratio van 3 tot 6 oplevert. Voor het aanmaken

van deze stalen wordt vertrokken uit standaard 1. Zoals in 3.1.2.1. ‘Lineariteit en kalibratie’ al werd

vermeld, was uit oriënterende experimenten gebleken wat de concentratie ongeveer is die een S/N ratio

van 3 oplevert (ongeveer 0.0050 µg/g). Op die manier kunnen we berekenen hoe sterk we standaard 1

moeten verdunnen.

3.1.2.4. Juistheid

Van de zes stalen, die gebruikt worden voor het nagaan van de juistheid, werden er drie

aangemaakt door het Laboratorium voor Analytische Chemie. Daarnaast waren twee van de zes stalen

dezelfde als de stalen voor imprecisie (High IQC en Low IQC). Het laatste staal wordt door onszelf

aangemaakt. De concentratie van de verschillende stalen voor juistheid staat opgelijst in Tabel 3.3.

12

Tabel 3.3. : Concentraties van de zes verschillende stalen voor juistheid

3.1.2.5. Systeemgeschiktheidstest

Voor het nagaan van de geschiktheid van het systeem wordt een testmix gebruikt. Deze bevat 4-

hydroxybenzoëzuur, methylparabeen, ethylparabeen, propylparabeen en butylparabeen. Deze

componenten hebben allemaal een concentratie van ongeveer 2.5 µg/g. Tabel 3.4. vat de naam, de

fabrikant, relatieve moleculemassa en zuiverheid van de gebruikte componenten in de testmix samen.

Tabel 3.4. : Naam, naam van de fabrikant, relatieve moleculemasse en zuiverheid van de componenten in de testmix

Naam Fabrikant Realtieve moleculemassa Zuiverheid

4-hydroxybenzoëzuur Sigma Aldrich 138.1 ≥99%

Methylparabeen Sigma Aldrich 152.2 99%

Ethylparabeen Sigma Aldrich Fluka 166.2 ≥99%

Propylparabeen Sigma Aldrich 180.2 ≥99%

Butylparabeen Sigma Aldrich 194.2 ≥99%

3.1.3. Apparatuur

3.1.3.1. Analyse

Voor de experimenten wordt een HPLC-systeem van SHIMADZU (Kyoto, Japan) gebruikt, met een

Prominence serie LC-20 AT pomp, Prominence DGU 20A5 ontgasser, Prominence serie SPD-20 A UV/VIS

detector en injector van Rheodyne (Rohnert Park, CA, VSA) model 7725i, voorzien van een 5 µl loop.

SHIMADZU LC Solution® wordt als software gebruikt om de data te registreren.

Er wordt gebruik gemaakt van een ODS Hypersil C18 kolom (150 mm x 4.6 mm interne diameter;

partikeldiameter 5 µm; poriëngrootte 120 Å) aangekocht bij Thermo Electron Corp (Waltham, MA, VSA).

Nummer juistheidsstaal Concentratie (µg/g)

1 0.06106

2 0.1088

3 0.3368

4 (= Low IQC) 0.4598

5 0.7570

6 (= High IQC) 0.8853

13

3.1.3.2. Randapparatuur

Bij het afwegen van de materialen, standaarden en stalen wordt gebruik gemaakt van de AT261

DeltaRange® analytische balans van Mettler Toledo (Griefensee, Zwitserland) met nauwkeurigheid tot op

10-5g. Voor het aanmaken van de stalen worden pipetten van Socorex (Eclubens, Zwitserland) gebruikt.

De standaarden en stalen worden geïnjecteerd met een injectienaald van 50µl van Hamilton,

Bonaduz Schweiz.

3.2. METHODEN

3.2.1. Systeemfunctiecontrole

Vooraleer de eigenlijke metingen te starten, wordt elke dag nagegaan of het systeem nog naar

behoren functioneert. Bij deze systeemfunctiecontrole (“system function check”) wordt gecontroleerd of

het systeem nog voldoet aan een aantal vooropgestelde operationele parameters. Tabel 3.5. vat deze

verschillende parameters en hun specificatie samen.

Tabel 3.5. : Parameters en specificaties die worden nagegaan bij de systeemfunctiecontrole

Parameter Specificatie

Detector Maximaal aantal uur gebruik D2 lamp 2000h

Staalenergie bij 220 nm >800mV

Referentie-energie bij 220 nm >800mV

Maximaal toelaatbare ruis <0.006mV

Maximale variatie op stabiele basislijn gedurende 5 minuten <0.01mV

Pomp Totaal geleverd volume

Nauwkeurigheid van het debiet

<180L

± 5%

3.2.2. Systeemgeschiktheidscontrole

Elke dag wordt bij aanvang van de metingen naast het uitvoeren van de systeemfunctiecontrole

ook gecontroleerd of het systeem nog geschikt is voor de beoogde doelstelling. Een aantal

chromatografische parameters wordt dagelijks vergeleken met vooropgestelde limieten, zoals

aangegeven in Tabel 3.6. Hiervoor wordt een testmix gebruikt, zoals beschreven onder 3.1.2.5.

‘Systeemgeschiktheidstest’. Een aantal van de chromatografische parameters uit Tabel 3.6. wordt nog

14

eens opgelijst in Tabel 3.7., samen met de formules zoals beschreven in “United States Pharmacopeia”

(USP).

Tabel 3.6. : Vooropgestelde limieten voor de chromatografische parameters, gebruikt bij de systeemgeschiktheidscontrole voor ethylparabeen

Chromatografische parameter Vooropgestelde limieten voor ethylparabeen

Retentietijd (min) 3.4 ± 0.2

Piekoppervlakte 80000 ± 50%

Piekhoogte 10000 ± 50%

Theoretisch aantal platen minimum 2000

Tailing factor maximum 2

Resolutie minimum 2

Tabel 3.7. : Chromatografische parameters, gebruikt voor de systeemgeschiktheidscontrole met de formules zoals beschreven in USP

Chromatografische parameter Formule zoals beschreven

in USP

Verklaring van de gebruikte symbolen

Theoretisch plaatgetal N = 16 x (tR/W)² N = theoretisch plaatgetal

tR = retentietijd (min)

W = piekbreedte op de basislijn (min)

Asymmetriefactor

(“tailing factor”)

Tf = W0.05/(2 x a0.05) Tf = asymmetriefactor

W0.05 = piekbreedte op 5% van de

piekhoogte (min)

a0.05 = piekbreedte op 5% piekhoogte

van de start van de piek tot aan het

snijpunt van de loodrechte uit de top

van de piek (min)

Resolutie R = 2 x (tR – tRp)/(W+Wp) R = resolutie

tR = retentietijd van de laatst eluerende

piek (min)

tRp = retentietijd van de voorgaande piek

(min)

W = piekbreedte op de basislijn van de

laatst eluerende piek (min)

Wp = piekbreedte op de basislijn van de

vorige piek (min)

15

3.2.3. Analyse

De mobiele fase die gebruikt wordt tijdens deze meesterproef en dagelijks vers bereid wordt,

bestaat zoals reeds eerder vermeld onder 3.1.1. ‘Oplosmiddel en eluens’ uit 60% methanol en 40%

water. Dit eluens wordt over de kolom gepompt met een debiet van 1.1 ml/min. Er wordt gewerkt met

een isocratische methode. Er wordt geïnjecteerd volgens de overvultechniek, waarbij er met de

injectienaald ongeveer 30 µl staal wordt opgezogen, maar bij elke meting slechts 5 µl geïnjecteerd wordt

(loop van 5 µl).

De UV/VIS detector werd ingesteld op 258 nm voor de metingen. Figuur 3.1. toont een

voorbeeldchromatogram van standaard 4, gemeten op 23/03/2011.

Figuur 3.1.: Voorbeeldchromatogram van standaard 4, gemeten op 23/03/2011. De concentratie van standaard 4 bedraagt 1.017 µg/g

3.2.4. Validatie-experimenten

Om de validatie op een correcte manier uit te voeren, moet er volgens een geschikt protocol

gewerkt worden. Voor deze studie wordt geopteerd voor de experimentele protocollen van CLSI. Voor

de prestatiekarakteristiek imprecisie wordt er volgens een gewijzigd CLSI protocol gewerkt. Tabel 3.8.

somt de verschillende prestatiekarakteristieken op die gevalideerd worden met daarbij het CLSI protocol

dat wordt gebruikt.

16

Tabel 3.8. : De verschillende prestatiekarakteristieken die worden gevalideerd met het (gewijzigde) CLSI protocol

Prestatiekarakteristiek Aard stalen en aantal metingen (n) volgens het

(gewijzigde) protocol

Code van het CLSI

protocol

Lineariteit

Vijf gerelateerde kalibratoren, n = 4 (binnen één dag).

Het experiment wordt één keer herhaald ter

bevestiging

EP6

Imprecisie Twee IQC stalen, duplicaat, 15 dagen (n=15) EP5 (gewijzigd

protocol)

Detectielimiet Singlicaat, 15 dagen (n=15) n.v.t. (generisch

protocol)

Juistheid Singlicaat, 5 dagen (n=5) EP15

Methodevergelijking Hiervoor werden de stalen en resultaten gesimuleerd EP9

3.2.4.1. Lineariteit

Voor de evaluatie van de lineariteit, waarbij wordt nagegaan of het verband tussen de

piekoppervlakte en de concentratie van de analyt lineair is, wordt het CLSI EP6 protocol, zoals

aangegeven in Tabel 3.8. gevolgd. Standaarden 1 tot en met 5 worden vier maal per dag gemeten. Bij de

eerste meting worden de standaarden oplopend gemeten, daarna twee maal in willekeurige volgorde en

bij de vierde meting wordt er in aflopende concentratie gemeten. Het experiment wordt één keer

herhaald ter bevestiging.

De gegevens voor lineariteit worden grafisch weergegeven met behulp van een

spreidingsdiagram en een residuendiagram. Deze diagrammen geven een eerste aanwijzing voor het al

dan niet lineair zijn. Uiteraard moeten er nog statistische significantietesten volgen om te kunnen

besluiten of aan deze prestatiekarakteristiek is voldaan (aan de hand van de diagrammen zou men

slechts intuïtief een vermoeden kunnen uitspreken). Met behulp van het residuendiagram kan men de

data evalueren op de mogelijke aanwezigheid van uitschieters. De dataset met potentiële uitschieters

wordt aan een Grubbs test onderworpen (5% significantieniveau). Wanneer uit deze test blijkt dat de

data een uitschieter bevatten, dan wordt de uitschieter voor verdere interpretatie weggelaten uit de

gegevensreeks.

De lineariteitsgegevens worden statistisch geëvalueerd op twee manieren. Met het programma

CBstat5 wordt enerzijds een “lack-of-fit” test uitgevoerd en anderzijds een tweede orde polynomiale

regressieanalyse.

17

Bij de “lack-of-fit” test wordt enerzijds berekend wat de afstand is van het gemiddelde van de

vier metingen van eenzelfde staal tot de regressielijn. Anderzijds wordt ook bepaald wat de variantie is

tussen de verschillende metingen van hetzelfde staal (de binnen-staal variantie). De spreiding

(=variantie) op de vijf gemiddelden van de standaarden wordt vergeleken met de binnen-staal variantie.

Dit gebeurt met behulp van een eenzijdige F-toets op het 5% significantieniveau. Indien de

probabiliteitswaarde (p-waarde) groter is dan 0.05 is de afwijking statistisch niet significant en kunnen

we besluiten dat er een lineair verband is tussen de piekoppervlakte en de concentratie van de

standaarden. Afhankelijk van het homo- of heteroscedastisch verdeeld zijn van de data, wordt gebruik

gemaakt van respectievelijk de “Ordinary Least Squares” regressieanalyse of de “Weighted” lineaire

regressieanalyse.

Gezien het “lack-of-fit” model gevoelig is aan spreiding van de resultaten, wordt er tevens een

tweede orde polynomiale regressieanalyse uitgevoerd. Bij deze analyse wordt er een

tweedegraadsvergelijking (van de vorm ax² + bx + c) opgesteld, gebruikmakend van de lineariteitsdata.

Daarna wordt met behulp van een tweezijdige t-toets (5% significantieniveau) nagegaan of de coëfficiënt

a in de veelterm ax² + bx + c significant verschillend is van nul. Als de p-waarde groter is dan 0.05 dan kan

de nulhypothese (het lineair zijn) weerhouden worden. Mochten de data niet lineair zijn, dan wordt het

verschil tussen de eerste en tweede orde vergelijking gemaakt. Als dat verschil kleiner is dan 5%, dan

wordt dat als verwaarloosbaar beschouwd en kan er alsnog met een lineaire kalibratiecurve gewerkt

worden (verwaarloosbare fout).

3.2.4.2. Kalibratie

Wanneer de analyticus wil kwantificeren, is het zeer belangrijk een geschikt kalibratiemodel te

kiezen. Afhankelijk van de uitkomst van de bepaling van de lineariteit (zie 3.2.4.1. ‘Lineariteit’) zal een

eerste- of tweedegraads kalibratiecurve worden opgesteld.

Uiteraard volstaat het niet om te zeggen dat er voor een eerste- of tweedegraadsvergelijking

wordt gekozen. Er moet bepaald worden welk regressiemodel het best passend is voor de bepaling van

de concentratie uit de piekoppervlakte. Als de methode voldoet aan de voorwaarden voor lineariteit,

worden er vier verschillende regressiemodellen getest. Deze zijn de standaard gewone lineaire

regressie (“Ordinary Linear Regression”, OLR), de OLR geforceerd door nul, de OLR met het punt

(0,0) ingesloten en de gewogen lineaire regressie (“Weighted Linear Regression”, WLR). Voor vijf

verschillende meetdagen wordt via deze vier regressiemodellen de gemiddelde concentratie van het

18

Low IQC staal, High IQC staal en het juistheidsstaal met de laagste concentratie (juistheidsstaal 1)

berekend. Daarna worden van deze gemiddelde concentraties de variatiecoëfficiënt (“coefficient of

variation”, CV) en het procentueel verschil met de gravimetrisch bepaalde concentratie van de

stalen bepaald (zie Formule 3.1.). De regressieanalyse die resulteert in de laagste CV en het kleinste

procentueel verschil wordt als het meest adequaat beschouwd.

Procentueel verschil (%) = (xgemeten – xdoel) / xdoel x 100 (3.1.)

waarbij: xgemeten = gemeten waarde

xdoel = doelwaarde

Daarnaast wordt voor het OLR model ook nog een 95% CI voor het intercept opgesteld om na te gaan of

deze significant verschillend is van nul. Indien dit het geval is, dan kan OLR door nul gebruikt worden.

Deze methode wordt toegepast wanneer het verschil tussen OLR en OLR geforceerd door nul klein is.

OLR geforceerd door nul laat immers eenvoudiger berekeningen toe.

3.2.4.3. Imprecisie

Bij het nagaan of er voldaan is aan deze prestatiekarakteristiek wordt het gewijzigd CLSI EP5

protocol zoals beschreven in Tabel 3.8. gevolgd. Er worden twee stalen, één met lage en één met hoge

concentratie (respectievelijk Low IQC en High IQC) gedurende vijftien dagen in duplicaat gemeten. In het

oorspronkelijke CLSI protocol worden twintig metingen uitgevoerd in plaats van vijftien.

Voor zowel Low IQC als voor High IQC wordt het verschil tussen de duplicaten berekend. Van

deze verschillen wordt een puntendiagram gemaakt, wat ons een idee geeft over de binnen-analyse

spreiding van de resultaten. Met een Grubbs test wordt nagegaan of er uitschieters aanwezig zijn.

Mogelijk aanwezige uitschieters worden voor verdere interpretatie van de resultaten uit de dataset

verwijderd. In dat geval wordt er verder gewerkt met één van beide meetresultaten en niet met het

gemiddelde van die dag.

Ook wordt er een puntendiagram opgesteld voor de daggemiddelden (of althans voor de

gewijzigde dataset, mochten er uitschieters opgedoken zijn volgens de in de vorige alinea beschreven

methode). Dit puntendiagram laat toe de tussen-dag spreiding visueel waar te nemen. Potentiële

uitschieters springen ook makkelijk in het oog in dit puntendiagram. Een Grubbs test volgt. Uitschieters

worden weggelaten uit de dataset en worden niet gebruikt voor de evaluatie van de imprecisie.

19

De berekeningen voor de CV’s kunnen op twee verschillende manieren gebeuren. Men kan de

formules gebruiken die vermeld staan in het CLSI EP5 protocol of men kan gebruik maken van ANOVA

model II. Zowel voor Low IQC, als voor High IQC worden het gemiddelde, de binnen-analyse (“within

run”) standaarddeviatie (swr), de totale standaarddeviatie (sT), de “within run” CV (CVwr) en de totale CV

(CVT) berekend. Deze CV’s worden vergeleken met de doelwaarden voor een stabiel proces. Voor CVwr is

dat 2%, voor CVT 5%. Er wordt nagegaan of het eenzijdig 95% CI van de variantie van de datareeks de

doelwaarde van de variantie voor een stabiel proces insluit. Er wordt met andere woorden getest of de

onderste limiet van het eenzijdig 95% confidentie-interval (“lower confidence limit”, LCL) onder de

doelwaarde gelegen is. Het berekenen van deze LCL van de standaarddeviatie en CV gebeurt volgens

respectievelijk Formule 3.2. en Formule 3.3.

LCL van s = s x √*(df)/Chi²α,df] (3.2.)

waarbij: s = standaarddeviatie

df = “degrees of freedom”, aantal vrijheidsgraden

Chi²α,df = kritische chi²-waarde (berekend in Excel®) met

α = 0.05

LCL van CV = (LCL van s / xgem) * 100 (3.3.)

waarbij: xgem = gemiddelde van de reeks metingen

De imprecisie van de methode kan ook onderzocht worden aan de hand van het vergelijken van

de experimentele Chi²-waarde (Chi²exp) (zie Formule 3.4.) met de kritische Chi²-waarde (Chi²krit) (wordt

met Excel® berekend). Er wordt aan de specificaties voldaan wanneer de experimentele Chi²-waarde

kleiner of gelijk is aan de kritische Chi²-waarde.

Chi²exp = s²exp × df / s²spec (3.4.)

waarbij: Chi²exp = experimentele Chi²-waarde

s²exp = experimentele variantie

s²spec = specificatie voor de variantie

df = “degrees of freedom”, aantal vrijheidsgraden

20

3.2.4.4. Detectielimiet

De bepaling van de detectielimiet gebeurt volgens het generisch protocol zoals beschreven in

Tabel 3.8. Bij dit protocol, wordt gedurende vijftien dagen elke dag een vers staal (met gravimetrisch

bepaalde concentratie) gemeten, dat een S/N ratio van ongeveer 3 tot 6 oplevert. Voor het bepalen van

de ruis wordt op de basislijn een afstand van vijf maal de piekbreedte op halve hoogte beschouwd.

Figuur 3.2. toont hoe de ruis N wordt afgelezen op een (theoretisch) chromatogram. Het signaal S wordt

bepaald als de loodrechte afstand van het maximum van de piek tot het gemiddelde van de ruis (zie

Figuur 3.2.). Met deze gegevens wordt de experimenteel bepaalde S/N ratio berekend.

Van de gekende concentraties van de stalen wordt het gemiddelde berekend. Aan de hand van

Formule 3.5. wordt dan uiteindelijk een genormaliseerde S/N ratio berekend.

Genormaliseerde S/N ratio = (xgem / xgrav) x S/Nexp (3.5.)

waarbij: xgem = gemiddelde concentratie

xgrav = gravimetrisch bepaalde concentratie

S/Nexp = experimenteel bepaalde S/N ratio

Van deze vijftien S/N ratio’s wordt het gemiddelde en de standaarddeviatie berekend. Er wordt

een puntendiagram opgesteld van de genormaliseerde S/N ratio’s. Dit diagram geeft een visueel beeld

van de spreiding en laat toe uitschieters visueel op te merken. Met een Grubbs test wordt vervolgens

Figuur 3.2.: Bepaling van de ruis en het signaal uit een theoretisch chromatogram

21

getest of er uitschieters aanwezig zijn in de dataset. Potentiële uitschieters worden voor verdere

interpretatie van de gegevens weggelaten. Uiteindelijk wordt er ook een tweezijdig 95% CI opgesteld

rond de gemiddelde genormaliseerde S/N ratio (zie Formule 3.6.).

95% CI = [S/Ngem ± tα/2,n-1 s/√n+ (3.6.)

waarbij: S/Ngem = gemiddelde genormaliseerde S/N ratio

tα/2,n-1 = t-waarde met probabiliteit α (= 0.05) en n-1

vrijheidsgraden

s = standaarddeviatie

n = aantal metingen

De detectielimiet wordt in deze thesis als een descriptieve meting beschouwd. We rapporteren

enkel de gemiddelde gravimetrisch bepaalde concentratie van de stalen, samen met het 95% CI rond de

gemiddelde genormaliseerde S/N ratio.

Finaal wordt de gemiddelde absolute hoeveelheid ethylparabeen, die dagelijks geïnjecteerd

wordt, bepaald. Formule 3.7. toont hoe deze absolute hoeveelheid ethylparabeen berekend wordt.

Gemiddelde absolute hoeveelheid ethylparabeen (pg) = xgem x Vinj x ρ x 1000000 pg/µg (3.7.)

waarbij: xgem = gemiddelde concentratie

Vinj = geïnjecteerd volume

ρ = dichtheid van het oplosmiddel

3.2.4.5. Juistheid

Voor de evaluatie van de prestatiekarakteristiek juistheid wordt het CLSI protocol zoals

beschreven in Tabel 3.8. gevolgd: zes stalen van gekende concentratie worden in singlicaat gemeten

gedurende vijf dagen. De verschillen tussen de berekende dagconcentraties voor de verschillende stalen

en de gemiddelde concentratie worden uitgezet in een puntendiagram. Met dit diagram krijgen we een

idee van de spreiding van de resultaten en kunnen we een vermoeden uitspreken over het al dan niet

aanwezig zijn van uitschieters. Potentiële uitschieters worden aan een Grubbs test onderworpen. Met

uitschieters wordt voor verdere interpretatie van de resultaten geen rekening gehouden.

22

Voor de verdere evaluatie van de juistheid wordt gekeken naar het procentueel

verhoudingsdiagram, waarin de terugvinding van de doelwaarde (zie Formule 3.8.) voor alle stalen

uitgedrukt in procent grafisch weergegeven wordt. De juistheid wordt berekend met Formule 3.8., 3.9.

en 3.10.

Terugvinding = 100 x (xgem. gemeten/xdoel) ± 95% CI (3.8.)

waarbij: xgem. gemeten = gemiddelde gemeten waarde

xdoel = doelwaarde

Absoluut 95% CI = [xgem ± tα,n-1 s/√n+ (3.9.)

Relatief 95% CI (%) = 100 x absoluut CI / xgem (3.10.)

waarbij: xgem = gemiddelde concentratie

tα,n-1 = t-waarde met probabiliteit α (= 0.05) en n-1

vrijheidsgraden

s = standaarddeviatie

n = aantal metingen

Bij de evaluatie van de juistheid mogen de limieten van 95% en 105% niet overschreden worden.

Het al dan niet overschrijden van de limieten wordt niet alleen grafisch waargenomen, maar ook

statistisch getest met een eenzijdige t-toets voor één steekproef op het 5% significantieniveau.

3.2.4.6. Methodevergelijking

Bij een methodevergelijking worden bijvoorbeeld de analyseresultaten, bekomen met een

bepaalde methode, vergeleken met die van een referentiemethode, uitgevoerd op dezelfde stalen. Een

tweede mogelijkheid is dat twee methoden van hetzelfde hiërarchisch niveau worden vergeleken. In dit

laatste geval verstrekt geen van beide methoden een ondubbelzinnig correcte meting. De mate van

overeenkomst tussen de twee methodes wordt dus vergeleken. In deze scriptie worden de

analyseresultaten vergeleken met deze bekomen met een referentiemethode. Het CLSI EP9 protocol

schrijft voor dat er voor methodevergelijking minstens veertig stalen in duplicaat moeten gemeten

worden, gespreid over vijf dagen. Gezien het korte tijdsbestek waarin de meesterproef georganiseerd

wordt, wordt deze methodevergelijking echter slechts theoretisch uitgevoerd. Er wordt een dataset

gesimuleerd door het personeel van het Laboratorium voor Analytische Chemie. Het simuleren gebeurt

23

aan de hand van de DataGeneration Excel® file, ter beschikking gesteld door Dr. Stöckl, STT-consulting.

Het concentratiebereik loopt van 0.02 µg/g tot 1.4 µg/g. Binnen dit bereik worden tachtig

analyseresultaten gesimuleerd, met een realistische standaarddeviatie voor de methodes die

gevalideerd worden.

Om na te gaan of er bij deze methodevergelijking aan de vooropgestelde specificaties wordt

voldaan, wordt er enerzijds gebruik gemaakt van de Bland & Altman benadering en anderzijds van

lineaire regressieanalyse. In een Bland & Altman grafiek wordt het procentueel verschil tussen de

gegenereerde data van de routine- en de referentiemethode uitgezet in functie van de meetresultaten

van de referentiemethode. Het gemiddeld procentueel verschil tussen beide methoden wordt berekend

en weergegeven in de Bland & Altman grafiek, samen met het eenzijdig 95% CI ervan. Formule 3.11.

toont hoe dit eenzijdig 95% CI wordt berekend. Daarnaast wordt ook het 1.96s – interval van de

individuele verschillen berekend, samen met het eenzijdig 95% CI voor de 1.96s – limieten. Formule 3.12.

en 3.13. tonen hoe deze waarden worden bekomen. Ten slotte toont de grafiek ook nog de

vooropgestelde limieten voor de systematische fout (5%) (“systematic error”, SE) en de totale fout (15%)

(“total error”, TE). Voor de interpretatie van de Bland & Altman grafiek en bijgevolg de evaluatie van de

resultaten, wordt nagegaan of het gemiddelde procentueel verschil met zijn 95% CI binnen de limieten

voor de systematische fout valt en of de 1.96s – limieten met hun 95% CI binnen de limieten voor de

totale fout vallen.

CIgemiddeld verschil = xgem ± tα,n-1 s/√n (3.11.)

1.96 sind. verschillen – interval = xgem ± 1.96 s (3.12.)

CI1.96 CV ind. verschillen = xgem ± tα,n-1 (3.13.)

waarbij: xgem = gemiddelde verschil tussen beide methoden

tα,n-1 = t-waarde met probabiliteit α (= 0.05) en n-1

vrijheidsgraden

s = standaarddeviatie op verschil tussen de methoden

n = aantal metingen = 80

Bij lage concentraties zou de variatie op de resultaten groter kunnen zijn dan bij hogere

concentraties. Bovendien zouden bij lage concentraties de procentuele limieten te streng kunnen zijn.

24

Daarom is het misschien beter om de limieten concentratieafhankelijk te maken en wordt er naast een

klassieke Bland & Altman grafiek, die gebruik maakt van het procentueel verschil, ook een gelijkaardig

diagram opgesteld, waarbij het absolute verschil tussen de twee methoden wordt uitgezet ten opzichte

van de referentiemethode. In deze grafiek worden er absolute TE limieten gesteld voor stalen met lage

concentratie: tot een concentratie van 0.25 µg/g (een punt dat educatief gekozen wordt) worden de

absolute limieten gezet op ± 0.0375 µg/g (= 0.15 x 0.25 µg/g). Vanaf een concentratie van 0.25 µg/g

worden opnieuw procentuele limieten voor TE gebruikt (15%).

Bij de lineaire regressieanalyse worden de analyseresultaten bekomen met de routinemethode

uitgezet in functie van deze bekomen met de referentiemethode. Op die manier wordt een

regressievergelijking bekomen, waaruit de richtingscoëfficiënt en het snijpunt met de y-as kunnen

afgelezen worden. Wanneer de richtingscoëfficiënt verschillend is van 1, spreekt men van een

proportionele fout. Wanneer het intercept verschillend is van 0, spreekt men van een constante fout.

Indien één van beide gevallen zich voordoet (of allebei), dan wordt nagegaan of de afwijking binnen de

vooropgestelde specificaties voor de systematische en totale fout ligt. Zowel voor de laagste als voor de

hoogste concentratie bij de referentiemethode wordt de overeenkomstige y-waarde voorspeld aan de

hand van de regressievergelijking. Voor deze voorspelde y-waarden wordt het 95% CI opgesteld. Daarna

wordt het procentueel verschil tussen de bekomen confidentielimieten en de minimum en maximum x-

waarde berekend. Dit percentage moet dan binnen de vooropgestelde specificaties voor de

systematische fout vallen. Ook het 95% predictie-interval rond de voorspelde y-waarden wordt

berekend. Ook hier wordt het procentueel verschil tussen de bekomen predicitie-limieten en de

minimum en maximum x-waarde berekend. Dit percentage moet gelegen zijn binnen de specificaties

voor de totale fout. De calculatie van deze laatste twee intervallen gebeurt aan de hand van zeer

complexe statistische formules, die gehaald worden uit het boek Method validation With confidence van

Dr. Stöckl, STT-consulting. Tabellen en gespecialiseerde software worden gebruikt.

3.2.5. Dataverwerking en statistiek

Voor het optekenen van de kalibratiecurven, het overzichtelijk houden van de gegevensreeksen

en het berekenen van de concentratie die bij een bepaalde piekoppervlakte hoort, wordt gebruik

gemaakt van Microsoft Office Excel® 2007 (Microsoft Corporation, Verenigde Staten).

De statistische evaluatie van de resultaten gebeurt met behulp van de MethVal file opgesteld

door Dr. Stöckl, STT consulting (Horebeke, België). Daarnaast werd ook gebruik gemaakt van twee

25

boeken, die door Dr. Stöckl ter beschikking werden gesteld. Laboratory Statistics & Graphics with Excel®

(Stöckl, 2007a) en Method Validation with Confidence (Stöckl, 2007b) zijn de titels van de boeken die

werden gebruikt bij de statistische interpretatie van de gegevens.

De “lack-of-fit” test en de tweedegraads polynomiale regressieanalyse worden uitgevoerd in

CBstat5 (2005, Kristian Linnet, Charlottenlund, Denemarken).

3.2.6. Specificaties

De verschillende specificaties die horen bij de verscheidene prestatiekarakteristieken die in deze

methodevalidatie worden geëvalueerd worden samengevat in Tabel 3.9.

Tabel 3.9. : Overzicht van de specificaties horende bij de onderzochte prestatiekarakteristieken

3.2.7. Literatuuronderzoek

Voor het literatuuronderzoek wordt op zoek gegaan naar informatie over het tolerantie-interval en de

rol van dit soort interval in het farmaceutisch onderzoek. Daarnaast wordt onderzocht of dit soort

statistisch interval applicaties vindt in de farmaceutische methodevalidatie. Er wordt ook een link gelegd

naar de totale fout (“total error”). In Tabel 3.10. wordt een overzicht gegeven van de verschillende

zoekmachines die werden geraadpleegd bij het zoeken naar deze informatie.

Tabel 3.10. : De verschillende zoekmachines die werden gebruikt bij het literatuuronderzoek

Algemene zoekmachines Google

Wetenschappelijke zoekmachines Pubmed

Web of Science

Prestatiekarakteristiek Specificatie

Lineariteit 5%a

Imprecisie: binnen-analyse CV 2%b

Imprecisie: totale CV 5%b

Juistheid 5%a

Methodevergelijking: systematische fout 5%a

totale fout 15%a a: limiet

b: doelwaarde voor een stabiel proces

26

4. RESULTATEN EN DISCUSSIE

4.1. EXPERIMENTEN

4.1.1. Systeemfunctiecontrole

Bij het uitvoeren van de experimenten varieerde de druk tussen 93 en 98 bar. De ruis fluctueerde

rond een gemiddelde waarde van 0.003 mV, maar was nooit hoger dan 0.006 mV. De maximale variatie

op een stabiele basislijn bedroeg nooit meer dan 0.01 mV. Daarnaast werd ook telkens aan alle andere

specificaties voor de verschillende parameters zoals beschreven in Tabel 3.5. voldaan. Op basis van deze

gegevens vormen we het besluit dat het toestel goed functioneerde gedurende het volledige

experimentengedeelte van de meesterproef.

4.1.2. Systeemgeschiktheidscontrole

Voor de systeemgeschiktheidscontrole wordt elke dag bij aanvang van de metingen de testmix

geïnjecteerd. Figuur 4.1. toont een voorbeeldchromatogram van de testmix, geïnjecteerd op

29/03/2011.

Tabel 4.1. geeft een overzicht van het gemiddelde ± standaarddeviatie van de onderzochte

chromatografische parameters voor ethylparabeen, samen met de vooropgestelde limieten. Voor alle

Figuur 4.1.: Voorbeeldchromatogram van de testmix, geïnjecteerd op 29/03/2011. De concentratie van de componenten bedraagt ongeveer 2.5 µg/g

27

chromatografische parameters voldoet het gemiddelde ± standaarddeviatie aan de vooropgestelde

limieten. We kunnen besluiten dat het systeem geschikt is voor de beoogde doelstelling.

Tabel 4.1.: Overzicht van het gemiddelde met standaarddeviatie en de vooropgestelde limieten voor de onderzochte chromatografische parameters

Parameter Gemiddelde ± SD voor

ethylparabeen

Vooropgestelde limiet voor

ethylparabeen

Retentietijd (min) 3.3 ± 0.05 3.4 ± 0.2

Piekoppervlakte 78103 ± 3029 80000 ± 50%

Piekhoogte 10250 ± 472 10000 ± 50%

Theoretisch aantal platen 4227 ± 143 minimum 2000

Tailing factor 1.45 ± 0.03 maximum 2

Resolutie 4.20 ± 0.11 minimum 2

4.1.3. Lineariteit

Bij de evaluatie van deze prestatiekarakteristiek worden vijf stalen in quadruplicaat gemeten.

Zoals eerder beschreven, wordt het experiment één maal herhaald ter bevestiging. Figuur 4.2.A en 4.2.B

geven als voorbeeld respectievelijk het spreidingsdiagram (inclusief regressievergelijking en R²) en het

residuendiagram weer van de lineariteitsdata van 04/04/2011.

Figuur 4.2.: (A) Spreidingsdiagram van de lineariteitsdata op 04/04/2011, (B) Residuendiagram van de lineariteitsdata op 04/04/2011

A B

28

Er wordt nagegaan of er uitschieters aanwezig zijn in het residuendiagram. Op het eerste zicht

lijkt er een uitschieter aanwezig te zijn bij standaard 5, maar na het uitvoeren van een Grubbs test blijkt

dat niet zo te zijn. Voor de andere meetdag worden er uitschieters vermoed bij standaarden 3, 4 en 5,

maar bij de Grubbs test bleek de p-waarde nooit kleiner te zijn dan 0.05. Er zijn dus geen uitschieters

aanwezig.

Ook al toont het spreidingsdiagram met bijhorende regressielijn een goede R², toch kunnen we

op basis van Figuur 4.2.A geen besluit trekken in verband met de lineariteit van de gegevens. Zoals

eerder onder 3.2.4.1. ‘Lineariteit’ werd besproken, worden hier een “lack-of-fit” test en een tweede orde

polynomiale regressie-analyse doorgevoerd. De p-waarde voor de “lack-of-fit” test bedraagt 0.9802.

Voor de andere meetdag is de p-waarde 0.9706. Op basis van deze “lack-of-fit” test kunnen we besluiten

dat de nulhypothese voor lineariteit kan weerhouden worden. Dit omwille van het feit dat de eenzijdige

F-toets een p-waarde oplevert die groter is dan 0.05. De afwijking van lineariteit is niet significant. Bij de

polynomiale regressie-analyse wordt een p-waarde van 0.1185 bekomen. Voor de andere meetdag is de

p-waarde 0.4004. Vermits de p-waarden groter zijn dan 0.05 kan de nulhypothese van lineariteit ook hier

weerhouden worden. De coëfficiënt bij x² is niet significant verschillend van nul.

4.1.4. Kalibratie

Er wordt nagegaan welk kalibratiemodel het meest geschikt is om de concentratie te bepalen

vertrekkende van de piekoppervlakte. Er worden vier verschillende kalibratiemodellen getest: OLR, OLR

geforceerd door nul, OLR met het punt (0,0) ingesloten en WLR. Met elk model wordt gedurende vijf

meetdagen de gemiddelde concentratie berekend van het Low IQC staal, het High IQC staal en het

juistheidsstaal met de laagste concentratie (juistheidsstaal 1). Verder worden ook de CV en het

procentueel verschil met de gravimetrisch bepaalde doelwaarde berekend (zie Tabel 4.2. op de volgende

pagina voor een overzicht). Op basis van de IQC stalen, zien we (wanneer we kijken naar de CV’s en de

procentuele afwijking) geen wezenlijk verschil tussen de vier verschillende methoden. Wanneer we

kijken naar de CV’s van het juistheidsstaal met de laagste concentratie, dan ligt deze voor OLR

geforceerd door nul lager dan bij de andere modellen. De CV van het juistheidsstaal bij WLR komt het

dichtst in de buurt van de CV van het juistheidsstaal voor OLR geforceerd door nul. De absolute waarde

van de procentuele afwijking van de doelwaarde voor deze twee modellen verschilt niet wezenlijk, dus

zijn we geneigd om voor het model OLR geforceerd door nul te kiezen. De precisie weegt meer door dan

de juistheid. Daarnaast wordt nog een 95% CI opgesteld voor het intercept met de y-as dat bekomen

wordt met OLR. De waarde 0 ligt telkens in dat interval, waardoor we met 95% zekerheid kunnen

29

besluiten dat het intercept niet significant verschilt van nul. OLR geforceerd door nul lijkt aldus het meest

adequate regressiemodel. Het is het meest robuuste model voor de berekening van de concentratie uit

de piekoppervlakte. Figuur 4.3. op de volgende pagina toont een voorbeeld van een kalibratiecurve

(inclusief regressievergelijking en R²), opgesteld met het regressiemodel OLR geforceerd door nul. Deze

kalibratiecurve werd opgesteld met de kalibratiegegevens van 08/04/2011.

Tabel 4.2.: Overzicht van de CV (%) en het procentueel verschil met de gravimetrisch bepaalde doelwaarde (%) voor de verschillende stalen bij elk regressiemodel

Regressiemodel CV (%) Procentuele afwijking van de

doelwaarde (%)

Low IQC OLR 2.48 -1.87

OLR door nul 2.48 -1.23

OLR met (0,0) 2.47 -1.62

WLR 2.47 -1.90

High IQC OLR 2.28 0.417

OLR door nul 2.27 0.487

OLR met (0,0) 2.28 0.445

WLR 2.20 0.411

Juistheidsstaal met

laagste concentratie OLR 10.3 -2.01

OLR door nul 4.95 3.34

OLR met (0,0) 7.11 0.0833

WLR 5.79 -3.19

30

4.1.5. Imprecisie

Voor de evaluatie van de imprecisie worden twee IQC stalen gedurende vijftien dagen in

duplicaat gemeten.

Figuur 4.4.A toont het puntendiagram van de verschillen tussen de twee metingen van elke dag

voor het Low IQC staal. Figuur 4.4.B is het puntendiagram van de daggemiddelden voor het Low IQC

staal. In Figuur 4.4.C en Figuur 4.4.D worden deze puntendiagrammen voor het High IQC staal getoond.

Uit de Grubbs test bleek dat er bij geen enkel diagram uitschieters aanwezig zijn. Het gemiddelde van de

daggemiddelden voor het Low IQC staal bedraagt 0.4516 µg/g. Voor het High IQC staal is het gemiddelde

van de daggemiddelden gelijk aan 0.8883 µg/g.

Naast het gemiddelde worden de binnen-analyse (“within run”) standaarddeviatie (swr), de totale

standaarddeviatie (sT), de “within run” CV (CVwr) en de totale CV (CVT) berekend. De resultaten van deze

berekeningen worden weergegeven in Tabel 4.3. op de volgende pagina.

Figuur 4.3.: Voorbeeld van een kalibratiecurve opgesteld met OLR geforceerd door nul van 08/04/2011

31

Tabel 4.3.: Overzicht van de statistische resultaten voor het Low IQC staal en het High IQC staal

De resultaten van het Low IQC staal worden eerst besproken. De CVwr bedraagt 2.2%, wat groter

is dan 2%. Intuïtief zou men denken dat dit betekent dat er niet aan de specificaties van 2% is voldaan.

De vraag of voor CVwr de doelwaarde toch gehaald wordt, stelt zich. Er wordt namelijk vergeleken met de

doelwaarde voor een stabiel proces (in dit geval 2%) en niet met een limiet. Daarom wordt de onderste

95% betrouwbaarheidslimiet (“lower confidence limit”, LCL) van zowel de standaarddeviatie als de CV

opgesteld. Er wordt nagegaan of deze eenzijdige 95% CL kleiner dan of gelijk is aan de specificatie,

m.a.w. of het CI de doelwaarde omvat. Het berekenen van deze LCL van de standaarddeviatie en CV

gebeurt volgens respectievelijk Formule 3.2. en Formule 3.3. Op die manier bekomen we voor de 95%

Low IQC High IQC

swr (µg/g) 0.010 swr (µg/g) 0.013

sT (µg/g) 0.013 sT (µg/g) 0.022

CVwr (%) 2.2 CVwr (%) 1.5

CVT (%) 2.7 CVT (%) 2.5

Figuur 4.4.: (A) Puntendiagram van de verschillen tussen de twee metingen van elke dag voor het Low IQC staal, (B) Puntendiagram van de daggemiddelden voor het Low IQC staal, (C) Puntendiagram van de verschillen tussen de twee metingen van elke dag voor het High IQC staal, (D) Puntendiagram van de daggemiddelden voor het High IQC staal

A B C D

32

LCL van CVwr de waarde 1.7%. Deze onderste betrouwbaarheidslimiet voor CVwr voldoet aan de

specificatie van ≤2%, ook al is de experimentele CVwr (2.2%) groter dan de limiet (2%).

De imprecisie kan daarnaast ook nog op een andere manier geëvalueerd worden, waarbij de

experimentele Chi²-waarde (Chi²exp) (zie Formule 3.4.) vergeleken wordt met de kritische Chi²-waarde

(Chi²krit). We stellen de nulhypothese op dat CVexp kleiner is dan of gelijk aan CVspec. Wanneer dat zo is,

kunnen we de nulhypothese weerhouden en kunnen we besluiten dat de methode voldoet aan de

vooropgestelde specificaties.

De met Excel® berekende Chi²krit bedraagt 25. De met formule 3.4. bepaalde Chi²exp voor de

“within-run” precisie bedraagt 19. Gezien 19 kleiner is dan 25 kunnen we de nulhypothese weerhouden

en ook via deze weg besluiten dan de methode voldoet aan de vooropgestelde specificaties voor het Low

IQC staal.

CVT van het Low IQC staal bedraagt 2.7% en voldoet aan de specificatie van 5%.

Bij het High IQC staal voldoen zowel CVwr (1.5%) als CVT (2.5%) aan de vooropgestelde

specificaties, respectievelijk 2% en 5%. De methode voldoet aan de vooropgestelde specificaties voor het

High IQC staal.

4.1.6. Detectielimiet

Voor de bepaling van de detectielimiet wordt gedurende vijftien dagen elke dag een nieuw staal

aangemaakt, waarvan de concentratie gravimetrisch wordt bepaald en dat een S/N ratio van 3 tot 6

oplevert. Het gemiddelde van de concentraties van deze stalen bedraagt 0.004196 µg/g. Elke dag wordt

van het geïnjecteerde staal de S/N ratio bepaald. Deze S/N ratio’s worden vermenigvuldigd met de

verhouding van de gemiddelde concentratie op de gravimetrisch bepaalde concentratie van die dag. Van

deze genormaliseerde S/N ratio’s wordt vervolgens het gemiddelde en de standaarddeviatie berekend.

Het gemiddelde bedraagt 4.76. De standaarddeviatie is 0.77. Figuur 4.5. toont het puntendiagram van de

genormaliseerde S/N ratio’s van de vijftien meetdagen. Uit de Grubbs test bleek dat er geen uitschieters

aanwezig zijn in deze dataset.

33

Aan de hand van Formule 3.6. wordt het 95% CI van de gemiddelde S/N ratio berekend. Zo

bekomen we: 95% CI = [4.76 ± 0.426].

Daarnaast wordt bepaald wat de gemiddelde absolute hoeveelheid ethylparabeen is, die

dagelijks geïnjecteerd wordt. Er wordt 5 µl geïnjecteerd en de dichtheid van het oplosmiddel bedraagt

0.9042 g/ml. De gemiddelde absolute hoeveelheid ethylparabeen die wordt geïnjecteerd, bedraagt 18.97

pg. Dit is dus de absolute hoeveelheid ethylparabeen op de kolom die overeenstemt met de LoD.

4.1.7. Juistheid

Voor de evaluatie van de juistheid worden zes stalen gedurende vijf dagen in singlicaat gemeten.

Het puntendiagram van de verschillen tussen de gemeten dagconcentraties van de zes verschillende

juistheidsstalen (zie Figuur 4.6. op de volgende pagina) en hun gemiddelde concentratie geeft een idee

van de spreiding en laat ons toe een vermoeden uit te spreken over het al dan niet aanwezig zijn van

uitschieters. Uit de Grubbs test blijkt bij geen enkel staal een uitschieter aanwezig te zijn.

Figuur 4.5.: Puntendiagram van de genormaliseerde S/N ratio's van de 15 meetdagen

34

De relatieve terugvinding (%) met betrouwbaarheidsinterval van elk staal wordt grafisch

weergegeven in Figuur 4.7. Deze figuur toont een samenvatting van alle juistheidsstalen in een

procentueel verhoudingsdiagram. Uit dit diagram blijkt dat het gemiddelde van elk staal binnen de

limieten van 95% en 105% terugvinding valt. Bij vijf stalen is het zo dat het betrouwbaarheidsinterval van

het gemiddelde de limiet van 5% afwijking van de ware concentratie niet overschrijdt. Enkel de bovenste

betrouwbaarheidslimiet van juistheidsstaal 1 overlapt met de specificatie van 5%. Meer metingen

zouden het betrouwbaarheidsinterval kunnen versmallen en op die manier uitsluitsel kunnen bieden.

Figuur 4.7.: Procentueel verhoudingsdiagram: relatieve terugvinding (%) met betrouwbaarheidsinterval van elk

juistheidsstaal

Figuur 4.6.: Puntendiagram van de verschillen tussen de gemeten concentraties en de gemiddelde concentratie van de zes verschillende juistheidsstalen

1

2

3 4

5 6

35

Het al dan niet overschrijden van de 5% limiet wordt niet enkel grafisch waargenomen. Er wordt

daarnaast ook voor elk staal statistisch getest met een eenzijdige t-toets voor één steekproef of de

gemiddelde relatieve terugvinding significant verschilt van de 95% en 105% limiet (5%

significantieniveau). De p-waarde is hierbij telkens kleiner dan 0.05, behalve voor juistheidstaal 1. Bij dit

staal wordt de 105% limiet overschreden. We kunnen besluiten dat de methode voldoet aan de

vooropgestelde specificaties, op voorwaarde dat de herhaling van de metingen van juistheidsstaal 1

binnen de specificaties valt.

4.1.8. Methodevergelijking

Voor de methodevergelijking worden door het personeel van het Laboratorium voor Analytische

Chemie tachtig analyseresultaten gesimuleerd binnen een concentratiebereik van 0.02 µg/g tot 1.4 µg/g

met een realistische standaarddeviatie. We veronderstellen dat beide methoden dezelfde CV hebben.

Op die manier bekomen we een totale CV die gelijk is aan CV x √2. Voor de doelstellingen van deze

meesterproef is het toegelaten de CV te vervangen door een realistische standaarddeviatie. Voor deze

laatste wordt de waarde 0.022 gekozen, wat gelijk is aan de totale standaarddeviatie van het High IQC

staal.

De mate van overeenkomst tussen de twee methoden wordt niet bestudeerd aan de hand van

de correlatiecoëfficiënt. Deze is immers misleidend. Een hoge correlatiecoëfficiënt betekent niet

onmiddellijk dat de twee methoden vergelijkbaar zijn (Bland & Altman, 1986).

Figuur 4.8. op de volgende pagina toont een Bland & Altman grafiek, waaruit blijkt dat het

gemiddeld procentueel verschil met zijn 95% CI binnen de vooropgestelde limieten van de systematische

fout valt. Het 1.96s – interval van de individuele verschillen ligt met het 95% CI ervan binnen de grenzen

van de totale fout specificaties. Aan de hand van de Bland & Altman benadering zou kunnen besloten

worden dat de methodevergelijking voldoet aan de vooropgestelde specificaties.

36

Het procentueel verschil tussen de routine- en de referentiemethode levert voor lage

concentraties grotere waarden op dan voor hogere concentraties (zie Figuur 4.8.). Voor de individuele

datapunten lijken de procentuele limieten bij deze lage concentraties streng. Daarom wordt er naast een

procentuele Bland & Altman grafiek ook nog een absolute Bland & Altman grafiek opgesteld. Deze is te

zien in Figuur 4.9. op de volgende pagina. In deze grafiek worden er absolute TE limieten gesteld voor

lage concentraties, zoals beschreven onder 3.2.4.6. ‘Methodevergelijking’. Vanaf een concentratie van

0.25 µg/g (een punt dat educatief gekozen wordt) worden opnieuw procentuele limieten gebruikt. We

zien in Figuur 4.9. dat alle individuele datapunten binnen de concentratieafhankelijke limieten liggen.

Bovendien kunnen we aan de hand van deze figuur opmerken dat de CV van stijgend (bij de lage

concentraties) naar constant (bij de hogere concentraties) evolueert, wat moeilijker te zien is in Figuur

4.8.

Figuur 4.8.: Bland & Altman grafiek

37

Figuur 4.9.: Bland & Altman grafiek waarbij in de y-as niet het procentuele verschil tussen de routine- en referentiemethode

uitgezet wordt, maar het absolute verschil tussen beide methoden

Tabel 4.4. geeft de resultaten weer die bekomen worden voor de lineaire regressie. Uit de tabel

blijkt dat de richtingscoëfficiënt significant verschillend is van 1 en het intercept niet significant

verschillend is van 0 op het 5% significantieniveau.

Tabel 4.4.: Resultaten van de lineaire regressieanalyse

Lineaire regressievergelijkinga y = 0.9745x + 0.0034

Richtingscoëfficiënt ± 95% CI 0.9745 ± 0.02269

Intercept ± 95% CI 0.0034 ± 0.01736

a: x stelt de referentiemethode voor, y stelt de routinemethode voor

Mogelijks is er een concentratieafhankelijkheid in de data. Daarom kijken we naar twee extreme

punten op de regressielijn, namelijk de laagste en de hoogste meetwaarde van de referentiemethode.

Dit wordt uitgevoerd om na te gaan of de prestatie van de routinemethode (in termen van

overeenkomst met de referentiemethode) verschillend is bij lage en hoge concentratie. Voor deze

extreme punten wordt het resultaat voor de routinemethode voorspeld aan de hand van de

regressievergelijking. Vervolgens wordt van deze waarden het 95% CI berekend. Daarna wordt het

procentueel verschil tussen de bekomen confidentielimieten en de minimum en maximum x-waarde

38

berekend. Dit verschil mag de 5% specificatie voor de systematische fout niet overschrijden. Bij het

onderzoeken van de totale fout wordt van dezelfde extreme punten uit de referentiemethode ook weer

het resultaat voor de routinemethode voorspeld. Van deze waarden wordt nu het 95% predictie-interval

berekend om dan het procentueel verschil tussen de confidentielimieten en de minimum en maximum x-

waarde te berekenen. Dit mag de 15% specificatie voor de totale fout niet overschrijden. Deze

verschillende resultaten worden weergegeven in Tabel 4.5.

Tabel 4.5.: Resultaten van de lineaire regressieanalyse (deel twee)

Minimale x = 0.0356 µg/g Maximale x = 1.40 µg/g

Voorspelde waarde voor y (µg/g) 0.0381 1.36

SE: LCL Δ (%) -27.13 -3.311

UCL Δ (%) 41.08 -1.302

TE LCL Δ (%) -164.3 -6.709

UCL Δ (%) 178.2 2.096

Uit Tabel 4.5. kunnen we besluiten dat de 5% specificatie voor de systematische fout duidelijk

overschreden wordt in het lage concentratiegebied. Voor hoge parabeenconcentraties wordt deze limiet

niet overschreden. Wanneer we dan de totale fout beschouwen, kunnen we besluiten dat de 15%

specificatie voor de systematische fout ook duidelijk overschreden is voor de lage concentratie. Voor de

hoge concentratie wordt wel aan de 15% specificatie voldaan.

Hoewel uit de Bland & Altman grafiek (zie Figuur 4.8.) was gebleken dat de methodevergelijking

voldoet aan de vooropgestelde specificatielimieten, kunnen we op basis van de resultaten die bekomen

worden met de lineaire regressieanalyse niet tot hetzelfde besluit komen. Bij lage concentraties hebben

we zowel een systematische als een totale fout die groter is dan de specificatielimieten. Bij hoge

concentraties echter, voldoen de systematische en totale fout wel aan de vooropgestelde limieten.

Gezien de Bland & Altman benadering in Figuur 4.8. geen onderscheid maakt tussen lage en hoge

ethylparabeenconcentraties (en er op die manier verkeerde conclusies uit kunnen volgen) en gezien er

voor lage concentraties in Figuur 4.9. absolute limieten worden gesteld (en we de procentuele totale

fout niet kunnen zien), kunnen we op basis van de regressiegegevens tot het algemeen besluit komen

dat de resultaten bekomen met de routinemethode significant verschillend zijn van deze bekomen met

de referentiemethode op het 5% significantieniveau voor de lage concentraties.

39

4.1.9. Resultaten: samenvatting

In Tabel 4.6. wordt een overzicht gegeven van de verschillende prestatiekarakteristieken die onderzocht

werden, samen met de vooropgestelde specificaties. Er wordt ook vermeld of er al dan niet aan de

specificaties wordt voldaan.

Tabel 4.6.: Overzicht van de verschillende prestatiekarakteristieken die onderzocht werden, samen met de vooropgestelde specificaties en vermelding van het feit of er al dan niet aan die specificaties wordt voldaan

4.2. LITERATUURONDERZOEK

4.2.1. Introductie tot het statistisch concept van het tolerantie-interval

Om financiële, logistieke, organisatorische en andere redenen is het in wetenschappelijke studies

zelden mogelijk de volledige populatie te onderzoeken. Men beperkt zich dan ook vaak tot een kleinere

groep binnen de populatie (de steekproef). Stel dat X de onderzochte variabele is en x1, x2,… xN N

verschillende onafhankelijke observaties zijn van X, dan kunnen er twee situaties worden onderscheiden:

(1) er is niets gekend over de distributie van X, behalve dan misschien dat de observaties continu zijn of

(2) de distributie van X is wel gekend en enkel de numerieke waarden van een eindig aantal parameters

betrokken bij de distributie van X zijn onbekend. Geval (1) wordt een non-parametrisch model genoemd,

terwijl we in geval (2) spreken van het parametrisch model. Bij dit literatuuronderzoek beperken we ons

tot het parametrisch model. Meer bepaald gaan we er hier van uit dat de metingen kunnen beschreven

worden aan de hand van een Gaussiaans model.

Prestatiekarakteristiek Specificatie Wordt er aan de specificatie voldaan?

Lineariteit 5%a Jac

Imprecisie: binnen-analyse CV 2%b Ja, zowel voor Low IQC als voor High IQC

Imprecisie: totale CV 5%b Ja, zowel voor Low IQC als voor High IQC

Juistheid 5%a Ja, mits herhaalde metingen voor

juistheidsstaal 1 binnen de specificatie vallen.

Methodevergelijking: systematische fout 5%a Neend

totale fout 15%a Neend

a: limiet

b: doelwaarde voor een stabiel proces

c: uit de “lack-of-fit” test en de polynomiale regressieanalyse bleek al dat er een lineair verband

bestaat tussen de piekoppervlakte en de concentratie

d: niet bij lage concentraties, wel bij hogere concentraties

40

Op grond van de resultaten die bekomen worden bij een representatieve steekproef, wil men

uitspraken doen over de volledige populatie. Vaak is het zo dat een onbekende parameter van de

populatie (bv. het gemiddelde of de standaarddeviatie) geschat wordt aan de hand van een uit de

steekproef berekende grootheid. Bij dit schatten willen we van die onbekende parameter in de populatie

een indruk krijgen door middel van een puntschatting en/of een confidentie-interval (CI). Anders dan een

puntschatting levert een CI een volledig interval van betrouwbare schattingen van de parameter. Een

waarschijnlijkheidsniveau van 95% is courant. Wat vaak foutief wordt gesteld, is dat er bij een 95% CI

voor een populatieparameter 95% kans is dat die parameter in het interval ligt. Een juistere benadering

van de betekenis van het 95% CI is dat bij herhaling van de procedure mag verwacht worden dat 95% van

de berekende intervallen de populatieparameter zullen bevatten (Vansteelandt, 2009).

Het CI geeft daarnaast ook informatie over de spreiding van de gegenereerde data. De onder- en

bovengrens van het CI worden de confidentielimieten genoemd (“confidence limit”, CL). De breedte van

het CI hangt af van de variabiliteit op de metingen (met als kwantitatieve maat de standaarddeviatie) en

het aantal metingen (algemeen de grootte van de steekproef). Hoe smaller het interval, hoe

nauwkeuriger de schatting van de populatieparameter.

Naast het CI, kan ook gebruik gemaakt worden van een predictie-interval (PI) of een tolerantie-

interval (TI) om schattingen te maken van de populatie. Een PI is een interval dat vertelt waarbinnen

toekomstige observaties, met een zekere probabiliteit, zullen vallen. Wanneer een 95% PI van een

datareeks wordt berekend en daarna één extra meting wordt uitgevoerd, dan wordt verwacht dat bij

herhaling van deze procedure die extra meting in 95% van de gevallen binnen het PI valt. In plaats van de

ligging van enkel het eerstvolgende resultaat te voorspellen, kan ook de ligging van alle volgende n

resultaten of een fractie van alle volgende n resultaten geschat worden. (Technometrics, 1990).

Wat als we nu een voorspelling willen maken van alle 100, 1000 of meer toekomstige resultaten?

Uiteraard zouden de overeenkomstige predictie-intervallen voor die 100 of 1000 observaties kunnen

berekend worden, maar met het toenemen van het aantal toekomstige observaties neemt ook de

breedte van de overeenkomstige predictie-intervallen toe. Gelukkig is er een ander type interval dat

gebruikt kan worden bij dit grote aantal observaties. Zo’n interval wordt een tolerantie-interval (TI)

genoemd (Wald & Wolfowitz, 1946; Hahn & Meeker, 1991).

In plaats van de ligging van een populatieparameter of van een toekomstige meetwaarde te

schatten, kan ook de ligging van een zekere fractie van de populatie geschat worden. Een TI is een

41

statistisch interval waarbinnen met een zekere betrouwbaarheid een vaste proportie van de populatie

valt. De onderste en de bovenste grens van het TI worden de tolerantielimieten (“tolerance limit”, TL)

genoemd. Het TI kan bijvoorbeeld een antwoord geven op de vraag: “Wat als we γ% zeker willen zijn dat

het interval β% van de waarden omvat?”. Om een TI te kunnen berekenen, moeten er dus twee

verschillende percentages gekozen worden (γ en β). Eén percentage (γ) bepaalt het

betrouwbaarheidsniveau, het andere (β) vertelt welke fractie van de waarden het interval insluit. Het

gebeurt dat onderzoekers beweren dat een CI een zekere proportie van de populatie dekt, maar dat is

niet het geval. In situaties waarbij een zekere onderste en bovenste grens vereist zijn om een specifieke

proportie van een populatie te omsluiten, kunnen TI’s aangewezen zijn. Tolerantie-intervallen worden

bijvoorbeeld gebruikt om na te gaan of waarden met een zekere probabiliteit binnen bepaalde

specificatielimieten vallen (NIST/SEMATECH eHandbook of statistical methods).

Alternatief kan men het tolerantie-interval definiëren als een intervalschatting van een bepaald

percentiel. Een percentiel is de waarde binnen een reeks metingen onder dewelke een zeker percentage

van de metingen valt. Een percentiel is met andere woorden de waarde onder dewelke exact p% van de

waarden ligt. Waar een CI een schatting geeft van een populatieparameter, zoals het gemiddelde of de

variantie, is de parameter die geschat wordt bij het TI een percentiel (Mee, 1990; Chakraborti et al.,

2007).

Wanneer noch het populatiegemiddelde µ, noch de populatiestandaarddeviatie ς gekend zijn,

moet het TI rekening houden met de variabiliteit op de schatting van zowel het gemiddelde als de

standaarddeviatie. Dit leidt tot een interval dat minstens een proportie van de distributie omvat met een

zekere probabiliteit. Wanneer het aantal metingen toeneemt, dan zal het TI het interval, dat exact de

proportie p van de normale distributie omvat, benaderen (Odeh & Owen, 1980).

In de wetenschap is het toevoegen van ±3ς aan een bepaalde schatting een gangbare praktijk

om bijvoorbeeld specificatielimieten op te stellen. Voor Normaal verdeelde data is het namelijk zo dat

een ±3ς interval rond het gemiddelde 99.73% van de populatie in zich sluit. Dit is echter slechts correct

wanneer de ware populatieparameter gekend is. Gezien dit heel zelden het geval is, moeten het

gemiddelde en de variantie geschat worden. Waar ligt het verschil met het TI dan? Een tolerantie-

interval wordt ook geconstrueerd als het gemiddelde ± een aantal keer de standaarddeviatie, maar het

houdt rekening met de onzekerheid op de schatting en het aantal metingen via de functie

g(betrouwbaarheid, proportie, aantal metingen) in Formule 4.1.

42

TI = xgem ± g(1-α/2, β, n) . s (4.1.)

waarbij: xgem = gemiddelde van x

g(1-α/2, β, n) = g(betrouwbaarheid (α), proportie (β), aantal metingen (n))

s = standaarddeviatie

Het equivalente 95% TI van een gemiddelde ±3ς interval wordt op die manier gegeven door de

volgende betrekking: xgem ± g(0.975, 0.9973, n) . s. Dit TI zal smaller zijn dan het overeenkomstige PI voor 100 of

1000 metingen, maar toch iets breder dan het gemiddelde ±3ς interval omwille van het feit dat het

rekening houdt met de onzekerheid op de schattingen (Hahn & Meeker, 1991).

4.2.2. Het tolerantie-interval binnen het (bio)farmaceutische veld

Het TI vindt een aantal applicaties in het (bio)farmaceutisch onderzoek. Deze omvatten onder

meer het bepalen van aanvaardbaarheidscriteria in farmaceutische productieprocessen, evaluatie van

dosisuniformiteit en bepaling van de houdbaarheid van geneesmiddelen. In farmaceutische

productieprocessen is de selectie van een adequate statistische benadering heel belangrijk bij het

bepalen van geschikte aanvaardbaarheidscriteria. Deze laatste vormen een set van numerieke limieten

die, wanneer ze overschreden worden, een significante afwijking van normale werkomstandigheden of

productkwaliteit inhouden. Wang et al. (2007) stellen dat bij het bepalen van aanvaardbaarheidscriteria

voor biotechnologische producten het gebruik van het TI adequaat is voor zowel kleine als grote datasets

en bespreken deze twee situaties (kleine en grote dataset) afzonderlijk. Er wordt gesteld dat het gebruik

van gemiddelde ± 3s geen rekening houdt met het feit dat het gemiddelde en de standaarddeviatie

slechts schattingen zijn van de ware waarden. Wanneer deze methode gebruikt wordt bij een relatief

kleine dataset, dan kunnen de ware populatieparameters zowel over- als onderschat worden. Tolerantie-

intervallen worden op een gelijkaardige manier geconstrueerd als het gemiddelde ± g.s. Echter, in plaats

van 3s te gebruiken, wordt gebruik gemaakt van de factor g, die rekening houdt met het aantal

datapunten dat gegenereerd wordt om het gemiddelde en de standaarddeviatie te schatten. Deze factor

g wordt kleiner naarmate de steekproefgrootte toeneemt.

Wanneer het aantal datapunten groter wordt, dan wordt het interval van het gemiddelde ± 3s

vergelijkbaar met het TI. Hoewel deze intervallen vergelijkbaar zijn, is enkel het TI geassocieerd met een

betrouwbaarheidsniveau. Bij beide besproken gevallen (kleine en grote dataset) is het TI de aangewezen

methode om aanvaardbaarheidscriteria te bepalen. Een klein punt van kritiek is dat bij het gebruik van

het TI het belangrijk is om het geschikte betrouwbaarheidsniveau te kiezen (Wang et al., 2007).

43

Het gebruik van het TI is daarnaast ook goed ingeburgerd bij de evaluatie van dosisuniformiteit.

Testen op dosisuniformiteit helpt om te verzekeren dat het gehalte van een therapeutisch product

binnen gespecifieerde aanvaardbaarheidslimieten blijft. Algemeen kan hierbij het TI gebruikt worden om

na te gaan of het gemiddelde ± g.s met een zekere betrouwbaarheid binnen de voorgeschreven

acceptatielimieten valt. Bij dosisuniformiteitstesten is het doel na te gaan of de distributie van de

gemeten dosissen voldoende dicht ligt bij de waarde die op het productlabel wordt vermeld en daarom

worden deze aanvaardbaarheidslimieten berekend als percentages van de hoeveelheid die op het

productlabel staan (Hauck & Shaikh, 2004). Verschillende waarden voor deze limieten werden reeds

voorgesteld. Tot op vandaag is er echter nog steeds geen algemene consensus over de limieten die

gebruikt worden. Het gebruik van het parametrisch TI staat veel minder ter discussie en onder meer

dankzij recente regulatorische initiatieven vindt het TI algemene ingang bij verschillende auteurs en

instanties (Novick et al., 2009).

Farmaceutische bedrijven worden door de autoriteiten verplicht om de houdbaarheidsdatum

aan te geven op de verpakking van elk geneesmiddel. Stabiliteitsstudies van farmaceutische producten

worden uitgevoerd om de houdbaarheid van het product in kwestie te schatten. Deze “shelf life” zorgt

ervoor dat de patiënt zich geen zorgen hoeft te maken over de identiteit, sterkte, kwaliteit en zuiverheid

van het farmaceutisch product gedurende de houdbaarheidsperiode. Voor de bepaling van deze

houdbaarheid raadt de International Conference on Harmonisation (ICH) aan de houdbaarheid te

bepalen op basis van een benadering met een CI met betrouwbaarheidsniveau 100(1-α)%. Komka et al.

(2004) stellen deze benadering in vraag. Voor de stabiliteitsstudie wordt een willekeurige hoeveelheid

tabletten beschouwd. Samen met verschillende andere auteurs (Shao & Chow, 1994; Kiermeier et al.,

2004) komen zij tot de conclusie dat niet de ligging van het gemiddelde van de inhoud van de

verschillende tabletten moet beschouwd worden met zijn CI. In plaats daarvan wil men weten waar de

inhoud van de meerderheid (of algemeen een bepaalde proportie) van de individuele tabletten ligt. Het

geschikte statistische interval is hier opnieuw een TI, dat een specifieke proportie van de populatie met

een hoge betrouwbaarheid insluit (Komka et al., 2010).

Ongetwijfeld zullen er naast de besproken applicaties nog andere velden zijn binnen het

(bio)farmaceutisch onderzoek waar het TI gebruikt wordt, maar deze vallen buiten het bestek van dit

literatuuronderzoek. In verband met methodevalidatie is het TI eerder in een wetenschappelijke fase en

nog niet in een applicatiefase. Hieronder wordt dit meer uitgebreid uit de doeken gedaan.

44

4.2.3. Belang van het tolerantie-interval bij de farmaceutische methodevalidatie

Vooraleer een analytische methode kan gebruikt worden, moet deze uiteraard eerst ontwikkeld

worden en daarna gevalideerd. Het objectief van een kwantitatieve analytische methode is om elke

onbekende hoeveelheid of concentratie van een staal te kwantificeren. Men gaat bij de

methodevalidatie na of de methode geschikt is voor het uiteindelijke doel. Bij de validatie van een

analytische methode wil men er zeker van zijn dat elke toekomstige meting in routine analyse dicht

genoeg zal liggen bij de (onbekende) ware waarde voor de hoeveelheid analyt. M.a.w.: het verschil

tussen de onbekende ware waarde µT en het resultaat dat bekomen wordt met de methode moet

voldoende klein zijn, bijvoorbeeld kleiner dan een vooraf gedefinieerde acceptatielimiet λ (zie Formule

4.2.). Deze acceptatielimiet λ verschilt afhankelijk van de opdrachtgever of het objectief van de

analytische methode. Alternatief krijgt de analyticus de vereiste kwaliteitsspecificaties automatisch uit

hoofde van de discipline waarin het onderzoek kadert (bijvoorbeeld de farmaceutische discipline).

-λ < X - µT < λ |X - µT| < λ (4.2.)

waarbij: λ = vooraf gedefinieerde aanvaardbaarheidslimiet

X = de numerieke waarde van de meting van een staal

µT = de ware waarde

Voor elke te meten onbekende bestaat er theoretisch een ware waarde. Of de analytische

methode in staat is deze te achterhalen, hangt af van de analytische meetfouten en hun omvang. Elke

meting is onderhevig aan meetfouten en blijft daardoor slechts een benadering van de theoretische

ware waarde. Er wordt een onderscheid gemaakt tussen toevallige en systematische meetfouten.

Toevallige meetfouten bepalen de precisie van de methode, systematische fouten zijn bepalend voor de

juistheid (“trueness”) van de methode. De totale fout van één meetresultaat is de resultante van de

systematische en toevallige foutcomponenten.

Verschillende documenten over analytische en bioanalytische methodevalidatie werden reeds

gepubliceerd door regulatoire instanties, zoals de ICH en de Amerikaanse Food and Drug Administration

(FDA). Deze documenten vertellen dat elke analytische methode moet voldoen aan specifieke

aanvaardbaarheidscriteria om als gevalideerd beschouwd te kunnen worden, maar zijn veel minder

duidelijk over het proces en de regels om een beslissing te nemen. Er is met andere woorden geen

consensus over hoe men (op grond waarvan, aan de hand van welke protocollen of statistiek) een

45

beslissing moet nemen voor het al dan niet weerhouden van een analytische methode (Rozet et al.,

2007).

Algemeen kan men wel stellen dat een analytische methode als gevalideerd kan beschouwd

worden wanneer voor elk te kwantificeren staal het “zeer waarschijnlijk” is dat het bekomen resultaat

binnen de acceptatielimieten valt (zie Formule 4.3.). Merk op dat dit een diffuse benadering is. (Rozet et

al., 2007; González & Herrador, 2007)

π = P(|X - µT|) < λ) ≥ πmin (4.3.)

waarbij: π = de kans dat de absolute waarde van het verschil tussen

X en µT kleiner is dan λ

πmin = het kwaliteitsniveau

Wanneer een groot aantal stalen wordt geanalyseerd, dan kan π gezien worden als de proportie

van de resultaten die binnen de acceptatielimieten valt. Dit concept is zeer belangrijk en meteen ook het

centrale idee van Rozet et al. (2007): bij de methodevalidatie gaat het om predictie van de

waarschijnlijkheid (aan de hand van geschikte statistische methoden) dat elke toekomstige meting

accuraat genoeg zal zijn. Er is geen exacte oplossing om π uit Formule 4.3. te schatten, maar er zijn

verschillende auteurs (Rozet et al., 2007; Hoffman et al, 2007; González & Herrador, 2007) die een

oplossing voor dit probleem aanreiken. Het nemen van een beslissing of een analytische methode al dan

niet als gevalideerd kan beschouwd worden, zou volgens deze auteurs moeten gebaseerd zijn op het “β-

expectation” TI (βETI). Wanneer dit βETI volledig omsloten wordt door de acceptatielimieten *-λ, λ+, dan

is de verwachte proportie van de metingen die binnen deze acceptatielimieten ligt ongeveer gelijk aan β.

Om deze reden worden βETI’s ook predictie-intervallen genoemd. Ze geven de locatie weer waar β% van

de toekomstige resultaten verwacht worden (Rozet et al., 2007).

Twee types van tolerantie-intervallen hebben aanzienlijke aandacht gekregen in de literatuur. Er

wordt een onderscheid gemaakt tussen het “β-expectation” TI (βETI) en het “β-content” TI (βCTI).

Wanneer een βETI wordt opgesteld, dan wordt er verwacht dat ongeveer een proportie β van de

populatie binnen dat interval zal liggen. Een βCTI daarentegen wordt zo geconstrueerd dat het minstens

een proportie β van de populatie zal bevatten met probabiliteit γ (Mee, 1990).

46

Het gebruik van het βETI bij de farmaceutische methodevalidatie werd voor het eerst

voorgesteld door de Société Française des Sciences et Techniques Pharmaceutiques (SFSTP) in 2004.

Zoals eerder vermeld zijn er verschillende officiële documenten die de criteria voor een

methodevalidatie beschrijven, maar deze stellen geen experimenteel protocol voor en limiteren zichzelf

meestal tot algemene concepten. Het SFSTP heeft daarom een aantal richtlijnen ontwikkeld om

(industriële) wetenschappers te helpen bij het toepassen van de regulatoire aanbevelingen. Deze

richtlijnen zijn gebaseerd op het gebruik van een zogenaamd accuraatheidsprofiel en gebruiken het

begrip totale fout (Hubert et al., 2004).

De beslissingsregels voorgesteld door het SFSTP worden beschreven als volgt. Een analytische

methode heeft als doel stalen te kwantificeren over een bereik van concentraties. Tijdens de validatie

worden er stalen gebruikt die dit bereik dekken en voor elk staal wordt er dan een βETI berekend. Het

zogenaamde accuraatheidsprofiel wordt bekomen door enerzijds de onderste limieten van de βETI’s met

elkaar te verbinden over de verschillende concentratieniveau’s en anderzijds door de bovenste limieten

te verbinden. Wat vervolgens gebeurt, is nagaan of dit profiel binnen de aanvaardbaarheidslimieten [-λ,

λ+ ligt. Wanneer dat het geval is, kan men besluiten dat de methode gevalideerd is over het beschouwde

concentratiebereik. Figuur 4.10. op de volgende pagina toont het accuraatheidsprofiel van een

“sandwich Enzyme-Linked Immunosorbent Assay” (ELISA) methode voor de bepaling van thyroïd

stimulerend hormoon (TSH) op gedroogde bloedvlekken van pasgeborenen. Deze methode zou dan

kunnen gebruikt worden bij de neonatale screening van congenitaal hypothyroïdisme (Boemer et al.,

2009).

In het voorbeeld van Figuur 4.10. worden de acceptatielimieten voor de totale fout gezet op [-

30%, 30%+. Het βETI, dat een regio beschrijft waar een proportie β van de toekomstige resultaten zal

vallen, werd op 80% gezet (β=80%). De methode wordt als gevalideerd beschouwd binnen het bereik

waarvoor het accuraatheidsprofiel binnen de aanvaardbaarheidslimieten voor de totale fout (±30%) valt.

De LLoQ is de kleinste concentratie die onder de experimentele omstandigheden met voldoende

nauwkeurigheid kan bepaald worden. Een analoge definitie kan gegeven worden voor de ULoQ. De LLoQ

en ULoQ worden bekomen door de kleinste en hoogste concentratie, waarvan de limieten voor het βETI

de acceptatielimieten overschrijden, te bepalen. In dit voorbeeld van Boemer et al. (2009) wordt de LLoQ

experimenteel bepaald op 17.48 mIU/L. De ULoQ bedraagt 250 mIU/L. Binnen dit bereik kan men zeker

zijn dat minstens 80% van de toekomstige resultaten een totale fout van hoogstens 30% zullen hebben

(Boemer et al., 2009). Dit is onmiddellijk gerelateerd aan het algemeen objectief van een analytische

47

methode, i.e. metingen geven die dicht genoeg liggen bij de (onbekende) ware waarde (Rozet et al.,

2007).

Boemer et al. (2009) hebben in het voorbeeld van Figuur 4.10. de relatieve totale fout

beschouwd. Zoals eerder al werd opgemerkt onder 4.1.8. ‘Methodevergelijking’ is de variatie op de

metingen groter bij lage concentraties dan bij hogere concentraties. De procentuele totale fout wordt

disproportioneel groot in dit lage bereik. Figuur 4.11. op de volgende pagina stelt een absoluut verschil

plot voor, opgesteld met dezelfde gegevens als deze die door Boemer et al. (2009) gebruikt werden voor

Figuur 4.10., alleen zijn in Figuur 4.11. de acceptatielimieten concentratieafhankelijk gemaakt. Tot een

concentratie van 17.48 mIU/L worden absolute limieten gekozen. Bij hogere concentraties worden

opnieuw relatieve limieten beschouwd. Wanneer Figuur 4.11. beschouwd wordt, zien we dat bij dit

voorstel de ELISA methode over het volledige concentratiebereik gevalideerd is.

Figuur 4.10.: Accuraatheidsprofiel voor de meting van TSH standaardoplossingen met verschillende concentraties: 3.9, 7.8, 15.6, 31.3, 62.5, 125 en 250 mIU/L. De volle lijn staat voor de relatieve bias. De gebroken lijnen stellen de limieten voor van het βETI (β=80%). De stippellijnen stellen de acceptatielimieten voor (±30%) (Boemer et al., 2009)

48

Figuur 4.11.: Absoluut verschil plot opgesteld met dezelfde gegevens als gebruikt voor Figuur 4.10.

Hoffman et al. (2007) stellen een gelijkaardige procedure voor bij de methodevalidatie. Zoals

eerder vermeld, worden acceptatiecriteria voor analytische methoden vaak gekozen op basis van ad-hoc

regels. Ofschoon deze ad-hoc regels aan regulatoire eisen voldoen, houdt deze benadering toch

onbekende en ongecontroleerde risico’s in dat niet-geschikte analytische methoden weerhouden

worden (risico voor de patiënt) en geschikte methoden afgekeurd worden (risico voor de producent).

Hoffman et al. (2007) stellen eveneens een benadering voor op basis van de totale fout, gebaseerd op

het gebruik van een “β-content” tolerantie-interval. Het gebruik van de totale fout is een statistisch en

wetenschappelijk degelijke benadering. Ideale acceptatiecriteria zouden verzekeren dat minstens een

grote proportie (bijvoorbeeld β%) van de toekomstige observaties binnen acceptabele limieten zou

vallen, met een hoge graad van betrouwbaarheid (bijvoorbeeld γ%). Een “β-content” tolerantie-interval

lijkt in dit opzicht een voor de hand liggende keuze. Noteer dat deze applicatie van het TI de structuur

heeft van het statistisch testen van hypothesen. De nulhypothese (H0) is dat minder dan een proportie β

van de metingen binnen de aanvaardbaarheidslimieten [-λ, λ+ valt. De alternatieve hypothese (HA) is dat

minstens een proportie β binnen die grenzen valt. Bij de voorgestelde totale fout procedure wil men de

49

nulhypothese verwerpen ten voordele van het alternatief en op die manier de analytische methode

valideren (Hoffman et al., 2007).

Uit wat hierboven wordt beschreven, kan men opmerken dat het gebruik van het TI bij de

farmaceutische methodevalidatie meestal nog maar in een wetenschappelijke fase is. De benadering

wordt nog niet algemeen erkend en toegepast, al is er vandaag al software zoals e-noval

(http://www.arlenda.com/en/show-product/7/enoval), Agilent ChemStaion Plus Method Validation Pack

(http://www.chem.agilent.com/en-

US/Products/software/chromatography/chemstation/pages/default.aspx) en programma’s van VWR

(http://ru.vwr.com/app/catalog/Product?article_number=HPLC1.18988.0201) ter beschikking, die deze

nieuwe aanpak kunnen beschrijven. De vraag die vele wetenschappers zich stellen in deze fase, is of het

gebruik van het TI toelaat om zo’n belangrijke beslissing als het valideren van een analytische methode

te nemen. De minimale waarden voor β% die a priori moeten gekozen worden zijn meestal 80%, 90% of

95%, wat impliceert dat respectievelijk niet meer dan 20%, 10% of 5% van de metingen buiten de vooraf

gedefinieerde acceptatielimieten vallen. Op die manier wordt er via het gebruik van tolerantie-

intervallen een passend risicobeheer geïntroduceerd (Rozet et al., 2007). Daarbij komt nog dat deze

benadering via tolerantie-intervallen meer direct de prestatie van individuele metingen weerspiegelt.

Het gebruik van zo’n holistisch paradigma houdt een betere inschatting in van de prestatie van een

analytische methode (González & Herrador, 2007). Implementatie van deze benadering vereist echter

wel geschikte keuzes van de proportie β, het betrouwbaarheidsniveau en acceptatielimieten (Hoffman et

al., 2007).

Terwijl de verschillende statistische modellen en benaderingen die gebruikt kunnen worden bij

de farmaceutische methodevalidatie nog bediscussieerd worden, zijn er ondertussen al meer complexe

modellen op komst. Deze laatste zijn samen te vatten onder de noemers “Quality by Design” (QbD) en

“Process Analytical Technology” (PAT). Hierbij worden productieprocessen ontworpen, geanalyseerd en

gecontroleerd, waarbij men zich baseert op het begrijpen van de wetenschappelijke principes die met

het proces gepaard gaan en identificatie van de verschillende variabelen die de productkwaliteit kunnen

aantasten. Hierbij wordt getracht het proces in de realiteit te voorspellen met meer dan de pure

statistische retrospectieve analyse maar met technieken zoals “failure mode and effect analysis” (FMEA)

en andere risicobeoordelingen. (Rathore, 2009; Seely, 2003).

50

5. CONCLUSIE

Het meest robuuste en adequate kalibratiemodel voor de bepaling van de concentratie

vertrekkende van de piekoppervlakte bleek OLR geforceerd door nul te zijn. Uit de resultaten van de

validatie-experimenten kan besloten worden dat de methode voldoet aan de vooropgestelde

specificaties voor lineariteit en imprecisie. Zowel voor het Low IQC staal als voor het High IQC staal vielen

de CVwr en CVT binnen de specificaties voor een stabiel proces (voor CVwr is dat 2%, voor CVT 5%). De

detectielimiet werd als descriptieve meting beschouwd. De gemiddelde absolute hoeveelheid

ethylparabeen die wordt geïnjecteerd bij het bepalen van de LoD bedraagt 18.97 pg. Voor de

prestatiekarakteristiek juistheid kunnen we besluiten dat de methode voldoet aan de specificaties (5%)

op voorwaarde dat de metingen van juistheidsstaal 1 herhaald worden en binnen de limieten vallen.

Er stelden zich geen problemen bij het zelfstandig plannen en uitvoeren van de

methodevalidatie. Deze werd binnen de voorziene tijdspanne afgewerkt.

Bij de methodevergelijking wordt zowel een Bland & Altman benadering als een lineaire

regressieanalyse uitgevoerd. Deze twee benaderingen leveren verschillende conclusies op. Gebruik

makend van de Bland & Altman grafiek zou kunnen besloten worden dat de methodevergelijking voldoet

aan de vooropgestelde specificaties. Op basis van de resultaten die bekomen worden met de lineaire

regressieanalyse echter, komen we tot het besluit dat in het lage concentratiebereik zowel de

systematische als de totale fout niet voldoen aan de specificaties. Bij hogere concentraties voldoen de

systematische en totale fout wel aan de vooropgestelde limieten. Als algemeen besluit kunnen we dus

stellen dat de methodevergelijking niet voldoet aan de specificaties in het lage concentratiebereik. Bij

hogere concentraties wordt er wel aan de specificaties voldaan.

Bij de literatuurstudie werd aangeleerd dat de verschillende informatiebronnen met een kritisch

oog moeten gelezen worden. We kunnen besluiten dat het tolerantie-interval (TI) een aantal applicaties

vindt in het (bio)farmaceutisch veld, o.m. bij het bepalen van aanvaardbaarheidscriteria voor

farmaceutische productieprocessen, evaluatie van dosisuniformiteit en bepaling van de houdbaarheid

van geneesmiddelen. Het gebruik van het TI in de farmaceutische methodevalidatie is op enkele

uitzonderingen na nog in een wetenschappelijke fase, niet in een applicatiefase. Twee types van

tolerantie-intervallen hebben aandacht gekregen in de literatuur. Er wordt een onderscheid gemaakt

tussen het “β-expectation” TI (βETI) en het “β-content” TI (βCTI).

51

6. LITERATUURLIJST

Andersen, F.A. (2008). Final Amended Report on the Safety Assessment of Methylparaben, Ethylparaben, Propylparaben, Isopropylparaben, Butylparaben, Isobutylparaben, and Benzylparaben as Used in Cosmetic Products. International Journal of Toxicology, 27, 1-82. Bland, J.M., Altman, D.G. (1986). Statistical Methods for Assessing Agreement Between Two Methods of Clinical Measurement. The Lancet, 1, 307-310. Boemer, F., Bours, V., Schoos, R., Hubert, P., Rozet, E. (2009). Analytical Validation Based on Total Error Measurement and Cut-off Interpretation of a Neonatal Screening TSH-immunoassay. Journal of Chromatography B, 877, 2412-2417. Byford, J.R., Shaw, L.E., Drew, M.G.B., Pope, G.S., Sauer, M.J., Darbre P.D. (2002). Oestrogenic Activity of Parabens in MCF7 Human Breast Cancer Cells. J. Steroid Biochem. Mol. Biol., 80, 49-60. Chakraborti, S., Li J. (2007). Confidence interval estimation of a normal percentile. Amer. Statistician, 61, 331-6. Darbre, P.D., Aljarrah, A., Miller, W.R., Coldham, N.G., Sauer, M.J., Pope, G.S. (2004). Concentrations of Parabens in Human Breast Tumours. J. Appl. Toxicol., 24, 5-13. Darbre, P.D., Harvey P.W. (2008). Paraben Esters: Review of Recent Studies of Endocrine Toxicity, Absorption, Esterase and Human Exposure, and Discussion of Potential Human Health Risks. Journal of Applied Toxicology, 28(5), 561-578. Denyer, S.P. (1995). Mechanisms of Action of Antibacterial Biocides. International Biodeterioration & Biodegradation, 36(3-4), 227-245. El Hussein, S., Muret, P., Berard, M., Makki, S, Humbert, P. (2007). Assessment of principal parabens used in cosmetics after their passage through human epidermis–dermis layers (ex-vivo study). Experimental Dermatology, 16(10), 830-836. Golden, R., Gandy, J., Vollmer, G. (2005). A review of the endocrine activity of parabens and implications for potential risks to human health. Critical Reviews in Toxicology, 35(5): 435-458. González, A.G., Herrador, M.A. (2007). A Practical Guide to Analytical Method Validation, Including Measurement Uncertainty and Accuracy Profiles. Trends in Analytical Chemistry, 26(3), 227-238. Hahn, G.J., Meeker W.Q. (1991). Statistical Intervals: A Guide for Practitioners. John Wiley & Sons, Verenigde Staten. Harvey P.W. (2004). Discussion of Concentration of Parabens in Human Breast Tumours. J. Appl. Toxicol., 24(4), 307-310. Hauck, W.W., Shaikh, R. (2004). Modified Two-sided Normal Tolerance Intervals for Batch Acceptance of Dose Uniformity. Pharmaceut. Statist., 3, 89-97. Hoffman, D., Kringle, R. (2007). A Total Error Approach for the Validation of Quantitative Analytical Methods. Pharmaceutical Research, 24(6), 1157-1164. Hubert, P., Nguyen-Huu, J., Boulanger, B., Chapuzet, E., Chiap, P., Cohen, N., Compagnon, P., Dewé, W., Feinberg, M., Lallier, M., Laurentie, M., Mercier, N., Muzard, G., Nivet, C., Valat, L. (2004). Harmonization of Strategies for the Validation of Quantitative Analytical Procedures. A SFTP Proposal. J. Pharma. Biomed. Anal., 36(3), 579-586. http://ru.vwr.com/app/catalog/Product?article_number=HPLC1.18988.0201 (05/05/2011). http://www.arlenda.com/en/show-product/7/enoval (05/05/2011). http://www.chem.agilent.com/en-US/Products/software/chromatography/chemstation/pages/default.aspx (19/05/2011). Ishiwatari, S., Suzuki, T., Hitomi, T., Yoshino, T., Matsukuma, S., Tsuji T. (2007). Effects of Ethylparaben on Skin Keratinocytes. J. Appl. Toxicol., 27(1), 1-9.

52

Kiermeier, A., Jarett, R.G., Verbyla, A.P. (2004). A New Approach to Estimating Shelf-life, Pharmaceutical Statistics, 3, 3-11. Komka, K., Kemény, S., Bánfai, B. (2010). Novel Tolerance Interval Model for The Estimation of the Shelf Life of Pharmaceutical Products. J. Chemometrics, 24, 131-139. McDowall, B. (2010). Why System Suitability Tests Are Not a Substitute for Analytical Instrument Qualification or Calibration, Part 1. LCGC North America, 28(12), 1038-1041. Natrella, M. (2010). NIST/SEMATECH e-Handbook of Statistical Methods, http://www.itl.nist.gov/div898/handbook/ Mee, R.W. (1990). Simultaneous Tolerance Intervals for Normal Populations With Common Variance Technometrics, 32(1), 83-92. Novick, S., Christopher, D., Dey, M., Lyapustina, S., Golden, M., Leiner, S., Wyka, B., Delzeit, H., Novak, C., Larner, G. (2009). A Two One-sided Parametric Tolerance Interval Test Control of Delivered Dose Uniformity. AAPS PharmSciTech, 10(3), 841-849. Odeh, R.E., Owen, D.B. (1980). Tables for Normal Tolerance Limits, Sampling Plans and Screening. New York: Marcel Dekker Inc. Rathore, S.A. (2009). Roadmap for Implementation of Quality by Design (QbD) for Biotechnology Products. Trends in Biotechnology, 27(9), 546-553. Rozet, E., Hubert, C., Ceccato, A., Dewé, W., Ziemons, E., Moonen, F., Michail, K., Wintersteiger, R., Streel, B., Boulanger, B., Hubert, P. (2007). Using Tolerance Intervals in Pre-study Validation of Analytical Methods to Predict In-study Results. The Fit-for-purpose concept. Journal of Chromatography A, 1158, 126-137. SCCP/0874:2005. Extended Opinion on: Parabens, underarm cosmetics and breast cancer. Seely, R.J., Seely, J.E. (2003). A Rational, Step-Wise Approach to Process Characterization. BioPharm International. Shabir, G.A. (2007). Method Development and Validation of Preservatives Determination (Benzyl Alcohol, Ethylene Glycol Monophenyl Ether, Methyl Hydroxybenzoate, Ethyl Hydroxybenzoate, Propyl Hydroxybenzoate, and Butyl Hydroxybenzoate) Using HPLC. Journal of Liquid Chromatography & Related Technologies, 30(13-16), 1951-1962. Shabir, G.A., Lough, W.J., Shafique, A.A., Tony, K.B. (2007). Evaluation and Application of Best Practice in Analytical Method Validation. Journal of Liquid Chromatography & Related Technologies, 30, 311-333. Shao, J., Chow, S., (1994). Statistical Inferences in Stability Analysis. Biometrics, 50, 753-763. Soni, M.G., Carabin, I.G., Burdock, G.A. (2005). Safety Assessment of Esters of P-Hydroxybenzoic Acid (Parabens). Food and Chemical Toxicology, 43(7), 985-1015. Stöckl, D. (2007a). Laboratory Statistics & Graphics with EXCEL®. STT consulting, Horebeke, België, 141p. Stöckl, D. (2007b). Method validation With Confidence. STT consulting, Horebeke, België, 52 p. Technometrics (1990). American Statistical Association, Alexandria, VA, Verenigde Staten. The Merck Index, an encyclopedia of chemicals, drugs and biologicals, 13e editie (2001). Merck Research Laboratories, Whithouse Station, NJ, Verenigde Staten.

Vansteelandt, S. (2009). Statistiek en Farmaceutische Data Analyse.

Wald, A., Wolfowitz, J. (1946). Tolerance Limits for a Normal Distribution. Ann. Math. Statist., 17(2), 208-215.

Wang, X., Germansderfer, A., Harms, J., Rathore, A.S. (2007). Using Statistical Analysis for Setting Process Validation Acceptance Criteria for Biotech Products. Biotechnol. Prog., 23, 55-60.

APPENDIX

The manuscript titled Detection decisions defined by the standard deviation of the blank –

Questions form “analytical fresmen” (see below) has been submitted to Analytical Chemistry.

1

Detection decisions defined by the standard deviation of the blank – Questions from

“analytical freshmen”

By Arno Vermote and Manon Buyl

University of Gent, Faculty of Pharmaceutical Sciences, Laboratory for Analytical Chemistry

ABSTRACT

As pharmacy students in our 4th

academic year, we consider us “analytical freshmen”. Our master

thesises included a literature study about detection decisions based on the standard deviation of

the blank (sbi). The more the study progressed, the more we were puzzled. In the end, we were

left with more questions than answers: i) why is the literature on such a seemingly simple concept

(LC = μ + z1-α σ0) so divergent?; ii) different “k-values” are proposed for substituting “z”, which

one is correct?; iii) why was the blank dropped in the classical IUPAC paper?; iv) what is the

logic to substitute z * σ0 with t * sbi and what is the statistical meaning of the latter?; v) what is

the statistical meaning of imposing the confidence interval of a standard deviation upon a t-

statistic?; vi) is the confidence interval of LC adequately described by the confidence interval of

sbi, by the confidence interval of a percentile, or by another approach?; vii) why is there so little

communication between different analytical application fields for such fundamental issues as the

LC?; viii) with respect to LC, has Columbus's egg been found in a recent publication?

KEYWORDS

Limit of detection, Limit of the blank, prediction interval, confidence interval

2

MANUSCRIPT TEXT

To the Editor

We are two pharmacy students, just finishing our master thesis in our 4th academic year. The

general topic of our thesises was method validation, including a literature review about detection

decisions. The more the literature study progressed, the more we were puzzled about the wealth of

literature on such a seemingly simple concept and why there today, still, is no common understanding

about the subject (see Reference 1 and the literature cited therein).1 In the end, we were left with more

questions than answers. Here, we present these questions (see table 1) with a focus on the so-called

“critical value for detection decisions”.2

3

Table 1: Questions from “analytical freshmen”

Why is there so much literature on such a seemingly simple concept and why is there, still, no

common understanding about the subject?

There are different “k-values” proposed as substitue for “z”, which one is correct?

Why has xbarbi been dropped in the classical IUPAC paper?

In the classical IUPAC paper, what was the logic to substitue z * σ0 with t * sbi and what is the

statistical meaning of the latter?

What is the statistical meaning of imposing the confidence interval of a standard deviation upon a

t-statistic?

Is the confidence interval of LC adequately described by the confidence interval of sbi, by the

confidence interval of a percentile, or by another approach?

Why is there so little communication between the different analytical application fields for such

fundamental issues as the LC?

With respect to LC, has Columbus's egg being found?9

4

The critical value for detection decisions (LC) (also called limit of the blank, LoB) is part of the

general concept of the limit of detection.2 The definition of LC is common across analytical application

fields and given by the equation LC = µ + z1-α * σ0 (equation 1: see table 2), where μ is the population

mean of the blank measurements, z1-α is the one-sided z-value for a given probability (for example, 1.645

for 95% probability), and σ0 is the population standard deviation of the blank. A “generic” equation for an

experimentally estimated LC is given by the International Union of Pure and Applied Chemistry (IUPAC),

namely xL = xbarbi + k * sbi (equation 2; note, the IUPAC notation is retained here). In the equation, xL is

the smallest measure that can be detected with reasonable certainty for a given analytical procedure, xbarbi

is the mean of the blank measures, sbi is the standard deviation of the blank measures, and k is a numerical

factor chosen according to the confidence level desired.3

However, while the definition of LC is common across different application fields, the estimation

thereof shows striking differences between some, and the “k-factor” is one of the main reasons. For

example, Linnet4 used LC = xbarbi + Cn * z1-α * sbi (equation 3) while the classical IUPAC publication

2 uses

LC = t1-α,ν * sbi (equation 4). In equation 3, Cn is a bias correction for sbi.5 Calculation of LC from 5

measurements (example in Reference 2) yields LC = xbarbi + 1.75 * sbi with equation 3 and LC = 2.13 * sbi

with equation 4, a striking difference for us. So, which of the k-factors is correct and why is xbarbi dropped

in the classical IUPAC publication? Further, we were particularly intrigued to uncover the logic behind

the substitution of z * σ0 with t * sbi in the IUPAC publication2 and what the statistical meaning of the

latter was. From our basic statistical education, two equations came into our mind, the one of the

confidence interval of a mean µ = xbarbi ± t1-α,ν * sbi/SQRT[n] (equation 5; SQRT = square root) and the

other of the prediction interval xi = xbarbi ± t1-α,ν * sbi/SQRT[1 + 1/n] (equation 6). Substituting n in

equation 5 with 1 and infinite in equation 6 would lead to t * sbi in both cases. However, in the first case sbi

cannot be calculated anymore, and in the latter case it would lead to the z-statistic. Anyway, we were left

with the question what t * s really addresses in statistical terms.

5

Table 2: Equations used in the manuscript (consecutive order)

Number Equation Meaning

1 LC = µ + z1-α * σ0 Concept for LC

2 xL = xbarbi + k * sbi Generic experimental estimate for LC

3 LC = xbarbi + Cn * z1-α * sbi Tolerance interval concept for LC

4 LC = t1-α,ν * sbi IUPAC concept for LC

5 µ = xbarbi ± t1-α,ν * sbi/SQRT[n] Confidence interval for a mean

6 xi = xbarbi ± t1-α ,ν * sbi/SQRT[1 + 1/n] Prediction interval for the next result

6

There also arose questions in connection with the confidence intervals calculated in both concepts.

IUPAC2 used those of the standard deviation, while Linnet

4 used those of a centile. Unfortunately, Linnet

4

gives a simplified formula6 which underestimates the confidence interval of a centile for low n. Note, the

confidence interval of a centile is de facto a tolerance interval7, and indeed, tolerance intervals are used for

detection decisions in wastewater analysis.8 Because the above, we used a tabulated value for a one-sided

tolerance interval in the calculation below (k = 4.21, one-sided 95% confidence and coverage).8

Calculation of the upper limit (UL) of LC from 5 measurements gives ULLC = xbarbi + 4.21 * sbi with the

tolerance interval and ULLC = 2.13 * (2.37 * sbi) = 5.06 * sbi with the confidence interval of a standard

deviation. Again, we are left with more questions than answers. What is the statistical meaning of

imposing the confidence interval of a standard deviation upon a t-statistic? Why is the tolerance interval

concept not addressed as such in certain fields of analysis? Why is it not generally used? Why do different

application fields not cross-reference each other?

Last not least, it was stunning for us to read1 “Following promulgation (i.e., of Method 1631 B), a

lawsuit was filed challenging EPA on the validity of the method. The basis of the challenge included

several specific aspects of Method 1631 as well as the general procedures used to establish the MDL (i.e.,

Method Detection Limit) and minimum level of quantitation (ML) published in the method”. This

happened in 1999, and to the best of our knowledge, all efforts since have not resulted in an agreement

about the procedure to be used for the MDL in the Clean Water Act. We conclude with our last question:

has the scientific community found Columbus's egg?: “Many labored to find the key to accurately

estimating XD (i.e., “Currie Detection Limit”) but there were too many false leads, statistical errors,

notational confusions and completely untested assumptions. With hindsight, it is obvious that the non-

central t distribution was lurking at the heart of the whole matter and it should have been unmasked many

years sooner”.9

7

ACKNOWLEDGEMENT

We thank Prof. Dr. Linda Thienpont for encouraging us to write this letter and devoting senior

research scientist time for its guidance. We thank Dr. Dietmar Stöckl for providing guidance to

this letter and for his patience for answering our questions.

8

REFERENCES

1 Revised assessment of detection and quantitation approaches. U.S. Environmental Protection

Agency (EPA): Washington, 2004.

2 Currie L.A. Pure & Appl. Chem. 1995, 67, 1699-1723.

3 International Union of Pure and Applied Chemistry Goldbook Home Page.

http://goldbook.iupac.org/index.html (accessed May 25, 2011).

4 Linnet, K. Clin Chem Lab Med. 2005, 43, 394-399.

5 Gurland J.; Tripathi R.C. Amer. Stat. 1971, 25, 30-32.

6 Altman D.G. Practical statistics for medical research. Chapman & Hall: Boca Raton, 1997; pp 422.

7 Chakraborti S.; Li J. Amer. Stat. 2007, 61, 331-336.

8 Gibbons R.D. Statistical Methods for Groundwater Monitoring. John Wiley & Sons: New York,

1994.

9 Voigtman E.; Abraham K.T. Spectrochim. Acta B 2011, 66, 105-113.