Kan vi vara mer flexibla när vi gör studiedesign?

Det är ju ett känt faktum att efter en studie är färdig, då vet man vad man egentligen borde vetat för att kunna göra rätt designa studien från början. Därför kan man ju faktiskt undra varför man inte modifierar studien när den pågår, allt eftersom man får mer information om effektstorlek och variabilitet, för att försäkra sig om signifikanta resultat?

Vem har inte hört någon säga: ”Resultaten hade varit statistiskt signifikanta om vi hade inkluderat ytterligare x patienter”. Varför inte då göra en preliminär analys och sedan lägga till ytterligare 50 patienter (eller något annat antal) om man upptäcker att patientantalet var för snålt beräknat? Javisst, det kanske låter aningen opportunistiskt att man skulle ändra patientantalet allt eftersom vi samlar mer kunskap, men motsatsen, att inte utnyttja kunskap man tillgodogör sig, låter å andra sidan ganska obegåvat, eller hur?

 

Finns det möjligheter att faktiskt designa studier lite smartare och modifiera studiedesignen medan studien pågår? Svar: Ja. Om man vet vad man håller på med och gör det ”by the book”, då finns det möjligheter att designa studier adaptivt, det vill säga flexibelt. I denna första artikel presenterar jag en del grundläggande koncept. I kommande artikel tar jag upp exempel på hur man kan göra studier adaptiva, med möjlighet att förändra exempelvis design och antal patienter som inkluderas baserat på resultat i en interimanalys.

 

Hur stor studie behöver vi göra? 

Så lyder ofta den första frågan man får när studieteamet inser att NU behöver vi en statistiker. Egentligen finns det väldigt mycket mer en statistiker kan göra när det gäller studiedesign, innan man kommer så långt som till beräkning av patientantal. Det kan handla om val av endpoints eller studieupplägg för att möjliggöra smarta statistiska test. Många av dessa beslut påverkar hur stor studien behöver vara även om man kanske inte tänker på det. Dock när det gäller själva powerberäkningen, det vill säga beräkning av hur många patienter som behövs för att nå signifikans, här vågar man inte chansa på att egenhändiga excelberäkningar duger, utan kontaktar en statistiker.

 

Powerberäkning – ett statistiskt test baklänges med inbyggd försäkring

En powerberäkning syftar till att på förhand beräkna hur många patienter man behöver inkludera för att senare, när studien är färdig, ha en bra möjlighet att uppnå statistisk signifikans, alltså att man kommer att kunna dra slutsatsen att det faktiskt är skillnad i effekt mellan två behandlingar, utan att behöva fundera på om det är ett slumpmässigt fynd. Det är flera faktorer som avgör om man får statistisk signifikans; skillnad i effektstorlek, variabilitet i respons och hur många patienter som ingår i studien. För att göra en powerberäkning behöver man därför göra antaganden om hur detta kommer att se ut när studien är färdig. Hur stor effektskillnad räknar vi med? Hur stor variabilitet i respons kommer vi att observera? Väldigt enkelt uttryckt behövs en större studie om vi letar efter mindre skillnader i effekt och om variabiliteten i respons är stor. Förutom effekt och varians behöver vi fundera på hur väl vi vill gardera oss mot ”vanlig otur”; även om den sanna skillnaden i effekt har en viss storlek, kanske vi har otur vid urval av patienter och faktiskt observerar en mindre effekt.

 

Räkna med den minsta effektskillnaden som är kliniskt intressant

Ibland finns tidigare resultat som ger en fingervisning om vilken skillnad i effekt man kan förvänta sig. Detta är emellertid en riskabel approach eftersom man då kanske missar mindre skillnader, som ändå fortfarande är medicinskt intressanta. Säg till exempel att en ny behandling tros kunna reducera allvarlig sjuklighet med 30 procent. Vad om vi dimensionerar en studie för att ge signifikanta resultat för en 30 procents reduktion och det vi sedan observerar är en 20 procents reduktion i allvarlig sjuklighet? Tjugo procent är fortfarande en medicinskt viktig reduktion, men vi riskerar att resultaten inte blir entydiga (signifikanta) eftersom vi dimensionerat för en större effekt. Detta är naturligtvis inget bra läge! En etablerad norm är därför att dimensionera studier för den minsta kliniska effektskillnad som är medicinskt intressant. Visar det sig då att effekterna är ännu mindre, kanske man inte når statistisk signifikans, å andra sidan har vi då på förhand definierat vad som är kliniskt relevant.

 

Varför har vi ingen intuitiv känsla för varians?

Varians (eller variabilitet i respons) beskriver hur mycket responsen varierar mellan olika individer. Om alla patienter har exakt samma effekt av en behandling, till exempel smärtscore 8, då är variabiliteten 0. Om det samtidigt är så att alla patienter i placebogruppen har score 16 (mer smärta), blir det väldigt enkelt att konkludera att behandlingen har effekt. I verkligheten överlappar responsen; en del patienter i placebogruppen har mindre smärta än patienter som får aktiv behandling och såklart omvänt. Ju större variabilitet, desto svårare att faktiskt visa statistiskt att en behandling är mer effektiv. Till skillnad mot effektstorlek är det väldigt få av oss som har en intuitiv känsla för vilken variabilitet i respons som kan förväntas. Förmodligen är det så, eftersom vi är vana att tänka i termerna av effekt men inte varians. Det gör att vi ofta baserar oss på litteraturdata för att göra initiala ”guesstimates” av varians. Generellt skulle jag vilja säga att bra utgångsestimat för varians är det svåraste i powerberäkningar. Om vi gissar fel har det också stort inflytande på det beräknade patientantalet, det är därför viktigt att använda realistiska estimat och varken underskatta eller ta i överkant.

 

Varför måste vi bestämma patientantalet i förväg?

Varför kan man inte enkelt kolla av resultaten i en preliminär analys och sedan justera patientantalet när man har en uppskattning av effektstorlek och variabilitet i respons (varians)? Svårigheten med att göra så hänger ihop med något vi diskuterat tidigare: risk för typ I-fel. Som diskuterat i PI nummer 1/2017, så vill vi ta högst 5 procents risk för att felaktigt dra slutsatsen att det är en skillnad i effekt. Denna risk tar vi i alla statistiska analyser och det hänger ihop med att vi observerar ett slumpmässigt urval patienter och ibland (ca 1 gång av 20) blir resultatet signifikant av en slump. På samma sätt som att vi ökar våra chanser för en signifikans av en slump om vi gör flera test, ökar vi chansen för signifikans (och därmed risken för typ I-fel) om vi tittar på data flera gånger och sedan anpassar studien efter vad vi observerar. Man kan ju tycka (och så känner jag också när jag lyckas bortse från att jag är statistiker) att resultaten är vad de är och att det inte spelar någon roll om man gör många test: Resultaten är ju vad de är. Men, det faktum att vi tittar på data och att den kunskap vi inhämtar leder till beslut om val av patientantal, gör att vi påverkar risken för typ I-fel. Vid alla typer av adaptiva designer, till exempel en interimanalys eller interimskattning av effekt och/ eller varians, för att bestämma patientantal, betyder det att vi måste justera studien för att inte öka risken för att vi skall dra fel slutsats. Om man gör detta på rätt sätt finns möjlighet att justera studien utan att förstöra studiens trovärdighet.

 

 

Anna Törner

Founder of SDS Life Science

We use cookies to ensure that we give you the best experience on our website. Read our cookie policy here.