Statistical tests in medical research: traditional methods vs. multivariate npc permutation tests
Test statistici nella ricerca medica: metodi tradizionali vs test multivariati di permutazione NPC
Abstract
Statistical tests in medical research: traditional methods vs. multivariate npc permutation tests
Within medical research, a useful statistical tool is based on hypotheses testing in terms of the so-called null, that is the treatment has no effect, and alternative hypotheses, that is the treatment has some effects. By controlling the risks of wrong decisions, empirical data are used in order to possibly reject the null hypotheses in favour of the alternative, so that demonstrating the efficacy of a treatment of interest. The multivariate permutation tests, based on the nonparametric combination – NPC method, provide an innovative, robust and effective hypotheses testing solution to many real problems that are commonly encountered in medical research when multiple end-points are observed. This paper discusses the various approaches to hypothesis testing and the main advantages of NPC tests, which consist in the fact that they require much less stringent assumptions than traditional statistical tests. Moreover, the related results may be extended to the reference population even in case of selection-bias, that is non-random sampling. In this work, we review and discuss some basic testing procedures along with the theoretical and practical relevance of NPC tests showing their effectiveness in medical research. Within the non-parametric methods, NPC tests represent the current “frontier” of statistical research, but already widely available in the practice of analysis of clinical data.
Urologia 2015; 82(2): 130 - 136
Article Type: REVIEW
Article Subject: BASIC RESEARCH/ricerca di base
DOI:10.5301/uro.5000117
Authors
Rosa Arboretti, Paolo Bordignon, Livio Corain, Giuseppe Palermo, Fortunato Pesarin, Luigi Salmaso
Article History
• Accepted on 28/02/2015
• Available online on 06/04/2015
• Published in print on 11/06/2015
Disclosures
Financial support: The study has not been supported by private or public sources, grants or funds.
Conflict of interest: None of the authors have conflict of interests.
La statistica può essere definita come la teoria e la metodologia alla base della progettazione di una indagine (studio o esperimento) e finalizzata alla descrizione, analisi e interpretazione dei dati generati da tale indagine. La statistica medica si occupa delle applicazioni della statistica alla medicina e alle scienze della salute, tra cui l’epidemiologia, la sanità pubblica, la medicina legale e la ricerca clinica. Comprendere la statistica è requisito rilevante nella moderna medicina basata sull’evidenza, ovvero per migliorare le proprie conoscenze mediche in ambito clinico, per conoscere i requisiti di base della ricerca medica, per gestire e trattare i dati nell’ambito della ricerca e per applicare i giusti concetti supportati dell’evidenza alle proprie azioni in ambito clinico. L’applicazione dei principi corretti della statistica nella medicina sta diventando inoltre sempre più importante anche a causa delle crescenti implicazioni sociali ed economiche delle pubblicazioni peer-reviewed.
La letteratura recente di diverse specialità mediche si è caratterizzata per una crescente attenzione verso le questioni statistiche. Nella ricerca medica possono essere realizzati diversi tipi di indagine a seconda degli scopi perseguiti, e la validità dei risultati ottenuti è condizionata dalla validità del metodo statistico utilizzato. In particolare, possono essere identificate strategie diverse per svolgere studi di eziologia, diagnosi e trattamento della patologia. Studi clinici randomizzati e studi osservazionali sono gli strumenti di ricerca medica per valutare l’associazione tra l’esposizione a uno o più fattori (per esempio, il trattamento) e uno o più outcome (per esempio, lo stadio della malattia, il decesso o la qualità della vita).
In questo contesto, gli studi clinici randomizzati rappresentano la metodologia più importante, in quanto forniscono un approccio particolarmente rigoroso al problema fin dalla definizione precisa del protocollo di studio per l’assegnazione casuale delle unità/soggetti ai trattamenti. Lo studio osservazionale differisce dal trial clinico randomizzato soprattutto perché il ricercatore non controlla le condizioni dello studio (1). In quanto tale, lo studio osservazionale era “relegato” all’analisi descrittiva ma attualmente viene efficacemente utilizzato anche per studi di causa-effetto. In alcuni casi, questo tipo di studio è l’unico strumento disponibile per rispondere a specifici quesiti clinici come per esempio la valutazione delle terapie ampiamente utilizzate nella pratica medica, o delle malattie che colpiscono piccoli gruppi di persone (per esempio, pazienti in età pediatrica e donne in gravidanza), dove è difficile o impossibile implementare degli studi clinici randomizzati. Lo studio osservazionale, basandosi sull’osservazione “passiva” della realtà esistente può anche contribuire a colmare la distanza tra l’ambiente controllato degli studi clinici e il fine ultimo della pratica medica quotidiana che al contrario è caratterizzata da un ambiente clinico molto eterogeneo. Infatti, i risultati degli studi clinici randomizzati, in quanto condotti in gruppi di pazienti selezionati secondo rigorosi criteri di inclusione, possono portare a problemi di trasferibilità dei risultati alla popolazione. Oltre ad essere uno strumento per osservare e descrivere una data realtà, lo studio osservazionale può rappresentare perciò anche un modo per trarre sia conclusioni inferenziali (cioè conclusioni valide che possono essere estese dal campione alla popolazione), sia conclusioni causali (che sostengono la relazione tra risultati e trattamento).
La possibilità di utilizzare i dati osservativi per trarre conclusioni circa il rapporto tra un fattore di esposizione o un trattamento e una o più variabili di risposta (eventi clinici di interesse) dovrebbe essere attentamente valutata. In generale, gli studi osservazionali sono potenzialmente indeboliti da diversi problemi, come l’incoerenza e l’incompletezza delle informazioni raccolte o la presenza di selection bias nel campione osservato, che possono influenzare le valutazioni inferenziali e ottenere così falsi positivi o falsi negativi. In particolare, l’assegnazione non casuale di unità ai diversi trattamenti, pone il problema della comparabilità dei gruppi causata dalla possibile presenza di fattori di confondimento, cioè fattori che sono associati sia alla variabile risposta sia al trattamento. Se i fattori di confondimento non vengono considerati, essi possono portare alla errata interpretazione della relazione trattamento-risposta soprattutto in considerazione del fatto che spesso negli studi clinici non si ha a disposizione un vero e proprio gruppo controllo/campione di riferimento. Risulta quindi importante individuare percorsi statistico-metodologici che sono specifici al contesto osservazionale e in questa ottica i test multivariati di permutazione NPC rappresentano una validata ed efficace soluzione.
Test parametrici e test non parametrici
Come detto in precedenza, la statistica gioca un ruolo importante in tutte le fasi della ricerca medica: dalla fase di pianificazione del disegno della ricerca fino all’interpretazione dei risultati; di conseguenza i gruppi di ricerca medica non possono non considerare la statistica nella loro ricerca clinica. Tuttavia questo non sempre avviene in molti studi clinici o osservazionali in cui alcuni ricercatori evidenziano talvolta un uso improprio della statistica applicando in modo non opportuno i test statistici parametrici tra cui il t-test, il test di Tukey o il test F per l’analisi della varianza (2). È bene sottolineare che ogni procedimento/metodo/modello statistico ha le proprie assunzioni di fondo e queste possono essere più o meno stringenti e, per definizione, tali assunzioni non possono essere dimostrate, anche se devono essere adeguatamente giustificate in accordo al contesto in cui esse vengono invocate. Con riferimento sia agli studi clinici randomizzati sia agli studi osservazionali caso-controllo, i test parametrici t, di Tukey e il test F assumono che vi sia una variabile di interesse di tipo numerico e che questa abbia distribuzione di normale, o almeno approssimativamente normale. Il test t (assunta l'uguaglianza delle varianze) viene utilizzato per valutare se il valor medio della varibile presa in esame è o meno il medesimo in relazione ai due gruppi posti a confronto, mentre il test F, ed eventualmente i test t e di Tukey per i confronti a coppie post hoc, vengono impiegati quando le medie dei gruppi a confronto sono in numero superiore a due.
Con il termine statistica parametrica si indica usualmente un approccio ai problemi statistici in cui si assume che i dati provengano da un prefissato tipo di distribuzione di probabilità e quindi attraverso i dati campionari si conduce l’inferenza sui parametri della distribuzione presupposta come vera. In generale, i metodi parametrici fanno ricorso a un numero maggiore di assunzioni rispetto ai metodi detti non parametrici (3). Se queste assunzioni aggiuntive fossero corrette, i metodi parametrici garantirebbero di produrre risultati accurati e precisi. Tuttavia, se le assunzioni fossero non corrette, i metodi parametrici possono condurre a esiti talvolta fuorvianti ed è per questo motivo che sono spesso considerati poco robusti, ovvero non esenti dall’influenza negativa di violazioni delle assunzioni a cui fanno riferimento.
Con il termine test non parametrico ci si riferisce usualmente a una procedura di verifica di ipotesi che dotate di proprietà minimali (quali la non distorsione e la consistenza) le quali valgono sotto assunzioni relativamente poco stringenti per quanto riguarda le popolazioni sottostanti da cui i dati sono stati ottenuti (4). Spesso i test non parametrici sono descritti anche come metodi distribution-free, il che significa che non si basano su assunzioni che i dati siano riferibili a una specifica distribuzione di probabilità.
I test parametrici riflettono essenzialmente un approccio modellistico al problema di verifica di ipotesi e usualmente richiedono una serie di ipotesi stringenti (5), che sono spesso nella pratica difficili da giustificare, in particolare nella ricerca medica. Quando si tratta con la maggior parte dei problemi biomedici reali, tali assunzioni sono talvolta stabilite arbitrariamente e su di una base ad hoc. Spesso, e senza alcuna giustificazione, i ricercatori biomedici assumono la normalità multivariata dei loro end-point, il campionamento casuale da una popolazione, anche in presenza di selection-bias, l’omoschedasticità dei dati (omogeneità della varianza) anche in riferimento al caso in cui l’effetto del trattamento sia effettivo, l’indipendenza dal trattamento dell’eventuale presenza di dati mancanti e/o censurati ecc. In realtà, il concetto che “tutti i modelli sono sbagliati però alcuni sono utili”, è spesso adottato senza un adeguato spirito critico tale da poter essere fiduciosi che la conseguente approssimazione possa essere ritenuta accettabile per il problema specifico. Al contrario, i test statistici non parametrici cercano di mantenere le assunzioni a un livello inferiore, possibilmente evitando quelle che sono difficili da giustificare. Così facendo, essi si basano su fondamenti meno stringenti e più realistici e sono intrinsecamente robusti.
I test statistici non parametrici possono essere principalmente classificati in due tipi di procedure (6): test basati sui ranghi e test di permutazione. I test di permutazione, che si riferiscono a un tipo di procedura non parametrica detta condizionata, hanno l’interessante proprietà di essere esatti per qualsiasi, anche molto piccola, dimensione campionaria. Ciò significa che le loro distribuzioni nulle, che vengono utilizzate per calcolare i p-value, sono note per ogni dato insieme di dati e per qualsiasi dimensione del campione e questo implica che i relativi errori inferenziali, i cosiddetti errore di I e II tipo, possono essere gestiti in modo esatto dallo sperimentatore. Al contrario, i test non parametrici basati sui ranghi sono per lo più procedure di tipo asintotico, il che significa che la loro validità è garantita solo per ampie dimensioni del campione, dove il termine ampio è spesso vago e difficile da valutare nei problemi reali.
Quando non si ritiene appropriato assumere la normalità della distribuzione delle popolazioni sotto indagine, come procedure alternative ai test parametrici t ed F, i test non parametrici basati sui ranghi possono essere utilizzati per il confronto sia tra due o più gruppi (4). Nel primo caso ci riferiamo al test dei segni di Wilcoxon (per misure ripetute o dati appaiati) oppure al test di Mann-Whitney (nel caso di due campioni indipendenti) mentre nel caso di più di due campioni vengono utilizzati il test di Friendman (per misure ripetute o dati appaiati) o il test di Kruskal-Wallis (nel caso di più di due campioni indipendenti).
Test non parametrici di permutazione nella ricerca medica
A partire dalla fase di raccolta dei dati fino alla loro elaborazione, l’applicazione di metodi statistici appropriati nella ricerca clinica può risultare cruciale per la corretta interpretazione dei risultati (7). A questo proposito, dal momento che i ricercatori biomedici fanno principalmente riferimento ad esperimenti randomizzati a partire da campioni non casuali, Ludbrook e Dudley (8) sostengono che i test di permutazione sono più adatti dei classici test parametrici. Dopo una revisione di 252 studi pubblicati in riviste biomediche, gli Autori hanno rilevato che la maggior parte degli studi (96%) sono basati sulla randomizzazione, contro solamente il 4% basati su un campionamento casuale. Infatti, la randomizzazione di un campione non casuale presenta così tanti vantaggi pratici da essere generalmente quasi sempre adottata. Nonostante ciò, la maggior parte degli studi analizzati da Ludbrook e Dudley (8) esegue un confronto di medie applicando test statistici parametrici classici come t o F, piuttosto che riferirsi ai test di permutazione. Tuttavia, i primi sono comunemente utilizzati anche quando le loro assunzioni non possano essere soddisfatte (9, 10), mentre questi ultimi sono più adatti quando il campione ha dimensioni ridotte e quando la distribuzione della popolazione da cui il campione è tratto risulta sconosciuta, che è anche il caso dei campioni non casuali.
Come indicato da Cox e Hinkley (11), il principio del condizionamento, che è basilare nei test di permutazione, afferma che le procedure inferenziali devono essere fondate sul valore osservato di qualche funzione opportuna dei dati che, nel caso dell’inferenza di permutazione, consiste nell’intero set dei dati osservati. Applicando il principio del condizionamento, è opportuno sottolineare che stiamo solo apparentemente limitando la nostra inferenza al set di dati osservati, perché in realtà questa procedura deve essere vista semplicemente come una soluzione tecnica finalizzata al fatto che le nostre conclusioni inferenziali siano fondate sulle adeguate proprietà teoriche. Per quanto riguarda l’estensione dei risultati inferenziali dei test di permutazione ottenuti via condizionamento alla popolazione di riferimento, più precisamente a tutta la famiglia di popolazioni a cui il campione può essere riferito, questa estensione può facilmente essere effettuata, posto che siano soddisfatte alcune condizioni ragionevoli e di facile verifica (5, 12).
È importante notare che nell’ambito dell’approccio parametrico l’estensione dei risultati dai campioni alle popolazioni è possibile solo quando il set dei dati è stato selezionato in modo casuale mediante procedure di campionamento ben disegnate sulla base di distribuzioni di popolazione ben definite, e a condizione che i loro parametri di disturbo siano completamente rimovibili (5). Quando queste condizioni non sono soddisfatte, soprattutto se per i processi di raccolta dei dati si utilizzano procedure di tipo selection-bias, le estensioni inferenziali parametriche sono in generale per lo più sbagliate o quanto meno fuorvianti. Al contrario, le conclusioni inferenziali basate sui test di permutazione, possono essere sempre estese alla popolazione di riferimento, anche nel caso di campionamento di tipo selection-bias (5).
Analisi univariata vs multivariata
L’analisi univariata può essere definita come la forma più semplice di una procedura statistica in cui l’analisi viene effettuata con la manipolazione di una sola singola variabile. L’analisi univariata aiuta a svelare se una variabile sta giocando un ruolo fondamentale o è associata a un risultato, indipendentemente dalle altre variabili. Esempi di analisi univariata sono i test parametrici F ANOVA a una via e i confronti a coppie tramite test t o di Tukey, dove si considerano osservazioni indipendenti in diversi gruppi con riferimento a una variabile risposta di tipo numerico.
Nella ricerca clinica vengono comunemente utilizzati tre tipi di analisi multivariata: la regressione lineare multipla, la regressione logistica e la regressione di Cox con rischi proporzionali (13). Si noti che nel contesto di altre aree e discipline di ricerca, come la psicometria e le scienze fisiche e naturali, al termine “analisi statistica multivariata” viene usualmente associato un significato ben diverso e con riferimento a tecniche statistiche con logica e finalità molto diverse come l’analisi delle componenti principali, l’analisi fattoriale, i modelli di equazioni strutturali ecc.
Come sottolineato da Caughey et al (14), la metodologia NPC è un metodo sia univariato sia multivariato basato sui test di permutazione e finalizzato a verificare congiuntamente una serie di ipotesi nulle (per esempio, l’assenza di effetti del trattamento), senza far riferimento alle assunzioni tipiche dei metodi di verifica di ipotesi di tipo parametrico o senza riferirsi ad approssimazioni valide solo in presenza di campioni di grandi dimensioni.
Verifica di ipotesi e test multivariati di permutazione NPC
Considerando il problema di verifica di ipotesi relativo al confronto di due o più gruppi di trattamento (casi vs controllo, trattamento A vs B vs C ecc.), è possibile utilizzare una recente soluzione metodologica di tipo non parametrico (15). La scelta dell’utilizzo di tecniche statistiche non parametriche è particolarmente adatta al contesto osservazionale dove in genere non si assume, e talvolta nemmeno si può ipotizzare, alcuna distribuzione sottostante (per esempio, la normalità dei dati), e in alcuni casi sono disponibili solo campioni di bassa numerosità. La soluzione in questione è fornita dalla metodologica detta della combinazione non parametrica di test di permutazione dipendenti (NonParametric Combination Tests - NPC Tests; http://www.salmasoluigi.it/biostat.htm). Questa metodologia rappresenta uno strumento generale che è molto flessibile per la risoluzione di molti problemi come le verifiche di ipotesi multivariate e ha alcuni vantaggi che lo rendono particolarmente adatto a soddisfare le esigenze pratiche della ricerca medica. Poiché il metodo della combinazione non parametrica è una procedura statistica condizionata a un insieme di statistiche sufficienti, essa mostra in generale una buona sensitività (potenza del test statistico) ovvero una bassa propensione ai falsi negativi (cosiddetto errore di II tipo), e questo è vero indipendentemente dalla numerosità campionaria e quindi vale anche nel caso di campioni di piccole dimensioni. I test basati sulla metodologia NPC richiedono assunzioni molto meno stringenti rispetto sia ai test classici parametrici sia non parametrici basati su ranghi, che generalmente non sono procedure condizionate alle statistiche sufficienti e non mostrano un comportamento soddisfacente in termini di sensitività.
La metodologia NPC lavora attraverso una decomposizione del problema di verifica di ipotesi multivariato k-dimensionale (dove k è il numero di outcome, per esempio, nel confronto tra i due gruppi di casi e controllo) in cui la soluzione al problema viene ottenuta mediante un algoritmo in due fasi: nella prima si specifica un insieme appropriato di test di permutazione univariati chiamati test parziali. Ogni test parziale è volto a determinare il contributo marginale di ciascun outcome nel confronto tra i diversi gruppi di trattamento. La seconda fase consiste nella combinazione non parametrica dei test parziali in un singolo test combinato detto del secondo ordine, che verifica se vi sono globalmente delle differenze tra le distribuzioni multivariate degli outcome dei gruppi. In caso di eventuale presenza di una variabile di stratificazione definita su s livelli (per esempio, sesso, s = 2, o età, s = n. di classi di età), l’algoritmo presenta una ulteriore fase poiché siamo in presenza di due livelli di combinazione: il primo è relativo alla combinazione dei test parziali in s test combinati del secondo ordine, ciascuno corrispondente a un dato strato, mentre il secondo livello è definito da una ulteriore combinazione dei test di strato in un singolo test globale combinato del terzo ordine.
In caso di stratificazione, i test NPC sono composti dai test parziali e dai test combinati di secondo e terzo ordine, dove questa struttura viene stabilita al fine di migliorare la flessibilità del metodo. La capacità della procedura per determinare il contributo di ciascuno strato nel confronto tra gruppi di trattamenti ci permette quindi di usare i metodi di stratificazione per i fattori di confondimento (1) per ottenere informazione addizionale. Si noti quindi che la stratificazione dei soggetti non deve essere semplicemente considerata come una procedura per eliminare l’effetto della presenza di possibili fattori di confondimento. Ogni strato infatti può rappresentare talvolta un particolare grado della malattia (per esempio, pazienti con un particolare profilo di comorbidità), e quindi diventa di grande interesse applicare la metodologia NPC al fine di valutare il contributo di ciascuno strato alla significatività globale nel confronto tra gruppi di trattamento.
Un importante vantaggio del metodo NPC è che svincola il ricercatore dalla necessità di dover specificare la parte più difficile della modellazione dei dati, ovvero la struttura di dipendenza tra le variabili in esame. Nel contesto della verifica di ipotesi, l’introduzione di un modello che descrive la struttura di dipendenza tra variabili (per esempio, il modello lineare o di regressione logistica) di solito è molto restrittivo per l’analisi e non sempre appropriato. Nella metodologia NPC, la struttura di dipendenza tra le variabili in esame viene ottenuta automaticamente e implicitamente grazie all’applicazione della procedura di combinazione non parametrica. Questo aspetto è molto importante soprattutto in presenza di variabili non normali o categoriali le cui relazioni di dipendenza sono in genere molto difficili da definire e da gestire in fase di analisi.
Riportiamo a titolo di esempio i risultati del metodo NPC applicato a uno studio multicentrico retrospettivo su 1312 pazienti (1149-87,6% maschi e 163-12,4% femmmine) sottoposti a cistectomia radicale, linfoadenectomia iliaca-otturatoria bilaterale e derivazione urinaria per tumore della vescica nel periodo 1982-2002 (per una presentazione dettagliata di questo studio si rimanda a Rosenbaum (1)). Lo scopo dello studio era identificare le variabili più influenti riguardo la sopravvivenza cancro specifica.
Per ciascuno dei molteplici endpoint presi in considerazione e classificati nella rispettiva fase, oltre ai p-value di permutazione, in versione sia non aggiustata sia aggiustata per molteplicità (per approfondimenti sul concetto di aggiustamento per molteplicità si rimanda a Pesarin e Salmaso (15)), in Tab. I sono riportati anche i risultati della regressione logistica (p-value sia del modello iniziale sia del modello finale). Si noti la minore sensitività della regressione logistica rispetto al metodo NPC, ovvero il minor numero di p-value significativi cioè minori dell’usuale livello di significatività pari a 0,05.
p-value non aggiustati e aggiustati per molteplicità del metodo NPC e p-value della regressione logistica (modello iniziale e modello finale dopo regressione stepwise), per ciascun endpoint e fase nello studio sul tumore alla vescica (in grassetto i p-value significativi individuati da ciascun metodo)
p-value NPC
p-value Logistica
Fase
Endpoint
Non agg.
Aggiust.
Mod. iniz.
Mod. fin.
Anamnesi
Precedenti TCC
0,8217
0,9973
0,2877
n.s.
Focalità
0,0523
0,5392
0,0576
0,0068
Stadio
0,9488
0,9973
0,5212
0,0369
Grado
0,7321
0,9947
0,1861
n.s.
Carcinoma in situ (CIS)
0,1803
0,8691
0,4472
n.s.
Diagnosi
Focalità
0,8293
0,9973
0,8050
n.s.
Stadio
0,0010
0,0165
0,0256
0,0894
Carcinoma in situ (CIS)
0,9970
0,9973
0,4733
n.s.
Grado
0,4876
0,9816
0,5758
n.s.
Linfonodi regionali
0,0075
0,1085
0,3144
n.s.
Metastasi
0,0001
0,0014
0,9999
n.s.
Dilatazione alte vie urinarie
0,0002
0,0030
0,0498
0,0365
Stadiazione patologica
Stadio
0,0003
0,0051
0,0351
0,0000
Carcinoma in situ (CIS)
0,0746
0,6302
0,3763
n.s.
Grado
0,0008
0,0135
0,3517
n.s.
Linfonodi regionali
0,0002
0,0030
0,0828
0,0068
Metastasi
0,0001
0,0014
0,9951
n.s.
Istologia
0,1065
0,7370
0,1329
n.s.
Stato post-operatorio I
Infiltrazione trigono vescicale
0,1484
0,8362
0,1575
n.s.
Invasione corpo
0,2918
0,9524
0,1355
n.s.
Neoplasia uretrale
0,0007
0,0116
0,0994
n.s.
Invasione vascolare
0,0616
0,5811
0,1576
n.s.
Invasione linfonodale
0,0001
0,0014
0,0752
n.s.
Infiltrazione prostatica
0,0001
0,0014
0,1807
n.s.
Stato post-operatorio II
Adenocarcinoma della prostata
0,2228
0,9189
0,6942
n.s.
Neoplasia alta via urinaria
0,0029
0,0460
0,4406
n.s.
Recidiva di malattia
0,3785
0,9641
0,9758
n.s.
Chemioterapia neoadiuvante
0,6502
0,9940
0,1614
0,1579
Chemioterapia adiuvante
0,0001
0,0014
0,1798
n.s.
Ripresa terapia
0,3142
0,9524
0,9861
n.s.
p-value globale
0,0010
Al fine di valutare l’effetto globale dei vari endpoint all’interno di ciascuna fase, in Tab. II vengono riportati i p-value di permutazione combinati rispetto alla fase, in versione sia non aggiustata sia aggiustata per molteplicità.
p-value non aggiustati e aggiustati per molteplicità del metodo NPC, combinati per ciascuna fase dello studio sul tumore alla vescica
Fase
Non agg.
Aggiust.
Anamnesi
0,2366
0,2366
Diagnosi
0,0019
0,0032
Stadiazione patologica
0,0012
0,0012
Stato postoperatorio I
0,0005
0,0005
Stato postoperatorio II
0,0006
0,0006
p-value globale
0,0005
Considerando un livello di significatività pari a 0,05, è interessante notare che il metodo NPC suggerisce che in tutte le fasi, a eccezione dell’anamnesi, siamo in presenza di una differenza significativa globale tra i due gruppi di pazienti con esito opposto.
In caso la ricerca medica faccia riferimento a studi longitudinali, questi sono caratterizzati da misurazioni consecutive degli stessi soggetti per cui ci possono essere anche situazioni in cui il numero delle unità/soggetti osservati è inferiore al numero di misure ripetute o di variabili. Le soluzioni basate sulla metodologia NPC sono valide anche quando il numero di variabili è maggiore del numero di soggetti, e quindi i test NPC sono flessibili al punto di essere appropriati anche in questo contesto.
Estremamente importante è anche il problema di come gestire i dati mancanti di uno studio medico. In particolare, gli studi osservazionali rispetto a quelli sperimentali, sono più afflitti da problemi di coerenza e completezza delle informazioni raccolte. Questo porta in genere a squilibri nel design della ricerca e a difficoltà nel trattare le informazioni raccolte e nella conseguente interpretazione degli effetti significativi. In letteratura, per affrontare il problema dei dati mancanti sono state proposte alcune soluzioni che si riferiscono a un insieme eterogeneo di metodi, dalla semplice cancellazione dell’intero record con almeno un dato mancante fino alla sostituzione del valore mancante con altri valori scelti secondo differenti criteri. Tuttavia, nel contesto dei metodi parametrici è possibile trattare con efficacia solamente i casi in cui i valori mancanti soddisfano il presupposto di essere mancanti completamente a caso, cioè assumendo che la probabilità che un valore sia mancante non dipende dall’effetto del trattamento. Se, tuttavia, questa probabilità può dipendere dal trattamento, nessuna soluzione parametrica è nota in letteratura. Una soluzione di tipo approssimato è fornita all’interno dei metodi di permutazione e di combinazione non parametrica di test di permutazione. I test di permutazione multivariati basati sulla combinazione non parametrica, consentono infatti di fare inferenza su tutti i dati osservati, compresi quindi anche i valori osservati sulle unità che presentano eventuali dati mancanti. Nel caso di dati mancanti è perfino possibile tener conto di eventuali informazioni fornite dai dati mancanti stessi quando questi sono di tipo mancante non a caso, cioè la probabilità che un valore sia mancante dipende dall’effetto del trattamento. Quindi, la flessibilità e la struttura della soluzione NPC rispondono proprio alle esigenze del ricercatore nell’interpretare i risultati di uno studio di osservazione.
Per migliorare la qualità e le conclusioni degli studi osservazionali è fondamentale la definizione dettagliata del protocollo di studio, lo sviluppo dei criteri di inclusione, la riduzione degli errori nel processo di misurazione, con la realizzazione di una banca dati elettronica (che potrebbe essere accessibile via web a diversi centri nel caso di studi multicentrici). Di conseguenza, sempre più decisivi vantaggi possono essere ottenuti mediante l’applicazione di test statistici per il confronto dei gruppi di trattamento che sono particolarmente robusti e appropriati per il contesto osservazionale, come per esempio la metodologia NPC. L’identificazione delle variabili clinicamente e statisticamente significative può quindi consentire di ottenere una maggiore fiducia con l’ulteriore fase di previsione dei singoli eventi di interesse utilizzando tecniche adeguate, come per esempio le carte del rischio e i nomogrammi.
L’evidenza derivata da uno studio osservazionale può dare un importante contributo insieme ad altre informazioni provenienti da altre tipologie di studi. La valutazione degli effetti di un trattamento o di uno specifico evento di interesse clinico richiede un approccio globale che combina vari metodi e le varie evidenze.
In questo contesto, gli studi osservazionali hanno il vantaggio di essere facili da realizzare, veloci ed economici e consentono allo sperimentatore di studiare le relazioni causa-effetto in situazioni in cui la sperimentazione non è applicabile. Tuttavia, la ricerca e l’analisi all’interno di studi osservazionali non dovrebbero essere compromessi da distorsioni o da principi scientifici inadeguati. L’applicazione di nuovi percorsi metodologici, come i test NPC, che si rivelino particolarmente adatti per studi osservazionali e che sono in grado di aumentare la validità dei risultati delle analisi statistiche inferenziali, rappresenta certamente un obiettivo di valore da perseguire.
Discussione e Conclusioni
Lo scopo di questo lavoro è quello di esaminare e discutere criticamente la rilevanza teorica e pratica dei test di permutazione dimostrando la loro efficacia e semplicità d’uso nella ricerca medica. In letteratura i test di permutazione NPC sono stati applicati con successo in molteplici ambiti bio-medici, tra cui urologia (16), cardiologia e cardiochirurgia (17-18-19-20-21), chirurgia maxillo-facciale (22-23-24-25-26), gastroenterologia (27, 28), oncologia (29, 30), oftalmologia (31), anatomia (32), epidemiologia (33, 34), psichiatria e psicologia (35-36-37-38-39), endocrinologia (40).
Vale la pena notare che i test NPC superano alcune limitazioni di cui soffrono le procedure tradizionali multivariate di verifica di ipotesi, come per esempio la possibilità di includere un gran numero di variabili. Nel contempo i testi NPC offrono una serie di vantaggi: 1) si tratta di una procedura inferenziale esatta, per qualsiasi dimensione finita del campione; 2) la soluzione è robusta rispetto alla reale distribuzione casuale sottostante ai dati (o all’errore); 3) la procedura NPC tiene implicitamente conto della sottostante struttura di dipendenza delle variabili risposta e 4) non è influenzato dal problema della perdita dei gradi di libertà quando, mantenendo fisso il numero di osservazioni, il numero di variabili informative o aspetti aumenta. Infatti, a differenza dei metodi tradizionali, al crescere del numero di outcome informativi aumenta anche la potenza del test NPC, cioè la probabilità di individuare un vero effetto aumenta anch’essa in modo monotono (41).
I test NPC sono relativamente efficienti e molto meno esigenti in termini di assunzioni rispetto ai test concorrenti parametrici e non parametrici standard basati sui ranghi (15). Una caratteristica importante della combinazione non parametrica di test dipendenti consiste nel fatto che al ricercatore non è esplicitamente richiesto di specificare la struttura di dipendenza delle variabili risposta/endpoint. Questo aspetto è molto importante soprattutto per le variabili/endpoint non normali o categoriali in cui i rapporti di dipendenza sono generalmente troppo difficili da definire e anche quando fossero ben definiti sono difficili da trattare. In questo senso, la metodologia NPC può fornire uno strumento efficace e robusto per l’analisi statistica degli studi medici sia sperimentali sia osservazionali.
Disclosures
Financial support: The study has not been supported by private or public sources, grants or funds.
Conflict of interest: None of the authors have conflict of interests.
References
1.RosenbaumPRObservational Study.In: Encyclopedia of Statistics in Behavioral Sciencevol. 3ChichesterWiley200514511462Google Scholar
2.Sprent P.Statistics in medical research.Swiss Med Wkly2003; 133: 522-529Google Scholar
3.CorderGWForemanDINonparametric statistics for non-statisticians: a step-by-step approach.John Wiley & Sons Inc20091247Google Scholar
4.Hollander M.,Wolfe DA.,Chicken E.Nonparametric statistical methods,Wiley series in probability and statistics2013; : 1-848Google Scholar
5.Pesarin F.Extending permutation conditional inference to unconditional one.Statistical Methods and Applications2002; 11: 161-173Google Scholar
6.Bonnini S.,Corain L.,Marozzi M.,Salmaso L.Nonparametric hypotheses testing with R: rank tests and permutation tests.Wiley Series in Probability and Statistics2014; : 1-256Google Scholar
7.Mandrekar JN.,Mandrekar SJ.Biostatistics: a toolkit for exploration, validation and interpretation of clinical data.J Thorac Oncol2009; 4: 1447-1449Google Scholar
8.Ludbrook J.,Dudley H.Why permutation tests are superior to t and F tests in biomedical research.The American Statistician1998; 52: 127-132Google Scholar
9.Ludbrook J.Advantages of permutation (randomization) tests in clinical and experimental pharmacology and physiology.Clin Exp Pharmacol Physiol1994; 21: 673-686Google Scholar
10.Ludbrook J.Statistics in biomedical laboratory and clinical science: applications, issues and pitfalls.Med Prin Pract2008; 17: 1-13Google Scholar
11.CoxDRHinkleyDVTheoretical Statistics.LondonChapman and Hall19741517Google Scholar
12.PesarinFThe permutation testing approach in the light of conditionality and sufficiency principles.in: statistical methods and applications from a historical perspectiveCrescenziFMignaniSedBostonSpringer20143949Google Scholar
13.Katz MH.Multivariable analysis: a primer for readers of medical research.Ann Intern Med2003; 138: 644-650Google Scholar
14.Caughey D.,Dafoe A.,Seawright J.Testing elaborate theories: a nonparametric framework.MIT Political Science Department2014; : -Google Scholar
15.PesarinFSalmasoLPermutation tests for complex data.theory, applications and softwareChichesterWiley20101412Google Scholar
16.Racioppi M.,Salmaso L.,Brombin C.The clinical use of statistical permutation test methodology: a tool for identifying predictive variables of outcome.Urol Int2014; : -Google Scholar
17.Garatti A.,Castelvecchio S.,Canziani A.Long-term results of sequential vein coronary artery bypass grafting compared with totally arterial myocardial revascularization: a propensity score-matched follow-up study.Eur J Cardiothorac Surg2014; 46: 1006-1013Google Scholar
19.Rossetto V.,Spiezia L.,Franz F.,Salmaso L.,Pozza LV.,Gavasso S.,Simioni P.The role of antiphospholipid antibodies toward the protein C/protein S system in venous thromboembolic disease.Am J Hematol2009; 84: 594-6Google Scholar
20.Spiezia L.,Marchioro P.,Radu C.Whole blood coagulation assessment using rotation thromboelastography thromboelastometry in patients with acute deep vein thrombosis.Blood Coagul Fibrinolysis2008; 19: 355-360Google Scholar
21.Spiezia L.,Bertini D.,Salmaso L.,Simioni P.Whole blood rotation thrombelastometry in subjects undergoing vitamin K antagonist treatment: hypo- or hypercoagulable profiles?Thromb Res2008; 122: 568-569Google Scholar
22.Paesani DA.,Guarda-Nardini L.,Gelos C.,Salmaso L.,Manfredini D.Reliability of multiple-degree incisal/occlusal tooth wear assessment on dental casts: findings from a five examiner investigation and related clinical implications.Quintessence Int2014; 45: 259-264Google Scholar
23.Manfredini D.,Bonnini S.,Stellini E.,Salmaso L.,Guarda-Nardini L.Comparison of magnetic resonance imaging findings in temporomandibular joints of the two sides.Clin Oral Investig2014; 18: 499-506Google Scholar
24.Manfredini D.,Favero L.,Michieli M.,Salmaso L.,Cocilovo F.,Guarda-Nardini L.An assessment of the usefulness of jaw kinesiography in monitoring temporomandibular disorders: correlation of treatment-related kinesiographic and pain changes in patients receiving temporomandibular joint injections.J Am Dent Assoc2013; 144: 397-405Google Scholar
25.Guarda-Nardini L.,Olivo M.,Ferronato G.,Salmaso L.,Bonnini S.,Manfredini D.Treatment effectiveness of arthrocentesis plus hyaluronic acid injections in different age groups of patients with temporomandibular joint osteoarthritis.J Oral Maxillofac Surg2012; 70: 2048-2056Google Scholar
26.Guarda-Nardini L.,Manfredini D.,Salamone M.,Salmaso L.,Tonello S.,Ferronato G.Efficacy of botulinum toxin in treating myofascial pain in bruxers: a controlled placebo pilot study.Cranio2008; 26: 126-135Google Scholar
28.Floreani A.,Caroli D.,Variola A.A 35-year follow-up of a large cohort of patients with primary biliary cirrhosis seen at a single centre.Liver Int2011; 31: 361-368Google Scholar
29.Alfieri R.,Bonnini S.,Brombin C.,Castoro C.,Salmaso L.Iterated combination-based paired permutation tests to determine shape effects of chemotherapy in patients with esophageal cancer.Stat Methods Med Res2012; : -Google Scholar
30.Ferlin A.,Pengo M.,Selice R.,Salmaso L.,Garolla A.,Foresta C.Analysis of single nucleotide polymorphisms of FSH receptor gene suggests association with testicular cancer susceptibility.Endocr Relat Cancer2008; 15: 429-437Google Scholar
31.Brombin C.,Midena E.,Salmaso L.Robust non-parametric tests for complex-repeated measures problems in ophthalmology.Stat Methods Med Res2013; 22: 643-660Google Scholar
32.Brombin C.,Mo G.,Zotti A.,Giurisato M.,Salmaso L.,Cozzi B.A landmark analysis-based approach to age and sex classification of the skull of the Mediterranean monk seal (Monachus monachus) (Hermann, 1779).Anat Histol Embryol2009; 38: 382-386Google Scholar
33.Visonà Dalla Pozza L.,Zambon F.,Salmaso L.,Mazzucato M.,Manea S.,Facchin P.Rehabilitation in the Veneto Region: towards a logic of clinical governance.Epidemiol Prev2008; 32: 39-48Google Scholar
34.Salmaso L.,Boccuzzo G.,Manea S.,Mazzucato M.,Dalla Pozza LV.,Zambon F.,Facchin P.How current data can guide mother-infant health planning.An insight into data sources and methodologies.Epidemiol Prev2006; 30: 178-90Google Scholar
37.Abbate C.,Giorgianni C.,Munaò F.,Pesarin F.,Salmaso L.Neurobehavioral evaluation in humans exposed to hydrocarbons: a new statistical approach.Psychother Psychosom2001; 70: 44-49Google Scholar
38.Normando S.,Corain L.,Salvadoretti M.,Meers L.,Valsecchi P.Effects of an enhanced human interaction program on shelter dogs’ behaviour analysed using a novel nonparametric test.Applied Animal Behaviour Science2009; 116: 211-219Google Scholar
39.Bonnini S.,Corain L.,Munaò F.,Salmaso L.Neurocognitive effects in welders exposed to aluminium: an application of the NPC test and NPC Ranking methods.Statistical Methods & Applications - Journal of the Italian Statistical Society2006; 15: 191-208Google Scholar
40.Mozzanega B.,Babbo GL.,Salmaso L.,De Toni R.,Schiavo A.,Mioni R.,de Kreutzenberg SV.Oral 17beta-estradiol and sequential progesterone in menopause: effects on insulin-like growth factors and their binding proteins.Gynecol Endocrinol2007; 23: 50-57Google Scholar
41.Pesarin F.,Salmaso L.Finite-sample consistency of combination-based permutation tests with application to repeated measures designs.J Nonparametr Stat2010; 22: 669-684Google Scholar
Department of Management and Engineering, Università di Padova, Vicenza – Italy
Clinica Urologica - Università Cattolica del Sacro Cuore, Roma - Italy
Article usage statistics
The blue line displays unique views in the time frame indicated.
The yellow line displays unique downloads.
Views and downloads are counted only once per session.
No supplementary material is available for this article.