miércoles, 2 de marzo de 2011

análisis de subgrupos

Hola todos: una de las expresiones que nos encontramos con mayor frecuencia es la interpretación de que en x ó y subgrupo de pacientes la intervención es más efectiva o lo es cuando en general el estudio da negativo. Esto debe tomarse con mucho cuidado. Si estamos asumiendo una p de 0.05 esto implica que por cada 20 análisis aplicado, uno va a dar positivo sólo por azar.
Preguntas:
1. qué tan válido es el análisis de subgrupos?
2. se debe utilizar el mismo límite de significancia (p) para interpretarlo?
3. Cuál debe ser la utilidad de los análisis de subgrupos?

Para ilustrar esto vamos a utilizar el estudio ACCORD en su rama lipídica, donde compara simvastatina más placebo vs simvastatina más fenofibrato. Usen un comentario publicado en el NEJM precisamente sobre este tema (análisis de subgrupos).
Respuestas para el próximo domingo 6 de marzo.
Saludos
Chen

29 comentarios:

HERNAN BOLANOS RODRIGUEZ dijo...

El análisis de subgrupos es uno de los casos de multiplicidad que con más frecuencia nos encontramos en la literatura médica, quizás por razones naturales, ya que en principio parece totalmente legítimo y razonable investigar si las diferencias entre los tratamientos dependen de las características de los pacientes pero, como veremos, basarse únicamente en los valores de la probabilidad obtenida para los diferentes subgrupos puede ser cuando menos engañoso. En el caso de que el resultado global sea significativo es casi seguro que encontraremos diferencias significativas y no significativas entre diferentes subgrupos, y con un resultado global no significativo, es probable que encontremos diferencias significativas entre algunos subgrupos por puro azar y esta probabilidad aumentará a medida que aumentemos el número de subgrupos (más billetes de lotería) y por tanto el número de comparaciones. Hay que ser muy cauteloso a la hora de interpretar resultados estadísticamente significativos en alguno de los subgrupos cuando el resultado global no lo fue y muchísimo más si éstos se definen a posteriori de entre un conjunto amplio de comparaciones.

El problema, desde un punto de vista estadístico, en la interpretación de los resultados de un estudio de investigación, radica que a menudo nos olvidamos de que la utilización de pruebas estadísticas formales no nos garantiza que los resultados observados no sean debidos única y exclusivamente a la casualidad y que éstas únicamente nos proporcionan una medida de la probabilidad de que eso haya sido así, probabilidad que nos tranquiliza si es baja, pero probabilidad pequeña no es igual a imposible, y esto es válido en general, no sólo en cuanto al análisis de subgrupos. No nos olvidemos que p=0.05 significa que hay 1 entre 20 posibilidades de estar rechazando la hipótesis nula cuando ésta es en realidad correcta (a la lotería jugamos con probabilidades muchísimo más bajas). Normalmente cuando analizamos los resultados de nuestros trabajos de investigación o cuando leemos los de otros autores, o las revisiones sistemáticas (meta-análisis) no pensamos que quizás los resultados hayan sido obtenidos por pura y simple casualidad, a no ser en aquellas ocasiones en las que estamos predispuestos en contra de la teoría presentada. Está bien buscar explicaciones a resultados sorprendentes o inesperados -así avanza la ciencia-, pero conviene no dejar siempre de lado el azar: medirlo no significa que haya sido eliminado. Cuando gastamos tiempo, esfuerzo y dinero en realizar un estudio de investigación y analizamos los resultados, nos cuesta resignarnos a admitir que no hemos encontrado nada significativo y nos gana la tentación de empezar una "cacería de resultados" entre los posibles subgrupos, definibles en función de los datos basales de los pacientes incluidos en el trabajo.

La dificultad en la interpretación de los resultados obtenidos en ese análisis de subgrupos se agrava por la incorrecta aplicación de pruebas estadísticas y por un ausencia de utilización crítica y meditada de éstas, así como un cuidadoso análisis de los resultados numéricos obtenidos. Un procedimiento (incorrecto) utilizado asiduamente para analizar los datos por subgrupos consiste en calcular el resultado en cada subgrupo y comparar los valores de probabilidad P obtenidos, cuando lo que debiera considerarse es la magnitud del efecto, ya que el valor de la probabilidad lo único que en realidad cuantifica es la precisión en la estimación de ese efecto en el subgrupo y depende tanto del valor medio como de su variabilidad (desviación típica) y del tamaño del subgrupo, que en ocasiones pueden estar muy descompensados, ya que no fueron fijados por diseño.

victor cartin dijo...

Análisis de subgrupos
El número de artículos de investigación publicados en las revistas médicas es enorme, y sigue creciendo a un fuerte ritmo. Existe evidencia empírica de que los estudios que arrojan resultados “negativos” se publican menos a menudo y con más retraso que los que producen resultados “positivos.
El análisis de subgrupos es uno de los casos de multiplicidad que con más frecuencia nos encontramos en la literatura médica, quizás por razones naturales, ya que en principio parece totalmente legítimo y razonable investigar si las diferencias entre los tratamientos dependen de las características de los pacientes pero, basarse únicamente en los valores de la probabilidad obtenida para los diferentes subgrupos puede ser cuando menos engañoso.
En el caso de que el resultado global sea significativo es casi seguro que encontraremos diferencias significativas y no significativas entre diferentes subgrupos, y con un resultado global no significativo, es probable que encontremos diferencias significativas entre algunos subgrupos por puro azar y esta probabilidad aumentará a medida que aumentemos el número de subgrupos y por tanto el número de comparaciones. Hay que ser muy cauteloso a la hora de interpretar resultados estadísticamente significativos en alguno de los subgrupos cuando el resultado global no lo fue y muchísimo más si éstos se definen a posteriori de entre un conjunto amplio de comparaciones.
El problema, desde un punto de vista estadístico, en la interpretación de los resultados de un estudio de investigación, radica que a menudo de que la utilización de pruebas estadísticas formales no nos garantiza que los resultados observados no sean debidos única y exclusivamente a la casualidad y que éstas únicamente nos proporcionan una medida de la probabilidad de que eso haya sido así, probabilidad que nos tranquiliza si es baja, pero probabilidad pequeña no es igual a imposible, y esto es válido en general, no sólo en cuanto al análisis de subgrupos. La “significación estadística”, arbitrariamente fijada por lo general en un valor de P < 0,05, no implica la veracidad de los resultados de un estudio de investigación. El valor de P mide la probabilidad de que las diferencias encontradas se deban al azar. Si la P es suficientemente pequeña, se asume que las diferencias es improbable que sean debidas al azar, pero nada más. Sin embargo, que las diferencias encontradas no se deban al azar no significa necesariamente que se deban a la intervención realizada por los investigadores, sino que pueden ser debidas a otros factores que tienen una influencia mayor en uno de los grupos estudiados. La significación estadística, por tanto, se debe interpretar siempre a la luz de la calidad del diseño y la realización del estudio, que elimine la posible existencia de sesgos, y a un correcto análisis de los datos.

victor cartin dijo...

No nos olvidemos que p=0.05 significa que hay 1 entre 20 posibilidades de estar rechazando la hipótesis nula cuando ésta es en realidad correcta. La dificultad en la interpretación de los resultados obtenidos en análisis de subgrupos se agrava por la incorrecta aplicación de pruebas estadísticas y por una ausencia de utilización crítica y meditada de éstas, así como un cuidadoso análisis de los resultados numéricos obtenidos. Un procedimiento (incorrecto) utilizado asiduamente para analizar los datos por subgrupos consiste en calcular el resultado en cada subgrupo y comparar los valores de probabilidad P obtenidos, cuando lo que debiera considerarse es la magnitud del efecto, ya que el valor de la probabilidad lo único que en realidad cuantifica es la precisión en la estimación de ese efecto en el subgrupo y depende tanto del valor medio como de su variabilidad (desviación típica) y del tamaño del subgrupo, que en ocasiones pueden estar muy descompensados, ya que no fueron fijados por diseño.
En análisis de subgrupos, no se deben realizar pruebas de significación estadística convencionales, sino análisis de homogeneidad de los subgrupos. Cualquier resultado positivo de análisis de subgrupos o de desenlaces considerados secundarios en el diseño del estudio, deben considerarse como hallazgos generadores de hipótesis, que deben confirmarse en estudios posteriores, y nunca como resultados "positivos".
En un artículo del 2006 de NEJM Lagakos indica que una manera de corregir los falsos positivos en el análisis de subgrupos es utilizar un criterio más estricto a p=0.05, es juzgar la significancia con cada análisis, y ponen como ejemplo que si se analiza K veces, se utiliza la formula 0.05/k, por ejemplo si se realiza 10 análisis se debería utilizar como significativo 0,005 (0,05/10)
El autor también refiere en el artículo que cuando el análisis de subgrupos está bien realizado estos resultados pueden ser informativos especialmente cuando se compara tratamientos utilizados en la práctica clínica, cuando se reporta el análisis de subgrupos es mejor no presentar los valores de p para cada subgrupo comparado, sino que es mejor dar un estimado de la magnitud de la diferencia del tratamiento y su correspondiente intervalo de confianza
En el estudio ACCORD en su rama de lípidos se investigo si la terapia combinada de sinvastatina mas fenofibrato vs sinvastatina como monoterapia reducia el riesgo cardiovascular en pte DM tipo 2, se utilizo 5518 ptes y el objetivo primario fue la primera aparición de IAM no fatal, Ictus no fatal o muerte por causas cardiovasculares, el seguimiento promedio fue de 4,7 años, al final se concluyo que no hubo diferencias significativas entre ambos grupos, y al realizar un estudio de subgrupos determinaron un posible beneficio en los pacientes masculinos y a los ptes con niveles elevados de triglicéridos y bajos de HDL y una posible perjuicio a las pacientes femeninas, sin embargo ninguno de estos subgrupos presento una p significativa, y debido a que las mujeres solo representaron un 27% del total y los pacientes determinados en el estudio con “dislipidemia” representaron un 17,5% por lo que la pequeña cantidad pacientes de estos subgrupos me parece que esta afirmación de los autores no se pueda sustentar

Marcela dijo...

Buen día a todos!
El análisis de subgrupos concretos de pacientes, permite conocer mejor los mecanismos de actuación del tratamiento en cuanto a qué pacientes con determinadas características obtendrán mayor beneficio, o en su caso conocer aquellos que tienen un mayor riesgo de presentar la enfermedad, el efecto adverso, etc.
Por lo tanto de las utilidades de los análisis de subgrupos una de las más importantes consiste en investigar si las diferencias entre los tratamientos dependen de las características de los pacientes.
Al analizar un estudio, cuando el resultado global es significativo se encontrara que hay diferencias significativas y no significativas entre diferentes subgrupos, y con un resultado global no significativo, se encontrara diferencias significativas entre algunos subgrupos por azar y esta probabilidad aumentará a medida que aumentemos el número de subgrupos y por tanto el número de comparaciones.
El análisis de subgrupos se justifica si se ha planeado previamente al inicio del estudio, en función de una hipótesis fundamentada. En algunas ocasiones, aunque no haya sido establecido previamente el análisis de los resultados observados en algún subgrupo de sujetos puede ser razonable. Sin embargo no hay que olvidar que, si se define un gran número de subgrupos en función de diferentes combinaciones de variables, un análisis indiscriminado puede conducir a la obtención de conclusiones erróneas, al parecer el problema de las comparaciones múltiples, por lo que es preferible planificar a priori los análisis de los subgrupos que se realizaran y justificarlos adecuadamente. Dentro de los criterios de validez de un análisis de subgrupos se encuentran 1- Hipótesis específica sobre los resultados del subgrupo planteada a priori en el diseño del estudio como una de las pocas hipótesis que se querían contrastar. 2- Análisis de subgrupos realizado dentro de una estrategia adecuada de comparaciones múltiples. 3- Magnitud del efecto clínicamente relevante. 4- Efecto estadísticamente muy significativo (cuanto más bajo es el valor de p. mas creíble es la diferencia). 5-Resultados consistentes con los de otros estudios. 6- Evidencia indirecta que avale los resultados encontrados (plausibilidad biológica).

Marcela dijo...

En un artículo publicado en BMJ del 30 de marzo del 2010, Is a subgroup effect believable? Updating criteria to evaluate the credibility of subgroup analyses, se habla de la credibilidad de los análisis de subgrupos, en el que se mencionan una serie de criterios, similares a los descritos anteriormente, refiere que al examinar un análisis de subgrupo, se debe considerar la probabilidad que la diferencia en el efecto sea explicado por la casualidad. El análisis estadístico que valora dicho efecto es el test para interacción, lo que significa que el efecto del tratamiento, difiere entre los subgrupos. La manera de abordar la p, es que entre más pequeña sea esta, es menos probable que la casualidad explique el aparente efecto en el subgrupo y por lo tanto la hipótesis del subgrupo aumente en credibilidad, podemos ser escépticos en cualquier hipótesis con una p mayor a 0.1, y empezar a considerar la hipótesis si el valor de p se encuentra entre 0.1 y 0.01, y tomar de manera aún más seria si el valor de p alcanza cifras de 0.001 o menos.
Otro dato a tomar en consideración es el tamaño de la muestra de cada subgrupo, pues al haber una muestra más grande hace que la estimación del efecto en el subgrupo sea mucho más precisa y por tanto contribuya a bajar radicalmente el valor de la p en ese subgrupo.
Es importante comprobar si el sentido de la diferencia es el mismo entre los subgrupos, y lo que realmente interesa saber es si es significativo el cambio en la magnitud del efecto al pasar desde un subgrupo a otro.
La dislipemia aterogénica es frecuente y su prevalencia está aumentando de forma sustancial, fruto de la epidemia mundial de diabetes de tipo 2, obesidad y síndrome metabólico. En Estados Unidos, aproximadamente la mitad de los pacientes de alto riesgo que inician el tratamiento con estatinas pueden necesitar tratamiento adicional para disminuir la concentración de triglicéridos o para aumentar las de HDL.
Así por ejemplo en el análisis del grupo de pacientes con dislipemia aterogénica se demostró un 70% más de episodios cardiovasculares (muerte cardiovascular, infarto de miocardio e ictus) que los pacientes sin dislipemia aterogénica. De hecho, el riesgo asociado a la dislipemia aterogénica fue comparable al existente en las personas con enfermedad cardiovascular previa (17,3% frente al 18,1%).
La cuestión principal abordada en la sección de tratamiento del estudio de lípidos de ACCORD (The Action to Control Cardiovascular Risk in Diabetes), analizaba si la combinación de fenofibrato con simvastatina, es decir, el objetivo de tratar TG elevados y el HDL bajo además del LDL, era más eficaz en la reducción de episodios cardiovasculares que la terapia con estatinas en monoterapia en una cohorte de 5.518 pacientes de alto riesgo con diabetes tipo 2 controlada para el objetivo primario en LDL
El estudio de lípidos de ACCORD confirma tanto la hipótesis, como el valor de añadir fenofibrato a una estatina para reducir el elevado riesgo cardiovascular residual.
Los beneficios del fenofibrato se observaron solo en el grupo especificado previamente de pacientes diabéticos con dislipemia aterogénica y no en la población total del estudio. Mientras los pacientes con dislipemia aterogénica solo representaron el 17% de la población del estudio de lípidos de ACCORD, en la práctica clínica el tamaño del problema es considerablemente mayor.
El estudio también confirmó que añadir fenofibrato a la simvastatina no producía un aumento del riesgo de miopatía, trombosis venosa o pancreatitis. De hecho, se produjeron menos muertes cardiovasculares o debidas a cualquier causa en los pacientes tratados con fenofibrato que en los pacientes tratados solo con simvastatina.

Marcela dijo...

Se eligió el fenofibrato porque los análisis de subgrupos de ensayos anteriores habían mostrado ventajas añadidas en pacientes con diabetes de tipo 2, o en aquellos con obesidad abdominal, característica del síndrome metabólico.
No obstante, la población tratada fue más amplia de la recomendada por las directrices actuales. En este sentido, más del 80% de los pacientes no tenía los TG lo bastante altos ni el HDL lo bastante bajo como para garantizar el tratamiento de conformidad con la práctica clínica actual.
El estudio de lípidos de ACCORD estableció que ampliar el tratamiento con fenofibrato a esta población más amplia no mostró beneficios significativos en ninguno de los objetivos cardiovasculares primarios o secundarios en la población total del estudio. No obstante, el estudio mostró una reducción considerable de episodios cardiovasculares con el tratamiento combinado fenofibrato-simvastatina en pacientes con dislipemia aterogénica, al disminuir el número de episodios vasculares del 17,3% en el grupo de monoterapia con simvastatina al 12,4% con el tratamiento combinado en el plazo de 4,7 años.

Abner dijo...

Hola a todos:

1. Validez de los Análisis de Subgrupos


La mayoría de los estudios clínicos tienen como objetivo demostrar la eficacia de una intervención en la totalidad de la población siendo evaluada. Cuando se demuestra una ausencia de beneficio en la población de estudio, derivada de la implementación de la intervención, generalmente se trata de evaluar si algunos subgrupos sí se benefician del tratamiento instaurado (análisis de subgrupos).

Algunas limitaciones de los análisis de subgrupos incluyen:

El estudio original generalmente no estuvo diseñado para evaluar diferencias según grupos.
Los análisis de subgrupos incluyen un menor número de sujetos.

Lo anterior limita, en parte los resultados obtenidos a partir de análisis de subgrupos.

2. Límite de P en Análisis de Subgrupos

Las muestras de sujetos en cada subgrupo presentan menor número de sujetos que la población general del estudio, lo cual implica una menor representación de la población de la vida real. Al realizarse el análisis estadístico (sin variar el valor de P) en una población menor de sujetos, el riesgo de que los resultados obtenidos se deban al azar es mayor.

Si en el estudio original el nivel de α se definió en 5% y una P significativa en <0.05, se esperaría que de cada 20 análisis, 1 sería estadísticamente significativo sólo por azar. Por otro lado, a menor número de sujetos en un análisis de subgrupos, mayor probabilidad de que los resultados obtenidos se deban al azar. Por este motivo, en un análisis de subgrupos debería reducirse el valor de P a un valor más bajo (mucho menor a 0.05), con el objetivo de que haya un menor riesgo de falsamente atribuir a la intervención evaluada un efecto observado meramente por efecto del azar.

Estoy de acuerdo con el artículo del NEJM de Lagakos citado por Víctor Cartín en el que se propone una forma de corregir los falsos positivos en el análisis de subgrupos, evaluando la significancia con cada análisis (por ejemplo si el análisis se realiza K veces, se utiliza la fórmula 0.05/k; si se realizan 10 análisis se debería utilizar como significativo 0,005 (0,05/10)).

3. Utilidad de Análisis de Subgrupos

Estos análisis dan una idea de los efectos de una intervención en un subgrupo de personas con ciertas características. Podrían ser útiles en los siguientes casos:
Análsis de subgrupos de varios estudios evaluando el mismo fármaco (o grupo farmacológico) en un subgrupo de similares características (metanálsis de subgrupos; véase más adelante).

Permiten diseñar estudios futuros evaluando la eficacia de la intervención en una población mucho más grande con las características del subgrupo.

Abner dijo...

El estudio ACCORD-LIPID incluyó 5518 sujetos diabéticos tipo 2 con elevado riesgo de eventos cardiovasculares, quienes fueron aleatorizados a terapia con simvastatina + fenofibrato (grupo de fenofibrato) vs simvastatina + placebo (grupo placebo).

El hallazgo más relevante del estudio fue la demostración de que la adición del fibrato a la estatina no redujo de forma significativa el riesgo de eventos cardiovasculares fatales y no fatales y muerte por causas cardiovasculares (punto primario compuesto; hazard ratio 0.92 (IC 95% 0.79–1.08; P= 0.32), ni ninguno de los puntos secundarios evaluados (punto primario compuesto + revascularización o internamiento por ICC, etc).


Como se describe en la discusión del estudio, cuando los resultados de una investigación no apoyan la hipótesis central, se debe evaluar por los posibles factores responsables.

Los autores plantean varios factores: beneficio de adición de fenofibrato limitado a ciertos subgrupos, por ejemplo: hombres y sujetos con dislipidemia específica (triglicéridos>204 mg/dl y HDL<34 mg/dl).Como hipótesis alternativa se plantea que la eficacia del fenofibrato podría ser inferior a la del gemfibrozil (de acuerdo con los estudios Helsinki Heart Study y VA-HIT; sin embargo en estos estudios no hubo terapia combinada con una estatina de base).

En relación con un posible beneficio limitado a la población de hombres y una tendencia a un mayor riesgo en el grupo de mujeres, se debe tomar en cuenta que: otros estudios con fenofibrato como el estudio FIELD, no han demostrado resultados similares.

Interesantemente, las diferencias en cuanto a sexo no se observaron en el subgrupo del estudio con dislipidemia, lo cual podría reflejar una falta de asociación real entre el sexo y los efectos cardiovasculares del fenofibrato en la vida real.

La población de estudio tuvo niveles promedio de HDL de 39.9 mg/dl y de triglicéridos de 144 mg/dl. El subgrupo con dislipidemia tuvo niveles promedio de HDL de 29.5 mg/dl y triglicéridos de 284 mg/dl. A los 4 meses de terapia, en los sujetos recibiendo fenofibrato:

En el subgrupo con dislipidemia (HDL<34 mg/dl y TG>204 mg/dl): el nivel de HDL aumentó en un 12.9% y el nivel de triglicéridos disminuyó en un 35%.
En la población general del estudio: el HDL aumentó en un 7.3% y los triglicéridos disminuyeron un 24.1%.

Un metanálisis de 5 estudios (ACCORD-LIPID, FIELD, BIP, HHS y VA-HIT) sobre prevención cardiovascular con fibratos vs placebo, demostró reducción de eventos vasculares utilizando agonistas de PPAR-α en aquellos sujetos con dislipidemia (la mayoría definidos como aquellos portadores de triglicéridos>204 mg/dl y HDL<34 mg/dl).

El odds ratio, de los sujetos recibiendo un fibrato, se redujo en un 35% (IC 95% 22-46%) en el subgrupo de sujetos con dislipidemia vs en un 6% (IC 95% -5-16%) en aquellos sujetos sin dislipidemia (Tg<204 mg/dl y HDL>34 mg/dl). La conclusión del metanálsis fue que los fibratos reducen eventos cardiovasculares en aquellos sujetos con dislipidemia (de acuerdo con los niveles de lípidos definidos).

Olger dijo...

El análisis de subgrupos tiende a realizarse frecuentemente cuando la intervención inicial de un estudio no demostró un beneficio en la población total estudiada; por lo que se trata de buscar beneficios en grupos menores de pacientes (subgrupos) y en los cuales generalmente no hay un diseño predefinido para realizar comparaciones entre estos subgrupos.
Cuando se realiza un análisis de subgrupo, se debe considerar la probabilidad que la diferencia en el efecto sea explicado por la casualidad. El análisis estadístico que valora dicho efecto es el test para interacción, lo que significa que el efecto del tratamiento, difiere entre los subgrupos. Con referencia al límite de significancia p, resulta que entre más pequeña sea esta, es menos probable que la casualidad explique el aparente efecto en el subgrupo y por lo tanto la hipótesis del subgrupo aumente en credibilidad. Además es importante el tamaño de la muestra de cada subgrupo ya que al haber una muestra más grande hace que la estimación del efecto en el subgrupo sea mucho más precisa y por lo tanto ayuda a disminuir el valor de la p en ese subgrupo. BMJ 2010; 340:c117

El análisis de subgrupos es uno de los casos de multiplicidad que con más frecuencia nos encontramos en la literatura médica, quizás por razones naturales, ya que en principio parece razonable investigar si las diferencias entre los tratamientos dependen de las características de los pacientes pero basarse únicamente en los valores de la probabilidad obtenida para los diferentes subgrupos puede ser engañoso. En el caso de que el resultado global sea significativo es casi seguro que encontraremos diferencias significativas y no significativas entre diferentes subgrupos, y con un resultado global no significativo, es probable que encontremos diferencias significativas entre algunos subgrupos por puro azar y esta probabilidad aumentará a medida que aumentemos el número de subgrupos y por tanto el número de comparaciones. Hay que ser muy cauteloso a la hora de interpretar resultados estadísticamente significativos en alguno de los subgrupos cuando el resultado global no lo fue y muchísimo más si éstos se definen a posteriori de entre un conjunto amplio de comparaciones. Lancet 2000; 355: 1064-69

Olger dijo...

El problema desde un punto de vista estadístico, en la interpretación de los resultados de un estudio de investigación, radica que a menudo nos olvidamos de que la utilización de pruebas estadísticas formales no nos garantiza que los resultados observados no sean debidos única y exclusivamente a la casualidad y que éstas únicamente nos proporcionan una medida de la probabilidad de que eso haya sido así, probabilidad que nos tranquiliza si es baja, pero una probabilidad pequeña no es igual a imposible, y esto es válido en general, no sólo en cuanto al análisis de subgrupos. No nos olvidemos que p=0.05 significa que hay 1 entre 20 posibilidades de estar rechazando la hipótesis nula cuando ésta es en realidad correcta.
Normalmente cuando se analiza los resultados de trabajos de investigación o las revisiones sistemáticas (meta-análisis); no se piensa que quizás los resultados hayan sido obtenidos por pura y simple casualidad, a no ser en aquellas ocasiones en que se esta predispuestos en contra de la teoría presentada. Está bien buscar explicaciones a resultados sorprendentes o inesperados pero conviene no dejar siempre de lado el azar: medirlo no significa que haya sido eliminado. Cuando se gasta tiempo, esfuerzo y dinero en realizar un estudio de investigación y analizar los resultados, es difícil admitir que no se ha encontrado nada significativo y muchas veces se empieza una cacería de resultados entre los posibles subgrupos, definibles en función de los datos basales de los pacientes incluidos en el trabajo.
La dificultad en la interpretación de los resultados obtenidos en ese análisis de subgrupos se agrava por la incorrecta aplicación de pruebas estadísticas y por una ausencia de utilización crítica de éstas, así como un cuidadoso análisis de los resultados numéricos obtenidos. Un procedimiento que es incorrecto y bastante utilizado para analizar los datos por subgrupos consiste en calcular el resultado en cada subgrupo y comparar los valores de probabilidad P obtenidos, cuando lo que debiera considerarse es la magnitud del efecto, ya que el valor de la probabilidad lo único que en realidad cuantifica es la precisión en la estimación de ese efecto en el subgrupo y depende tanto del valor medio como de su variabilidad (desviación típica) y del tamaño del subgrupo, que en ocasiones pueden estar muy descompensados, ya que no fueron fijados por diseño. Lancet 2000; 355: 1064-69
Esto implica que no necesariamente una medida es efectiva en un determinado subgrupo en un estudio solamente por tener una p estadísticamente significativa, recordando que dicho resultado podría ser positivo por el azar y que la significancia (p) no es el mejor valor con que deba compararse a los subgrupos, precisamente por las diferencias que existen entre estos.
Los ensayos clínicos tienen la necesidad de un plan previo de análisis estadístico para la utilización de datos de referencia, en especial los análisis de covarianza ajustado y los análisis de subgrupos. Los investigadores y revistas deben de adoptar mejores estándares de información estadística y tener cuidado al sacar conclusiones de los hallazgos de subgrupo. The Lancet 355, 1064 - 1069, 2000

Olger dijo...

El estudio ACCORD Lipid investigó si la terapia de combinación con una estatina más un fibrato, en comparación con la monoterapia con estatinas reducen el riesgo de enfermedad cardiovascular en pacientes con diabetes mellitus tipo 2 con alto riesgo de enfermedad cardiovascular. (ACCORD: Action to Control Cardiovascular Risk in Diabetes).

El estudio fue diseñado para reclutar a 5.800 pacientes, con una poder estadistico de 87% para detectar una reducción del 20% en la tasa del resultado primario de los pacientes en
el grupo de fenofibrato, en comparación con el placebo.
Se asignó aleatoriamente a 5.518 pacientes con diabetes tipo 2 que estaban siendo tratados
con simvastatina de forma abierta, a recibir fenofibrato o placebo de forma oculta, quedando 2.765 asignados a recibir simvastatina más fenofibrato, y 2.753 asignados
para recibir simvastatina más placebo. Las características basales fueron similares entre los dos grupos.

El resultado primario fue la primera aparición de infarto de miocardio no fatal,
accidente cerebrovascular no fatal o muerte por causas cardiovasculares. El seguimiento medio fue de 4,7 años.
La tasa anual del resultado primario fue del 2,2% en el grupo de fenofibrato y
2,4% en el grupo placebo (HR en el grupo de fenofibrato de 0,92, 95% de IC, 0,79 a 1,08, p = 0,32). Tampoco hubo diferencias significativas entre los dos grupos de estudio con respecto a cualquier resultado secundario.
Las tasas anuales de muerte fueron del 1,5% en el grupo de fenofibrato y el 1,6% en el grupo placebo (HR 0,91; 95% CI, 0,75 a 1,10, p = 0,33).
El análisis de subgrupos especificados sugirió heterogeneidad en el efecto del tratamiento en función del sexo, con un beneficio para los hombres y posibles daños para las mujeres (P = 0,01 para la interacción). Además evidenció una posible interacción de acuerdo al subgrupo de lípidos, con un posible beneficio para los pacientes con un nivel basal alto de triglicéridos y un nivel basal bajo de HDL (P = 0.057 para la interacción).

Se concluyó que la combinación de fenofibrato y simvastatina no redujo la tasa de eventos cardiovasculares mortales, infarto de miocardio no mortal o ictus no fatal en comparación
con simvastatina sola. Estos resultados no apoyan el uso rutinario de la combinación
el tratamiento con fenofibrato y simvastatina para reducir el riesgo cardiovascular en
la mayoría de los pacientes de alto riesgo con diabetes tipo 2.

Es necesario recordar que el estudio ACCORD se suspendió prematuramente en febrero de 2008, debido a una mayor mortalidad en el grupo de control intensivo de la glicemia. Todos los pacientes, independientemente de que estaban participando en el ACCORD rama de presión arterial o el ACCORD rama lipídica, fueron trasladados a un régimen estándar de control de la glicemia, y los estudios continuaron con su duración prevista de aproximadamente cinco años.

En el análisis de subgrupos, se sugirió que los pacientes con triglicéridos basales elevados y con niveles de colesterol HDL basales disminuidos (triglicéridos>204 mg/dl y HDL<34 mg/dl) se beneficiaron de la terapia con fenofibrato más simvastatina. Entre estos pacientes dislipémicos, los niveles basales de triglicéridos fueron 284 mg / dl, alrededor de 120 mg / dl por encima del resto del cohorte, y los niveles de HDL fueron 29.5 mg / dl, aproximadamente 10 mg / dl más baja que el cohorte global. Entre estos pacientes dislipémicos, los niveles de triglicéridos disminuyeron y los niveles de colesterol HDL aumentó más con el tratamiento combinado con fenofibrato que en el cohorte de pacientes global.

Estos resultados, según los investigadores de ACCORD, son similares a los análisis post hoc de subgrupos realizado en el Helsinki Heart Study (HHS) y Bezafibrato Infarto Prevención (BIP) y el estudio FIELD.

HERNAN BOLANOS RODRIGUEZ dijo...

La investigación en medicina se basa en estudios clínicos para abordar beneficios terapéuticos. Debido al esfuerzo y al costo que envuelve a estos estudios, los investigadores frecuentemente utilizan análisis de subgrupos de los participantes de los estudios para extraer la mayor información posible. Estos análisis, que abordan la heterogeneidad de los efectos del tratamiento en subgrupos de pacientes, pueden proveer de información útil para el cuidado de pacientes y para una futura investigación. Sin embargo, el análisis de subgrupos también introduce desafíos analíticos y puede llevar al investigador a resultados exagerados y engañosos.
Entendemos por análisis de subgrupos a cualquier evaluación de los efectos de un tratamiento para un end point especifico en subgrupos de pacientes definidos por características basales. El punto final puede ser una medición de seguridad o eficacia. Para un end point determinado el efecto del tratamiento - una comparación entre grupos de tratamiento – es medido típicamente por el riesgo relativo, odds ratio, o diferencia aritmética. La pregunta de investigación usual que usualmente se hacen los investigadores es: Los efectos del tratamiento varían entre los niveles de un factor basal?
El análisis de subgrupos algunas veces es realizado para abordar los efectos del tratamiento para una característica especifica de los pacientes; este abordaje se enlista como el objetivo primario o secundario del estudio. Por ejemplo, Sacks et al condujeron un estudio placebo controlado en el cual la reducción en la incidencia de eventos coronarios con el uso de pravastatina fue examinado en una población diversa de personas que habían sobrevivido a un infarto agudo del miocardio. En el análisis de subgrupos, los investigadores examinaron si la eficacia de la pravastatina relativa versus placebo en prevención de eventos coronarios varía de acuerdo al valor basal de LDL.
El análisis de subgrupos también se realiza para investigar la consistencia de las conclusiones del estudio entre diferentes subpoblaciones definidas por múltiples características basales de los pacientes. Por ejemplo, Jackson et al reportaron los resultados de un estudio en el cual 36282 mujeres posmenopáusicas de 50 a 70 años fueron asignadas de manera aleatoria a recibir 1000mg de calcio elemental con 400UI de vitamina D3 diariamente o placebo. Las fracturas, el punto primario, fueron cercioradas en un promedio de seguimiento de 7.0 años; la densidad osea fue el punto secundario. EN promedio, no se encontró ningún efecto para el punto primario. El efecto del calcio más vitamina D vs placebo sobre el riesgo de fracturas se analizo luego en subgrupos definidos de los participantes.

Allan dijo...

El principal problema con los análisis de multiplicidad es que aumentan la presencia de falsos positivos; sin embargo muchas veces son necesarios estos análisis ya que los pacientes no son homogéneos y la respuesta al tratamiento puede variar; el problema es que los ensayos clínicos no son usualmente lo suficientemente grandes como para detectar con poder los efectos en varios subgrupos y estos pueden llegar a ser múltiples y “rebuscados”. Quizás lo mejor es especificar con anticipación cuales serán los POCOS subgrupos a analizar, ya que de esta forma no se estará buscando a posteriori cual específico grupo de pacientes se beneficia más de un tratamiento, ya que por cuestiones de azar algun grupo será beneficiado. Lo ideal en este tipo de análisis estadístico no es determinar el valor de p (ni dividirlo por el número de subgrupos) si no más bien una prueba estadística de interacción que nos permita discernir si los resultados entre los subgrupos difieren efectivamente en forma significativa del efecto basal; en otras palabras, establecer que hay heterogeneidad entre las categorías propuestas.
Algunos autores sugieren que si el objetivo primario compuesto no alcanzó significancia estadística es de poco valor buscar en cual subgrupo de pacientes si hay diferencias significativas. Lo anterior por cuanto se está partiendo de un hecho falso para elucidar una potencial verdad.
Si bien el estudio ACCORD cumple con preespecificar los subgrupos según características basales, éstos son muchos (10) y únicamente la variable sexo se relacionó con un diferente outcome entre hombres y mujeres, a la vez que hubo una tendencia a que aquellos con TAG altos y HDL bajos se beneficiaran (lo cual es curioso dado que ni TAG altos ni HDL bajos por separado producen una respuesta distinta en los sujetos analizados). Este subgrupo de pacientes (TAG altos y HDL bajos) es además pequeño (n=485 y 456 en tratamiento y placebo respectivamente), haciendo más vulnerable a error la conclusión hecha por los autores al perderse considerablemente más poder estadístico.
Saludos

Frank Dawkins A. dijo...

Saludos a tod@s!!
Estamos acostumbrados a encontrar en la inmensa mayoría de estudios el análisis de subgrupos (A.S), que uno de sus primordiales objetivos aparte de los de mercadeo, es extender el uso de una terapia a subgrupos que hasta ese momento no están siendo tratados en la práctica clínica diaria. Sin embargo aunque pareciera sencillo este análisis tiene sus implicaciones por lo que debemos ser cautos ya que en el pasado ha llevado a recomendaciones clínicas erróneas.
Aunque es un tema muy interesante y amplio voy a intentar abarcarlo, sin afán de agotarlo, tomando en cuenta los siguientes aspecto:
1. Indicaciones para el A.S
2. Interpretación de p y ¨multiple testing¨ en el A.S
3. Forma adecuada de llevar a cabo el A.S
4. Rol del A.S dentro del protocolo
5. Puntos clave a recordar a la hora del A.S
6. Ejemplo de A.S en estudio ACCORD

INDICACIONES: hay instancias específicas en las que éste está recomendado: a) potencial diferencia en el efecto del Tx relacionado con el riesgo (grupos de riesgo), b) o con la fisiopatología, como en patologías múltiples, variabilidad genética en la respuesta, c) heterogeneidad relacionada con la aplicación práctica del medicamento, para responder preguntas acerca del uso más efectivo del tx, como en qué estadio de la enfermedad es más efectivo o cuánto tiempo después del evento es más seguro y efectivo?, y d) uso subóptimo de tx en la clínica por dudas acerca de su beneficio.

Un problema con el A.S hecho a posteriori es lo que se conoce como MULTIPLE TESTING¨ ya que se sabe que esto nos va a llevar en una alto porcentaje a resultados positivos, por ejemplo, si hacemos 10 subgrupos la posibilidad de encontrar significancia en uno de estos solo por el azar es de 40 %= (1-(1-alfa)f donde alfa=0.05 y f= número de pruebas estadísticas, en este caso 10. Basado en esto en muchos artículos se utiliza el método de corrección de Bonferroni el cual simplemente se basa en dividir alfa/f y este sería el valor que debe alcanzar la p para poder alcanzar la significancia estadística, ej, 0.05/2 (subgrupos por ejemplo). Sin embargo este método tiene el problema de que asume que los contrastes son independientes, que sabemos que no es así cuando se estudian diferentes parámetros en los mismos pacientes los cuales sí están correlacionados.

Frank Dawkins A. dijo...

El término estadístico para evaluar HETEROGENEIDAD se conoce como INTERACCION y su equivalente médico es sinergismo. Los resultados de las pruebas de interacción deben ser vistos con cautela aún cuando estos resulten en diferencias significativas entre los subgrupos analizados, pues también existe la posibilidad de encontrar significancia estadística aún por puro azar y no hay forma de evaluar esto. Se dice que los test de interacción tienen valor si y solo sí, el análisis de subgrupo fue preespecificado en el portocolo, el cuándo y por qué; de otra forma la interpretación es dificultosa. Esto introduce el concepto de ¨pre-specified¨ y contrario a esto ¨post hoc subgroup analysis¨. Y acá hay que ser cautelosos en la lectura de los RCT pues más de dos terceras partes de los ensayos no hacen mención en el protocolo al A.S por lo que esto nos puede hacer pensar que se hace post hoc lo cual sabemos NO es conveniente.
Cómo evaluar la interacción en el A.S.?. Acá es importante recordar siempre lo siguiente: Evaluar el TAMAÑO DEL EFECTO y NO el valor de P. Con frecuencia vemos que en el A.S se reportan los valores de p y el test de heterogeneidad No se reporta en más del 50% de los RCT. Basado en esto los investigadores formulan sus conclusiones respecto a diferencias encontradas al tomar en cuanta características específicas, subgrupos, lo cual es erróneo. Por qué? Simplemente porque el valor de p en esos casos lo que está valorando es la diferencia en el grupo placebo y tx para ese grupo particular pero no esta haciendo la comparación entre los subgrupos con la característica establecida. Una forma adecuada de valorar esto es, midiendo el tamaño del efecto y comparando la diferencia del mismo en los subgrupos y posteriormente realizar un test de interacción donde la H0 = tamaño del efecto es igual en ambos grupos: Ea =Eb =0, con sus respectivos intervalos de confianza.
Sin embargo, es importante mencionar que el test de heterogeneidad en el A.S puede ser altamente significativo por puro chance. Por lo que el mejor test para validar el A.S no es el valor de p sino la REPLICABILIDAD de los resultados en otros ensayos clínicos.

PUNTOS CLAVES:
1. El A.S debe estar (pre) especificado en el protocolo e idealmente el por qué.
2. Si el resultado del outcome primario es negativo, ser cauto con el A.S. Este puede indicar falsamente beneficio en un subgrupo cuando el efecto general es negativo.
3. Si el outcome es compuesto el A.S es de difícil interpretación.
4. La mayoría de estudio no tiene el poder suficiente para detectar diferencias en el A.S. (se requiere una muestra 4x mayor para detectar diferencia con un poder del 80%).
5. El tamaño del efecto, el test de interacción y la replicabilidad de los resultados son la mejor forma de evaluar el beneficio de un tx en grupos específicos.

Frank Dawkins A. dijo...

Respecto al estudio ACCORD rama Lipídica voy a referirme a algunos aspectos que vale la pena mencionar. Uno de los grandes problemas de la literatura médica actual y que repercute enormemente a la hora de hacer metanálisis es el sesgo de publicación que básicamente tiene que ver con la NO publicación estudios con resultados negativos, en este caso llama la atención que ellos publican el estudio a pesar de no haberse logrado los objetivos y la conclusión es bastante clara.
Decir que los investigadores aparentemente en el protocolo preespecificaron el análisis de 10 subgrupos lo cual para algunos autores es un número bastante alto, pues puede encontrarse un test de interacción en alguno de ellos solo por chance.
En el A.S recordar que el efecto del tx sobre el outcome primario es no significativo por lo que la interpretación del A.S debe hacerse con cuidado pues acá cualquier test de interacción significativo nos puede llevar a conclusiones equívocas.
Auanque el test de interacción solo fue significativo en el sexo con un aparente efecto ¨perjudicial¨de fenobibrato en las mujeres, dos aspectos son importantes acá, primero que las mujeres y ancianos con frecuencia presentan estas diferencias en los test de heterogeneidad pues muchas veces están sub-representados; habría que analizar si este es el caso siendo que las mujeres son menos del 50% que el número de hombres, y lo segundo a tomar en cuenta es si estos resultados se han visto en otros estudios, según los autores el estudio FIELD no replicó estas hallazgos del sexo sobre el outcome.
Finalmente, hay una tendencia a la interacción en un subgrupo de pacientes para los que pareciera clínicamente justificable el uso de la terapia combinada, estos son TG altos con HDL bajo que aunque el test fue negativo en forma limítrofe, es importante poner esto en contexto clínico y analizar el resultado de otros estudios o la necesidad de dilucidarlo en futuras intervenciones para aclarar si existe beneficio de esta intervención en este grupo de pacientes.

Les recomiendo el siguiente artículo. Subgroup analysis in randomised controlled trials: importance, indications, and interpretation. Lancet 2005; 365: 176–86.

Paula Wang Z. dijo...

1. Qué tan válido es el análisis de subgrupos?
El análisis de subgrupos se refiere a la búsqueda y análisis de tendencias dentro de los subgrupos de un estudio. Se refiere a la evaluación de efectos terapéuticos para un punto final específico en subgrupos de ptes definidos por características basales.

Se dice que un análisis de subgrupos es importante si hay diferencias potencialmente grandes entre los grupos en riesgo de un resultado negativo con o sin tratamiento, si hay potencial heterogeneidad en efectos terapéuticos en relación a fisiopatología, si hay dudas prácticas en cuanto a cuando tratar, o si hay dudas sobre beneficio en grupos específicos. El análisis debe ser predefinido, justificado cuidadosamente y limitado a pocas preguntas clínicamente importantes. Las observaciones post-hoc deben ser tomadas con cautela independientemente de su significancia estadística. Si se anticipan importantes efectos de subgrupos, los estudios deben tener poder para detectarlos de forma confiable o se deben llevar a cabo análisis conjuntos de varios estudios (The Lancet, Volume 365, Issue 9454, Pages 176 - 186, 8 January 2005).


2. Se debe utilizar el mismo límite de significancia (p) para interpretarlo?
Se ha visto que investigaciones estadísticas de grandes números de subgrupos muestran interacciones significativas en cuanto a la efectividad de la intervención en el estudio. Se considera que un nivel de significancia de un 5% reportará de forma errónea una diferencia estadísticamente significativa entre categorías de subgrupos en aproximadamente un 5% de las pruebas realizadas (resultados falsos-positivos). En análisis de subgrupos, en donde hay gran cantidad de factores en juego (género, edad, etnia, centro, estado de enfermedad, comorbilidades, tabaquismo, etilismo, etc.) que pueden influenciar el resultado, el riesgo de resultados falsos positivos es mucho mayor. Más aún, se ha visto que en algunos análisis de subgrupos se pueden demostrar diferencias estadísticamente significativas entre subgrupos que no recibieron ningún tipo de intervención.

Hay que tomar en cuenta que la mayoría de estudios reclutan la cantidad suficiente de participantes para asegurar que su hipótesis primaria pueda ser comprobada de forma adecuada. Por lo tanto, los análisis de subgrupos tendrán poder únicamente para detectar efectos mayores del mismo punto final. En consecuencia, al probar los subgrupos por separado, muchos de ellos fallarán en mostrarán el efecto terapéutico estadísticamente significativo que se mostró en la población principal, al mismo tiempo que pueden pasar desapercibidas las diferencias en respuesta a tratamiento (conocidas como heterogeneidad) entre subpoblaciones del estudio (MJA 2004; 180 (6): 289-291).

Paula Wang Z. dijo...

3. Cuál debe ser la utilidad de los análisis de subgrupos?
El análisis de subgrupos se utiliza para valorar efectos terapéuticos de un grupo poblacional de características específicas, generalmente postulándose como un objetivo primario o secundario del estudio. Se utilizan además en la investigación de la consistencia de la conclusiones de un estudio entre diferentes subpoblaciones (N Engl J Med 2007; 357:2189-2194 November 22, 2007).

En cuanto al estudio ACCORD en su rama de lípidos, fue un estudio realizado comparando simvastatina + fenofibrato vrs simvastatina como monoterapia en reducción de riesgo de enfermedad cardiovascular en ptes con diabetes mellitus tipo 2. Para este estudio se reclutaron 5518 pacientes, con un seguimiento de 4.7 años. En cuanto al punto primario, no se demostró una diferencia significativa, con una p=0.32 y para los puntos secundarios no se encontró diferencia alguna entre los grupos con fenofibrato vrs placebo. Para tasa de muerte se obtuvo una p=0.33, la cual tampoco fue significativa. Se encontró en el análisis de subgrupos heterogeneidad en cuanto a género con beneficio en el género masculino, pero probable efecto deletéreo en las mujeres, con una p=0.01. Igualmente, se encontró una tendencia hacia el beneficio en pacientes con aumento en niveles de triglicéridos y HDL bajos con p=0.057. Cabe destacar que como resultado final, no se obtuvo reducción en eventos finales duros, por lo cual no hay evidencia para recomendar el uso de la terapia combinada.
Tal como lo han discutido los compañeros, en análisis de subgrupos, no es del todo válido tomar en cuenta la p significativa de cada análisis, pues no siempre nos va a mostrar la realidad. Creo que en cuanto a este análisis de lípidos del ACCORD, hay que tomar las conclusiones con cautela.

Saludos.

Heylin dijo...

Hola!
Que tan válido es el análisis de subgrupos?
Basarse únicamente en lo valores de la probabilidad obtenida para los diferentes subgrupos puede llegar a ser engañoso. Cuando el resultado global es significativo, es muy probable que encontremos diferencias significativas y no significativas entre diferentes subgrupos y con un resultado global no significativo es probable que también encontremos diferencias significativas entre algunos subgrupos por puro azar y esta probabilidad aumentará a medida que aumentemos el número de subgrupos y por tanto el número de comparaciones, de esta manera hay que ser cauteloso a la hora de interpretar resultados estadísticamente significativos en algunos de los subgrupos cuando el resultado global no lo fue. De esta manera el problema radica en que a menudo nos olvidamos que la utilización de pruebas estadísticas formales no nos garantiza que los resultados observados no sean debidos única o exclusivamente a la casualidad y que estas únicamente nos proporcionan una medida de la probabilidad de que eso haya sido así, probabilidad que nos puede tranquilizar si es baja, pero no quiere decir que sea imposible.
La dificultad en la interpretación de los resultados obtenidos en el análisis de subgrupos se agrava por la incorrecta aplicación de pruebas estadísticas y por la ausencia de utilización crítica y meditada de estas, así como un cuidadoso análisis de los resultados numéricos obtenidos.
En el caso particular del estudio ACCORD lipid donde se incluyeron 5518 pacientes con diabetes mellitus dipo 2 quienes fueron tratados con simvastatina versus simvastatina más fenofibrato, se buscó como punto final primario estudiar la reducción en la ocurrencia de infarto de miocardio no fatal, stroke no fatal o muerte por causas no fatales, por 4.7 años de duración del estudio.
Es así como los resultados primarios fueron alcanzados en un 2.2% para el grupo de fenofibrato y 2.4% en el grupo placebo ( HR en el grupo de fenofibrato de 0.92; 95% de CI, 0.79 a 1.08; P=0.32), y entre los dos grupos en estudio con respecto al punto secundario ( mortalidad total) donde la muerte fue de 1.5% en el grupo de fenofibrato y de 1.6% con el grupo placebo (HR: 0.91; 95% CI, 0.75 a 1.10; P= 0,33) por lo que no se alcanzó real significancia en los resultados globales algo que a pesar de los resultados tratan de rescatar al mencionar que a nivel de subgrupos por el análisis que se hace con respecto a la eficacia del tratamiento por sexo , con beneficio para los hombres y muy posiblemente para las mujeres obteniendo un P=0.01 y una posible interacción de acuerdo al subgrupo lipídico con un posible beneficio en los pacientes que tenían una línea base alta en el nivel de triglicéridos y un nivel base bajo de colesterol HDL obteniendo una P=0,057.

Heylin dijo...

Para el grupo de las mujeres se alcanzó en un 9.1% en el fenofibrato versus un 6,6% en el grupo placebo ( para una P=0.01) sin embargo esto es no significativo por la heterogeneidad de los pacientes; ya que pacientes que tenían niveles de triglicéridos más de 204 mg/dl y colesterol HDL bajos menos de 34 mg/dl fueron comparados con los otros pacientes obteniéndose una P= 0,057; en este grupo de pacientes con niveles altos de triglicéridos y niveles bajos de HDL el punto final primario fue alcanzado en un 12.4% en el grupo de fenofibrato versus el 17.3% en el grupo placebo.
Sin embargo el punto final primario en este estudio no llegó a ser diferente significativamente entre el grupo de fenofibrato y el grupo placebo durante los 4.7 años de tratamiento, pero puede ser posible que el agregar fenofibrato a la terapia con estatinas beneficie sólo cierto grupo de pacientes y que otros subgrupos no se beneficiarían diluyendo el efecto global que esto puede alcanzar.

Se debe utilizar el mismo límite de significancia (p) para interpretarlo?
El análisis de los subgrupos se agrava por la incorrecta aplicación de las pruebas estadísticas, así como un cuidadoso análisis de los resultados numéricos obtenidos. Un procedimiento realmente incorrecto utilizado asiduamente para analizar los datos por subgrupos consiste en calcular el resultado de cada subgrupo y comparar los valores de probabilidad P obtenidos, cuando lo que debiera considerarse es la magnitud del efecto ya que el valor de la probabilidad lo único que en realidad cuantifica es la precisión en la estimación de ese efecto en el subgrupo y depende tanto del valor medio como de su variabilidad y del tamaño del subgrupo, que en ocasiones pueden estar muy descompensados. Por lo que idealmente no se debería utilizar el mismo límite de significancia P, sino más bien individualizarlo de acuerdo al subgrupo, y a la magnitud del efecto que pueda causar.
Cuál debe ser la utilidad del análisis de subgrupos?
Bueno es así como la utilidad del análisis de subgrupos debe ser para valorar la magnitud del efecto que puede causar lo que se está estudiando individualizando un poco más la población; pero no quiere decir que a nivel global tenga la significancia esperada o el efecto esperado.
Y así, el saber, qué población específica con ciertas características se podría beneficiar de la intervención pero sería en un grupo realmente muy reducido, lo que le hace realmente poco útil, es así como considero que a pesar de que el análisis de subgrupo es una manera de interpretar los resultados y que sea la manera de encontrar significancia a esos resultados clínicamente no logran tener una repercusión francamente significativa.
Gracias!

Francis Ruiz Salazar dijo...

Uno de los motivos fundamentales para el análisis de subgrupos es buscar diferencias significatiivas en el efecto del tratamiento en poblaciones específicas que quizás no se encontraron en la población global del estudio pero que podrían beneficiar a ese subgrupo. Los detractores argumentan que estos análisis son el resultado de un rebuscamiento estadístico en pro de encontrar alguna utilidad que el estudio global no evidenció mientras que los que apoyan el análisis de subgrupos dicen que son útiles ya que la heterogenidad de la población global podría evitar ver diferencias sustanciales que si posee el fármaco estudiado. Una de las características que no puede pasarse por alto es determinar en el estudio si ese subgrupo se definió antes de la aleatorización o fue algo que se vio durante o una vez finalizado el estudio. No se debería estimar ningún subgrupo como válido si éste fue encontrado durante o después del estudio ya que el sesgo es muy alto; la hipótesis debe estar respaldada desde el inicio y no debe ser el resultado de un post-Hoc por ello el marco del enfoque en un análisis de subgrupo debe ser de probar una hipótesis ya sospechada y no de generar una hipótesis no contemplada. Otro aspecto a valorar es si ese subgrupo con diferencias significativas que se encontró fue el resultado de una búsqueda múltiple de posibles subgrupos(como un “ fishing estadístico”) y que lo que se presenta son solo aquellos que dieron algún resultado. Esto por que dicho método hace más probable que la diferencia estadística se deba al azar que a un efecto real; desdichadamente los estudios tienden a no publicar esta información. Otro punto a valorar en los análisis de subgrupos es si la magnitud de la diferencia en el subgrupo es lo suficientemente amplia, ya que a mayor magnitud de diferencia mayor probabilidad de que sea un efecto real y no debido al azar. El hecho de que el hallazgo de beneficio en el subgrupo halla sido identificado en otros estudios refuerza la credibilidad de ese subgrupo, por ello a la hora de interpretar es importante saber si hay revisiones sistemáticas u otros artículos que hallan reportado hallazgos similares. Un punto a considerar es si la diferencia entre subgrupos es estadísticamente significativa. Por ejemplo si se prueba un diurético vs un IECA para HTA y se concluye que el IECA es mejor que el diurético pero principalmente en el subgrupo de hombres. Se llegó a esa conclusión porque la p para hombres fue significativa pero para mujeres no. Esta conclusión no es válida porque la p se calculó individualmente en hombres y mujeres, pero el tamaño de la muestra puede que sea el determinante en la ausencia de significancia en las mujeres; para que esa diferencia sea válida tuvo que nacer de entre los subgrupos de hombres y mujeres y no de comparaciones individuales. Para esto se debe realizar pruebas de interacción en el efecto del tratamiento entre los subgrupos, lo cual es un test estadístico muy recomendado pero que los investigadores realmente no aplican. Esta prueba sirve para desestimar una diferencia “significativa” de un subgrupo que fue encontrada individualmente (por ejemplo los hombres con IECA se infartan menos que las mujeres con IECAS) al compararla directamente contra el otro subgrupo(mujeres). Esta prueba de interacción lamentablemente no es infalible y el azar puede ocasionar diferencias significativas en las pruebas de interacción y es aquí donde un punto muy básico pero a menudo no aplicado es la capacidad de reproducibilidad; si usted encuentra una diferencia en un subgrupo y la prueba de interacción le dio significancia estadística pero usted no lo puede reproducir; ese hallazgo probablemente fue producto del azar.

Luis Guillermo Elizondo H dijo...

En síntesis, no debe del todo relegarse, si no saber como se obtuvo y que estimación y peso estadístico ofrece determinado análisis de subgrupos.

Primero un ejemplo controversial sobre lo peligroso de realizar conclusiones con un análisis de subgrupos Encontré un el análisis de subgrupos del estudio ISIS (estudios sobre diferentes drogas en IAM - y por supuesto en resumen en WIKIPEDIA, pero de aquí lo interesante es: se realizó un análisis de subgrupos por signo del ZODIACO en el estudio ISIS 2(estudio de AAS y estreptoquinasa en el IAM), donde Geminis y Libra tuvieron un efecto adverso en mortalidad. Esto definitivamente no es verdadero y bueno la información obtenida de estudio por subgrupos. Antes de proseguir vean esta imagen de BMJ partiendo "la p".

Validez del análisis de subgrupos

"La validez es inversamente proporcional al número de subgrupos que se hagan." Esta última frase es una manera simple de verlo. También en este caso Freemantle propone: (ver referencia)

A. Usar la estimación (el intervalo de confianza) en vez de la estimación estadística estándar (la p) para medir el efecto de un resultado estadístico.
B. Mencionan que Assmann y colaboradores, y Peto y colaboradores (Assmann SF, et al. Lancet 2000;355:1064-9; Peto R, et al. Br J Cancer 1977;35:1-39) recomiendad que debe de realizarse evaluaciones estad[isticas que valoren la interacción estadística entre los grupos: “only if a statistical interaction test supports a subgroup effect should the results be influenced.” Freemantle describe que aún así el método no es infalible.

C.Oxman y Guyatt (Oxman AD, Guyatt GH. Ann Intern Med 1992;116:78-84.) desarrollaron siete preguntas para evaluar el análisis de subgrupos:


1. ¿Son reales las diferencias aparentes entre los subgrupos?
2. ¿Es la magnitud de la diferencia clinicamente importante?
3. ¿La hipótesis precede o se realiza después del análisis?
4. ¿Fue el análisis de sungrupos uno de varias hipótesis analizadas?
5. ¿Fue la diferencia sugerida en las comparaciones dentro del estudio y no las diferencias que existían con otros estudios?
6. ¿Fue la diferencia consistente entre estudios?
7. ¿Existe evidencia indirecta que apoya la diferencia en la hipótesis?

*****Freemantle, menciona que antes de verificar estas preguntas se debe de preguntar: el estudio, su principal punto de estudio es clínicamente significativo, si la respuesta es no entonces la validez del análisis de subgrupos quizás sea solo importante, si el subgrupo tiene una representación poblacional importante en el estudio.


Límite de significancia para interpretación

La dificultad en la interpretación de los resultados obtenidos en ese análisis de subgrupos se agrava por la incorrecta aplicación de pruebas estadísticas y por un ausencia de utilización crítica y meditada de éstas, así como un cuidadoso análisis de los resultados numéricos obtenidos. Un procedimiento (incorrecto) utilizado asiduamente para analizar los datos por subgrupos consiste en calcular el resultado en cada subgrupo y comparar los valores de probabilidad P obtenidos, cuando lo que debiera considerarse es la magnitud del efecto, ya que el valor de la probabilidad lo único que en realidad cuantifica es la precisión en la estimación de ese efecto en el subgrupo y depende tanto del valor medio como de su variabilidad (desviación típica) y del tamaño del subgrupo, ya que en ocasiones ni siquiera fueron tomados en cuenta en el diseño. (referencia)

Luis Guillermo Elizondo H dijo...
Este comentario ha sido eliminado por el autor.
Luis Guillermo Elizondo H dijo...

Utilidad de los análisis de subgrupos

El análisis de subgrupos funciona para estimular la investigación en situaciones clínicas particulares, es decir para diseñar un nuevo estudio con una población que es similar a la del subgrupo que se analizó en el estudio, de forma que podamos identificar como se comporta el fenómeno en esta población, digamos más delimitada que la del estudio original.

Freemantle menciona que la principal importancia del análisis de subgrupos radica en el hecho de que en ocasiones puede ser la única evidencia que apoye una intervención.

Abner y Victor hablan de los ajustes de Bonferroni, partir la p entre 20 digamos. Mas, según anota Pernegger, un epidemiólogo, el realizar este análisis también tiene sus limitaciones(ver referencia). Y lo que debe de hacerse es publicar los análisis tal y como se realizaron y decir por que se realizaron.


Sobre el Estudio Accord. Si aplicamos los pasos que menciona Freemantle:

1. La p del estudio es no estadísticamente significativa, por que el valor estadístico del análisis de subgrupos debe de analizarse con cuidado
2. El hecho de que el beneficio se vea en el subgrupo que estadísticamente tiene mayor representación - hombres- puede ser de importancia. La evidencia no se aplica a toda la población diabética.
3. La evidencia publicada en otros estudios pareciera asemejarse a la evidencia encontrada en este estudio.
4. El hecho de que los pacientes estuvieran realizando control metabólico intenso se asoció con el hecho de elevear la mortalidad, por lo que no podemos aún hacer afirmaciones que no funciona la terapia combinada.
5. La observación del análisis de subgrupos puede ser válida pero requiere un estudio clínico para validarse.

Francis Ruiz Salazar dijo...

Con respecto al ACCORD LIPID algunas consideraciones. Primero que nada el estudio no encontró ninguna diferencia significativa a favor del fenofibrato en el punto primario compuesto. Muchos estadistas consideran inapropiado crear subgrupos en ensayos con puntos clínicos compuestos y si a eso se le suma que no hubo diferencia significativa, menos validez va a tener el hallazgo de un subgrupo. Por otro lado si hubo pre especificación de grupos lo cual es una característica deseada pero el problema es que dicha pre especificación fueron 10 grupos lo cual es un grupo amplio que da más chance al azar de obtener una diferencia no real.
Otro aspecto positivo es que las comparaciones se hicieron con test de interacción, aquí la única característica con significancia estadística fue el género pero recordemos que un estudio diseñado con poder para ver una diferencia global por definición no va a tener poder para ver una diferencia específica en un subgrupo y si además ese subgrupo es una minoría (30%) pues todavía menos probable que ese hallazgo se deba a una diferencia real. Por otro lado la tendencia sin significancia estadística a que el grupo con dislipidemia se beneficiara de fenofibrato es una afirmación con una muy tenue línea de evidencia y ello por: primero que nada no logró significancia estadística, es 1/10 subgrupos con subpoder, luego al ser una población pequeña (450 y 480 por grupo) tiene un IC amplio que ATRAVIEZA el uno, por lo que en el peor escenario más bien podría ser perjudicial. Apoyandose de otras herramientas los estudios y revisiones previas son oscilantes en los resultados lo que le quita credibilidad y para terminar de rematar no es hallazgo que se halla claramente podido reproducir como lo reflejan los metaanálisis, así que en el subgrupo de dislipidémicos no podríamos responsablemente afirmar que el fenofibrato sea de utilidad.

Victor Quirós A dijo...

Buenas a todos...

1.Qué tan válido es el análisis de subgrupos?

El análisis de subgrupos consiste en comparar sólo a los pacientes de cada grupo que tienen una característica determinada, en lugar de comparar a la totalidad de un grupo con el otro. El análisis de subgrupos debe ser considerado con mucha cautela. Puede ser útil para plantear nuevas hipótesis, que deberán ser comprobadas en nuevos ensayos diseñados a tal fin. Puede introducir a cometer un error intencionado de tipo 1. No es aceptable desde un punto de vista metodológico limitar la publicación de los resultados de un ensayo clínico sólo a los pacientes incluidos que presentaban una característica determinada. Tampoco sería aceptable sacar conclusiones de superioridad o de equivalencia tarapeútica de los tratamientos comparados a partir de un análisis de subgrupos que no se acompañe de los ajustes estadísticos necesarios y de una extremada prudencia en su interpretación.

En principio parece razonable investigar si las diferencias entre los tratamientos dependen de las características de los pacientes pero, basarse únicamente en los valores de la probabilidad obtenida para los diferentes subgrupos puede ser engañoso. En el caso de que el resultado global sea significativo es casi seguro encontrar diferencias significativas y no significativas entre diferentes subgrupos, y con un resultado global no significativo, es probable encontrar diferencias significativas entre algunos subgrupos por puro azar y esta probabilidad aumentará a medida que aumente el número de subgrupos y por tanto el número de comparaciones. Hay que ser muy cauteloso a la hora de interpretar resultados estadísticamente significativos en alguno de los subgrupos cuando el resultado global no lo fue y muchísimo más si éstos se definen a posteriori de entre un conjunto amplio de comparaciones.

Antes de proceder a la extrapolación automática hay que tener en cuenta que estos análisis pueden ser peligrosos ya que la realización de múltiples comparaciones aumenta la probabilidad de encontrar un resultado estadísticamente significativo simplemente por azar y además si los subgrupos son de pequeño tamaño el análisis puede ser incapaz de detectar diferencias relevantes. Cuando un estudio presenta análisis de subgrupos hay que ser muy cauteloso al interpretarlos, y evaluar detenidamente si el efecto es de gran magnitud, si el tamaño del grupo es grande, si responde a una hipótesis establecida previamente al inicio del estudio, si se han analizado pocos subgrupos, si se han observado los mismos resultados en otros estudios y si existe un mecanismo plausible que los explique.

Criterios de validez en el análisis de subgrupos.
• La hipótesis específica se había planteado en el diseño del estudio y es una de las pocas hipótesis que se quiere contrastar
• La magnitud del efecto es grande
• El efecto del tratamiento es altamente significativo (cuanto más bajo es el valor de la p más creíble será la diferencia)
• Los resultados son consistentes con los de otros estudios
• Existe evidencia indirecta a favor de los resultados encontrados (plausibilidad biológica)
• Más creíbles si se observa un beneficio en la población global del estudio

Victor Quirós A dijo...

2. Se debe utilizar el mismo límite de significancia (p) para interpretarlo?

El análisis de subgrupos se realiza cuando interesa evaluar los resultados de algún grupo especial de sujetos, habitualmente en función de su edad, sexo, gravedad, comorbilidad, etc. En los análisis de subgrupos, la probabilidad de encontrar un resultado significativo debido al azar aumenta con el número de análisis que se realicen. Se menciona en Internet un ejemplo de la revista Lancet, el estudio ISIS-2, donde aspirina fue muy eficaz en prevenir la muerte y el infarto. Los editores pidieron a los investigadores que incluyeran 40 análisis de subgrupos. Los investigadores, reacios a este tipo de análisis, demostraron que para los pacientes nacidos bajo los signos Géminis y Libra, el tratamiento con aspirina era perjudicial, y lo publicaron como muestra de los sesgos en la interpretación en el análisis de subgrupos. Cuando el tratamiento no demuestra los efectos esperados, el análisis de subgrupos puede ser aún más controvertido, ya que podría tratarse de “encontrar a toda costa” algún grupo de pacientes a los que el tratamiento beneficie.

El problema, desde un punto de vista estadístico, en la interpretación de los resultados de un estudio de investigación, radica que a menudo se olvida que la utilización de pruebas estadísticas formales no garantiza que los resultados observados no sean debidos única y exclusivamente a la casualidad y que éstas únicamente proporcionan una medida de la probabilidad de que eso haya sido así, probabilidad que tranquiliza si es baja, pero probabilidad pequeña no es igual a imposible, y esto es válido en general, no sólo en cuanto al análisis de subgrupos. No hay que olvidar que p=0.05 significa que hay 1 entre 20 posibilidades de estar rechazando la hipótesis nula cuando ésta es en realidad correcta. Cuando se gasta dinero en realizar un estudio de investigación y analizar los resultados, cuesta resignarse a admitir que no se ha encontrado nada significativo y se comienza con una "cacería de resultados" entre los posibles subgrupos, definibles en función de los datos basales de los pacientes incluidos en el trabajo.

Por esto es que se debe tener valores P menores, que como se dijo antes, es un criterio de validez para los análisis de subgrupos.

Victor Quirós A dijo...

3. Cuál debe ser la utilidad de los análisis de subgrupos?

Los análisis de sub-grupos son útiles para formular; no para evaluar hipótesis. Como mencione antes, son útiles para plantear nuevas hipótesis, que deberán ser comprobadas en nuevos ensayos diseñados para tal fin.

ACCORD
Según todo lo anterior, si vemos el estudio ACCORD podríamos ver si es válido el análisis de subgrupos en este caso en particular.
Primero que todo, la hipótesis específica de si el tratamiento de estatina más fibrato sirve para pacientes con TG>204 y HDL<34 no se había planteado en el diseño del estudio, lo que le da un punto en contra.
Además queda debiendo en la magnitud del efecto debido a que del total de 5581 pacientes del estudio sólo 485 pacientes tenían TG>204 y HDL<34 lo que da otro punto en contra.
También es importante el valor de p, el cual no es significativo (0.06) cuando debería ser mucho menor.
Un punto que tiene a favor es que los resultados son consistentes con los de otros estudios como FIELD, BIP, HHS, VA-HIT.
Otro punto que tiene en contra es que no se observó un beneficio en la población global del estudio lo que aumenta la posibilidad de que haya sido por azar, al igual que aumenta las posibilidades de azar el hecho de tener muchos subgrupos (23 en total).

Personalmente no quedo convencido de que el tratamiento de estatina y fibrato sea útil y disminuya el riesgo de enfermedad CV en DM2, como mencioné antes, esto se debería tomar como una hipótesis y realizar estudios específicos para tal fin.

Chen dijo...

Hola todos: este es un gran error que todos hemos cometido en algún momento. Una vez que tenemos los resultados de una investigación, sea una publicación o uno propio, siempre buscamos en qué grupo de pacientes puede ser que el efecto sea mayor o menor. Con mucha más razón si el resultado global fue negativo uno tiende a justificar y buscar en qué subgrupo de pacientes puede ser que se obtenga el beneficio. Como todos lo comentaron, esto no es apropiado realizarlo en un gran número.
Algunos comentarios:
1. la importancia de que debe estar preespecificado es para saber el número de subgrupos. La diferencia con el post hoc es que podría interpretarse en este último que estamos haciendo un montón de análisis nada más para ver en cuál de todos va a dar positivo, y estadísticamente lo va a dar en alguno, como lo pusieron con el ejemplo del ISIS Victor Quirós y Luis.
2. magnitud del efecto. Como lo mencionan, realmente me interesa saber qué tanta diferencia hay entre los subgrupos, y no sólo que hubo la diferencia.
3. tamaño de la muestra. Como es en este ejemplo con el ACCORD, el subgrupo con Tg alto y HDL bajo corresponde sólo a menos del 10% e la población total. En general los subgrupos no van a a tener un n suficiente para la hipótesis que queremos probar.
4. la fórmula de dividir p/número de subgrupos a pesar de tener algunas consideraciones, es una forma práctica para uno en el análisis de un estudio clínico por lo menos discernir a cuál subgrupo le podría dar alguna importancia. En este caso, evidentemente la p para el subgrupo de dislipidemia del ACCORD si aplicamos este criterio nos va a dar no estadísticamente significativo.
Por lo tanto, cuando nos están hablando de análisis de subgrupos o post hoc hay que tomarlo con mucho cuidado, ser aún más crítico con los límites de significancia y los beneficios absolutos del tratamiento antes de implementarlo en la práctica clínica.
Por este motivo, la utilidad principal de este análisis es generar una nueva hipótesis. En este caso, se debería planear un ensayo clínico en DM-2 con terapia hipolipemiante con estatinas más fibratos en pacientes con triglicéridos altos y HDL bajo y no en toda la población de DM. Yo personalmente no estoy convencido tampoco del beneficio de la terapia combinada en estos momentos.
Saludos
Chen