lunes, 31 de enero de 2011

Significancia estadística

Hola todos: la otra parte que va muy de la mano con los resultados es la significancia estadística de estos. Ustedes han visto reportado en los estudios tanto "p" como intervalos de confianza (CI), sobre todo éste último en los estudios más nuevos.
Preguntas:
1. Cuál es la diferencia entre p e intervalo de confianza?
2. Cuál es la interpretación de estas 2 variables?
3. Cuándo alcanza la significancia estadística?
Vamos a utilizar como ejemplo para esta semana el estudio LIFT, uso de tibolona en reducción de fracturas publicado en el NEJM. Con lo que hemos visto hasta ahora, vean qué otras consideraciones hay en el diseño y resultados de este estudio, no se limiten sólo a las preguntas de esta semana.
Respuestas para el próximo domingo 6 de febrero.
Saludos
Chen

38 comentarios:

Allan dijo...

Fraklin Dawkins y Allan Ramos…
En estadística, cuando se hace una estimación de un parámetro de la población a partir de una muestra de la misma, queremos estar seguros que tal estimado sea preciso. Una interpretación del intervalo de confianza del 95% (el más usado comúnmente), sería aquel rango de valores en el cual, si repitiéramos n veces el muestreo, 95% de esas veces el valor real del promedio de la población estará en dicho rango. Un intervalo amplio indica que nuestro estimador es impreciso y un intervalo de confianza estrecho indica lo contrario. Este concepto está ligado directamente a la cantidad de personas en la muestra así como a la dispersión de los datos obtenidos: entre mayor número de sujetos y menor dispersión, más angosto será el intervalo.
En las pruebas estadísticas se utilizan pruebas matemáticas para determinar que tanta evidencia está a favor o en contra de una hipótesis. Cuando se hace un estudio clínico por ejemplo, los datos muestran tendencias que bien pueden reflejar verdaderamente lo que ocurre o bien, ser consecuencia del azar. La hipótesis nula establece que no hay diferencias entre las poblaciones a comparar, mientras que la hipótesis alternativa establece que sí hay diferencias. Pues bien, las pruebas estadísticas utilizan diferentes distribuciones de probabilidad a partir de las cuales se obtiene el valor de p. El valor de p es la probabilidad que tienen nuestros resultados de ser ciertos bajo la premisa de que la hipótesis nula sea cierta. Entre menor sea la p, menor será la probabilidad de que la hipótesis nula sea cierta. Convencionalmente, se ha escogido un valor de p = 0.05 para tener suficiente evidencia de rechazar la hipótesis nula y que solo existe un 5% de probabilidad de que nos estemos equivocando (es decir, que rechacemos la hipótesis nula cuando ésta es cierta o error tipo I o alfa). El intervalo de confianza y el valor de p se relacionan entre sí, de tal forma que si el valor hipotético de una diferencia es cero (o el de una razón es 1) y el IC del 95% no comprende al 0 (o al 1), podemos rechazar la hipótesis nula sabiendo que la p es menor al 5% aunque no sepamos su valor exacto. El valor de p es una medida tanto del tamaño del efecto buscado en la población (un promedio, una diferencia, una razón, etc) y de la precisión del mismo, por lo que, al combinar ambos factores, se puede llegar a conclusiones erróneas.
EJEMPLO de ambos conceptos los podemos encontrar en el estudio LIFT. Si observamos con cuidado la tabla 3 notamos que tanto las nuevas fracturas vertebrales como las no vertebrales, así como las tasas de cáncer de mama y colon y los eventos cerebrovasculares son estadísticamente diferentes entre ambos brazos de tratamiento, de acuerdo a los valores de p reportados. No obstante, si notamos la amplitud de los intervalos de confianza, apreciamos que éstos son bastante amplios, incluso para la reducción de cáncer de colon se menciona un IC de 0.1 a 0.96 !, lo cual ejemplifica a perfección como el valor de la p, al estar influenciado por la diferencia del tratamiento así como por la cantidad de sujetos, nos induce a conclusiones no tan ciertas ya que no existe una clara precisión del valor real de tal reducción. ¿Será que la muestra es pequeña o que existe mucha dispersión de los datos?.

Allan dijo...

Entrando un poco más al análisis del estudio, queremos hacer algunas acotaciones al respecto. Si bien es cierto no estamos acostumbrados a leer la parte de Métodos, es quizá, junto con los resultados, la parte más importante del estudio pues es ahí donde se encuentra la “letra menuda”. En este apartado nos detendremos para hacer dos críticas, por un lado, uno de los principales retos de los autores es lograr la mínima o nula injerencia de terceros (“sponsor”) sobre los resultados, que puedan poner en entredicho las conclusiones del estudio. En este caso, el sponsor fue quien colectó los datos y estos mismo fueron analizados por un estadístico contratado por ellos; aún cuando en muchos estudios se habla no solo de un doble ciego sino también de un “triple ciego”, donde se ciega al que recolecta y analiza los datos. Por otro lado en el ”interim analysis” hecho por el DMC (Data Monitoring Committe) en el 2004, se señala que el “sponsor”decide no terminar aún el estudio por el tema de SEGURIDAD y se excluyen del grupo activo 496 pacientes que representan un 22% de pacientes del brazo de tibolona. Esto es relevante a la hora del anális estadístico. Según se indica, se hizo un análisis por intención de tratar (ITT), el cual habría que ver si es un Real ITT donde se analizan todos los pacientes randomizados o un “PseudoIT” que analiza solo los pacientes para los que se tienen los datos del outcome primario. La duda que surge es, si a la hora de analizar los datos aún cuando estas pacientes salieron del estudio, si se les dió seguimiento para recolectar el número de eventos, o si bien se incluyeron en el análisis estadístico sólo como parte del N=2267, sin incluise sus respectivos eventos; obviamente esto subestima el Hazard en este grupo: (H=eventos/Nxtiempo). El problema con este punto de perder pacientes y más aún el de detener el estudio mucho antes de lo preestablecido, aún por razones de seguridad, es que los resultados deben ser interpretados con cautela pues el estudio pierde poder y validez interna.

Allan dijo...

Aún cuando se alcanzó la diferencia prevista en el objetivo primario para alcanzar el poder estadístico deseado (ya que hubo una reducción mayor del 40% en el riesgo de nuevas fracturas vertebrales durante 3 años), es conveniente recalcar que lo previsto era determinar la seguridad del fármaco en otros puntos clínicos (incidencia de cáncer y eventos CV) después de 5 años de tratamiento; así, al detenerse el estudio previamente, el riesgo de encontrar falsos negativos para estos puntos del estudio aumenta, conforme disminuye el poder estadístico.
Sin embargo un punto importante a rescatar es que se especifican las reglas estadísticas para terminar el ensayo, cosa que pocos estudios truncados reportan con anticipación.
Al analizar los datos, observamos en la tabla 2 el “outcome” Fx vertebrales, en donde se puede ejemplificar la relevancia de prestar mayor atención al IC que al valor de p, ya que aunque éste valor es altamente significativo, el intervalo de confianza para la diferencia en los hazard es bastante amplio, lo que nos sugiere poca precisión en los datos.
En cuanto a la incidencia de stroke, se nota como los conceptos de hazard ratio y la diferencia de estos son conceptos distintos. Así, el HR muestra un aumento de 119% en la tasa de “strokes” en el grupo tratado con tibolona con un IC que no involucra el 1 (lo que sugiere que la diferencia entre ambos grupos es estadísticamente significativa, como lo indica la p<0.001), mientras que el IC del rate diference incluye al cero, sugiriendo no diferencia del efecto en ambos brazos (aunque la tendencia evidente es al aumento de eventos cerebrovasculares) Esta inconsistencia en lo expuesto anteriormente, nos debe llevar a reflexionar que, según el parámetro utilizado, así va ser el valor del estadístico p. Y acá aplicable el concepto de “Relevancia o Significancia Clínica”, aún cunado exista o no significancia estadística.
Finalmene, un breve comentario acerca de la curva del Cumulative Incidence de Nonvertebral Fractures, Figure 1B, en el cual se utiliza el hazard derivado del Modelo de Cox: Cox Proportional Hazard Model, que asume que el hazard, en ambos grupos se mantiene constante a lo largo de todo el período de seguimiento; con lo que las curvas siempre deben ir paralelas y nunca cruzarse, de lo contrario se produce una violación del modelo y la interpretación de la misma puede conducir a error. En la Fig 1B, se ve claramente que las curvas vienen “pegadas”desde el principio hasta los 20 meses aprox; esto viola el principio de proporcionalidad de Hazards por lo que este gráfico no es interpretable.

Abner dijo...

Marco Teórico:

Significancia estadística

En la elaboración de un estudio se parte de una hipótesis de investigación o hipótesis alternativa y de una hipótesis nula. La hipótesis alternativa es la que afirma que existen diferencias entre 2 variables. La hipótesis nula define que no existen diferencias entre las dos variables.

El error tipo I consiste en falsamente rechazar la hipótesis nula y aceptar la hipótesis alternativa, a pesar de que no existan diferencias entre las dos variables. La probabilidad de cometer un error tipo I se define como α (alpha). En las Ciencias Sociales generalmente se acepta un valor de α de 0.05, es decir una probabilidad de un 5% de cometer un error tipo I. En el campo de la Salud Pública, muchas veces se prefiere un valor de α de 0.01, con el objetivo de que la probabilidad de cometer un error tipo I sea de tan sólo un 1%.

El error tipo II consiste en falsamente rechazar la hipótesis alternativa y aceptar la hipótesis nula. La probabilidad de cometer un error tipo II se define como β (beta).

Las medidas de significancia estadística permiten determinar si los resultados obtenidos en un estudio se deben al azar. La mayoría de investigadores aceptan que un resultado es estadísticamente significativo, si la probabilidad de que los resultados se deban al azar es menor a un 5%. O visto de otra manera: si hay más de un 95% de probabilidad de que los resultados no se deban al azar.

El origen del concepto de probabilidad estadística o valor de P deriva de Sir Ronald A. Fischer quien en 1925 sugirió el uso de un instrumento que permitiera distinguir entre significancia y no-significancia. Él arbitrariamente definió el valor de P en 0.05. P se refiere a la probabilidad de que un hallazgo se deba al azar.

Una P inferior a 0.05 significa que la probabilidad de que los resultados obtenidos se deban al azar es menor a un 5%.

A pesar de su uso generalizado en varios estudios clínicos, el uso de la P posee varias limitaciones. Por ejemplo, la P no toma en cuenta la magnitud ni la significancia clínica de un efecto observado. Por ejemplo, un efecto pequeño en un estudio con una muestra grande de sujetos puede generar el mismo valor de P que un estudio con un efecto grande en una pequeña muestra de sujetos.

El uso de los intervalos de confianza puede ayudar a superar las limitaciones en la interpretación derivadas del uso de la P. Tanto la P como los intervalos de confianza constituyen medidas de significancia estadística, las cuales, a su vez, son recíprocas.

Un valor de P de 0.05 traduce lo mismo que un intervalo de confianza del 95% que no incluye el cero (0). La ventaja de los intervalos de confianza es que dan una idea de la magnitud del efecto.

Un intervalo de confianza es el estimado de un intervalo del parámetro de una población y se utiliza para indicar la confiabilidad de un parámetro. Es un intervalo que se calcula a partir de resultados observados, que con frecuencia incluye el parámetro de interés. La frecuencia con la que el intervalo observado contiene el parámetro se define como el nivel de confianza o coeficiente de confianza.

Un intervalo de confianza del 95% es un rango de valores del cual se tiene una certeza del 95% de que contiene el verdadero promedio de la población de estudio.
Entre más amplio sea un intervalo de confianza, menos preciso es el resultado.

La precisión depende del tamaño de la muestra. Entre mayor sea el tamaño de la muestra, menor será el intervalo de confianza, y mejor el resultado.

Un intervalo de confianza del 90% es más estrecho que un intervalo de confianza del 99%.

Si el intervalo de confianza incluye el valor de cero (0), significa que no hay diferencia en los resultados obtenidos (Journal of Family Practice, Dec, 2003 by Goutham Rao, 2008).

Abner dijo...

Por otro lado existen medidas estadísticas que evalúan el tamaño del efecto observado. Como ejemplo de lo anterior se incluyen: odds ratio, relación de riesgo, diferencia de riesgo y reducción de riesgo relativo.

Es muy importante tomar en cuenta que un resultado puede ser estadísticamente significativo (por haber incluido una gran muestra de sujetos) sin llegar a ser clínicamente significativo (por tratarse de una diferencia de pequeña magnitud entre los grupos).

A pesar de que no existe un consenso sobre estándares de eficacia, la mayoría de definiciones sobre significancia clínica incluyen:
1. Los pacientes tratados con la intervención presentan una mejoría en los puntajes de cambio que es estadísticamente confiable.
2. Los pacientes tratados son empíricamente indistinguibles de una población normal.
3. Se producen cambios de al menos una desviación estándar.

El método más frecuentemente utilizado para evaluar la confiabilidad de los puntajes de cambio es el método de Jacobson-Truax, en combinación con puntos de corte clínicos.

Utilizando éste método, se considera que es poco probable que el cambio se deba a error de medición si el índice de cambio confiable es mayor de 1.96. Por lo tanto, si el puntaje de un paciente es >1.96, se puede afirmar que su puntaje ha mejorado, y que la intervención es clínicamente significativa (PEDIATRICS Volume 119, Number 3, March 2007).

En relación con las preguntas:

1. La P y el intervalo de confianza constituyen medidas de significancia estadística. Ambas determinan si las diferencias entre 2 grupos se deben al azar. Una de las principales diferencias es que la P, a diferencia del intervalo de confianza, no da información sobre la magnitud de la diferencia entre los grupos.

2. La interpretación de estas variables depende del valor que se le asigne a cada una de ellas. Generalmente se utilizan: P<0.05 e intervalo de confianza del 95%. Una P inferior a 0.05 significa que la probabilidad de que las diferencias encontradas entre los grupos se deba al azar es inferior al 5%. Si la P es mayor a 0.05, las diferencias (independientemente de la magnitud de las mismas) encontradas entre los grupos no son estadísticamente significativas.

En el caso del intervalo de confianza del 95%, si el intervalo contiene el valor de cero (0), quiere decir que las diferencias encontradas entre los grupos no son estadísticamente significativas. Cuando el intervalo no contiene el valor de cero, las diferencias son estadísticamente significativas y la magnitud del efecto está representada por los valores numéricos absolutos del intervalo. Como ejemplo: un intervalo de confianza del 95% de 7.7-10.6 significa que hay una probabilidad del 95% de que el promedio del valor se encuentre en ése rango.

3. Significancia estadística:
Depende del valor que se asigne a cada una de las medidas. Si se elige 0.05 para P y 95% para intervalo de confianza:
Una P<0.05 se considera estadísticamente significativa.
Un intervalo de confianza del 95% que no contenga el valor de cero se considera estadísticamente significativo.

Abner dijo...

En el caso del estudio LIFT:

Fue un estudio clínico aleatorizado placebo-controlado de eficacia, evaluando la eficacia y seguridad de tibolona en un grupo de mujeres postmenopáusicas.

En los criterios de inclusión se incluyen: mujeres de 60-85 años con prevención primaria (puntajes T<-2.5 en cadera o columna lumbar) o secundaria de fracturas osteoporóticas (evidencia radiológica de fractura vertebral con puntaje T de columna o cadera<-2.0).

En los cirterios de exclusión se excluyen: casos de muy elevado riesgo de fractura osteoporótica (evidencia de >2 fracturas vertebrales, evidencia clínica de fractura vertebral previa o puntaje T de columna o cadera<-4.0), mujeres con elevada mortalidad (cualquier cáncer, excepto CA de la piel no melanoma, cuya mortalidad es menor), sospecha o evidencia de CA de mama o hiperplasia endometrial y uso de fármacos que interfieran con la acción de la tibolona (SERMS, bisfosfonatos).

Al igual que en otros estudios evaluando terapias en osteoporosis, tanto el grupo activo como el grupo placebo recibieron calcio y vitamina D.

El estudio tuvo un poder de un 90% para detectar una reducción en el riesgo de nuevas fracturas vertebrales en un 40% a los 3 años.

En el grupo de tibolona se redujo el riesgo absoluto de fractura vertebral en 8.6 por cada 1000 personas-año (IC 95% de 4.4-12.9) y el riesgo relativo en un 45% (IC 95% de 26-59). Los intervalos de confianza reflejan que estas diferencias fueron estadísticamente sginficativas y que la magnitud de la reducción fue con considerable. Si se hubiera incluido una muestra más grande de mujeres se hubiera logrado reducir el rango de valores de los intervalos de confianza.

El riesgo absoluto de CA de mama invasivo se redujo en 1.9 por cada 100o personas-año (IC 95% de 0.5-3.4). El intervalo de confianza refleja que la magnitud del efecto fue pequeño.

El riesgo absoluto de AVC en el grupo de tibolona fue de 2.3 por cada 1000 personas-año (IC 95% de 04-4.2). Lo anterior significa que el mayor riesgo de AVC en las mujeres recibiendo tibolona fue estadísticamente significativo y que existe un 95% de probabilidad de que el promedio del riesgo real se encuentre entre 0.4 y 4.2 por cada 1000 personas-año.

El Hazard Ratio (HR) para AVC de tibolona vs placebo fue de 2.19 (IC 95% 1.14-4.23). En este caso, con un HR mayor de 1, se sabe que el riesgo de AVC con tibolona se encuentra elevado vs placebo, y, tomando en cuenta el intervalo de confianza, que existe una probabilidad del 95% que el HR para AVC con tibolona se encuentre entre 1.14 y 4.23.

Saludos a todos!!

Paula Wang Z. dijo...

Diferencia e interpretación de valor de p e intervalo de confianza:

Valor de P: Representa un índice de credibilidad de un resultado. A mayor valor de P, menor es la credibilidad de que la relación que se observa entre las variables en la muestra es un indicador confiable de la relación entre las respectivas variables en la población. El valor de P representa la probabilidad de error que se encuentra en aceptar el resultado observado como válido o como representativo de la población. Por ejemplo, un valor de P de 0.06 indica que hay un 6% de probabilidad de que la relación encontrada entre las variables del estudio sea puramente casualidad. Para este valor es importante tomar en cuenta la magnitud de la diferencia que queremos probar y el tamaño de la muestra que se tiene.

Intervalo de confianza: Es la expresión de lo que la variabilidad por azar puede hacerlo oscilar en una población real (muestra los límites que con una cierta seguridad contendrán ese verdadero valor). El interval de confianza da un rango de valores estimados los cuales generalmente incluyen un parámetro poblacional desconocido. Dicho rango se calcula de un conjunto de datos dados (Valerie J. Easton and John H. McColl's Statistics Glossary v1.1). El parámetro en cuestión se representa por θ, y frecuentemente este parámetro es el promedio de población el cual se representa por μ, que es estimado por el promedio de la muestra χ . El nivel C del intervalo de confianza da la probabilidad de que el intervalo producido por el método empleado incluya el valor real del parámetro θ.
Generalmente los intervalos de confianza se calculan con un 95% de seguridad, dejando solo una probabilidad de 5% (0.05) de que el verdadero valor del odds ratio no se encuentre en ese intervalo; por lo que, el IC nos proporciona la misma información cualitativa que el valor de la p.

Cuándo alcanza la significancia estadística?
El valor de P que indica que la relación es estadísticamente significativa ha sido aceptada por consenso y de forma arbitraria como un valor de 0,05. Esto significa que hay una seguridad del 95% de que la relación observada no es por azar. Si se desea trabajar con un margen de seguridad mayor, por ejemplo del 99%, se llevaría a un valor de p inferior a 0,01 para que sea estadísticamente significativo.

El intervalo de confianza es estadísticamente significativo cuando los límites no contienen al 1, puesto que el valor de placebo o del control se establece como 1. Si el IC del 95% se encuentra entre 0.1-0.5 (P<0.05), nos diría que hay diferencia estadísticamente significativa en respecto al grupo control, puesto que este IC no contiene el 1; pero si los límites son 0.06-1.2, se dice que no hay significancia estadística puesto que el 1 cae dentro de este intervalo, por lo que el tratamiento en cuestión no tiene diferencia en cuanto a ese resultado con respecto al grupo control.

Paula Wang Z. dijo...
Este comentario ha sido eliminado por el autor.
HERNAN BOLANOS RODRIGUEZ dijo...

Saludos a todos

Desarrollar cualquier estudio clínico tiene como objetivo poner de manifiesto la existencia de asociación entre variables. Sin embargo, esta asociación
puede ser real o ficticia, ya sea producto del azar, la existencia de sesgos, presencia de confundentes,
etc.
Es quizás por esto que los clínicos, nos basamos habitualmente en la “significación estadística” para nuestra toma de decisiones. Este artículo, intenta poner una nota de alerta al respecto en relación a que, si bien es cierto que es una herramienta
útil, no necesariamente va ligada a la relevancia
clínica del fenómeno en estudio; esto se debe a que la “significación estadística” puede no resolver la
incertidumbre clínica ante un escenario puntual,
dado que es un concepto exclusivamente matemático
y no de garantía de calidad.
El concepto “significación estadística” se relaciona
con la necesidad de “probar hipótesis”, situación
a la cual los clínicos no estamos habituados y,
quizás, sea ésta una de las razones por las que
confiamos tanto en el concepto de “significación
estadística” y nos dejamos llevar por el “valor de p”.
Antes de valorar el “valor de p”, es relevante
tener en cuenta que este concepto depende de dos
elementos esenciales: la magnitud de la diferencia
que queremos probar y el tamaño de la muestra; si
estos elementos no están adecuadamente considerados
en el estudio permitirán la generación de
resultados espurios, que pueden finalmente llevar a
la toma incorrecta de decisiones, ya sea por errores
de tipo I ó II.
Existen formas más apropiadas de representar
los resultados en investigación clínica como la razón
de odds, el riesgo relativo, el número necesario
de pacientes a tratar para reducir un evento, entre
otras, que se asocian a la significación clínica y
permiten dilucidar de mejor forma la incertidumbre
existente frente a una situación clínica puntual.
Desarrollar cualquier estudio clínico tiene
como objetivo poner de manifiesto la existencia o
no de asociación entre diversas variables. La asociación
encontrada puede ser real; sin embargo,
con mayor frecuencia de la que uno se imagina
ésta es producto del azar, de la existencia de
sesgos, de la presencia de variables de confusión
o de la variabilidad biológica del fenómeno en estudio.
Para dilucidar este problema existen una serie
de pasos fundamentales al momento de diseñar y
conducir una investigación; y, posteriormente, al
momento del análisis de los datos, que es donde
aparece recién la utilización de herramientas estadísticas
tanto de carácter descriptivo como analítico. Y
es la utilización de estas últimas la que permite
generalizar resultados, o inferir los resultados obtenidos
de la muestra estudiada a la población blanco
que la generó.

HERNAN BOLANOS RODRIGUEZ dijo...

Por todo lo anteriormente expuesto es que resulta
fundamental el cuidadoso diseño del estudio,
tomar en consideración los criterios de selección y
la estimación del tamaño de la muestra, puesto que
mientras más grande es el tamaño de la muestra,
mayor es la precisión; y por ende, la variabilidad
secundaria al azar se reduce. De todos modos, el
rol que siempre jugará el azar debe tenerse en
cuenta, evaluarse y medirse, por ejemplo considerando
los intervalos de confianza que nos permiten
conocer la precisión de la estimación dentro de un
margen de error previamente establecido2,3.
Es por todo esto que, desde la perspectiva
clínica, el concepto de “significación estadística” no
es relevante, pues no resuelve la incertidumbre. Se
debe tener en cuenta que estamos hablando de un
concepto matemático, por lo que una asociación
estadísticamente significativa puede no ser clínicamente
relevante; una asociación estadísticamente
significativa puede no ser causal; y una asociación
estadísticamente no significativa puede deberse a
un problema de tamaño de muestra insuficiente. Es
decir, podemos encontrar asociaciones “estadísticamente
significativas y conceptualmente espurias” por ello, hay que tener siempre presente que
el término “estadísticamente significativo” no es
"garantía de calidad".

HERNAN BOLANOS RODRIGUEZ dijo...

El concepto “significación estadística” se relaciona con la necesidad de “probar hipótesis”. Este proceso se realiza utilizando “pruebas de hipótesis”, las que permiten cuantificar hasta que punto la variabilidad de la muestra en estudio es responsable
de los resultados obtenidos en el estudio. Es así como H0 o hipótesis nula, representa la afirmación
de que no hay asociación entre las dos variables; y Ha, o hipótesis alternativa, afirma que existe asociación entre las dos variables. Entonces, la estadística nos permite decidir sobre que hipótesis debemos elegir, lo que será con el nivel de seguridad que previamente se haya establecido por el equipo
de investigación (habitualmente en clínica es 95%).
Las pruebas estadísticas funcionan entonces de la siguiente forma: se verifica la magnitud de la
diferencia existente entre los grupos a comparar (A
y B). Si esta magnitud es mayor que un error estándar definido multiplicado por una seguridad
definida, concluimos que la diferencia entre A y B
es significativa; por ende, “se rechaza la hipótesis
nula” y se “acepta la hipótesis alternativa”.
El “valor de p” que indica que la asociación es estadísticamente significativa ha sido arbitrariamente
aceptado por consenso; y, en clínica, se admite 0,05. Dicho en otros términos, esto representa
una seguridad del 95% que la asociación que estamos estudiando no sea por el azar; por lo que
si queremos trabajar con un margen de seguridad de 99%, éste lleva implícito un valor de p inferior a
0,01.
Pero ¿qué significa que el “valor de p" sea superior a 0,05? Entonces hemos de plantearnos
que los resultados pueden estar influidos por el azar y entonces no podemos rechazar H0, que avala que las variables no están asociadas.
Sin embargo, es relevante tener en cuenta que
el concepto de “significación estadística” depende de dos elementos esenciales: la magnitud de la diferencia que queremos probar y el tamaño de la
muestra. Con respecto a la magnitud de la diferencia, es importante comprender que a mayor diferencia
entre las variables en estudio, más fácil será poder demostrar que la diferencia es significativa;
al revés, si la diferencia es pequeña las posibilidades
de detectar diferencias se minimizan. Ahora, respecto del tamaño de la muestra, es fácil comprender que mientras mayor sea éste, más fácil será detectar diferencias entre las variables en estudio; entonces, cuando las diferencias son pequeñas
se requiere de muestras de gran tamaño; al revés, cuando las diferencias son grandes se necesita
de muestras pequeñas para conducir el estudio.
Así, el tamaño de la muestra afecta la significación estadística a través del error estándar que se
hace más pequeño cuantos más pacientes tenga el estudio. En resumen, cualquier diferencia entre las variables en estudio puede ser “estadísticamente
significativa” si se dispone del número suficiente de
pacientes.

HERNAN BOLANOS RODRIGUEZ dijo...

LIFT:
La tibolona como todos sabemos tiene efectos estrogenicos, progestogenicos, y androgénicos. Aunque la tibolona previene la perdida ósea, los efectos en fracturas, cáncer de mama, y enfermedad cardiovascular no son bien conocidos.
Estudio randomizado a doble ciego placebo controlado, se examinó el efecto de 1.25mg de tibolona diarios sobre el riesgo de fracturas vertebrales luego de tres años y planea abordar el riesgo de cáncer de mama, enfermedad cardiovascular y cáncer de endometrio luego de cinco años.
Se asignaron 4538 mujeres de edades entre 60 y 85 años con una DMO de T score de -2.5 o menos en la cadera o de -2.0 o menos en la columna y con evidencia radiológica de fractura, a tomar una dosis diaria de tibolona versus placebo. Estudios de rayos X anuales se realizaron para abordar las fracturas vertebrales.
Durante una media de 34 meses de tratamiento, el grupo de la tibolona, comparado con el de placebo, tuvo una disminución del riesgo de fracturas vertebrales, con 70 casos versus 126 casos por 1000 personas-años(HR, 0.55; 95% IC, 0.41 a 0.74; P,0.001), y una disminución del riesgo de fracturas no vertebrales, con 122 casos versus 166 casos por 1000 persona-años(HR, 0.74; 95% IC, 0.58 a 0.93; P,0.01). EL grupo de tibolona tuvo además una disminución en el riesgo de cáncer de mama invasivo(HR, 0.31; 95% IC, 0.10 a 0.96; P,0.04). Sin embargo, el grupo de tibolona tuvo un alto riesgo de enfermedad cerebrovascular(HR, 2.19; 95% IC, 1.14 a 4.23; P,0.02), por lo cual el estudio se suspendió en Febrero del 2006. No hubo diferencias significativas en el riesgo de enfermedad arterial coronaria o tromboembolismo venoso entre los dos grupos.

Paula Wang Z. dijo...

Con respecto al estudio LIFT:
En este estudio se incluyeron n=4538 mujeres en edades entre los 60 y 85 años, con T-score de -2.5 o menos en cadera o columa, o -2.0 o menos con fractura evidente por estudios radiológicos, aleatorizados a Tibolona 1.25 mg vrs placebo. Se dio un seguimiento a 34 meses el cual finalizó en febrero del 2006 por aumento en riesgo de eventos cerebrovasculares. Como punto final primario se estudió la reducción del riesgo de fracturas vertebrales y como puntos secundarios la disminución de riesgo de fracturas no vertebrales, cáncer de mama, trombosis venosa profunda y enfermedad cardiovascular en mujeres mayores portadora de osteoporosis.

Como resultados se obtuvo que para el punto primario de reducción de riesgo de fracturas vertebrales, hay un IC del 95% de 0.41-0.74 con P<0.001. Esto quiere decir que es una reducción de riesgo significativa demostrada en tanto que el valor de 1 no se encuentra dentro de estos límites del IC y que la P es <0.05, que sería el equivalente al IC del 95%. Con los parámetros que vimos la semana pasada, para este punto primario el riesgo absoluto con el uso de tibolona es de 3.11% y la diferencia de riesgo absoluto vendría a ser de tan solo un 2,47%.

Con respecto a los puntos secundarios, hay significancia estadística con respecto a reducción de riesgo de fracturas no vertebrales y cáncer de mama, pero no hubo significancia estadística en cuanto a reducción de TVP o eventos cardiovasculares, mostrando IC 95% de 0.19-1.69 y 0.77-2.45 con P de 0.31 y 0.28 respectivamente. Estos valores de IC contienen entre sus límites el valor de 1, mostrando que la relación no muestra diferencia con respecto a la encontrada con el grupo control y que además para TVP (IC 0.19-1.69) el resultado muestra una reducción del riesgo que va desde un 81% hasta un aumento del 69% y para eventos cardiovasculares un resultado que va desde una reducción de riesgo de 33% hasta un aumento del 145%. Igualmente, si vemos el valor de P, estos no son menores de 0.05, el cual se necesitaría para decir que es significativo tomando una seguridad del 95%. Por otro lado, se observó un aumento en la incidencia de eventos cerebrovasculares con IC de 1.14-4.23 (muestra un aumento en riesgo que va de 14% hasta 323%) y P=0.02 (por lo cual es significativo por ser un valor <0.05).
Si considero que estos valores son de suma importancia al momento de analizar un estudio y ver su significancia, pero sin perder de vista siempre los riesgos absolutos y diferencia de RA, tamaño de la muestra y demás parámetros que en conjunto nos dicen que tan significativo son los resultados en la práctica clínica. Hay que recordar que un resultado que es estadísticamente significativo no siempre va a tener significancia clínica.

Saludos y a seguir estudiando para el examen!!!

Marcela dijo...

Hola a todos:
El intervalo de confianza describe la variabilidad entre la medida obtenida en un estudio y la medida real de la población (el valor real). Corresponde a un rango de valores, cuya distribución es normal y en el cual se encuentra, con alta probabilidad, el valor real de una determinada variable. Esta alta probabilidad se ha establecido por consenso en 95%. Así, un intervalo de confianza de 95% nos indica que dentro del rango dado se encuentra el valor real de un parámetro con 95% de certeza
El intervalo de confianza es una medida de precisión que permite al clínico evaluar 2 aspectos de un resultado (estimador puntual):
1. Si existe diferencia estadística significativa.
2. Si tal diferencia es relevante para recomendarla a determinados paciente (relevancia clínica).
Para analizar si existe o no diferencia estadística significativa debemos observar los extremos del IC. Independiente si el estimador puntual muestra beneficio o daño, debemos verificar si alguno de los extremos del IC pasa sobre la línea del no efecto. Si es así, existe la posibilidad de que el valor real corresponda al no efecto o incluso tenga un efecto opuesto al esperado. En este caso no existiría diferencia estadísticamente significativa entre aplicar o no la intervención.
Cuando un estudio demuestra un efecto con significación estadística (es decir el extremo del IC no cruza ni toca la línea del no efecto), el clínico debe definir cuál es el beneficio mínimo necesario para recomendar la terapia, lo que llamaremos umbral.
Así, para evaluar beneficio clínico, primero debemos establecer un umbral mínimo de beneficio, el que depende del tipo de evento a prevenir o favorecer los efectos adversos, costos, etc. de la nueva droga, y luego observar el beneficio mínimo probable que muestra el estudio, que corresponde al extremo del IC más cercano a la línea del no efecto. Si el extremo del IC no sobrepasa el umbral se asume que el beneficio mínimo probable es suficiente para recomendar la nueva terapia.

Marcela dijo...

Existe la posibilidad que cierto fármaco o acción en estudio hiciese daño (RRA negativo). El proceso es similar al anterior, estableciendo un umbral máximo de daño tolerable, y observando el extremo del IC que más se acerca a la línea del no efecto. Si la nueva droga o intervención genera más daño con una diferencia estadísticamente significativa, debemos observar si el extremo del IC sobrepasa ese umbral. Si no lo hace se asume que el daño mínimo probable es más alto que lo tolerable, por lo tanto se está en condiciones de rechazar la nueva terapia

Al comparar dos grupos en un estudio podemos demostrar que no existe diferencia entre ambos (hipótesis nula) o que sí la hay (hipótesis alternativa). El valor P es un test de hipótesis que nos ayuda a afirmar con cierto nivel de seguridad (por consenso se usa 95%, que se expresa como P <0,05) que una de las hipótesis es la correcta.
El valor P representa la probabilidad que una diferencia observada entre 2 grupos sea sólo debida al azar, es decir, la probabilidad que la hipótesis nula sea verdadera a pesar de observar diferencia en un estudio. Como toda probabilidad, puede tener valores desde 0 a 1. Valores más cercanos a 1 indican que existe una alta probabilidad que las diferencias observadas sean sólo por azar, es decir, apoya la hipótesis nula. En cambio, valores más cercanos a 0 apoyan la hipótesis alternativa.
El valor P se correlaciona en forma muy estrecha con el intervalo de confianza, ya que si uno muestra diferencia estadística significativa el otro también lo hace, y viceversa. Sin embargo, el valor P, a diferencia del IC, no nos entrega información respecto al rango en el que se encuentra la magnitud del efecto de un determinado tratamiento (valor real), por lo que sólo nos habla de diferencias estadísticas significativas, sin permitirnos evaluar si esta diferencia es relevante para el paciente. Por ejemplo, un resultado significativo (P <0,05) podría incluir diferencias clínicamente irrelevantes, y resultados no significativos (P >0,05) podrían esconder una diferencia clínicamente importante entre 2 tratamientos si el estudio no incluye un tamaño muestral adecuado (un estudio con bajo poder puede no mostrar una diferencia que realmente sí existe).
De esta forma, aunque el valor P mide la fuerza de una asociación, siempre es útil el intervalo de confianza para complementar la evaluación de la magnitud del efecto de una intervención y poder realizar una interpretación adecuada de los resultados de un estudio.
Al leer un estudio es muy importante interpretar los resultados en forma correcta. Esto supone comprender el significado del estimador puntual y de sus medidas de precisión, lo que permite extrapolar los datos a la población de interés. Tanto el análisis de un intervalo de confianza como el de un valor P nos permiten determinar diferencias estadísticas significativas, sin embargo sólo el IC nos permite evaluar el rango de valores donde posiblemente se encuentra el valor real, y por lo tanto, permite realizar una mejor interpretación y aplicación clínica de los resultados.

Marcela dijo...

Los autores señalan que la tibolona es un regulador sintético selectivo de la actividad estrogénica tisular, con efectos estrogénicos, gestagénicos y androgénicos. Aunque se conoce su acción en la prevención de la osteoporosis, sus efectos sobre las fracturas, el cáncer de mama y las enfermedades cardiovasculares no están tan claros.
En el ensayo LIFT, 4.538 mujeres con edades comprendidas entre los 60 y los 85 años fueron aleatorizadas para recibir 1,25 mg diarios de tibolona o un placebo. Todas tenían una puntuación T de densidad mineral ósea de -2,5 ó menor en la cadera o la columna, o una puntuación T de -2 ó menor con evidencia radiológica de una fractura vertebral. Se utilizaron radiografías anuales de la columna para determinar la presencia de fracturas vertebrales, el criterio de valoración principal del estudio, y las tasas de eventos cardiovasculares y de cáncer fueron adjudicadas por grupos de expertos.
El estudio fue detenido en febrero de 2006 por recomendación de los datos y del comité de vigilancia de seguridad cuando el elevado riesgo de ictus se hizo patente.
Durante una media de 34 meses de tratamiento, las mujeres que tomaron tibolona presentaron un riesgo menor de fractura vertebral y no vertebral, especialmente aquellas que ya habían sufrido fracturas, así como un riesgo menor de cáncer de mama y de colon. Sin embargo, las mujeres con tibolona también presentaron una elevación del riesgo absoluto de ictus de 2,3 por 1.000 personas-año y más del doble en el riesgo relativo de ictus.
Durante una mediana de 34 meses de tratamiento, el grupo de tibolona comparado con el de placebo, tuvo una disminución en el riesgo de fractura vertebral, con 70 frente a 126 casos por 1000 personas-año (riesgo relativo 0.55, IC 95% 0.41 a 0.74; P < 0.001) y un menor riesgo de fractura no vertebral, con 122 vs. 166 casos por 1000 personas-año (riesgo relativo 0.74, IC 95% 0.58 a 0,93; P = 0.01). Con base a los intervalos de confianza se puede apreciar que estas diferencias fueron estadísticamente significativas. El grupo de tibolona también tuvo menor riesgo de cáncer invasivo de mama (riesgo relativo 0.32, IC 95% 0.13 a 0.80; P = 0.02), el intervalo de confianza refleja que la magnitud del efecto no fue mayor. En cáncer de colon (riesgo relativo 0.31, IC 95% 0.10 a 0.96; P = 0.04).
Sin embargo el grupo de tibolona tuvo incremento en el riesgo de accidente cerebrovascular (riesgo relativo 2.19, IC 95% 1.14 a 4.23; P = 0.02), razón por la cual se suspendió el estudio en febrero de 2006. El Hazard ratio para ECV de tibolona vs placebo es de 2.19, con lo cual se puede concluir que el riesgo es elevado en comparación con placebo. No hubo diferencias significativas en el riesgo de enfermedad coronaria o tromboembolismo venoso entre los grupos.

Michelle dijo...

Cuál es la diferencia entre p e intervalo de confianza? 2. Cuál es la interpretación de estas 2 variables? 3. Cuándo alcanza la significancia estadística?
En valor p es una medida de la fuerza estadística de los hallazgos en los ensayos clínicos. Su valor va de 0 a 1. Nos muestra la probabilidad de obtener un resultado si consideramos como cierta la hipótesis nula (esta es aquella que nos dice que no hay diferencia significativa entre los 2 grupos estudiados) Considero que la mejor forma de explicar este valor es a través de una ejemplo: si tenemos un valor p < 0.05 significa que hay un 5% de probabilidades de error en las conclusiones y de considerar que no hay diferencia significativa entre los 2 grupos.
Si el valor p es > 0.05 no se alcanza significancia estadística, si es ≤ 0.05 es estadísticamente significativo y si es ≤ 0.01 es altamente significativo.
Se debe tener presente que múltiples valores p en un estudio aumentan las posibilidades de obtener un valor estadísticamente significativo para un hecho que en realidad no exista. Una forma de calcular el valor p que tiene significancia estadística en estas situaciones (cuando un estudio tiene varios valores p) es dividir 0.05 / # de p. Por ejemplo si en un estudio se mencionan 5 valores diferentes de p, se debe obtener una p ≤ 0.01 para que exista significancia estadística.

Michelle dijo...

El intervalo de confianza es la escala de valores dentro de la cual es probable que el verdadero valor de un parámetro (por ejemplo el valor del riesgo relativo) se encuentre. Esta escala de valores se forma a partir de la información que se obtiene del estudio. Un intervalo de confianza de 95% o más alto se considera conveniente en el análisis de la información clínica. Es el rango en el que podemos estar 95% seguros de encontrar el verdadero efecto subyacente de tratamiento si se repitiera el estudio n cantidad de veces. El intervalo de confianza indica cual grande puede ser el efecto de un tratamiento; esto es una de las ventajas con respecto al valor p.
Del intervalo de confianza se pueden obtener 2 aspectos: si existe diferencia estadísticamente signficativa y si esta diferencia tiene relevancia clínica. Para analizar si existe o no diferencia significativa se deben evaluar los 2 extremos del intervalo de confianza. Independientemente si el estimador puntual muestra daño o beneficio, debemos observar si se pasa por la línea de no efecto o ¨línea 0 o línea 1¨, el cual correspondería al no efecto de la intervención. Si esto ocurriera no existiría diferencia estadísticamente significativa entre aplicar o no la intervención.
 

Michelle dijo...

En el estudio LIFT hay varios aspectos interesantes a analizar. Con respecto al tamaño de la muestra inicialmente se asume que en una población de 4000 mujeres el 20% tenía fractura vertebral de previo, al analizar la muestra se evidencia que la prevalencia inicial de fractura vertebral es de un 26% por lo que la muestra debio de ser de aproximadamente 5200 mujeres. Lo otro a mencionar que le resta poder al estudio es que se acortó el estudio al suspenderlo por aumento de eventos cerebrovasculares y el porcentaje de deserción debido a esto mismo.
Con respecto a los resultados se reporta una reducción de fracturas vertebrales con tibolona en un 45% (HR: 0.55; IC 95%: 0.41 - 0.74) Con este IC se evidencia que la reducción de fracturas es significativa al no cruzar el 1 y de que se puede esperar desde una reducción de un 59% hasta un 26%. La p mencionada en este rubro es de < 0.001 que como se definió tienen relevancia estadística. Si se calcula el RR el resultado es 0.56 y si se calcula el OR es 0.54; los 3 valores muy similares. Si se calcula el Riesgo absoluto se obtiene una reducción en fractura vertebral de en un 2.4% y el NNT es de 41 mujeres.
Con respecto a los eventos cerebrovasculares isquémicos o hemorrágicos se reporta un aumento del riesgo con el uso de tibolona en un 119% ( HR: 2.19; IC 95%: 1.14 - 4.23) con una p en 0.02. Con este IC se evidencia un aumento del riesgo en forma significativa ya que no pasa por el 1 y el riesgo va desde un 14% hasta un 323%. Si se calcula el riesgo absoluto para ECV este da un aumento de un 0.66% y el NNH (number needed to harm) es de 151 mujeres.
De este mismo estudio se puede tener un ejemplo de no significancia estadística: riesgo de enfermedad arterial coronaria con el uso de tibolona. El HR es de 1.37; IC 95%: 0.77 - 2.45 con una p de 0.28. El IC al pasar por el 1 hace que el resultado no sea estadísticamente significativo y como previamente se había mencionado la p > 0.05 no tiene significancia estadística.

Olger dijo...

Diferencia entre p e intervalo de confianza e interpretación de estas 2 variables (1 y 2):

-Valor P:
El proceso de aceptación o rechazo de una hipótesis lleva implícito un riesgo que se cuantifica con el valor
de la "p", que es la probabilidad de aceptar la hipótesis alternativa como cierta, cuando la cierta podría ser
la hipótesis nula.
Cuando rechazamos la Ho (hipótesis nula) y aceptamos la Ha (hipótesis alternativa) como probablemente cierta afirmando que hay una asociación, o que hay diferencia, estamos diciendo en otras palabras que es muy poco probable que el azar fuese responsable de dicha asociación.

Se rechaza la hipótesis nula si el valor P asociado al resultado observado es igual o menor que el nivel de significación establecido, convencionalmente 0,05 ó 0,01, punto que se llama potencia del contraste. Es decir, el valor P nos muestra la probabilidad de haber obtenido el resultado si suponemos que la hipótesis nula es cierta. Si el valor Pes inferior a la potencia del contraste nos indica que lo más probable es que la hipótesis nula (de partida) sea falsa. Sin embargo, también es posible que estemos ante una observación atípica, por lo que estaríamos cometiendo el error estadístico de rechazar la hipótesis nula cuando ésta es cierta basándonos en que hemos tenido la mala suerte de encontrar una observación atípica. Este tipo de errores se puede subsanar rebajando el valor p. Valores de 0,01 se utilizan en algunas investigaciones médicas, en las que cometer un error puede acarrear consecuencias más graves. También se puede tratar de subsanar dicho error aumentando el tamaño de la muestra obtenida, esto reduce la posibilidad de que el dato obtenido sea casualmente raro.
El valor de p necesario es imposible de precisar con certeza, pero la comunidad internacional ha establecido arbitrariamente que probabilidades inferiores al 5% (p<0,05) pueden ser aceptables en la mayoría de las investigaciones en salud; sin embargo, este acuerdo no puede ser absoluto, porque el valor de p deseado está condicionado por el impacto que el resultado del estudio produzca.
El valor P es un valor de probabilidad por lo que oscila entre 0 y 1. Así, se suele decir que valores altos de valor P no rechazan la Hipótesis Nula o, dicho de forma correcta, no permiten rechazar la H0. De igual manera, valores bajos de valor P rechazan la H0. Es importante recalcar que un contraste de hipótesis nula no permite aceptar una hipótesis, simplemente la rechaza o no la rechaza, es decir nos dice que es verosímil (lo que no significa obligatoriamente que sea cierta, simplemente es más probable que sea cierta a que sea falsa) o inverosímil por lo que se rechaza.
Por otra parte, existe la tendencia universal a pensar que si los valores de p son bajos (p<0,05 o p<0,01), los resultados del estudio son científicamente verdaderos, y de manera inversa: si los valores de p son altos, los resultados son un engaño. Por ello es importante recalcar que las pruebas estadísticas solamente cuantifican la probabilidad de que las diferencias encontradas en el estudio hayan aparecido por el azar, pero nunca hablan de que los resultados sean verdaderos o no o que sean más o menos importantes o trascendentes.
En consecuencia, expresiones como altamente significativo no parecen tener cabida al hablar de significación estadística, y su ponderación debe analizarse en conjunto con todas las características del estudio y a la luz del impacto de los resultados.
Además, la utilización de estos valores p (pruebas de hipótesis) tiene limitaciones como no ilustrar la magnitud ni la dirección de la diferencia encontrada. Clinical epidemiology Lippincott; 2005


-Intervalos de Confianza (IC):
Por lo anteriormente expuesto es que ha ganado popularidad el uso de los intervalos de confianza (IC) (pruebas de estimación) que no solamente informan sobre la relación estadística, sino que ilustran la magnitud y la dirección de la diferencia encontrada y la variabilidad del resultado.

Olger dijo...

Los intervalos de confianza son una medida de dispersión que representa un rango de valores dentro de los cuales se espera que esté el resultado verdadero. Los dos valores que definen el intervalo se llaman límites de confianza. Se sustentan en que si un mismo estudio se repitiera con diferentes muestras de la población, los resultados no serían idénticos, aunque sí estarían distribuidos alrededor de un valor real.

El IC estima la variación entre diferentes muestras de una misma población.
La precisión estadística del resultado se expresa con un IC del 95%. Esto quiere decir que si el estudio
fue bien hecho (control de sesgos), hay una posibilidad del 95% de que el intervalo contenga el verdadero valor. La magnitud del IC depende de la variabilidad del fenómeno que se esté estudiando y del tamaño de la muestra.
Las fórmulas que se utilizan para calcularlo son diferentes si se trata de una frecuencia o de un riesgo, pero siempre en el numerador estará la variabilidad de la medida y en el denominador el tamaño de la muestra. Entre menor la variabilidad y mayor el tamaño de la muestra (poder del estudio), más estrecho y, por lo tanto, más preciso será el IC.
Estos IC se interpretan en forma similar a la significancia estadística (valor de p), es decir, cuando los IC de dos medidas de frecuencia se superponen o cuando en un estudio de riesgo el IC incluye el uno (no efecto), se dice que la diferencia no es estadísticamente significativa. Sin embargo, a diferencia de los valores de p, los IC proporcionan información adicional porque hacen énfasis en lo importante, es decir, en la magnitud del efecto (cuantificación). Además, sirven para evaluar la dirección del resultado, que el solo valor de p no
indica. Por lo tanto son más completos y útiles que el valor de p, pues permiten caracterizar los resultados, en lugar de simplemente describirlos. Clinical epidemiology Lippincott; 2005


3. Significancia Estadistica:

Desde el punto de vista clínico la Significación Estadística no resuelve todos los interrogantes que hay que
responder ya que la asociación estadísticamente significativa puede no ser clínicamente relevante y
además la asociación estadísticamente significativa puede no ser causal. Interpretation and Uses of Medical Statistics. Oxford: 2000.

Olger dijo...

A pesar de las limitaciones de la estadística, el término "estadísticamente significativo" invade la
literatura médica y se percibe como una etiqueta que indicase "garantía de calidad". El considerar el
término significativo implica utilizar términos comparativos de dos hipótesis. Los test de hipótesis son
test de significación estadística que cuantifican hasta que punto la variabilidad de la muestra puede ser
responsable de los resultados de un estudio en particular. La Ho (hipótesis nula) representa la afirmación
de que no hay asociación entre las dos variables estudiadas y la Ha (hipótesis alternativa) afirma que hay
algún grado de relación o asociación entre las dos variables. Nuevamente la estadística nos muestra su
utilidad ya que nos ayuda a tomar la decisión de que hipótesis debemos elegir. Dicha decisión puede ser
afirmada con una seguridad que nosotros previamente decidimos. El nivel de significación se estableció
siguiendo los comentarios del estadístico Fisher que señaló "...es conveniente trazar una línea de
demarcación a partir de la cual podamos decidir" . El mecanismo de los diferentes test se realiza de la siguiente forma: en primer lugar se mira la magnitud de la diferencia que hay entre los grupos a comparar (A y B). Si esta magnitud o valor absoluto es mayor que un error estándar definido multiplicado por una seguridad definida, concluimos que la diferencia es significativa entre A y B. Por tanto aceptamos la hipótesis alternativa y rechazamos la hipótesis nula. Clínica y Bioestadística. Cad Aten Primaria 2001; 8: 191-195


El valor de "p" que indica que la asociación es estadísticamente significativa ha sido arbitrariamente seleccionado y por consenso se considera en 0.05. Una seguridad del 95% lleva implícito una p < de 0.05 y una seguridad del 99% lleva implícita una p < 0.01. Del mismo modo si la p>0.05 decimos que el azar no puede ser excluido como explicación de dicho hallazgo y no rechazamos la Ho (hipótesis nula) que afirma que ambas variables no están asociadas o correlacionadas.


El estudio LIFT asignó 4.538 mujeres entre las edades de 60 y 85 años y con una densidad mineral ósea T score de -2.5 o menos en la cadera o columna; o un T score de -2,0 o menos, y evidencia radiológica de una fractura vertebral, a recibir tibolona una vez al día (en una dosis de 1,25 mg) o placebo. Radiografías de la columna vertebral de forma anual se utilizaron para evaluar la fractura vertebral. Las tasas de eventos cardiovasculares y cáncer de mama fueron adjudicadas por paneles de expertos.

Durante una mediana de 34 meses de tratamiento, el grupo de tibolona, en comparación con el grupo de placebo, tuvieron una disminución del riesgo de fractura vertebral, con 70 casos, frente al 126 casos por 1000 personas-año (HR 0,55; Intervalo de Confianza [IC] 95%, 0,41 a 0,74, p <0,001), y un menor riesgo de fracturas no vertebrales, con 122 casos frente a 166 casos por 1000 personas-año (HR 0,74; 95% IC, 0,58 a 0,93; P = 0,01).
El grupo de tibolona también tenían un menor riesgo de cáncer de mama invasivo (HR 0,32; IC 95% , 0,13 a 0,80, p = 0,02) y cáncer de colon (HR 0.31, IC 95%, 0,10 a 0,96, p = 0,04). Sin embargo, el grupo de tibolona tuvieron un aumento riesgo de accidente cerebrovascular (HR 2,19; IC 95% , 1,14 a 4,23, p = 0,02), por lo cual el estudio fue detenido en febrero de 2006 por recomendación de los datos y del consejo de vigilancia de seguridad.

El estudio LIFT tuvo un poder estadístico de 90% para detectar una reducción de 40% en el riesgo de nuevas fracturas vertebrales a los 3 años.

Se concluyó que la Tibolona redujo el riesgo fracturas y cáncer de mama y, posiblemente de cáncer de colon, pero aumentó el riesgo de accidente cerebrovascular en mujeres mayores con osteoporosis. No hubo diferencias significativas en el riesgo de cualquiera de las enfermedad coronaria o tromboembolismo venoso entre los dos grupos.

Olger dijo...

En el punto primario del estudio, que fue la disminución del riesgo de fracturas vertebrales podemos analizar que existió una reducción del riesgo relativo en el grupo con Tibolona de 45% con significancia estadística importante ya que la p nos dice que la probabilidad de que esta asociación no sea real es menor de 1%; pero con intervalos de confianza de 95% amplios (de 0,41 a 0,74) que pudieron haber sido más estrechos con una muestra poblacional más grande. El Riesgo Absoluto (RA) con placebo para este punto es de 5.5 y el Riesgo Absoluto con Tibolona es de 3.1; por lo que la Reducción del Riesgo Absoluto fue de 2.48%.

En los puntos secundarios; la disminución de riesgo de fractura no vertebral presentó en el grupo con Tibolona una reducción del riesgo relativo de 26% que igualmente tuvo una importante significancia estadística pero con intervalos de confianza de 95% (de 0,58 a 0,93) más amplios de los deseados. La Reducción del Riesgo Absoluto fue de 1.95%.
La disminución de riesgo de cáncer de mama presentó en el grupo con Tibolona una reducción del riesgo relativo alto (68%) pero con una Reducción del Riesgo Absoluto bajo (0.57%); y con respecto a cáncer de colon sucede algo similar con RRR de 69% pero con RRA de 0.4%y además con un corte de significancia estadística que está cerca del límite permitido (p = 0,04).
En cuanto a la reducción del Riesgo Cardiovascular el número de casos por 1000 personas-año fue de 1.1 (−0.9 to 3.2) con un HR1.37 (IC 95% 0.77 to 2.45) y una p 0.28, por lo que no existe significancia estadística y además con valores de IC que contienen entre sus límites el valor de 1( la relación no muestra diferencia con respecto a la encontrada con el grupo control).
La reducción de TVP mostró un HR 0.57 (0.19 to 1.69) y p 0.31, que también implica que no existe significancia estadística con el uso de Tibolona.

El riesgo de Evento Cerebrovascular aumentó con significancia estadística (p = 0,02), con un aumento del Riesgo Relativo de 119% y siendo el riesgo absoluto con placebo de 0.57% y con Tibolona de 1.24; por lo que el aumento del Riesgo Absoluto fue de 0.67%. Por esta asociación de ECV con Tibolona fue que el estudio tuvo que detenerse y es allí donde pierde un poco de poder estadístico.
Por este motivo debemos al igual que con cualquier otro estudio que leamos tener siempre en cuenta todos los detalles con los que se realizó el estudio y los posibles factores que nos pueden llevar a errores a la hora de la interpretación de los resultados estadísticos.

Francis Ruiz Salazar dijo...

Cuando se desea probar una hipótesis se debe tomar en cuenta la posibilidad de que la diferencia encontrada en el estudio no se deba al azar. El intervalo de confianza describe la variabilidad entre la medida obtenida(muchas veces llamado estimador puntual) en un estudio y la medida real de la población. Y es que si repetimos el estudio es poco probable que vayamos a obtener el mismo resultado (estimador puntual) por lo que el desarrollo de un intervalo dentro del cual probablemente se encuentre el valor real(obtenido si se censará a toda la población) es una medición más adecuada. Los intervalos de confianza se calculan tomando en cuenta variables como el estimador puntual del estudio, el error estándar y el más importante de todos: la muestra, que tiene una relación inversamente proporcional con respecto a la amplitud del rango; por lo que entre mayor sea la muestra mas se puede cercar el intervalo de confianza y mayor validez. El intervalo e confianza permite valorar 2 situaciones: primero permite estimar si una diferencia es estadísticamente significativa y segundo permite determinar si esa diferencia tiene relevancia clínica o no. Para determinar si existe o no significancia se debe ir a buscar los intervalos; aunque el estimador puntual (resultado del estudio) sugiera beneficio si uno de los limites de ese intervalo cruza la línea del cero (es decir intervención es igual que control) se debe concluir que la intervención no dará mayor beneficio que el control; siempre y cuando la muestra sea adecuada, de lo contrario lo que se puede concluir es que no hay poder para ver un beneficio pero no es que no lo halla sino q el IC es muy amplio por falta de muestra y no puede encontrar una diferencia. El otro punto a analizar en el estudio es que puede tener una muestra adecuada, con buen IC y encontrar estadísticamente que si hay diferencia entre intervención y control, pero viene la parte de que si esa diferencia encontrada es relevante desde el punto de vista clínico o no y es aquí donde se introduce el concepto del umbral que es un valor establecido por el clínico bajo el cual, a pesar de obtener significancia estadística no se considera útil el medicamento. Por ejemplo se compara atorvastatina contra rosuvastatina en diabéticos y se encuentra que la reducción de riesgo relativo de angina es 6% a favor de rosuvastatina; el estudio tenia una adecuada población, los IC al 95% son 4 a 8 % y se logra una diferencia estadísticamente significativa. Pero se estableció el umbral de efectividad en un 10%. Aquí se ve como el umbral clínico(valor mínimo aceptado de diferencia entre los medicamentos) no es alcanzado por el IC por lo que no es considerado útil para tal indicación. Tomar en cuenta que el limite del IC a usar para esta determinación es el menor, o sea 4%. Si el IC hubiese sido 12 a 14% y la RRA 13% se hubiera alcanzado la significancia estadística y la relevancia clínica.

Francis Ruiz Salazar dijo...

El valor P es una forma de valorar una hipótesis que nos ayuda a afirmar (por consenso se usa 95%, que se expresa como P <0,05) que una de ellas es la correcta. representa la probabilidad que una diferencia observada entre 2 grupos sea sólo debida al azar. Entonces una P 0.05 nos indica que si lográsemos repetir 100 veces ese estudio solo en 5 ocasiones encontraríamos que esa diferencia encontrada sea por azar, lo cual es bastante pequeña y más bien nos afirma que en 95 de 100 veces que se repita el estudio la diferencia encontrada va a ser porque el medicamento la produjo y no porque es culpa del azar. Este valor se parece al IC en el sentido que nos da significancia estadística pero la limitante es que a diferencia del IC no nos da idea de la magnitud del efecto que proporciona, al menos clínicamente, mayor valor. Si retomamos el ejemplo de la rosuvastatina y la atorva y no se calculan los IC sino solo la p y se publica que rosu fue mejor que atorva en diabéticos con angina con una p 0.002. probablement mucha gente empieza a mandar rosu en lugar de atorva porque se llegó a significancia estadística. Pero si a ese mismo estudio le calculamos los IC y encontramos que son 0,5 a 3 con un 95% de RRR; probablemente al ver esta diferencia tan pobre en la magnitud del efecto a pesar de la significancia estadística muchos clínicos se abstendrían de cambiar atorva por rosu. Esta es la razón por la que con mayor frecuencia se calculan resultados según el IC.

Heylin dijo...

Hola!!!
Cuál es la diferencia entre P e intervalo de confianza?
El proceso de aceptación o rechazo de la hipótesis lleva implícito un riesgo que se cuantifica con el valor de “p”, que es la probabilidad de aceptar la hipótesis alternativa como cierta, cuando cierta podría ser la hipótesis nula. Por lo que el valor de “p” que indica que la asociación es estadísticamente significativa ha sido arbitrariamente seleccionada, y por consenso se considera en 0.05; donde una seguridad del 95% lleva implícito una “p” <0.05 y una seguridad del 99% lleva implícito una “p”<0.01. Cuando rechazamos la hipótesis nula o aceptamos la hipótesis alternativa como probablemente cierta afirmando que ay una asociación, o que hay diferencia, estamos diciendo en otras palabras que es muy poco probable que el azar fuese responsable de dicha asociación. Del mismo modo si la p>0.05 decimos que el azar no puede ser excluido como explicación de dicho hallazgo y no rechazamos la hipótesis nula que afirma que ambas variables no están asociadas o correlacionadas.
Entonces la “p” es una probabilidad, un continuo que va desde 0 hasta 1. Por lo que mide probabilidad no asociación, por lo que se ve beneficiada al aumentar el tamaño de la muestra por lo que depende de ella, y no depende solo de los grupos de estudio; siendo una medida más de azar y no de asociación. Es así como no tenemos idea de la magnitud ni de la precisión del efecto observado.
Por otro lado intervalo de confianza se le llama a un par de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto, determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de éxito en la estimación se representa con 1-α y se denomina nivel de confianza. En estas circunstancias α es el llamado error aleatorio o nivel de significación, esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo.
El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumentan sus posibilidades de error. Para la construcción de un determinado intervalo de confianza es necesario conocer la distribución teórica que sigue el parámetro a estimar. Es habitual que el parámetro presente una distribución normal. También pueden construirse intervalos de confianza con la desigualdad de Chebyshov.
En definitiva un intervalo de confianza al 1-α por ciento para la estimación de un parámetro poblacional θ que sigue una determinada distribución de probabilidad, es una expresión del tipo (θ1, θ2) tal que P(θ1≤θ≤θ2)= 1-α, donde P es la función de distribución de probabilidad de θ.
Por lo que de un tiempo para acá, se recomienda insistentemente el uso de los intervalos de confianza acompañados o incluso sustituyendo a los valores de la p, ya que esta herramienta sí que nos aporta información sobre la magnitud y la precisión del efecto.

Heylin dijo...

En las distribuciones normales los intervalos de confianza se construyen sumando y restando a la medida su error estándar multiplicado por dos para obtener intervalos de confianza del 95%. Normalmente los intervalos se construyen con un 95% o 99% de confianza, la amplitud de los intervalos también dependerá de la variabilidad o desviación estándar de las observaciones. Por lo que un intervalo de confianza de un 95% quiere decir que si se repite el experimento con 100 muestras distintas, en 95 veces el intervalo de confianza incluirá el verdadero parámetro poblacional que tratamos de estimar.

Cuando alcanza la significancia estadística?
Es importante tener claro el término “significativo” ya que suele generar confusión, este término quiere decir altamente improbable, pero no necesariamente tiene que ser “importante”. Por lo que la significación indica una asociación o diferencia entre variables que difícilmente se pueden explicar por el azar, aunque esta asociación no indica por sí sola causalidad.
El nivel de significación de un test, es un concepto estadístico asociado a la verificación de una hipótesis. En pocas palabras se define como la probabilidad de tomar la decisión de rechazar la hipótesis nula cuando esta es verdadera (decisión conocida como error de tipo I, “falso positivo”). La decisión se toma a menudo utilizando el valor de “p”: si el valor de “p” es inferior al nivel de significación, entonces la hipótesis nula se rechaza. Cuanto menor sea “P” más significativo será el resultado.
Por convenio o arbitrariedad, se establecido como valores de significación estadística aquellos valores de “p” por debajo de 0,05 ó 0,01. Cuando un investigador asume como nivel de significación el valor de 0,05 quiere decir que está dispuesto a asumir un riesgo de equivocarse de hasta el 5% de las veces al escoger la primera hipótesis por ejemplo, y decir que los dos grupos son diferentes cuando en realidad son iguales.
De esta manera el estudio LIFT, estudio aleatorizado, a doble ciego, controlado con placebo, en mujeres de de 60 a 85 años, que presentaron DMO con T score de -2,5 o menor en cadera y columna, o con T score -2,0 o menos y evidencia radiológica de una fractura vertebral en quienes buscó estudiar el efecto de 1,25 mg de Tibolona diarios sobre el riesgo de fracturas vertebrales por 34 meses,como punto duro, y se encontró una disminución del riego de las fracturas vertebrales comparando tibolona y placebo, es decir 70 casos versus 126 casos por 1000 personas año, se marca en este caso un intervalo de confianza del 95% de 0,41 a 0,74; con una P: <0,001, siendo de esta manera significativo, por el valor de “p” utilizado en esta ocasión y su intervalo de confianza que es del 95%, por lo que en 100 ocasiones que se vuelva a realizar el estudio buscando este hallazgo en 95 veces encontraremos este intervalo de confianza lo cual refuerza la certeza de lo encontrado al respecto.
Con respecto a las fracturas no vertebrales, se observa una curva de Kaplan Meier, que muestra una evolución divergente a partir del año y medio de tratamiento y persiste divergente se ahí en adelante, alcanzando una diferencia a favor de tibolona cercana a 4% al

Heylin dijo...

tercer año, la que ajustada a tasas por 1000 personas – año, queda un 6,9% mejor que el placebo.
Por lo que hubo en total 70 fracturas vertebrales y 122 fracturas no vertebrales en el grupo de tibolona vrs 126 y 166 respectivamente en el grupo placebo.
La diferencia que se dio a favor de tibolona a penas alcanza significación estadística en pacientes que no tenían fractura previa (p=0.05), con una reducción relativa de 21% (intervalo de confianza 95% 0,48 a 1,00) pero en pacientes que tenían fracturas vertebrales antes del estudio, el tratamiento con tubolona demuestra mucho mayor protección, reduciendo en 65,7% el riesgo de una nueva fractura vertebral (HR 0,39; IC 95% 0,24 a 0,63); p<0,001, en tanto que este grupo también muestra reducción relativa de 47% en fracturas no vertebrales (HR 0,53; IC 95% 0,35 a 0,81) p=0,004.
Al ser un estudio en el que se utilizó media tableta de tobolona el resultado de protección contra fracturas no sorprendió al usarse esta dosis, ya que se podría esperar en de un fármaco que capaz de limitar la resorción ósea sin afectar el remodelado óseo.
Se observó también un menor riesgo de desarrollo de cáncer de mama, en el grupo de Tibolona, fundamentado en un 95% para su intervalo de confianza entre 0.13 y 0.80, con una P=0,02, significativo, que se puede explicar por las dosis bajas de Tibolona, ya que hay una tendencia más bien al aumento del riesgo de cáncer de mama, en mujeres postmenopáusicas,
al utilizar dosis habituales de tibolona, algo que al ser un estudio detenido a los 3 años, no se pudo demostrar con certeza, aunque los resultados impresionen ser estadísticamente significativos, aquí lo que hay que tomar en cuenta es si son clínicamente significativos que es los que realmente marcará al estudio como algo trascendental. Por lo ideal hubiese sido esperar a la conclusión del los años previstos desde el inicio para establecer conclusiones clínicas también.
Algo que si queda claro es el aumento del riesgo de enfermedad cerebrovascular siendo tan importante que por recomendaciones del concejo de vigilancia se detiene el estudio a los 3 años, en febrero del 2006, bajo un intervalo de confianza de 95% , 1.14-1.24; P=0,02.

Gracias!!

Luis Guillermo Elizondo H dijo...

Desde el punto de vista clínico la significación estadística no resuelve todos los interrogantes que hay que responder ya que la asociación estadísticamente significativa puede no ser clínicamente relevante y además la asociación estadísticamente significativa puede no ser causal. En definitiva podemos encontrar asociaciones "estadísticamente posibles y conceptualmente estériles"

Significado de la p:
Un p valor es la probabilidad, calculada al asumir que Ho es cierta, de que la estadística de prueba tome valore tan extremos o más extremos que los calculados con la muestra actual. Ahora, dado que las estadísticas de prueba se construyen para cuantificar las desviaciones de la hipótesis nula con los datos actuales, entonces rechazamos Ho cuando el p valor es pequeño porque si éste es pequeño entonces los datos actuales proveen una fuerte evidencia en contra de Ho. En otras palabras, el hecho de que el p valor sea grande hace que Ho sea difícil de rechazar; por tanto es casi intuitivo, pero no valido, tomar al p valor como una medida de soporte en contra (o a favor) del rechazo de Ho.

Significado del intervalo de confianza:

En estadística, se llama intervalo de confianza a un par de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto.

Diferencia entre valor p e intervalo de confianza:
La probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo construido se denomina nivel de confianza, y se denota 1-alfa. La probabilidad de equivocarnos se llama nivel de significancia y se simboliza alfa(pero en letras griegas y estes es el valor de p). Generalmente se construyen intervalos con confianza 1-alfa=95% (o significancia alfa=5%). Menos frecuentes son los intervalos con alfa=10% o alfa=1%. Osea el valor de significancia o valor p o valor alfa se establece dependiendo del intervalo de confianza elegido.

Luis Guillermo Elizondo H dijo...
Este comentario ha sido eliminado por el autor.
Luis Guillermo Elizondo H dijo...

Acerca del Estudio Lift:

-Criterios de exclusión: Se descartaron todas aquellas pacientes con condiciones que son considerados efectos adversos de la terapia de reemplazo hormonal (aumento de la línea uterina, cáncer de mama, eventos vasculares, p.ej=
- Me parece muy importrante que describan que ocurrio con los pacientes que salen del estudio (pacientes que dejan el estudio se incluyen en el análisis del ITT.)
- Métodos: un estudio bastante caro, en el sentido que incluye un grupo multidisciplinario amplio, en el que se reta la opinión de un diagnóstico y se verifica con otro colega (p.ej. dos radiólogos uno que diagnostique y verifique lo apreciado)
- Población: muestra grande, con características similares, con una adherencia de alrededor del 80%, todo esto le da un poder estadístico elevado
Resultados:
-En el gráfico A en la figura 1 me llama la atención que en fémur al 4 to año la curva vuelve a caer.
El estudio terminó a los 2.75 años:
-Beneficio en el riesgo de fracturas vertebrales; para la tibolona y los grupos de placebo, respectivamente 25 (1.11%) y 11 (0.49%) (hazard ratio 2.3 (P = 0.02).BMJ 2006; 332:667
-Recomendación por incremento en el riesgo aumentado de ECV(isquémico y hemorragico) a largo plazo, para la tibolona y los grupos de placebo, respectivamente 44 (2.1%) y 85 (4.1%) (hazard ratio 0.5 (P = 0.0003)) BMJ 2006; 332:667
Discusión: me parece un poco arriesgado mencionar que en el evento cerebrovascular, que se documentó como no estadisticamente significativo, los autores comenten que tenía una tendencia a disminuir en el tiempo.

La parte práctica que encuentro luego de valorar todo el estudio , basado en el hecho de que el riesgo de evento cerebrovascular en las mujeres entre los 50-60 es menor que arriba de los 60 años (Climacteric : the journal of the International Menopause Society.2007 Oct;10 Suppl 2:27-31), en el caso de tibolona es que es una elección que aporta beneficios en disminución de los síntomas vasomotores y tienen un menor riesgo en forma global que la combinación de estrógeno más progesterona.(2)

Bibliografia:
1. Estudio Lift en NEJM - 2008
2. NATURE CLINICAL PRACTICE ENDOCRINOLOGY & METABOLISM. MARCH 2009 VOL 5 NO 3. 128-129
3. http://www.gutierrezandres.com/blog/tag/p-valor/

Victor Quirós A dijo...

Buenas a todos...

Cuál es la diferencia entre p e intervalo de confianza? Cuál es la interpretación de estas 2 variables? y Cuándo se alcanza la significancia estadística?

Se reconoce que los intervalos de confianza (IC) aventajan a las pruebas de hipótesis como instrumento analítico para muchos tipos de investigación, por ello los estudios más recientes proporcionan IC en lugar de valores P.

Ejemplo: Un investigador sospecha que las personas expuestas a un factor determinado están en mayor riesgo de contraer cierta enfermedad que las personas que no lo están y se propone demostrarlo matemáticamente. Su hipótesis de trabajo es que hay una diferencia entre el grupo expuesto y el grupo sin exposición (grupo control) en lo referente a la frecuencia de la enfermedad en cuestión, pero para poder demostrarlo valiéndose de una prueba de hipótesis, tiene que empezar por plantear la hipótesis contraria (hipótesis nula), es decir, que no hay diferencia alguna entre los grupos comparados en lo referente a la frecuencia de la enfermedad de interés. La finalidad es tener bases numéricas para descartar la hipótesis de nulidad y poder dar por verdadera la hipótesis alterna, confirmándose así que, muy verosímilmente, la frecuencia de la enfermedad de interés en los grupos comparados sí es distinta. Una vez planteada la hipótesis nula, es preciso que el investigador determine el margen de equivocación que está dispuesto a tolerar y fije el llamado valor de significación o valor alfa (α), para luego calcular el valor P.

El valor P, es la probabilidad de observar la diferencia encontrada entre los grupos o una más extrema si es correcta la hipótesis nula. Si el valor P es menor del valor α fijado por el investigador (0,05 (significancia estadística) la mayor parte de las veces, o en ocasiones 0,01 ó 0,10), se descarta que los resultados observados puedan atribuirse a mero azar si en realidad no hay una diferencia, o, dicho de otro modo, la incompatibilidad entre los datos observados y la hipótesis nula se considera lo suficientemente grande como para poder descartar esta hipótesis. En cambio, si el valor P es α o mayor, se considera que no hay suficientes indicios para descartar la hipótesis nula.

Victor Quirós A dijo...

Varios errores fundamentales se asocian con el uso del valor P. Uno de ellos consiste en pensar que un valor P de algún modo cuantifica la magnitud de la diferencia encontrada entre dos grupos sometidos a comparación. Pero un valor P, no refleja en absoluto la magnitud de la diferencia que el investigador encuentra, sino la probabilidad de haber observado esa diferencia si en realidad no hay ninguna. Sobre la base de un resultado estadísticamente significativo se puede concluir que un medicamento supera a otro en eficacia, pero no si es tanta su superioridad que se justifique exponer al paciente a sus efectos secundarios, por ejemplo. Para fines prácticos, lo que interesa es conocer la magnitud de la diferencia, para lo cual el valor P carece por completo de utilidad.
Otra idea equivocada es que un valor P mayor de α confirma que la hipótesis nula es correcta, o que representa la probabilidad de que lo sea. Cabe aclarar que la estadística, basada por entero en probabilidades y frecuencias, no cuenta con ninguna herramienta que sirva para confirmar la hipótesis nula. Siempre hay una posibilidad, por remota que sea, de que a la luz de los datos una hipótesis nula parezca verdadera aun siendo falsa, por obra del azar (error tipo II). El no poder rechazar la hipótesis nula no equivale a poder confirmarla, y la diferencia entre una cosa y otra influye decisivamente sobre las conclusiones que pueden derivarse de un estudio.
Mientras más grande una muestra, menor es la influencia del azar sobre los resultados y menor la probabilidad de cometer errores de interpretación, y esto nos lleva a otro error, que es el de afirmar, frente a un resultado sin significación estadística, que el carácter reducido de la muestra explica la falta de significación. Cuando una muestra es lo suficientemente grande, cualquier resultado puede cobrar significación estadística, razón de por sí suficiente para dudar del valor de estas pruebas.

Si hubiese que escoger el defecto que más descalifica su uso, este sería, sin duda, la poca información que aportan a la luz de lo que el investigador necesita saber. Los valores P no miden la magnitud del efecto observado, como tampoco su precisión; es decir, no dan ninguna idea de cuán confiable o fuerte es el efecto detectado en un estudio, ni permiten saber cuánto variarían los resultados si el estudio se repitiese con distintas muestras. No aportan información que lleve a acumular conocimientos útiles en términos prácticos ni a formular nuevos postulados teóricos que marquen el rumbo de futuras investigaciones. Dicho de otro modo, la significación estadística de un resultado no es ningún indicio de su “significación” clínica, aunque a menudo las dos cosas se confunden. La interpretación de un resultado a la luz de un valor P es una práctica mecánica e irreflexiva cuya persistencia es difícil de comprender si se considera que los intervalos de confianza, que le revelan al investigador el margen de error de sus resultados y la magnitud del efecto que observa, fomentan la actividad analítica imprescindible para la evolución del conocimiento científico.

Victor Quirós A dijo...

Un intervalo de confianza es un recorrido de valores, basados en una muestra tomada de una población, en el que cabe esperar que se encuentre el verdadero valor de un parámetro poblacional con cierto grado de confianza. La distribución de un parámetro fisiológico en la población sirve de fundamento teórico para calcular estos intervalos. En una distribución normal o gausiana, cerca de 68% de los valores se encuentran en el intervalo abarcado por la media ± 1 desviación estándar (DE); más de 95% de los valores, en el intervalo abarcado por la media ± 2 DE; y más de 99% de los valores, en el intervalo abarcado por la media ± 3 DE. Sobre esta base, un intervalo de confianza de 95%, que es el que se busca con mayor frecuencia, se obtiene sumándole y restándole a la media el error estándar multiplicado por 1,96. Si quisiese calcularse un intervalo de confianza de 99%, el error estándar se multiplicaría por 2,58.

¿Qué indica, entonces, un intervalo de confianza de 95% (significancia estadística)? Que si el investigador repitiese su estudio en las mismas condiciones pero con distintas muestras aleatorias, noventa y cinco de cada cien veces obtendría intervalos que contendrían el verdadero parámetro poblacional y cinco veces obtendría intervalos que no lo contendrían. En otras palabras, se puede tener gran confianza en que el intervalo resultante abarca el valor verdadero, pues dicho intervalo se ha obtenido por un método que casi siempre acierta. Esto no equivale a decir que hay una probabilidad de 95% de que el verdadero valor se encuentre dentro del intervalo, error de interpretación que es bastante común. La confianza deriva de la aplicación de un método respaldado por lo que se sabe acerca de la distribución poblacional de determinado parámetro fisiológico. El investigador que lo aplica contará con información valiosa —la magnitud y precisión del efecto observado— que no puede conseguir mediante un valor P. Un intervalo de confianza posee la ventaja de que se puede calcular para cualquier valor. Si se desea determinar si es verdadera la diferencia observada entre dos grupos, se calcula el intervalo de confianza de 95% de la diferencia entre sus respectivas medias. Si el intervalo abarca el valor cero, no se puede descartar que no haya una diferencia; si no lo abarca, la probabilidad de que se esté observando una diferencia que en realidad no existe se considera remota. La misma lógica se aplica al calcular el intervalo de confianza de una razón de posibilidades o de un riesgo relativo, solo que en estos casos el valor 1 es el que indica la ausencia de una diferencia porque se trata de una proporción. La precisión de los resultados guarda relación con el tamaño muestral y con la variabilidad de los datos, de tal manera que cuanto más grande la muestra, más se acercarán los resultados al verdadero valor poblacional y más estrecho será el intervalo de confianza. Asimismo, mientras más grande sea la desviación estándar de los datos, menos precisos serán los resultados y más ancho el intervalo de confianza. Un investigador no puede controlar la desviación estándar, pero puede manipular el tamaño muestral para mejorar la precisión y utilidad de sus resultados. Si lo juzga necesario, puede efectuar estudios sucesivos con muestras cada vez mayores para llegar a conclusiones clínicas con mayor certidumbre.

Francis Ruiz Salazar dijo...

Con respecto al LIFT como lo plantearon la mayoría de los compañeros fue un estudio diseñado para demostrar la eficacia de tibolona en cuanto a reducción de fracturas vertebrales como punto primario y fracturas no vertebrales, ca mama, TVP y enfermedad cardiovascular como puntos secundarios. Dentro de los detalles del estudio que pude observar lo primero es que hicieron una subestimación de la muestra ya que la tasa esperada de fracturas basales fue 26% en lugar del 20% estimado, lo que le resta poder estadístico; luego deciden detener el estudio por demostrar eficacia superior a los límites prestablecidos por ellos para dicha decisión pero en el contexto de un estudio con menos poder del inicialmente planteado( dato que no muestran ellos; con que poder quedó finalmente el estudio) parece ser que la mayor tasa de ictus fue realmente la que pesó en dicha decisión y no el hecho de truncarlo por efectividad. Retomando los intervalos de confianza, en el punto primario la disminución en el riesgo absoluto de fractura vertebral fue de 8.6 (95% CI, 4.4 a 12.9) por 1000 personas-años. Analizando este dato primero que nada, sí es una diferencia significativa ya que el límite mas cercano a la no efectividad (igual a placebo), o sea 4.4 ,no cruza ese límite. Lo mismo aplica para las fracturas no vertebrales. El otro punto a valorar con respecto a los intervalos de confianza es la magnitud del efecto ya que por ejemplo en los puntos secundarios, dígase cáncer de mama, la disminución de incidencia absoluta fue 1.9(95% CI, 0.5 a 3.4) por 1000 personas- año; en cáncer de colón fue 1.3 (95% CI, 0.1 a 2.6) por 1000 personas-año. En estos ejemplos se cumple la primera parte de la significancia estadística pero por otro lado parece ser que la magnitud de esta diferencia, si bien es cierto el estudio no estableció un valor umbral, es muy modesta como para tener aplicabilidad clínica, ya que para analizar esto tomamos el límite inferior del intervalo de confianza y para cáncer de colon por ejemplo la reducción en la incidencia puede ser 0.1 por cada 1000 personas año lo que la hace muy pobre para tener aplicabilidad clínica. Esto es importante mencionarlo ya que si solo se nos reporta que la incidencia se redujo en 1.3 y que tiene una p significativa quedaríamos con la idea de que hay claro beneficio, pero al ver lo IC este beneficio parece ser casi nulo. El mismo concepto pero a la inversa aplica para el riesgo de ictus; se encontró en el estudio un estimador puntual de 2.19 (95% CI, 1.14 a 4.23); esta diferencia con respecto a placebo alcanzó significancia por IC y por p, pero además ese valor podría llegar a ser 4.23 que aunque no lo establecieran como umbral es para los investigadores inaceptable desde el punto de vista clínico y por ello se debió frenar el estudio.

Victor Quirós A dijo...

Estudio LIFT:
Importante mencionar que es un estudio aleatorizado, doble ciego, controlado con placebo, que utilizó 4538 mujeres posmenopaúsicas, entre 60 y 85 años para recibir Tibolona 1.25mg diarios vs placebo.

Como criterios de inclusion tuvieron DMO T score de −2.5 o menos en cadera o columna vertebral, o T score de −2.0 o menos y evidencia radiológica de fractura vertebral. Como criterios de exclusion se tomaron: mujeres con más de 2 fracturas vertebrales, T score menor −4.0, o diagnóstico clínico de fractura vertebral en el pasado año, además, cancer en los últimos 5 años, enfermedad tromboembólica previa, mamografía sospechosa de CA, uso de estrógenos en últimos 3 meses, así como de raloxifeno o tamoxifeno, uso de bifosfonatos en el último año, IMC más de 34.

El grupo tibolona comparado con placebo tuvo una disminución en el riesgo de fractura vertebral absoluta de 8.6 por 1000 personas-año (95% IC, 4.4 to 12.9) y una reducción del hazard ratio de 45% (hazard, 0.55; 95% CI, 0.41 to 0.74; P<0.001), y una disminución del riesgo absoluto de fractura no vertebral de 6.9 (95% CI, 1.6 to 12.2) por 1000 personas-año con hazard ratio de 0.74; 95% CI, 0.58 to 0.93; P = 0.01. Se observa como tanto en fracturas vertebrales como no vertebrales hubo una reducción en el riesgo absoluto, además en forma importante hubo reducción del hazard ratio en un 45% y 26% para fracturas vetebrales y no vertebrales respectivamente. En este estudio se utiliza tanto el valor P como el IC, los dos con significancia estadística. Como se mencionó anteriormente el IC nos da la magnitud y la precisión del efecto observado con tibolona. Si hiciéramos el mismo estudio con poblaciones más grandes el rango de confianza sería menor.

El grupo tibolona también tuvo reducción en el riesgo de CA mama (hazard, 0.32; 95% CI, 0.13 a 0.80; P = 0.02) y colon (hazard, 0.31; 95% CI, 0.10 a 0.96; P=0.04). De igual manera el hazard muestra una reducción bastante importante en el riesgo de CA con tibolona, con rangos de IC aceptables pero que mejorarían al aumentar la muestra y con valor P menor al 0.001 utilizado en fracturas pero aún así significativo.

Para EAC y tromboembolismo no se logró evidenciar aumento o reducción con tibolona debido a que el rango del IC abarca la unidad. Tal vez si se aumenta la muestra podría reducirse el rango.

El grupo tibolona tuvo un incremento en el riesgo de AVC con un hazard, 2.19; 95% CI, 1.14 to 4.23; P = 0.02, lo cual significa que al ser mayor a 1 el hazard, existe 2.19 veces mayor probabilidad de sufrir un AVC con tibolona, siendo esto significativo debido a que el valor P es menor a 0.05 y el IC 95% tiene un rango mayor a 1. Es importante recalcar en esta semana la diferencia más importante entre valor P e IC, teniendo claro que el IC nos da la magnitud y precisión del efecto que observamos a diferencia de la P. y tener claro que para disminuir el rango del IC debemos aumentar la muestra en estudio.

Frank Dawkins A. dijo...

Saludos a todos!!!! Para algunos familiar para otros no. Agradecer al Dr. Chen por permitirme participar de estas interesantes discusiones y a Allan Ramos quien me informo acerca del blog. A ver si me ahora me es posible publicar los comentarios (este es una prueba).

Chen dijo...

Hola todos: creo que estamos llegando ya a algunos puntos importantes a la hora de interpretar resultados de estudios clínicos. Algunas conclusiones:
1. una p significativa (<0.05) lo único que indica es que los resultados son poco probables debidos al azar. Que esto sea relevante clínicamente es otra cosa. Esto hay que diferenciarlo ya que es común confundirlo y decir que porque la p es significativa este resultado es relevante.
2. el intervalo de confianza nos indica la magnitud del resultado real. Sin embargo, también hay que tener cuidado cómo se expresa, ya que este intervalo puede indicarse como riesgo relativo, riesgo absoluto, tasas, etc. Por lo tanto, si de repente nos indica que el IC es de 70-95%, esto puede sonar muy impresionante hasta que veamos el riesgo absoluto. Por lo tanto, el IC no puede verse de forma aislado si no estamos tomando en cuenta el riesgo absoluto del que se está hablando.
El estudio LIFT es un buen ejemplo de esto. Si vemos la reducción de riesgo de fracturas el riesgo relativo es 45% menor, con un IC significativo. Sin embargo, si vemos el riesgo absoluto, éste de 8.6 por 1000 pacientes año. Esto nos daría un NNT de 116 pacientes por año para reducción de fracturas. Si uno lo pone en esta perspectiva, ya la reducción no suena tan abrumadora.
Desde el punto de vista de ictus, el ejemplo sería lo opuesto. Si vemos que se que se indica que el RR es 2.13 (IC 1.14-4.23) suena muy importante, pero si vemos la diferencia real es de 2.3 por 1000 pacientes año. Esto da NNH de 434, que aunque estadísticamente significativo, tampoco es tan alto el riesgo. Lógicamente este es un evento clínico muy significativo porque a diferencia de otros efectos adversos, por ejemplo, sangrado endometrial, la relevancia clínica del ictus es mucho mayor.
Con respecto a por qué se detuvo el estudio, en los resultados se indica que desde el año 2005 habían señales de aumento en el riesgo de ictus y cuando se suspendió el estudio, este fue una de las razones que pesó. El estudio fue diseñado para mostrar reducciones de fracturas vertebrales y buscar la aprobación por FDA para comercializarse en EU con esta indicación; dado los hallazgos de ictus, comparado con los otros fármacos disponibles para osteoporosis, la tibolona ni siquiera fue sometido a FDA por este motivo.
En conclusión, cuando vemos los resultados tenemos que tomar en cuenta p, IC, riesgo absoluto, riesgo relativo, NNT, NNH. Esto nos da una mejor perspectiva del beneficio o daño real que puede tener una intervención.
Saludos
Chen