Research Methods - Measurement Pt3 - Reliability and Validity

Research Methods - Measurement Pt3 - Reliability and Validity

¿Cómo evaluar la calidad de una definición operativa?

Introducción a las definiciones operativas

  • En este video se discute la importancia de las definiciones operativas en la investigación, destacando que son fundamentales para medir adecuadamente los conceptos de interés.
  • Se menciona que muchas veces se utilizan medidas convenientes que facilitan la recolección de datos, aunque no siempre reflejan con precisión lo que se desea medir.

Fiabilidad y validez

  • Se introducen dos conceptos clave: fiabilidad (consistencia en las mediciones) y validez (representación precisa del constructo medido).
  • Se ejemplifica cómo un instrumento puede ser mal nombrado si no mide realmente lo que dice; por ejemplo, un "instrumento de tristeza" que solo evalúa errores tipográficos.

Evaluación de la fiabilidad

  • La fiabilidad se ilustra mediante un test de CI donde los resultados deben ser consistentes al repetir el test en diferentes momentos.
  • Si los resultados varían drásticamente entre pruebas, el instrumento no es fiable. Esto podría llevar a clasificaciones erróneas en contextos educativos.

Analogía sobre fiabilidad

  • Se compara la fiabilidad con un reloj adelantado; aunque sea consistente, nunca muestra la hora correcta.
  • Un reloj así puede ser útil para medir intervalos de tiempo, pero su falta de precisión es problemática.

Tipos de fiabilidad

  • Existen diferentes tipos de fiabilidad:
  • Fiabilidad test-retest: Consistencia al aplicar el mismo test en diferentes momentos.
  • Consistencia interna: Evaluar si los participantes obtienen puntuaciones similares en distintas partes del mismo cuestionario.

Tipos de Fiabilidad en la Medición

Fiabilidad Interobservador

  • Se discute la fiabilidad interobservador, que se refiere a cómo dos observadores puntúan el mismo fenómeno. Este tipo de fiabilidad es crucial para asegurar que las observaciones sean consistentes entre diferentes evaluadores.

Fiabilidad Test-Retest

  • La fiabilidad test-retest se menciona al evaluar si un cliente clasificado en un momento sigue siendo clasificado de manera similar en otro momento usando la misma prueba. Esto ayuda a verificar la estabilidad de las puntuaciones a lo largo del tiempo.

Consistencia Interna

  • Se introduce el concepto de consistencia interna, donde se dividen aleatoriamente las preguntas de una encuesta y se comparan las puntuaciones entre dos mitades. Si los resultados son similares, indica una buena consistencia interna.

Métodos Estadísticos para Evaluar Fiabilidad

  • Se sugiere que los métodos estadísticos como la correlación de Pearson pueden ayudar a determinar la relación entre puntuaciones anteriores y posteriores. También se menciona el uso del coeficiente alfa de Cronbach para medir la consistencia interna.

Validez en la Medición

Definición de Validez

  • La validez se define como si una definición operativa realmente captura el constructo que se está midiendo. Un ejemplo es usar una balanza para medir peso, lo cual es válido, pero no sería adecuado para medir volumen.

Validez Facial

  • La validez facial implica evaluar si un método parece medir adecuadamente el constructo deseado. Por ejemplo, contar flexiones no mide inteligencia y carece de validez facial.

Validez de Contenido

  • La validez de contenido verifica si una medida abarca todo el constructo y no solo un aspecto. Una escala sobre depresión debe incluir múltiples facetas como estado anímico y autoestima.

Validez Criterial

¿Cómo se mide la validez en las encuestas de estrés?

Validez concurrente y predictiva

  • Se discute cómo el estrés puede afectar el rendimiento en tareas, sugiriendo que al realizar una encuesta de estrés, se debe considerar la validez concurrente, que implica verificar si los resultados coinciden con otros criterios medidos simultáneamente.
  • La validez predictiva se menciona como un método para evaluar si las puntuaciones obtenidas en la encuesta de estrés pueden predecir resultados relacionados con el estrés, como ataques cardíacos.

Validez convergente y discriminante

  • Se introduce la validez convergente, que evalúa si las puntuaciones de una nueva escala de estrés correlacionan con otras escalas existentes ampliamente utilizadas para medir el mismo constructo.
  • La validez discriminante es crucial para asegurar que la nueva medida no esté midiendo accidentalmente otro concepto relacionado. Por ejemplo, una escala de narcisismo no debería correlacionarse fuertemente con medidas de autoestima.

Ejemplos prácticos y análisis estadístico

  • Se presentan ejemplos sobre cómo diferentes conceptos psicológicos (como autoestima y locus de control) deben ser teóricamente distintos; esto ayuda a validar nuevas medidas desarrolladas por investigadores.
  • Se explica cómo utilizar matrices de correlación para comparar resultados entre diferentes pruebas y demostrar que dos conceptos son distintos mediante análisis estadísticos.

Importancia de la definición operativa

  • La definición operativa utilizada para medir cualquier constructo debe ser confiable (consistente) y válida (realmente mide lo que pretende). Esto se ilustra mediante analogías visuales relacionadas con dianas.
  • Se enfatiza que un buen instrumento debe ser tanto confiable como válido; es decir, debe apuntar correctamente al objetivo deseado sin inconsistencias significativas en sus mediciones.

Ejemplo del test MBTI

¿Es el MBTI un test de personalidad válido?

Popularidad del MBTI

  • El MBTI es utilizado en perfiles de citas y por empresas para evaluar candidatos, con un uso extendido en 89 de las 100 principales empresas Fortune y más de 10,000 compañías.
  • Sin embargo, los psicólogos no lo utilizan debido a su falta de validez científica; se basa en teorías no científicas.

Estructura del Test

  • El test clasifica a las personas en 16 categorías basadas en cuatro escalas bipolares (extrovertido/introvertido, pensador/sentidor).
  • Aunque puede ser divertido como un juego, no es una prueba real de personalidad y carece de apoyo científico.

Críticas al MBTI

  • Estudios científicos han demostrado que el MBTI tiene baja fiabilidad; muchas personas obtienen resultados diferentes al repetir la prueba.
  • La clasificación binaria del MBTI no refleja cómo los psicólogos modernos ven la personalidad, que suele ser un espectro.

Problemas Psicométricos

  • Análisis estadísticos muestran que el MBTI no se descompone en los cuatro factores que afirma representar.
  • Además, carece de validez predictiva; no hay correlación entre tipos de personalidad y profesiones ocupacionales.

Conclusiones sobre el Uso del MBTI

  • La mayoría de los psicólogos concluyen que el MBTI no es una medida válida o fiable; su utilidad es solo para entretenimiento.
  • Un estudio del Instituto de Investigación del Ejército concluyó que debería evitarse su uso para asesoramiento profesional debido a la falta de evidencia sobre su utilidad.

Efecto Forer y Atractivo Personal

  • La popularidad del MBTI puede deberse a que resalta aspectos positivos, haciendo sentir especiales a quienes lo toman.

¿Qué tan precisas son las pruebas de personalidad?

La ilusión de la precisión en las pruebas de personalidad

  • Los estudiantes creían que un test de personalidad era muy preciso, pero al final se reveló que eran declaraciones vagas aplicadas a todos, lo que demuestra una tendencia cognitiva a pensar que estas afirmaciones son específicas para uno mismo.
  • Se menciona el uso de "lecturas frías" por parte de psíquicos y la astrología, donde las afirmaciones están redactadas para ser interpretadas de manera amplia, permitiendo que muchas personas sientan que les aplican.
  • Las pruebas como Myers-Briggs carecen de fiabilidad y validez científica; aunque pueden ser divertidas, no ofrecen medidas precisas del comportamiento humano.
  • Es importante considerar la fiabilidad y validez al diseñar estudios o leer artículos científicos. Preguntarse si los métodos utilizados son confiables es crucial para evaluar la calidad del estudio.
  • Un artículo revisado por pares puede mencionar escalas psicométricamente validadas o proporcionar detalles como el alfa de Cronbach o Kappa de Cohen para demostrar cómo se midieron los comportamientos, lo cual es fundamental para confiar en los resultados.

Evaluación crítica de estudios científicos

Video description

This is a lecture video for a university course in Research Methods taught by Dr. Brian W. Stone. You may wish to play it at x1.25 speed. As with anything taught at the undergraduate level the information here may be simplified, and at higher levels of study there is more nuance to all of it.