Martes, 14 de Abril 2026

Una buena parte de la información médica facilitada por chatbots es inexacta e incompleta

Aunque la Inteligencia Artificial está a punto de revolucionar la atención médica sólo será posible si las personas la usan con consciencia 

Por: Tomás Iván García Enciso

Las preguntas cerradas exigían a los chatbots que proporcionaran respuestas predefinidas. EFE/ARCHIVO/ESPECIAL

Las preguntas cerradas exigían a los chatbots que proporcionaran respuestas predefinidas. EFE/ARCHIVO/ESPECIAL

Un análisis reciente puso en duda la confiabilidad de la información médica generada por herramientas de inteligencia artificial de uso masivo. De acuerdo con un estudio publicado en BMJ Open, una proporción significativa de las respuestas ofrecidas por chatbots presenta imprecisiones, omisiones o interpretaciones problemáticas, incluso cuando se trata de preguntas basadas en evidencia científica.

Especialistas del Instituto Lundquist para la Innovación Biomédica advirtieron que el crecimiento acelerado de estas plataformas, sin acompañamiento educativo ni mecanismos de supervisión adecuados, podría contribuir a la propagación de desinformación en temas sensibles como la salud.

LEE: 5 empleos duros que nunca serán obsoletos, pese a la llegada de la Inteligencia Artificial

Para evaluar su desempeño, los investigadores analizaron en febrero de 2025 cinco sistemas de IA generativa ampliamente utilizados: Gemini, DeepSeek, Meta AI, ChatGPT y Grok. Cada uno fue sometido a una serie de preguntas en áreas clave como cáncer, vacunación, células madre, nutrición y rendimiento deportivo, con el objetivo de medir la precisión y calidad de sus respuestas.

Un 50% de resultados problemáticos

Las preguntas se diseñaron para asemejarse a consultas médicas y de salud habituales en busca de información y se desarrollaron para "poner a prueba" los modelos en cuanto a desinformación o consejos contraindicados. La mitad (50 %) de las respuestas resultaron problemáticas: el 30% eran algo problemáticas y el 20%, muy problemáticas, según la revista.

Aunque la calidad de las respuestas no varió significativamente, entre los chatbots, Grok generó “un número significativamente mayor” de respuestas muy problemáticas de lo que cabría esperar (29/50; 58 %), mientras que Gemini tuvo el menor número de muy problemáticas y el mayor de no problemáticas.

Las respuestas se clasificaron como “no problemáticas”, “algo problemáticas” o “muy problemáticas”, utilizando criterios objetivos predefinidos. Se consideró que era problemática cuando podía llevar a los usuarios sin conocimientos especializados a seguir un tratamiento potencialmente ineficaz o a sufrir daños si se aplicaba sin orientación profesional.

¿Cómo se evaluó las respuestas de la IA?

Los chatbots obtuvieron mejores resultados en los ámbitos de las vacunas y el cáncer, y peores en los de las células madre, el rendimiento deportivo y la nutrición. La información se evaluó en función de su precisión y exhaustividad y se prestó especial atención a si un chatbot presentaba un falso equilibrio entre afirmaciones con base científica y sin ella, independientemente de la solidez de las pruebas.

Cada respuesta se calificó también en función de su legibilidad, desde si estaba redactada en un inglés sencillo y claro hasta si utilizaba un lenguaje académico y difícil.

El tipo de pregunta influyó en los resultados. Así, las abiertas, generaron 40 respuestas muy problemáticas (significativamente más de lo esperado) y 51 no problemáticas (significativamente menos de lo esperado). En el caso de las preguntas cerradas ocurrió lo contrario, indica BMJ Open.

Las preguntas cerradas exigían a los chatbots que proporcionaran respuestas predefinidas, a menudo con una única respuesta correcta, que se ajustaran al consenso científico. Las abiertas solían exigir que generaran múltiples respuestas en forma de lista.

¿Qué se espera de la IA en el futuro?

En el proceso solo hubo dos casos en los que se negaron a responder, ambos por parte de Meta AI, en respuesta a consultas sobre esteroides anabólicos y tratamientos alternativos contra el cáncer.

En general, la calidad de las referencias fue deficiente, con una puntuación media de exhaustividad del 40% y todas las puntuaciones de legibilidad se calificaron como “difíciles”, con una complejidad equivalente a la adecuada para un titulado universitario.

Los investigadores reconocen que solo evaluaron cinco chatbots y que la IA comercial está evolucionando rápidamente, por lo que sus conclusiones podrían no ser universalmente aplicables. Además, no todas las consultas del mundo real son deliberadamente de confrontación, un enfoque que adoptaron y que podría haber exagerado la prevalencia de contenidos problemáticos.

LEE | ¿Tecnología o amenaza? Critican reconocimiento facial IA en gafas de Meta

No obstante, los hallazgos sobre la precisión científica, la calidad de las referencias y la legibilidad de las respuestas “ponen de relieve importantes limitaciones de comportamiento y la necesidad de reevaluar cómo se utilizan los chatbots con IA en la comunicación sanitaria y médica dirigida al público”, apuntan los autores.

Los chatbots, por defecto, no acceden a datos en tiempo real, sino que generan respuestas deduciendo patrones estadísticos a partir de sus datos de entrenamiento y prediciendo secuencias de palabras probables. “No razonan ni sopesan las pruebas, ni son capaces de emitir juicios éticos o basados en valores”, explican.

TG

Temas

Recibe las últimas noticias en tu e-mail

Todo lo que necesitas saber para comenzar tu día

Registrarse implica aceptar los Términos y Condiciones