Un estudio advierte sobre los riesgos de usar chatbots de IA para buscar consejos médicos
Los resultados de la investigación muestran que la IA puede generar información engañosa y no es confiable para diagnósticos médicos

Los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés), basados en inteligencia artificial (IA) y entrenados para procesar y comprender el lenguaje natural a una escala enorme, suponen un riesgo para quienes buscan asesoramiento en temas de salud, porque tienden a dar información inexacta e inconsistente.
Según un estudio publicado este lunes en Nature Medicine, todavía existe una enorme brecha entre lo que prometen los modelos de lenguaje (LLM) y su utilidad real para pacientes que buscan información sobre sus síntomas.
El estudio, liderado por el Oxford Internet Institute y el Departamento Nuffield de Ciencias de la Salud de Atención Primaria de la Universidad de Oxford, concluye que los que recurren a la IA para decidir sobre la gravedad de una afección, no tomaron mejores decisiones que los que confiaron en métodos tradicionales (como buscar en internet o su propio juicio).
En los últimos tiempos, diversos proveedores de salud a nivel mundial han propuesto los LLM como herramientas potenciales para realizar evaluaciones de salud preliminares y gestionar sus afecciones antes de acudir a un médico.
Para testar esta capacidad de la IA, los autores del estudio evaluaron si los LLM podían ayudar a los ciudadanos a identificar con precisión afecciones médicas, como un resfriado común, anemia o cálculos biliares y a decidir si acudir al médico de cabecera o al hospital.
El estudio reveló que los que usaron la IA no tomaron mejores decisiones que los que buscaron opinión en internet o confiaron en su propio juicio.
Usuarios reales, desafíos reales
El equipo hizo un ensayo aleatorio con casi 1.300 participantes a los que pidió identificar posibles condiciones de salud y recomendar acciones a seguir.
Los escenarios, detallados por médicos, incluían desde un joven con un fuerte dolor de cabeza tras una salida nocturna hasta una madre primeriza que se sentía constantemente agotada y sin aliento.
Un grupo usó un LLM para asistir su toma de decisiones, mientras que un grupo de control utilizó fuentes de información tradicionales, como consultar en internet.
Los resultados revelaron una brecha significativa entre el rendimiento teórico de la IA y su uso práctico.
Tras repasar manualmente las interacciones entre humanos y LLM, el equipo descubrió fallos importantes en la comunicación en ambas direcciones: a menudo los participantes daban poca información o incompleta al modelo, pero también que los LLM generaban información engañosa o errónea con recomendaciones que mezclaban consejos buenos y malos.
No están listos
El estudio concluye que los LLM actuales no están listos para ser implementados en la atención directa al paciente.
"Diseñar pruebas robustas para los modelos de lenguaje es clave para entender cómo podemos aprovechar esta nueva tecnología", asegura Andrew Bean, autor principal e investigador doctoral en el Oxford Internet Institute.
"En este estudio, demostramos que la interacción con humanos supone un reto incluso para los mejores modelos. Esperamos que este trabajo contribuya al desarrollo de sistemas de IA más seguros y útiles".
A la vista de los resultados del estudio, los autores advierten que al igual que los ensayos clínicos para nuevos medicamentos, los sistemas de IA deberían probarse en el mundo real antes de ser implementados.
"Estos hallazgos resaltan la dificultad de construir sistemas de IA que realmente puedan apoyar a las personas en áreas sensibles y de alto riesgo como la salud", señala Rebecca Payne, médica de cabecera y líder del estudio.
"A pesar de toda la expectativa, la IA simplemente no está lista para asumir el papel del médico. Los pacientes deben ser conscientes de que consultar a un modelo de lenguaje sobre sus síntomas puede ser peligroso, ya que pueden dar diagnósticos erróneos y no reconocer cuándo se necesita ayuda urgente".



EFE