Un estudio de Harvard muestra los fallos de ChatGPT al aconsejar sobre tratamientos contra el cáncer

Investigadores de la prestigiosa Universidad de Harvard han realizado un estudio en el que demuestran que ChatGPT, la plataforma de inteligencia artificial más conocida, comete importantes fallos a la hora de aconsejar sobre tratamientos contra el cáncer

Gordon Hall, sede de la Harvard Medical School (FOTO: Harvard)

5 septiembre 2023 | 00:00 h

Archivado en:

La inteligencia artificial está cada vez más instaurada en todo el mundo, y ChatGPT es la plataforma más conocida para que cualquier persona con acceso a internet pueda hacer uso de ella y plantearle sus dudas, incluidas las médicas. Sin embargo, un nuevo estudio realizado por la Universidad de Harvard advierte de los riesgos que puede llegar a entrañar su uso a la hora de pedir consejo sobre tratamientos contra el cáncer.

Así, los hallazgos del equipo de investigadores del Brigham and Women's Hospital, el segundo hospital universitario más grande de la Escuela de Medicina de Harvard, reflejan cómo, en un tercio de los casos, ChatGPT proporcionó una recomendación inapropiada -o "no concordante"- con lo establecido por la National Comprehensive Cancer Network (NCCN). Esto pone de relieve, según el estudio, la “necesidad de conocer las limitaciones de la tecnología”.

Los investigadores pusieron a prueba a ChatGPT centrándose en los tres tipos más comunes de cáncer: Mama, próstata y pulmón. Así, le pidieron que ofreciera un determinado enfoque de tratamiento para cada tipo de cáncer en función de la gravedad de la enfermedad, incluyendo un total de 26 descripciones de diagnóstico únicas y cuatro ligeramente diferentes.

Le pidieron que ofreciera un determinado enfoque de tratamiento para cada tipo de cáncer en función de la gravedad de la enfermedad

Finalmente, ChatGPT generó un total de 104 mensajes. Y, aunque casi todas las respuestas (el 98%) incluían al menos un enfoque terapéutico que coincidía con las directrices de la mencionada National Comprehensive Cancer Network -que están elaboradas por médicos de todo Estados Unidos-, los investigadores descubrieron que el 34% de las respuestas también incluían una o más recomendaciones “no concordantes”.

De hecho, como recoge The Harvard Gazette, sólo en el 62% de los casos se produjo una concordancia completa, lo que subraya “tanto la complejidad de las directrices de la National Comprehensive Cancer Network como el grado en que los resultados de ChatGPT pueden ser escasos o difíciles de interpretar”.

Sólo en el 62% de los casos se produjo una concordancia completa con las directrices de la National Comprehensive Cancer Network

Además, en el 12,5% de esos casos ChatGPT concluyó una recomendación de tratamiento totalmente alejada de las directrices de la NCCN. Entre ellas se incluían recomendaciones de terapias novedosas o terapias curativas para cánceres no curativos, una forma de desinformación que, para los investigadores, “puede crear expectativas erróneas en los pacientes sobre el tratamiento y afectar potencialmente a la relación médico-paciente”.

“Los pacientes deben sentirse capacitados para informarse por sí mismos sobre su estado de salud, pero siempre deben consultarlo con un médico y no únicamente los recursos de Internet ", señala Danielle Bitterman, autora del estudio y oncóloga radioterapeuta y profesora en la Facultad de Medicina de Harvard.

Una respuesta correcta tiene muchos matices

"Las respuestas de ChatGPT pueden parecer muy parecidas a las de un humano y resultar bastante convincentes. Pero cuando se trata de la toma de decisiones clínicas, hay muchas sutilezas dependiendo de la situación de cada paciente. Una respuesta correcta tiene muchos matices, y no es necesariamente algo que ChatGPT u otro gran modelo de lenguaje de gran tamaño pueda proporcionar”, añade.

En el futuro, continúa el informe, los investigadores tienen previsto pedir a ChatGPT casos clínicos más detallados para evaluar mejor sus conocimientos clínicos. Además, también pretenden estudiar hasta qué punto tanto los pacientes como los médicos son capaces de distinguir entre una recomendación escrita por un médico y por un modelo de inteligencia artificial.

"Es probable que los usuarios busquen respuestas en los modelos de lenguaje de gran tamaño para informarse sobre temas relacionados con la salud, de forma similar a como se han utilizado las búsquedas en Google. Al mismo tiempo, tenemos que concienciar sobre el hecho de que los modelos de lenguaje de gran tamaño no son el equivalente a los profesionales médicos capacitados”, concluye Shan Chen, primera autora del Programa de inteligencia artificial en Medicina del Brigham and Women's Hospital.

Los contenidos de ConSalud están elaborados por periodistas especializados en salud y avalados por un comité de expertos de primer nivel. No obstante, recomendamos al lector que cualquier duda relacionada con la salud sea consultada con un profesional del ámbito sanitario.

Lo más leído