¿Es bueno confiar en recomendaciones de la inteligencia artificial basadas en guías clínicas?
Resumen
Introducción. El personal médico enfrenta limitaciones al consultar y utilizar guías clínicas en la práctica. Las recientes tecnologías de inteligencia artificial, como los modelos de lenguaje a gran escala –también llamados “pesados”– (large language models, LLM), pueden ayudar a superar estas limitaciones. Cuando se usa la generación aumentada por recuperación (retrieval-augmented generation, RAG) a estos modelos, las respuestas generadas se vuelven más relevantes en contextos específicos y se ajustan mejor a las guías médicas.
Objetivo. Evaluar el desempeño de los modelos comerciales de lenguaje a gran escala mediante sus respuestas, cuando se trata de preguntas relacionadas con la atención materna en sistemas de generación aumentada por recuperación, supervisados estos sistemas mediante mediciones humanas y automáticas.
Material y métodos. Se diseñó un experimento controlado para obtener respuestas precisas y constantes de un sistema de generación aumentada por recuperación, utilizando las guías colombianas para la atención materna. Un médico formuló diez preguntas y determinó las respuestas de referencia. Se generó una instrucción (prompt) para la inteligencia artificial y se evaluaron varios modelos de lenguaje a gran escala, utilizando: 1) una clasificación binaria humana de conceptos en las respuestas, y 2) los valores de la evaluación de la generación aumentada por recuperación (retrieval-augmented generation assessment, RAGAS), juzgadas por otro modelo de lenguaje.
Resultados. El modelo GPT-3.5 (generative pre-trained transformer 3.5) obtuvo la puntuación más alta en la evaluación médica, con una precisión de 0,9. Mediante la valoración por GPT-4, el modelo Claude 3.5 fue el mejor calificado, destacándose una fidelidad de 0,78. Por otra parte, mediante la evaluación por Claude 3.5, el modelo Mistral obtuvo la puntuación más alta, con una fidelidad de 0,84. En cuanto a la relevancia de las respuestas, el modelo GPT-3.5 obtuvo la puntuación más alta en ambas evaluaciones: 0,94 con GPT-4o y 0,86 con Claude 3.5.
Conclusiones. La integración de la generación aumentada por recuperación en obstetricia puede mejorar las prácticas basadas en la evidencia, optimizando los resultados para los pacientes. Sin embargo, es crucial evaluar la precisión de las respuestas y la información específica del contexto antes de su uso clínico. Los resultados del presente estudio sugieren que los modelos pesados o a gran escala, como GPT-3.5, Claude o Llama 70B, superan siempre a los modelos más livianos o a menor escala, como Llama 8B.
Descargas
Referencias bibliográficas
World Health Organization. Trends in maternal mortality 2000 to 2020: Estimates by WHO, UNICEF, UNFPA, World Bank Group and UNDESA/Population Division. Geneva: World Health Organization; 2023.
Instituto Nacional de Salud. Boletín epidemiológico semanal 52 de 2024. Bogotá: Instituto Nacional de Salud; 2024. p. 1-40. https://doi.org/10.33610/23576189.2024.52
Khan KS, Wojdyla D, Say L, Gülmezoglu AM, van Look PF. Who analysis of causes of maternal death: A systematic review. Lancet. 2006;367:1066-74. https://doi.org/10.1016/S0140-6736(06)68397-9
Correa VC, Lugo-Agudelo LH, Aguirre-Acevedo DC, Contreras JAP, Borrero AMP, Patiño-Lugo DF, et al. Individual, health system, and contextual barriers and facilitators for the implementation of clinical practice guidelines: A systematic metareview. Health Res Policy Syst. 2020;18:1-11. https://doi.org/10.1186/s12961-020-00588-8
Gómez-Sánchez PI, Arévalo-Rodríguez I, Rubio-Romero JA, Amaya-Guío J, Osorio-Castaño JH, Buitrago-Gutiérrez G, et al. Guías de práctica clínica para la prevención, detección temprana y tratamiento de las complicaciones del embarazo, parto o puerperio: introducción y metodología. Rev Colomb Obstet Ginecol. 2013;64:234-4. https://doi.org/10.18597/rcog.105
Athavale R, Blanco Gutiérrez V, Jha S. AI in medicine: An introduction to the potential benefits and challenges, and why doctors need to be involved. Obstet Gynecol. 2024;26:177-82. https://doi.org/10.1111/tog.12950
Arango Valencia S, Barrientos JG, Torres Silva EA, Sánchez Díaz E. Impacto en los resultados en salud de la telesalud aplicada para la atención y seguimiento ambulatorio del alto riesgo obstétrico: revisión narrativa de la literatura. Medicina UPB. 2024;43:43-51. https://doi.org/10.18566/medupb.v43n2.a06
Fischer A, Rietveld A, Teunissen P, Hoogendoorn M, Bakker P. What is the future of artificial intelligence in obstetrics? A qualitative study among healthcare professionals. BMJ Open. 2023;13:e076017. https://doi.org/10.1136/bmjopen-2023-076017
de Filippis R, Al Foysal A. The integration of artificial intelligence into clinical practice. Applied Biosciences. 2024;3:14-44. https://doi.org/10.3390/applbiosci3010002
Xiong G, Jin Q, Wang X, Zhang M, Lu Z, Zhang A. Improving retrieval-augmented generation in medicine with iterative follow-up questions. arXiv:2408.00727v3. https://doi.org/10.48550/arXiv.2408.00727
Macia G, Liddell A, Doyle V. Conversational AI with large language models to increase the uptake of clinical guidance. Clinical eHealth. 2024;7:147-52. https://doi.org/10.1016/j.ceh.2024.12.001
Kresevic S, Giuffrè M, Ajcevic M, Accardo A, Crocè LS, Shung DL. Optimization of hepatological clinical guidelines interpretation by large language models: A retrieval augmented generation-based framework. Digit Med. 2024;7:102. https://doi.org/10.1038/s41746-024-01091-y
Patel DJ, Chaudhari K, Acharya N, Shrivastava D, Muneeba S. Artificial intelligence in obstetrics and gynecology: Transforming care and outcomes. Cureus. 2024;16:e64725. https://doi.org/10.7759/cureus.64725
Wang L, Bi W, Zhao S, Ma Y, Lv L, Meng C, et al. Investigating the impact of prompt engineering on the performance of large language models for standardizing obstetric diagnosis text: Comparative study. JMIR Form Res. 2024;8:e53216. https://doi.org/10.2196/53216
Gallifant J, Afshar M, Ameen S, Aphinyanaphongs Y, Chen S, Cacciamani G, et al. The TRIPODLLM reporting guideline for studies using large language models. Nat Med. 2025;31:60-9. https://doi.org/10.1038/s41591-024-03425-5
Anthropic. Claude 3.5 Sonnet, 2024. Accessed: February 3, 2025. Available at: https://www.anthropic.com/claude/sonnet
Mistral. Mistral Large 2407, 2024. Accessed: February 3, 2025. Available at: https://mistral.ai/news/mistral-large-2407
Hugging Face. Meta Llama 3 8B, 2024. Accessed: February 3, 2025. Available at: https://huggingface.co/meta-llama/Meta-Llama-3-8B
Hugging Face. Meta Llama 3 70B Instruct, 2024. Accessed: February 3, 2025. Available at: https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct
Ollama. Llama 3.1 8B, 2024. Accessed: February 3, 2025. Available at: https://ollama.com/library/llama3.1:8b
OpenAI. GPT-3.5 Turbo, 2023. Accessed: February 3, 2025. Available at: https://platform.openai.com/docs/modelsgpt-3-5-turbo
OpenAI. GPT-4o, 2024. Accessed: February 3, 2025. Available at: https://platform.openai.com/docs/modelsgpt-4o
GitHub, Inc. Footer navigation. LangChain, GitHub Repository, 2023. Accessed: February 3, 2025. Available at: https://github.com/langchain-ai/langchain
Reimers N, Gurevych I. Sentence-BERT: Sentence embeddings using Siamese BERTNetworks. arXiv:1908.10084v1. https://doi.org/10.48550/arXiv.1908.10084
Chroma. The AI-native open-source vector database, 2024. Accessed: February 3, 2025. Available at: https://www.trychroma.com/
Ollama. Ollama: Run large language models locally, 2024. Accessed: incluir día, mes y año. Available at: https://ollama.com
Es S, James J, Espinosa-Anke L, Schockaert S. RAGAS: Automated evaluation of retrieval augmented generation. arXiv:2309.15217v2. https://doi.org/10.48550/arXiv.2309.15217
Al Ghadban Y, Lu H, Adavi U, Sharma A, Gara S, Das N, et al. Transforming healthcare education: Harnessing large language models for frontline health worker capacity building using retrieval-augmented generation. medRxiv. 2023. https://doi.org/10.1101/2023.12.15.23300009
García-Rudolph A, Sánchez-Pinsach D, Opisso E. Evaluating AI models: Performance validation using formal multiple-choice questions in neuropsychology. Arch Clin Neuropsychol. 2025;40:150-5. https://doi.org/10.1093/arclin/acae068
Derechos de autor 2025 Biomédica

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
| Estadísticas de artículo | |
|---|---|
| Vistas de resúmenes | |
| Vistas de PDF | |
| Descargas de PDF | |
| Vistas de HTML | |
| Otras vistas | |










