¿Es bueno confiar en recomendaciones de la inteligencia artificial basadas en guías clínicas?
Resumen
Introducción. El personal médico enfrenta limitaciones al consultar y utilizar guías clínicas en la práctica. Las recientes tecnologías de inteligencia artificial, como los modelos de lenguaje a gran escala –también llamados “pesados”– (large language models, LLM), pueden ayudar a superar estas limitaciones. Cuando se usa la generación aumentada por recuperación (retrieval-augmented generation, RAG) a estos modelos, las respuestas generadas se vuelven más relevantes en contextos específicos y se ajustan mejor a las guías médicas.
Objetivo. Evaluar el desempeño de los modelos comerciales de lenguaje a gran escala mediante sus respuestas, cuando se trata de preguntas relacionadas con la atención materna en sistemas de generación aumentada por recuperación, supervisados estos sistemas mediante mediciones humanas y automáticas.
Material y métodos. Se diseñó un experimento controlado para obtener respuestas precisas y constantes de un sistema de generación aumentada por recuperación, utilizando las guías colombianas para la atención materna. Un médico formuló diez preguntas y determinó las respuestas de referencia. Se generó una instrucción (prompt) para la inteligencia artificial y se evaluaron varios modelos de lenguaje a gran escala, utilizando: 1) una clasificación binaria humana de conceptos en las respuestas, y 2) los valores de la evaluación de la generación aumentada por recuperación (retrieval-augmented generation assessment, RAGAS), juzgadas por otro modelo de lenguaje.
Resultados. El modelo GPT-3.5 (generative pre-trained transformer 3.5) obtuvo la puntuación más alta en la evaluación médica, con una precisión de 0,9. Mediante la valoración por GPT-4, el modelo Claude 3.5 fue el mejor calificado, destacándose una fidelidad de 0,78. Por otra parte, mediante la evaluación por Claude 3.5, el modelo Mistral obtuvo la puntuación más alta, con una fidelidad de 0,84. En cuanto a la relevancia de las respuestas, el modelo GPT-3.5 obtuvo la puntuación más alta en ambas evaluaciones: 0,94 con GPT-4o y 0,86 con Claude 3.5.
Conclusiones. La integración de la generación aumentada por recuperación en obstetricia puede mejorar las prácticas basadas en la evidencia, optimizando los resultados para los pacientes. Sin embargo, es crucial evaluar la precisión de las respuestas y la información específica del contexto antes de su uso clínico. Los resultados del presente estudio sugieren que los modelos pesados o a gran escala, como GPT-3.5, Claude o Llama 70B, superan siempre a los modelos más livianos o a menor escala, como Llama 8B.
Descargas
Referencias bibliográficas
World Health Organization. Trends in maternal mortality 2000 to 2020: Estimates by WHO, UNICEF, UNFPA, World Bank Group and UNDESA/Population Division. Geneva: World Health Organization; 2023.
Instituto Nacional de Salud. Boletín epidemiológico semanal 52 de 2024. Bogotá: Instituto Nacional de Salud; 2024. p. 1-40. https://doi.org/10.33610/23576189.2024.52
Khan KS, Wojdyla D, Say L, Gülmezoglu AM, van Look PF. Who analysis of causes of maternal death: A systematic review. Lancet. 2006;367:1066-74. https://doi.org/10.1016/S0140-6736(06)68397-9
Correa VC, Lugo-Agudelo LH, Aguirre-Acevedo DC, Contreras JAP, Borrero AMP, Patiño-Lugo DF, et al. Individual, health system, and contextual barriers and facilitators for the implementation of clinical practice guidelines: A systematic metareview. Health Res Policy Syst. 2020;18:1-11. https://doi.org/10.1186/s12961-020-00588-8
Gómez-Sánchez PI, Arévalo-Rodríguez I, Rubio-Romero JA, Amaya-Guío J, Osorio-Castaño JH, Buitrago-Gutiérrez G, et al. Guías de práctica clínica para la prevención, detección temprana y tratamiento de las complicaciones del embarazo, parto o puerperio: introducción y metodología. Rev Colomb Obstet Ginecol. 2013;64:234-4. https://doi.org/10.18597/rcog.105
Athavale R, Blanco Gutiérrez V, Jha S. AI in medicine: An introduction to the potential benefits and challenges, and why doctors need to be involved. Obstet Gynecol. 2024;26:177-82. https://doi.org/10.1111/tog.12950
Arango Valencia S, Barrientos JG, Torres Silva EA, Sánchez Díaz E. Impacto en los resultados en salud de la telesalud aplicada para la atención y seguimiento ambulatorio del alto riesgo obstétrico: revisión narrativa de la literatura. Medicina UPB. 2024;43:43-51. https://doi.org/10.18566/medupb.v43n2.a06
Fischer A, Rietveld A, Teunissen P, Hoogendoorn M, Bakker P. What is the future of artificial intelligence in obstetrics? A qualitative study among healthcare professionals. BMJ Open. 2023;13:e076017. https://doi.org/10.1136/bmjopen-2023-076017
de Filippis R, Al Foysal A. The integration of artificial intelligence into clinical practice. Applied Biosciences. 2024;3:14-44. https://doi.org/10.3390/applbiosci3010002
Xiong G, Jin Q, Wang X, Zhang M, Lu Z, Zhang A. Improving retrieval-augmented generation in medicine with iterative follow-up questions. arXiv:2408.00727v3. https://doi.org/10.48550/arXiv.2408.00727
Macia G, Liddell A, Doyle V. Conversational AI with large language models to increase the uptake of clinical guidance. Clinical eHealth. 2024;7:147-52. https://doi.org/10.1016/j.ceh.2024.12.001
Kresevic S, Giuffrè M, Ajcevic M, Accardo A, Crocè LS, Shung DL. Optimization of hepatological clinical guidelines interpretation by large language models: A retrieval augmented generation-based framework. Digit Med. 2024;7:102. https://doi.org/10.1038/s41746-024-01091-y
Patel DJ, Chaudhari K, Acharya N, Shrivastava D, Muneeba S. Artificial intelligence in obstetrics and gynecology: Transforming care and outcomes. Cureus. 2024;16:e64725. https://doi.org/10.7759/cureus.64725
Wang L, Bi W, Zhao S, Ma Y, Lv L, Meng C, et al. Investigating the impact of prompt engineering on the performance of large language models for standardizing obstetric diagnosis text: Comparative study. JMIR Form Res. 2024;8:e53216. https://doi.org/10.2196/53216
Gallifant J, Afshar M, Ameen S, Aphinyanaphongs Y, Chen S, Cacciamani G, et al. The TRIPODLLM reporting guideline for studies using large language models. Nat Med. 2025;31:60-9. https://doi.org/10.1038/s41591-024-03425-5
Anthropic. Claude 3.5 Sonnet, 2024. Accessed: February 3, 2025. Available at: https://www.anthropic.com/claude/sonnet
Mistral. Mistral Large 2407, 2024. Accessed: February 3, 2025. Available at: https://mistral.ai/news/mistral-large-2407
Hugging Face. Meta Llama 3 8B, 2024. Accessed: February 3, 2025. Available at: https://huggingface.co/meta-llama/Meta-Llama-3-8B
Hugging Face. Meta Llama 3 70B Instruct, 2024. Accessed: February 3, 2025. Available at: https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct
Ollama. Llama 3.1 8B, 2024. Accessed: February 3, 2025. Available at: https://ollama.com/library/llama3.1:8b
OpenAI. GPT-3.5 Turbo, 2023. Accessed: February 3, 2025. Available at: https://platform.openai.com/docs/modelsgpt-3-5-turbo
OpenAI. GPT-4o, 2024. Accessed: February 3, 2025. Available at: https://platform.openai.com/docs/modelsgpt-4o
GitHub, Inc. Footer navigation. LangChain, GitHub Repository, 2023. Accessed: February 3, 2025. Available at: https://github.com/langchain-ai/langchain
Reimers N, Gurevych I. Sentence-BERT: Sentence embeddings using Siamese BERTNetworks. arXiv:1908.10084v1. https://doi.org/10.48550/arXiv.1908.10084
Chroma. The AI-native open-source vector database, 2024. Accessed: February 3, 2025. Available at: https://www.trychroma.com/
Ollama. Ollama: Run large language models locally, 2024. Accessed: incluir día, mes y año. Available at: https://ollama.com
Es S, James J, Espinosa-Anke L, Schockaert S. RAGAS: Automated evaluation of retrieval augmented generation. arXiv:2309.15217v2. https://doi.org/10.48550/arXiv.2309.15217
Al Ghadban Y, Lu H, Adavi U, Sharma A, Gara S, Das N, et al. Transforming healthcare education: Harnessing large language models for frontline health worker capacity building using retrieval-augmented generation. medRxiv. 2023. https://doi.org/10.1101/2023.12.15.23300009
García-Rudolph A, Sánchez-Pinsach D, Opisso E. Evaluating AI models: Performance validation using formal multiple-choice questions in neuropsychology. Arch Clin Neuropsychol. 2025;40:150-5. https://doi.org/10.1093/arclin/acae068
Algunos artículos similares:
- María Clara Echeverry, Nubia Catalina Tovar, Guillermo Mora, Presencia de anticuerpos contra neurorreceptores cardiacos de acetilcolina muscarínicos tipo II en pacientes con enfermedad de Chagas e implantación de marcapasos , Biomédica: Vol. 29 Núm. 3 (2009)
- David Yepes, Francisco Molina, Gloria Ortiz, Ricardo Aguirre, Factores de riesgo asociados a neumonía en pacientes , Biomédica: Vol. 29 Núm. 2 (2009)
- Lázaro Vélez, Natalia Loaiza, Lina María Gaviria, María Angélica Maya, Zulma Vanessa Rueda, Luz Teresita Correa, Jorge Ortega, Héctor Ortega, Evaluación de la concordancia entre dos métodos de lavado broncoalveolar para el diagnóstico microbiológico de la neumonía en pacientes con asistencia respiratoria mecánica , Biomédica: Vol. 28 Núm. 4 (2008)
- Larry Niño, Uso de la función semivariograma y estimación kriging en el análisis espacial de un indicador entomológico de Aedes aegypti (Diptera: Culicidae) , Biomédica: Vol. 28 Núm. 4 (2008)
- Carlos Julio Montoya, Zoraída Ramirez, Juan Carlos Cataño, Alejandro Román, María Teresa Rugeles, Efecto de las infecciones oportunistas sobre las subpoblaciones de leucocitos en individuos infectados con el virus de inmunodeficiencia humana tipo 1 , Biomédica: Vol. 28 Núm. 1 (2008)
- Guillermo Mora, María Clara Echeverry, Gustavo Enrique Rey, Myriam Consuelo López, Luisa Fernanda Posada, Fabio Aurelio Rivas, Frecuencia de anticuerpos anti Trypanozoma cruzi en pacientes portadores de marcapasos de la Clinica San Pedro Claver de Bogotá , Biomédica: Vol. 27 Núm. 4 (2007)
- Mario Francisco Guerrero, Elementos para la evaluación eficaz de productos naturales con posibles efectos antihipertensivos , Biomédica: Vol. 29 Núm. 4 (2009)
- Angélica Knudson, Rubén Santiago Nicholls, Ángela Patricia Guerra, Ricardo Sánchez, Perfiles clínicos del paludismo no complicado por Plasmodium falciparum en Córdoba, Colombia , Biomédica: Vol. 27 Núm. 4 (2007)
- Juan Carlos Hernández, Carlos Julio Montoya, Silvio Urcuqui-Inchima, Papel de los receptores tipo toll en las infecciones virales: el VIH-1 como modelo , Biomédica: Vol. 27 Núm. 2 (2007)
- María Teresa Rugeles, Paula A. Velilla, Carlos J. Montoya, Mecanismos de resistencia natural al VIH en seres humanos: un resumen de 10 años de investigación en población colombiana , Biomédica: Vol. 31 Núm. 2 (2011)
Derechos de autor 2025 Biomédica

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
| Estadísticas de artículo | |
|---|---|
| Vistas de resúmenes | |
| Vistas de PDF | |
| Descargas de PDF | |
| Vistas de HTML | |
| Otras vistas | |










