Artificial intelligence-driven clinical guideline recommendations in maternal care: How trustworthy are they?

Jairo J. Pérez; Andrés F. Giraldo-Forero; Santiago Rúa; Daniel Betancur; Zuliany Urquina; Pablo Castañeda; Sara Arango-Valencia; Juan Guillermo Barrientos-Gómez; Ever A. Torres-Silva; Andrés Orozco-Duque

doi:10.7705/biomedica.7902

Jairo J. Pérez, Andrés F. Giraldo-Forero, Santiago Rúa, Daniel Betancur, Zuliany Urquina , Pablo Castañeda , Sara Arango-Valencia , Juan Guillermo Barrientos-Gómez , Ever A. Torres-Silva, Andrés Orozco-Duque , .

DOI: https://doi.org/10.7705/biomedica.7902

Palabras clave: guías como asunto, servicios de salud materna, inteligencia artificial, modelos de lenguaje a gran escala, procesamiento de lenguaje natural

Resumen Autores/as Descargas Referencias bibliográficas Cómo citar

Resumen

Introducción. El personal médico enfrenta limitaciones al consultar y utilizar guías clínicas en la práctica. Las recientes tecnologías de inteligencia artificial, como los modelos de lenguaje a gran escala –también llamados “pesados”– (large language models, LLM), pueden ayudar a superar estas limitaciones. Cuando se usa la generación aumentada por recuperación (retrieval-augmented generation, RAG) a estos modelos, las respuestas generadas se vuelven más relevantes en contextos específicos y se ajustan mejor a las guías médicas.
Objetivo. Evaluar el desempeño de los modelos comerciales de lenguaje a gran escala mediante sus respuestas, cuando se trata de preguntas relacionadas con la atención materna en sistemas de generación aumentada por recuperación, supervisados estos sistemas mediante mediciones humanas y automáticas.
Material y métodos. Se diseñó un experimento controlado para obtener respuestas precisas y constantes de un sistema de generación aumentada por recuperación, utilizando las guías colombianas para la atención materna. Un médico formuló diez preguntas y determinó las respuestas de referencia. Se generó una instrucción (prompt) para la inteligencia artificial y se evaluaron varios modelos de lenguaje a gran escala, utilizando: 1) una clasificación binaria humana de conceptos en las respuestas, y 2) los valores de la evaluación de la generación aumentada por recuperación (retrieval-augmented generation assessment, RAGAS), juzgadas por otro modelo de lenguaje.
Resultados. El modelo GPT-3.5 (generative pre-trained transformer 3.5) obtuvo la puntuación más alta en la evaluación médica, con una precisión de 0,9. Mediante la valoración por GPT-4, el modelo Claude 3.5 fue el mejor calificado, destacándose una fidelidad de 0,78. Por otra parte, mediante la evaluación por Claude 3.5, el modelo Mistral obtuvo la puntuación más alta, con una fidelidad de 0,84. En cuanto a la relevancia de las respuestas, el modelo GPT-3.5 obtuvo la puntuación más alta en ambas evaluaciones: 0,94 con GPT-4o y 0,86 con Claude 3.5.
Conclusiones. La integración de la generación aumentada por recuperación en obstetricia puede mejorar las prácticas basadas en la evidencia, optimizando los resultados para los pacientes. Sin embargo, es crucial evaluar la precisión de las respuestas y la información específica del contexto antes de su uso clínico. Los resultados del presente estudio sugieren que los modelos pesados o a gran escala, como GPT-3.5, Claude o Llama 70B, superan siempre a los modelos más livianos o a menor escala, como Llama 8B.

Descargas

Los datos de descargas todavía no están disponibles.

Jairo J. Pérez Departamento de Ciencias Aplicadas, Instituto Tecnológico Metropolitano, Medellín, Colombia https://orcid.org/0000-0002-2772-9147
Andrés F. Giraldo-Forero Facultad de Ingeniería, Instituto Tecnológico Metropolitano, Medellín, Colombia https://orcid.org/0000-0003-3524-5502
Santiago Rúa Escuela de Ciencias Básicas, Tecnología e Ingeniería, Universidad Nacional Abierta y a Distancia, Bogotá, D. C., Colombia https://orcid.org/0000-0003-0067-8316
Daniel Betancur Facultad de Ingeniería, Institución Universitaria de Envigado, Envigado, Colombia https://orcid.org/0000-0001-8538-694X
Zuliany Urquina Departamento de Ciencias Aplicadas, Instituto Tecnológico Metropolitano, Medellín, Colombia https://orcid.org/0009-0000-4894-1545
Pablo Castañeda Departamento de Ciencias Aplicadas, Instituto Tecnológico Metropolitano, Medellín, Colombia https://orcid.org/0009-0004-4631-0407
Sara Arango-Valencia Dirección Científica, Clínica Universitaria Bolivariana, Medellín, Colombia; Escuela de Ciencias de la Salud, Universidad Pontificia Bolivariana, Medellín, Colombia https://orcid.org/0000-0003-0614-4585
Juan Guillermo Barrientos-Gómez Dirección Científica, Clínica Universitaria Bolivariana, Medellín, Colombia; Escuela de Ciencias de la Salud, Universidad Pontificia Bolivariana, Medellín, Colombia https://orcid.org/0000-0001-5135-5168
Ever A. Torres-Silva Facultad de Ingeniería, Instituto Tecnológico Metropolitano, Medellín, Colombia https://orcid.org/0000-0002-6302-6131
Andrés Orozco-Duque Departamento de Ciencias Aplicadas, Instituto Tecnológico Metropolitano, Medellín, Colombia https://orcid.org/0000-0001-8582-8015

Referencias bibliográficas

World Health Organization. Trends in maternal mortality 2000 to 2020: Estimates by WHO, UNICEF, UNFPA, World Bank Group and UNDESA/Population Division. Geneva: World Health Organization; 2023.

Instituto Nacional de Salud. Boletín epidemiológico semanal 52 de 2024. Bogotá: Instituto Nacional de Salud; 2024. p. 1-40. https://doi.org/10.33610/23576189.2024.52

Khan KS, Wojdyla D, Say L, Gülmezoglu AM, van Look PF. Who analysis of causes of maternal death: A systematic review. Lancet. 2006;367:1066-74. https://doi.org/10.1016/S0140-6736(06)68397-9

Correa VC, Lugo-Agudelo LH, Aguirre-Acevedo DC, Contreras JAP, Borrero AMP, Patiño-Lugo DF, et al. Individual, health system, and contextual barriers and facilitators for the implementation of clinical practice guidelines: A systematic metareview. Health Res Policy Syst. 2020;18:1-11. https://doi.org/10.1186/s12961-020-00588-8

Gómez-Sánchez PI, Arévalo-Rodríguez I, Rubio-Romero JA, Amaya-Guío J, Osorio-Castaño JH, Buitrago-Gutiérrez G, et al. Guías de práctica clínica para la prevención, detección temprana y tratamiento de las complicaciones del embarazo, parto o puerperio: introducción y metodología. Rev Colomb Obstet Ginecol. 2013;64:234-4. https://doi.org/10.18597/rcog.105

Athavale R, Blanco Gutiérrez V, Jha S. AI in medicine: An introduction to the potential benefits and challenges, and why doctors need to be involved. Obstet Gynecol. 2024;26:177-82. https://doi.org/10.1111/tog.12950

Arango Valencia S, Barrientos JG, Torres Silva EA, Sánchez Díaz E. Impacto en los resultados en salud de la telesalud aplicada para la atención y seguimiento ambulatorio del alto riesgo obstétrico: revisión narrativa de la literatura. Medicina UPB. 2024;43:43-51. https://doi.org/10.18566/medupb.v43n2.a06

Fischer A, Rietveld A, Teunissen P, Hoogendoorn M, Bakker P. What is the future of artificial intelligence in obstetrics? A qualitative study among healthcare professionals. BMJ Open. 2023;13:e076017. https://doi.org/10.1136/bmjopen-2023-076017

de Filippis R, Al Foysal A. The integration of artificial intelligence into clinical practice. Applied Biosciences. 2024;3:14-44. https://doi.org/10.3390/applbiosci3010002

Xiong G, Jin Q, Wang X, Zhang M, Lu Z, Zhang A. Improving retrieval-augmented generation in medicine with iterative follow-up questions. arXiv:2408.00727v3. https://doi.org/10.48550/arXiv.2408.00727

Macia G, Liddell A, Doyle V. Conversational AI with large language models to increase the uptake of clinical guidance. Clinical eHealth. 2024;7:147-52. https://doi.org/10.1016/j.ceh.2024.12.001

Kresevic S, Giuffrè M, Ajcevic M, Accardo A, Crocè LS, Shung DL. Optimization of hepatological clinical guidelines interpretation by large language models: A retrieval augmented generation-based framework. Digit Med. 2024;7:102. https://doi.org/10.1038/s41746-024-01091-y

Patel DJ, Chaudhari K, Acharya N, Shrivastava D, Muneeba S. Artificial intelligence in obstetrics and gynecology: Transforming care and outcomes. Cureus. 2024;16:e64725. https://doi.org/10.7759/cureus.64725

Wang L, Bi W, Zhao S, Ma Y, Lv L, Meng C, et al. Investigating the impact of prompt engineering on the performance of large language models for standardizing obstetric diagnosis text: Comparative study. JMIR Form Res. 2024;8:e53216. https://doi.org/10.2196/53216

Gallifant J, Afshar M, Ameen S, Aphinyanaphongs Y, Chen S, Cacciamani G, et al. The TRIPODLLM reporting guideline for studies using large language models. Nat Med. 2025;31:60-9. https://doi.org/10.1038/s41591-024-03425-5

Anthropic. Claude 3.5 Sonnet, 2024. Accessed: February 3, 2025. Available at: https://www.anthropic.com/claude/sonnet

Mistral. Mistral Large 2407, 2024. Accessed: February 3, 2025. Available at: https://mistral.ai/news/mistral-large-2407

Hugging Face. Meta Llama 3 8B, 2024. Accessed: February 3, 2025. Available at: https://huggingface.co/meta-llama/Meta-Llama-3-8B

Hugging Face. Meta Llama 3 70B Instruct, 2024. Accessed: February 3, 2025. Available at: https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct

Ollama. Llama 3.1 8B, 2024. Accessed: February 3, 2025. Available at: https://ollama.com/library/llama3.1:8b

OpenAI. GPT-3.5 Turbo, 2023. Accessed: February 3, 2025. Available at: https://platform.openai.com/docs/modelsgpt-3-5-turbo

OpenAI. GPT-4o, 2024. Accessed: February 3, 2025. Available at: https://platform.openai.com/docs/modelsgpt-4o

GitHub, Inc. Footer navigation. LangChain, GitHub Repository, 2023. Accessed: February 3, 2025. Available at: https://github.com/langchain-ai/langchain

Reimers N, Gurevych I. Sentence-BERT: Sentence embeddings using Siamese BERTNetworks. arXiv:1908.10084v1. https://doi.org/10.48550/arXiv.1908.10084

Chroma. The AI-native open-source vector database, 2024. Accessed: February 3, 2025. Available at: https://www.trychroma.com/

Ollama. Ollama: Run large language models locally, 2024. Accessed: incluir día, mes y año. Available at: https://ollama.com

Es S, James J, Espinosa-Anke L, Schockaert S. RAGAS: Automated evaluation of retrieval augmented generation. arXiv:2309.15217v2. https://doi.org/10.48550/arXiv.2309.15217

Al Ghadban Y, Lu H, Adavi U, Sharma A, Gara S, Das N, et al. Transforming healthcare education: Harnessing large language models for frontline health worker capacity building using retrieval-augmented generation. medRxiv. 2023. https://doi.org/10.1101/2023.12.15.23300009

García-Rudolph A, Sánchez-Pinsach D, Opisso E. Evaluating AI models: Performance validation using formal multiple-choice questions in neuropsychology. Arch Clin Neuropsychol. 2025;40:150-5. https://doi.org/10.1093/arclin/acae068

Cómo citar

1.

Pérez JJ, Giraldo-Forero AF, Rúa S, Betancur D, Urquina Z, Castañeda P, et al. ¿Es bueno confiar en recomendaciones de la inteligencia artificial basadas en guías clínicas?. Biomed. [Internet]. 10 de diciembre de 2025 [citado 12 de enero de 2026];45(Sp. 3):37-51. Disponible en: https://revistabiomedicaorg.biteca.online/index.php/biomedica/article/view/7902

Descargar cita

Algunos artículos similares:

María Clara Echeverry, Nubia Catalina Tovar, Guillermo Mora, Presencia de anticuerpos contra neurorreceptores cardiacos de acetilcolina muscarínicos tipo II en pacientes con enfermedad de Chagas e implantación de marcapasos , Biomédica: Vol. 29 Núm. 3 (2009)
David Yepes, Francisco Molina, Gloria Ortiz, Ricardo Aguirre, Factores de riesgo asociados a neumonía en pacientes , Biomédica: Vol. 29 Núm. 2 (2009)
Lázaro Vélez, Natalia Loaiza, Lina María Gaviria, María Angélica Maya, Zulma Vanessa Rueda, Luz Teresita Correa, Jorge Ortega, Héctor Ortega, Evaluación de la concordancia entre dos métodos de lavado broncoalveolar para el diagnóstico microbiológico de la neumonía en pacientes con asistencia respiratoria mecánica , Biomédica: Vol. 28 Núm. 4 (2008)
Larry Niño, Uso de la función semivariograma y estimación kriging en el análisis espacial de un indicador entomológico de Aedes aegypti (Diptera: Culicidae) , Biomédica: Vol. 28 Núm. 4 (2008)
Carlos Julio Montoya, Zoraída Ramirez, Juan Carlos Cataño, Alejandro Román, María Teresa Rugeles, Efecto de las infecciones oportunistas sobre las subpoblaciones de leucocitos en individuos infectados con el virus de inmunodeficiencia humana tipo 1 , Biomédica: Vol. 28 Núm. 1 (2008)
Guillermo Mora, María Clara Echeverry, Gustavo Enrique Rey, Myriam Consuelo López, Luisa Fernanda Posada, Fabio Aurelio Rivas, Frecuencia de anticuerpos anti Trypanozoma cruzi en pacientes portadores de marcapasos de la Clinica San Pedro Claver de Bogotá , Biomédica: Vol. 27 Núm. 4 (2007)
Mario Francisco Guerrero, Elementos para la evaluación eficaz de productos naturales con posibles efectos antihipertensivos , Biomédica: Vol. 29 Núm. 4 (2009)
Angélica Knudson, Rubén Santiago Nicholls, Ángela Patricia Guerra, Ricardo Sánchez, Perfiles clínicos del paludismo no complicado por Plasmodium falciparum en Córdoba, Colombia , Biomédica: Vol. 27 Núm. 4 (2007)
Juan Carlos Hernández, Carlos Julio Montoya, Silvio Urcuqui-Inchima, Papel de los receptores tipo toll en las infecciones virales: el VIH-1 como modelo , Biomédica: Vol. 27 Núm. 2 (2007)
María Teresa Rugeles, Paula A. Velilla, Carlos J. Montoya, Mecanismos de resistencia natural al VIH en seres humanos: un resumen de 10 años de investigación en población colombiana , Biomédica: Vol. 31 Núm. 2 (2011)

Estadísticas de artículo
Vistas de resúmenes
Vistas de PDF
Descargas de PDF
Vistas de HTML
Otras vistas

¿Es bueno confiar en recomendaciones de la inteligencia artificial basadas en guías clínicas?

Resumen

Descargas

Referencias bibliográficas

Algunos artículos similares:

Métricas

botones

app

redes_sociales

indexaciones

estadisticas

Idioma

Número actual

enlaces

Enlaces

comité