Hugging Face publica un punto de referencia para probar la IA generativa en tareas de atención médica

Hugging Face publica un punto de referencia para probar la IA generativa en tareas de atención médica

Los modelos de IA generativa son cada vez más incorporados a entornos de atención de salud – en algunos casos, quizás prematuramente. Los primeros usuarios creen que se beneficiarán de una mayor eficiencia y al mismo tiempo revelarán información que de otro modo se pasaría por alto. Mientras tanto, los críticos señalan que estos modelos tienen fallas y sesgos que podrían contribuir a peores resultados de salud.

Pero, ¿existe una forma cuantitativa de saber qué tan útil o dañino podría ser un modelo cuando se le asignan tareas como resumir registros de pacientes o responder preguntas relacionadas con la salud?

Hugging Face, la startup de IA, ofrece una solución en un prueba de referencia recientemente lanzada llamada Open Medical-LLM. Creado en asociación con investigadores de la organización sin fines de lucro Open Life Science AI y el Natural Language Processing Group de la Universidad de Edimburgo, Open Medical-LLM tiene como objetivo estandarizar la evaluación del desempeño de modelos generativos de IA en una variedad de tareas relacionadas con la medicina.

Open Medical-LLM no es un desde cero referencia, en sí mismo, sino más bien un conjunto de conjuntos de pruebas existentes: MedQA, PubMedQA, MedMCQA, etc. – diseñado para explorar patrones en el conocimiento médico general y campos relacionados, como anatomía, farmacología, genética y práctica clínica. El punto de referencia contiene preguntas abiertas y de opción múltiple que requieren razonamiento y comprensión médicos, basándose en material que incluye exámenes de licencia médica de EE. UU. e India y bancos de preguntas de exámenes de biología universitarios.

READ  Pixel Watch admite técnicamente bandas de 20 mm después de todo

«[Open Medical-LLM] permite a investigadores y profesionales identificar las fortalezas y debilidades de diferentes enfoques, impulsar mayores avances en el campo y, en última instancia, contribuir a una mejor atención al paciente y mejores resultados”, escribió Hugging Face en una publicación de blog.

Hugging Face publica un punto de referencia para probar la IA generativa en tareas de atención médica

atención sanitaria de la generación de IA

Créditos de imagen: cara de peluche

a

Hugging Face posiciona el punto de referencia como una “evaluación sólida” de modelos generativos de IA relacionados con la atención médica. Pero algunos expertos médicos en las redes sociales han advertido que no se debe poner demasiado énfasis en Open Medical-LLM, para que no se produzcan implementaciones mal informadas.

En real la práctica clínica puede ser bastante extensa.

Clémentine Fourrier, investigadora de Hugging Face y coautora del blog, está de acuerdo.

«Estas clasificaciones sólo deben utilizarse como una primera aproximación [generative AI model] explorar para un caso de uso determinado, pero siempre es necesaria una fase de prueba más profunda para examinar las limitaciones y la relevancia del modelo en condiciones del mundo real», respondió Fourrier. en X. «Médico [models] Los pacientes no deben utilizarlos solos, sino que deben capacitarse para que se conviertan en herramientas de apoyo para los médicos. »

READ  Agregar una dirección en Google Maps puede ser a través de PC y HP, así es como

Esto recuerda la experiencia de Google cuando intentó llevar una herramienta de detección de retinopatía diabética mediante IA a los sistemas de salud tailandeses.

Google creó un Sistema de aprendizaje profundo que escanea imágenes del ojo., en busca de signos de retinopatía, una de las principales causas de pérdida de visión. Pero a pesar de la gran precisión teórica, la herramienta resultó poco práctica en pruebas del mundo realfrustrando tanto a los pacientes como a las enfermeras con resultados inconsistentes y una falta general de armonía con las prácticas de campo.

Es revelador que de los 139 dispositivos médicos relacionados con la IA que la Administración de Alimentos y Medicamentos de EE. UU. ha aprobado hasta la fecha, ninguno usa IA generativa. Es excepcionalmente difícil probar cómo se trasladará el rendimiento de una herramienta de IA generativa en el laboratorio a hospitales y clínicas ambulatorias y, quizás lo más importante, cómo los resultados podrían cambiar con el tiempo.

Esto no quiere decir que Open Medical-LLM no sea útil o informativo. La clasificación de resultados, como mínimo, nos recuerda cómo mal Los modelos responden preguntas básicas de salud. Pero Open Medical-LLM, y ningún otro punto de referencia, no sustituye las pruebas del mundo real cuidadosamente consideradas.

Este artículo se publicó originalmente en TechCrunch en https://techcrunch.com/2024/04/18/hugging-face-releases-a-benchmark-for-testing-generative-ai-on-health-tasks/

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *