Inteligencia artificial en radiología de ingeniería a escala nacional en los EE. UU.

vRad, una gran práctica de telerradiología de EE. UU. y Qure.ai han estado colaborando durante más de un año para una implementación de IA de radiología a gran escala. En esta publicación de blog, describimos la ingeniería necesaria para escalar la IA de radiología. Discutimos la adaptación de la IA para la diversidad extrema de datos, el protocolo DICOM y la ingeniería de software.

vRad y Qure.ai han estado colaborando en una validación prospectiva a gran escala de qER, el modelo ICH de Qure.ai para detectar hemorragias intracraneales (ICH) durante más de un año. vRad es una gran práctica de telerradiología: más de 500 radiólogos que atienden a más de 2000 instalaciones en los Estados Unidos, que representan a pacientes de casi todos los estados. vRad utiliza un RIS y un PACS creados internamente que procesan más de 1 millón de estudios al mes, y la mayoría de esos estudios son XR o CT. De estos, los algoritmos de qure.ai procesan unos 70 000 estudios de TC al mes. Esta colaboración ha producido ideas interesantes sobre los desafíos de implementar IA a una escala tan grande. Nuestro trabajo anterior en conjunto está publicado en otro lugar en Alambre de imagen y blog de vrad.

Modelos que son precisos en datos extremadamente diversos

Antes de discutir la precisión de los modelos, debemos comenzar con la forma en que realmente los medimos a escala. En este sentido, hemos aprovechado nuestra experiencia de esfuerzos anteriores de IA. vRad ejecuta los modelos de imágenes durante la validación en paralelo con los flujos de producción. A medida que se ingiere un estudio de imágenes en el PACS, se envía directamente a los modelos de validación para su procesamiento. A su vez, tan pronto como el radiólogo en la plataforma completa su informe para la exploración, lo usamos para establecer la realidad del terreno. Usamos nuestros algoritmos de procesamiento de lenguaje natural (NLP) para leer automáticamente estos informes y asignar si el escaneo actual es positivo o negativo para ICH. Por lo tanto, la sensibilidad y la especificidad de un modelo se pueden medir en tiempo real de esta manera en datos del mundo real.

Los modelos de IA a menudo funcionan bien en el laboratorio, pero cuando se prueban en un flujo de trabajo clínico del mundo real, no cumplen con las expectativas. Esta es una combinación de problemas. La idea de una cohorte diversa y heterogénea de pacientes es bien discutida en el espacio de imágenes médicas. En este caso, el modelo de Qure.ai se midió con una cohorte de pacientes representativa de toda la población de EE. UU., con estudios de los 50 estados que fluyen a través del modelo y se reportan en contra.

Menos comúnmente discutidos son los desafíos con la singularidad de los datos que son específicos de un hospital o incluso de un dispositivo de imágenes. vRad recibe imágenes de más de 150 000 dispositivos de imágenes únicos en más de 2000 instalaciones. A nivel de estudio, diferentes instalaciones pueden tener muchos protocolos de estudio diferentes: diferentes cantidades de contraste, diferentes dosis de radiación, diferentes grosores de corte y otras consideraciones pueden cambiar qué tan bien un radiólogo humano puede evaluar un estudio, y mucho menos el modelo de IA.

Al igual que los radiólogos humanos, los modelos de IA hacen lo mejor que pueden si ven imágenes consistentes a nivel de píxel a pesar de la diversidad de datos. Nadie querría recalibrar su proceso de decisión solo porque diferentes fabricantes optaron por utilizar diferentes técnicas de posprocesamiento. Por ejemplo, las características de imagen de una tomografía computarizada de corte delgado son bastante diferentes de una tomografía de 5 mm de espesor, siendo la primera considerablemente más ruidosa. Tanto la IA como los médicos seguramente se confundirán si se les pide que decidan si esos sutiles puntos hiperdensos que ven en un escaneo de corte delgado son solo ruido o síntomas de una lesión axonal difusa. Por lo tanto, invertimos considerablemente para asegurarnos de que los diversos datos se preprocesen en datos de píxeles sin procesar altamente consistentes. Discutimos más en la siguiente sección.

Una TC de corte fino (izquierda) frente a una de corte grueso (derecha)

Una TC de corte fino (izquierda) frente a una de corte grueso (derecha)

DICOM, IA e interoperabilidad

Tratar con la diversidad de pacientes y datos son componentes importantes de los modelos de IA. El modelo de IA no solo tiene que ser generalizable a nivel de píxel, sino que también debe asegurarse de que se introduzcan los píxeles correctos. El primer problema está muy documentado en la literatura de IA, pero el segundo no tanto. Como los modelos tradicionales de imágenes de IA están entrenados para trabajar en imágenes naturales (piense en fotos de gatos), se ocupan de formatos de datos simples como PNG o JPEG. Sin embargo, las imágenes médicas son muy estructuradas y complejas y contienen órdenes de más datos en comparación con las imágenes naturales. DICOM es el formato de archivo y el estándar utilizado para almacenar y transferir las imágenes médicas.

Si bien DICOM es un estándar sólido y bien adoptado, los detalles de implementación varían. A menudo, las etiquetas DICOM difieren mucho de una instalación a otra, las etiquetas privadas varían de un fabricante a otro, las codificaciones y otras diferencias específicas de los dispositivos de imágenes en DICOM requieren que cualquier pieza de software, incluido un modelo de IA, sea sólido y bueno en el manejo de errores. Después de una década de recibir DICOM de todos los EE. UU., el vRad PACS todavía se ejecuta en nuevas configuraciones e implementaciones únicas algunas veces al año, por lo que somos especialmente sensibles a los desafíos.

Una muestra de la diversidad DICOM: se muestran descripciones de estudios aleatorios que se utilizan para representar el cerebro por TC

Una muestra de la diversidad DICOM: se muestran descripciones de estudios aleatorios que se utilizan para representar el cerebro por TC

Nos dimos cuenta de que necesitamos otro modelo de aprendizaje automático para resolver este problema de interoperabilidad. ¿Cómo reconocemos que esta imagen de TC en particular no es una imagen del cerebro incluso si la descripción de las imágenes lo dice? ¿Cómo nos aseguramos de que el cerebro completo esté presente en la imagen antes de decidir que hay una hemorragia en ella? La variabilidad de los metadatos DICOM no nos permite escribir reglas simples que puedan funcionar a escala. Por lo tanto, hemos entrenado otro modelo de IA basado en metadatos y píxeles que pueden tomar las decisiones anteriores por nosotros.

Estos desafíos se remontan a los problemas clásicos de interoperabilidad en el cuidado de la salud. En una encuesta realizada por Philips, la mayoría de los profesionales de la salud más jóvenes indicaron que la interoperabilidad mejorada entre las plataformas de software y las prácticas de atención médica es importante para su satisfacción en el lugar de trabajo. Curiosamente, estos son los desafíos exactos que la IA de imágenes médicas tiene que resolver para que funcione bien. Entonces, la generalización de la IA es solo otro nombre para la interoperabilidad de la atención médica. Dada la forma en que usamos el aprendizaje automático y la visión por computadora para resolver los problemas de interoperabilidad de nuestro modelo de IA, es posible que resolver problemas de interoperabilidad más amplios involucre a la propia IA.

Ingeniería de software de IA

Pero incluso después de que se superen esos desafíos de generalización/interoperabilidad, un modelo debe hospedarse de alguna manera, a menudo en una solución basada en Docker, frecuentemente escrita en Python. Y al igual que el modelo, este contenedor debe escalar la solución. Debe gestionar las llamadas al modelo y la devolución de resultados, así como registrar información sobre el estado del sistema como cualquier otra pieza de software. A medida que un modelo se pone en marcha en una plataforma como la de vRad, los problemas comunes que vemos que ocurren son desbordamientos de memoria, bajo rendimiento y otros problemas de software «típicos».

Aunque estos problemas se parecen bastante a los «problemas de software» tradicionales, la causa raíz es bastante diferente. Para la escalabilidad y la confiabilidad del software tradicional, el cuello de botella generalmente se reduce a las transacciones de la base de datos. Tome Slack, una plataforma de mensajería empresarial, por ejemplo. ¿Qué es lo más intensivo en computación que hace la aplicación de Slack? Busca el chat escrito previamente por su colega de una base de datos y se lo muestra. Básicamente, una transacción de base de datos. La escalabilidad de Slack generalmente significa escalabilidad y confiabilidad de estas transacciones de bases de datos. Dado que las bases de datos han existido durante años, este problema se resuelve bastante bien con soluciones listas para usar.

Para un software habilitado para IA, la tarea más intensiva en computación no es una transacción de base de datos sino la ejecución de un modelo de IA. Y esto es posiblemente más intensivo que una búsqueda en la base de datos. Dado lo nuevo que es el aprendizaje profundo, el ecosistema que lo rodea aún no está bien desarrollado. Esto dificulta la implementación y la ingeniería del modelo de IA y está siendo abordado por grandes nombres como Google (Tensorflow), Facebook (Torch) y Microsoft (ONNX). Debido a que estos son de código abierto, contribuimos activamente a ellos y los mejoramos a medida que encontramos problemas.

Dado que la causa raíz de los desafíos de ingeniería es diferente, el proceso para abordarlos es sorprendentemente similar. Después de todo, el enfoque de los ingenieros para construir puentes y cohetes no es tan diferente, solo requieren herramientas diferentes. Para hacer que nuestra IA escale a vRad, seguimos las mejores prácticas tradicionales de ingeniería de software, incluido un código altamente probado y actualizaciones frecuentes. Tan pronto como identificamos un problema, lo reparamos y escribimos una prueba de regresión para asegurarnos de que nunca lo volvamos a encontrar. Docker ha hecho que la implementación y las actualizaciones sean fáciles y consistentes.

Alertas de holgura automatizadas

Recibimos alertas automáticas de los errores y los solucionamos de forma proactiva.

Integración al flujo de trabajo clínico

Otro importante desafío de ingeniería que resolvimos es adaptar el software clínico a nuestra voluntad. DICOM es un estándar de comunicación desordenado y carece de algunas características importantes. Por ejemplo, DICOM no presenta señal de reconocimiento de que el estudio completo ha sido enviado a través de la red. Otro gran ejemplo es la falta de estandarización en cómo se describe un estudio determinado: qué campos se usan y qué frases se usan para describir lo que representa el estudio. El trabajo Qure.ai y vRad colaboraron en el mapeo inteligente requerido de descripciones de estudio e información de modalidad en toda la plataforma, desde vRad PACS a través del motor de inferencia que ejecuta los modelos hasta la lógica real en los propios contenedores del modelo.

Muchos modelos y soluciones de imágenes de IA en el mercado actual se integran con PACS y listas de trabajo, pero un aspecto único del trabajo de Qure.AI y vRad es la gran escala de la empresa. El PACS de vRad ingiere millones de estudios al año, alrededor de mil millones de imágenes individuales al año. La plataforma vRad, que incluye PACS, RIS y el motor de inferencia de IA, dirige esos estudios a los modelos de IA correctos y a los radiólogos correctos, los radiólogos realizan miles de lecturas cada noche y NLP los ayuda a informar y analizar esos informes para obtener comentarios continuos tanto para radiólogos, así como modelos de IA y monitorización. El modelo ICH de Qure.AI se conectó a la plataforma y demostró solidez, así como una sensibilidad y especificidad impresionantes.

Durante la validación de vRad y Qure.ai, pudimos ejecutar cientos de miles de estudios en paralelo con nuestras cargas de trabajo de producción, validando que el modelo y la solución para hospedar el modelo no solo generalizaban la sensibilidad y la especificidad, sino que superaban todos los problemas. estos otros desafíos técnicos que a menudo son problemas en implementaciones a gran escala de soluciones de IA.

Fuente del artículo

Deja un comentario