Bienvenidos de nuevo a nuestra serie de blogs «Descifrando la «buena» IA», en la que utilizamos ejemplos reales del desarrollo de nuestro propio modelo de evaluación de ovocitos basado en IA para ilustrar los pasos clave necesarios para desarrollar un modelo de aprendizaje automático de alta calidad para el análisis de imágenes en medicina.
En nuestra anterior entrada del blog, le presentamos el apasionante mundo del aprendizaje automático (machine learning) y su aplicación práctica en la medicina reproductiva. Hablamos de la importancia de definir claramente la tarea específica que realiza el modelo y de las consideraciones esenciales para crear un conjunto de datos sólido que permita al modelo obtener buenos resultados en escenarios clínicos reales.
Continuando con nuestra serie, profundizamos en el desarrollo de un modelo de aprendizaje profundo (deep learning) para el análisis de ovocitos. En este artículo, exploraremos el siguiente paso crítico: Elegir la arquitectura de un modelo de aprendizaje profundo (deep learning).
Actualmente, muchas personas interactúan diariamente con la IA, pero cada tarea requiere modelos de IA desarrollados con diferentes diseños y tipos de arquitectura. Aquí exploraremos las mejores arquitecturas y las arquitecturas emergentes para el análisis de imágenes médicas.
Permanezca atento a nuestra próxima entrada en el blog, donde profundizaremos en el proceso de entrenamiento de un modelo de aprendizaje profundo (deep learning) y las consideraciones sobre su entrenamiento. Más adelante, cerraremos la serie desvelando los pasos finales de nuestro viaje por la IA: la evaluación del rendimiento del modelo y el continuo proceso de supervisión del rendimiento.
Al final de la serie, los profesionales clínicos tendrán una clara comprensión de los fundamentos de la «buena» IA y serán capaces de evaluar la calidad de los modelos de IA y su posible impacto en la práctica clínica.
Nuestro último artículo hablaba de la importancia de definir en primer lugar una tarea específica para el modelo, con el fin de garantizar que su arquitectura y diseño se seleccionan para abordar ese reto de la mejor manera posible. A medida que nos acercamos a la siguiente sección, recordemos que la tarea de nuestro modelo es evaluar imágenes de ovocitos para predecir si formarán un blastocisto.
Hay varios tipos de arquitecturas de modelos que pueden ayudar a resolver esta cuestión, por lo que parte del proceso de desarrollo de nuestro modelo consiste en experimentar con diferentes tipos de arquitectura para ver cuál es la que mejor funciona a la hora de realizar predicciones de blastocistos a partir de imágenes de ovocitos. También realizamos pruebas para ver si se pueden combinar varios tipos de arquitectura para obtener una mayor capacidad de predicción como modelo ensamblado.
Para ayudarle a comprender las distintas opciones de arquitectura disponibles para el desarrollo de nuestro modelo, vamos a hacer un breve repaso de la historia.
Los primeros modelos de clasificación de imágenes solían basarse en características extraídas a mano de las imágenes, como descripciones de textura, color o forma. A continuación, estas características se introducían en algoritmos tradicionales de aprendizaje automático (machine learning), como Random Forest o XGBoost (ambos basados en conjuntos de árboles de decisión), para clasificar las imágenes. Aunque estas arquitecturas básicas tuvieron cierto éxito en las tareas de clasificación más sencillas, requerían la identificación manual de las características y tenían dificultades para captar patrones de imagen complejos. Y lo que es más importante, el usuario tenía que ser capaz de identificar por sí mismo esas características, que en muchos casos no son obvias.
Aun así, dependiendo de la tarea específica que se vaya a realizar, la arquitectura ideal no tiene por qué ser siempre la opción más profunda o evolucionada. En algunos casos, estos métodos tradicionales siguen siendo candidatos valiosos para el diseño de modelos, ya que no requieren tantos datos como los modelos de aprendizaje profundo (deep learning).
Otra ventaja de estos modelos anteriores es que son «explicables«: el usuario sabe exactamente qué características de la imagen se han tenido en cuenta en la predicción. Por ejemplo, en uno de nuestros experimentos, estamos entrenando un modelo que utiliza características específicas que describen la morfología del ovocito, como la relación entre la zona pelúcida y el ooplasma.
Un avance rápido hasta el nacimiento de las redes neuronales convolucionales (CNN)…
Las CNN -que constituyen un componente clave de nuestro modelo– han supuesto una verdadera revolución en la clasificación de imágenes y se consideran la arquitectura más avanzada para analizar grandes cantidades de datos visuales.
Entre las principales tareas en las que destacan las CNN se incluyen:
Los modelos CNN suelen requerir un número masivo de datos para lograr una gran precisión y generalización en comparación con las técnicas clásicas de aprendizaje automático. En los casos en los que el conjunto de datos especializado no incluye millones de imágenes, un modelo CNN puede preentrenarse primero en un conjunto de datos grande y más general, como ImageNET, y luego afinarse en un conjunto de datos de imágenes más pequeño que sea directamente relevante para la tarea del modelo (por ejemplo, imágenes de ovocitos). Esto se denomina aprendizaje por transferencia y ha demostrado ser una técnica muy útil y popular. En la fase de preentrenamiento, el objetivo es acostumbrar al modelo a clasificar amplias categorías de imágenes mediante el reconocimiento de diferentes contornos, texturas u otras características sencillas. Más adelante, cuando se introduce el conjunto de datos más pequeño y específico de la tarea, el modelo transfiere ese conocimiento de clasificación más amplio para ayudar a centrar su entrenamiento más específico.
Este ejemplo deja claro que cualquier modelo de clasificación de imágenes puede haberse entrenado con millones de imágenes si se incluye el conjunto de datos de preentrenamiento. Sin embargo, a la hora de evaluar distintos modelos para su clínica, es importante conocer el tamaño del conjunto de datos específico para la tarea.
Por ejemplo, nuestro modelo se entrenó y testeó con más de 120.000 imágenes de ovocitos, el mayor conjunto de datos de su clase, para centrarlo en la identificación de las características que contribuyen a la formación del blastocisto.
Durante años, las CNN han sido la arquitectura preferida para tareas de clasificación de imágenes y detección de objetos, pero otras arquitecturas están ganando terreno rápidamente en este ámbito, sobre todo los Transformadores (Transformers).
ChatGPT, Siri (Apple), Google Translate y Alexa (Amazon) funcionan con modelos basados en transformadores. Las arquitecturas de transformadores se desarrollaron originalmente para tareas de procesamiento del lenguaje natural (NLP), como la comprensión y generación de texto. Sin embargo, los investigadores han encontrado formas creativas de aplicarlas a tareas de análisis de imágenes, con ventajas únicas sobre las CNN.
Las CNN se centran primero en comprender los microdetalles importantes de una imagen y luego la exploran en busca de patrones en esos detalles. Los transformadores adoptan un enfoque aparentemente inverso: evalúan toda la imagen a la vez y la dividen en fragmentos más pequeños para comprender las relaciones entre ellos y los objetos que contienen. Este enfoque holístico permite a los transformadores manejar un número variable de objetos en una imagen, captar un contexto más global y comprender mejor las dependencias de largo alcance entre objetos, lo que les ayuda a detectar objetos y clasificar imágenes con precisión.
Se ha comprobado que los transformadores de visión (ViTs) y los transformadores de detección (DETRs) alcanzan un rendimiento comparable o incluso superior al de las CNNs en tareas de clasificación de imágenes a gran escala y de detección de objetos, respectivamente. Ambas arquitecturas siguen teniendo sus puntos fuertes y se utilizan en función de los requisitos específicos de la tarea en cuestión.
Nuestro equipo está siempre experimentando con las últimas evoluciones en arquitecturas de aprendizaje profundo para desarrollar nuevas versiones de nuestro modelo de IA que mejoren continuamente nuestro rendimiento. Estas diferentes arquitecturas pueden combinarse en un modelo combinado para mejorar el poder predictivo de nuestras herramientas.
Los nuevos planteamientos que demuestran una posible mejora del modelo se prueban y evalúan cuidadosamente antes de incorporarlos a nuestro modelo. Todas las versiones que se utilicen en su clínica a través de nuestro software han sido validadas como el modelo con mejor rendimiento hasta el momento.
Al igual que en la creación de un gran equipo en su clínica donde cada miembro contribuye con sus habilidades especiales, los modelos ensamblados pueden reunir lo mejor de las diferentes arquitecturas de clasificación y detección de imágenes para proporcionar predicciones más sólidas del potencial reproductivo de un ovocito.
Suscríbase a nuestra newsletter para recibir información sobre los últimos avances en fertilidad