Comprendiendo nuestra IA
19 abril 23

Descifrando la «buena» IA: creación y evaluación de modelos de aprendizaje automático de alta calidad para uso clínico

¿Hay algún día en el que no leas algo sobre inteligencia artificial en las noticias? No cabe duda de que la inteligencia artificial se está convirtiendo en la tendencia predominante a medida que aplicaciones de interés periodístico como ChatGPT, asistentes de voz como Siri y motores de recomendación como Netflix y Amazon siguen afianzándose en nuestro día a día.  

Más allá de facilitarnos la vida a nivel personal, la IA desempeña un papel cada vez más importante en el aumento de la productividad y la toma de decisiones en nuestra vida profesional. Todos los sectores están experimentando actualmente esta transformación, y los modelos de IA se presentan en multitud de formas especializadas para hacer frente a la gran variedad de retos que hay que resolver. 

A medida que nuevas soluciones de IA entran en el campo de la medicina reproductiva, médicos y embriólogos se ven empujados a considerar cuál es la mejor manera de descifrar cómo es una «buena» solución de IA: ¿Cómo está diseñada? ¿Cómo se puede evaluar su rendimiento e impacto en la práctica clínica? Y, ¿con qué facilidad puede integrarse esta tecnología innovadora en su centro? 

En esta sección del blog, le presentaremos la solución de IA que hemos creado en Future Fertility.  Desglosaremos los principales pasos necesarios para desarrollar un modelo de aprendizaje automático de alta calidad para el análisis de imágenes clínicas, utilizando ejemplos reales relacionados con los ovocitos y la medicina reproductiva. 

Las partes interesadas de las clínicas que deseen saber más sobre el análisis subyacente y el desarrollo de estas tecnologías emergentes de IA encontrarán esta serie especialmente útil, ya que les permitirá evaluar la calidad de los modelos y el papel que pueden desempeñar en sus respectivos centros.

¿QUÉ ES EL APRENDIZAJE AUTOMÁTICO (MACHINE LEARNING) Y EL APRENDIZAJE PROFUNDO (DEEP LEARNING)?

El aprendizaje automático o machine learning, es un área de la inteligencia artificial, que se define en términos generales como la capacidad de una máquina para imitar el comportamiento inteligente de un ser humano.  

El aprendizaje profundo o deep learning, es un tipo de aprendizaje automático (o machine learning) utilizado a menudo para clasificar imágenes y detectar características u objetos en la imagen. Su uso se ha generalizado en el procesamiento de imágenes en medicina para clasificar y predecir resultados clínicos. Esta forma de inteligencia artificial ganó impulso por primera vez en el campo de la medicina para procesar radiografías, tomografías computarizadas y resonancias magnéticas, que contienen una gran cantidad de información visual que puede ser difícil de procesar para un ser humano.  

El aprendizaje profundo (o deep learning) utiliza un modelo denominado red neuronal artificial o artificial neural network, que recibe datos a nivel de píxel y es capaz de detectar elementos clave de las imágenes, como bordes, gradientes, formas y texturas, incluidos aquellos que pueden ser indetectables para el ojo humano. Al relacionar estas características con los datos de los resultados sanitarios, las redes neuronales pueden aprender a predecir los resultados de nuevas imágenes que nunca antes habían visto. Este tipo de tecnología ya ha logrado avances en la detección de diversos tipos de cáncer o de complicaciones de la visión, lo que permite a los profesionales sanitarios tomar decisiones terapéuticas antes y con mayor información.  

Future Fertility es la primera empresa que aplica el aprendizaje profundo (o deep learning) para la evaluación de la calidad ovocitaria en la medicina reproductiva. Nuestra tecnología procesa imágenes de ovocitos para predecir la probabilidad de que formen un blastocisto. Se trata de una aplicación perfecta para las redes neuronales porque, hasta la fecha, los investigadores no han podido determinar qué características de las que son visibles al ojo humano bajo el microscopio, tienen un verdadero impacto en la calidad ovocitaria.   

En el artículo 1 de esta serie se examinarán los dos primeros pasos en el desarrollo de un modelo de aprendizaje profundo (deep learning model):  

  • • Paso 1: Definir el problema que resolverá el modelo de aprendizaje profundo 
  • • Paso 2: Recopilar y preparar los datos que se utilizarán para entrenar el modelo  

En el artículo 2 continuaremos con:  

  • • Paso 3: Elegir una arquitectura de modelo de aprendizaje profundo  
  • • Paso 4: Diseñar el modelo  

Por último, en el artículo 3 veremos:  

  • • Paso 5: Entrenar el modelo  
  • • Paso 6: Evaluación del modelo

PASO 1: DEFINIR EL PROBLEMA

Una definición completa y específica del problema es un primer paso muy importante en la construcción de un modelo de aprendizaje profundo (deep learning model), ya que garantiza que el modelo y sus sistemas de medición del rendimiento están diseñados para abordar los aspectos específicos del problema en cuestión. Esta planificación por adelantado se traduce en un modelo de mayor rendimiento y mejor interpretabilidad.

Esto es especialmente importante en el campo de la reproducción asistida. Dados todos los factores y variables que intervienen en cada etapa del tratamiento de la fertilidad, es fundamental contar con una perspectiva clínica para garantizar que en el desarrollo del modelo se tienen en cuenta, se miden y se aíslan las variables adecuadas.

¿Qué problema de los tratamientos de fertilidad estamos resolviendo con el aprendizaje automático? 

A pesar de la increíble contribución del ovocito al desarrollo embrionario, actualmente no existe un sistema de clasificación estandarizado para evaluar la calidad de los mismos. Los embriólogos pueden observar las características morfológicas de un ovocito en el laboratorio y anotar cualquier variación que detecten, pero los estudios no han sido capaces de relacionar de forma consistente estas variaciones con el pronóstico de desarrollo del embrión.  
 
Además, lo más habitual a la hora de estimar la calidad de los ovocitos es utilizar los datos estadísticos de salud de la población (basados en la edad de la paciente y el número de ovocitos maduros extraídos) para predecir la probabilidad de éxito del embarazo. Esto asume incorrectamente que todas las pacientes del mismo grupo tienen los mismos antecedentes de salud y conseguirán los mismos resultados, al tiempo que asume que todos los ovocitos de una persona son de la misma calidad.  
 
¿Qué tiene que hacer el modelo para abordar este reto? 

La calidad ovocitaria se puede determinar mediante la evaluación de la capacidad de un ovocito para alcanzar las etapas clave en el camino hacia el nacimiento de un bebé vivo. Sin embargo, una vez que se produce la fecundación, hay otros factores ajenos al ovocito que pueden influir en el éxito a medida que avanza el proceso, por lo que resulta difícil determinar si la calidad del ovocito es el principal factor que contribuye a las fases posteriores del desarrollo.   
 
Se optó por la formación de blastocistos como resultado primario de nuestro modelo para controlar mejor los factores externos al ovocito que también pueden influir en el éxito del embarazo (por ejemplo, el ambiente uterino, el estado de ploidía, la técnica de transferencia embrionaria, las dificultades asociadas a la gestación a término). También cabe destacar que entre la fertilización y la formación del blastocisto aparecen la mayoría de los problemas embrionarios. Por tanto, nuestro modelo considera de alta calidad los ovocitos que llegan a la fase de embrión utilizable. Además, el desarrollo embrionario preimplantacional durante la FIV tiene lugar íntegramente en el laboratorio de fertilidad, lo que añade un nivel adicional de control mediante protocolos de laboratorio estandarizados.  
 
De este modo, nuestro modelo de aprendizaje automático se entrena para analizar imágenes 2D de ovocitos y predecir su probabilidad de formar un blastocisto.

PASO 2: RECOPILAR Y PREPARAR LOS DATOS QUE SE UTILIZARÁN PARA ENTRENAR EL MODELO

Una vez recopilados, limpiados y validados, los datos se dividen en al menos tres subconjuntos distintos que se utilizan para desarrollar un modelo de aprendizaje automático:   

  • • Conjunto de datos de entrenamiento: Es el conjunto de datos que utilizamos para enseñar al modelo a realizar una tarea específica (por ejemplo, predecir si un ovocito formará un blastocisto o no, basándonos en su imagen).
  •  
  • • Conjunto de datos de validación: Se trata de un conjunto más pequeño de datos que utilizamos para comprobar la calidad del aprendizaje del modelo. Después de cada ronda de entrenamiento, el rendimiento del modelo se valida en este subconjunto de datos que no fueron vistos durante esta iteración. Los resultados de esta validación se utilizan para ajustar los parámetros del modelo antes de la siguiente ronda de entrenamiento.
  •  
  • • Conjunto de datos de «test»: Este conjunto de datos se utiliza para determinar el rendimiento del modelo con datos nuevos y desconocidos. Sólo utilizamos estos datos al final del desarrollo del modelo, una vez completado el entrenamiento y la validación.

¿Qué hace falta para crear un conjunto de datos sólido para desarrollar el modelo? 

Si queremos que la red neuronal sea capaz de predecir si un ovocito se convierte en un blastocisto, tenemos que mostrarle muchos ejemplos de imágenes de ovocitos que sí formaron un blastocisto y muchos que no. De este modo, el modelo aprende las relaciones entre las características de la imagen y los resultados que le ayudarán a hacer buenas predicciones en el futuro.

La recopilación de un conjunto de datos sólido es fundamental para crear un modelo fiable y de alto rendimiento. Este paso implica recopilar y etiquetar imágenes de ovocitos y sus resultados. (Por ejemplo, ¿el ovocito de esta imagen formó un blastocisto?).

Unos buenos datos de entrada son cruciales para obtener buenos resultados. Estas son algunas de las características clave que hay que buscar en un buen conjunto de datos de entrenamiento: 

GRAN TAMAÑO:

Un modelo de aprendizaje profundo está realmente «aprendiendo», y comienza este aprendizaje desde cero. En términos generales, cuantos más datos utilice el modelo para entrenarse, mejor podrá predecir los resultados a lo largo del tiempo (teniendo en cuenta todos los demás factores, como veremos a continuation).

Nuestro modelo ha sido entrenado con más de 70.000 imágenes de ovocitos y sus correspondientes resultados, pero el tamaño por sí solo no basta. El conjunto de datos debe ser representativo de los datos del mundo real en múltiples regiones y centros (véase más abajo «Diversidad») para garantizar que el modelo pueda predecir con precisión los resultados cuando se aplique en un nuevo entorno. También es importante incluir suficientes datos (es decir, más de 1.000 imágenes) para cada escenario clínico a fin de que el modelo capte los matices entre regiones, protocolos y otras variables.

DIVERSIDAD:

La diversidad de los datos es importante para mejorar la generalización del modelo y evitar lo que se conoce como “sobreadaptación” (u overfitting) del modelo. Esto incluye la diversidad en términos de fuentes de datos, tipos de datos y distribución de datos.

La sobreadaptación se produce cuando un modelo funciona bien con los datos de entrenamiento, pero no consigue ser generalizable a nuevos datos ni se adapta a situaciones reales. Sería como memorizar las respuestas de un examen en lugar de comprender el material adecuadamente para razonar una respuesta.

En nuestro conjunto de datos nos aseguramos de incluir una buena combinación de imágenes que representen escenarios del mundo real:

  • • Diferentes resultados: Ovocitos que formaron un blastocisto y ovocitos que no lo hicieron.
  •  
  • • Diferentes países y regiones (y, por tanto, poblaciones): Nuestro modelo se ha entrenado con datos procedentes de distintos centros (un mínimo de 1.000 por centro/región) e instituciones de ocho países y tres continentes distintos.
  •  
  • Estudios como este ejemplo de Palacios et al. han mostrado diferencias en los datos de salud reproductiva de la población entre regiones. Por lo tanto, es importante representar diferentes poblaciones de pacientes en el entrenamiento de nuestro modelo para ayudar a que el modelo se generalice a este tipo de variaciones entre regiones.
  • • Diferentes equipos de laboratorio: Las imágenes de ovocitos tienen un aspecto diferente dependiendo del tipo y modelo de equipo que capture la imagen: existen diversos microscopios y modelos de cámaras, así como incubadoras de time-lapse.
  •  
  • Al integrar nuestra tecnología con diferentes equipos de laboratorio, tenemos que asegurarnos de que el modelo funcione bien a la hora de predecir los resultados de los ovocitos capturados por diferentes tipos de equipos.

Nuestro enfoque responsable de la obtención de datos garantiza que sigamos aumentando el tamaño y la diversidad de nuestro conjunto de datos gracias a nuevas asociaciones con clínicas e instituciones de todo el mundo. Esto nos permite también capturar imágenes con diferentes equipos de laboratorio y tener representada una gran variedad de poblaciones de pacientes y donantes.

CALIDAD:

En un modelo de clasificación de imágenes, no es ninguna sorpresa que la calidad de las imágenes que entrenan al modelo sea crucial. El modelo también necesita que los datos estén etiquetados con la máxima precisión (por ejemplo, etiquetando el resultado y otros factores clínicos o demográficos) para ayudarle a comprender qué tipos de datos está analizando. Las etiquetas deben ser precisas, coherentes, completas, representativas de la distribución objetivo y no estar sesgadas para maximizar el rendimiento del modelo.

Algunos ejemplos de nuestras etiquetas de datos son:

  • • Resultados: Calidad de blastocisto según Gardner, Fecundación
  • • Calidad del semen utilizado
  • • Edad de la paciente
  • • IMC
  • • Protocolo

Actualmente, nuestro modelo de predicción de blastocitos solo utiliza las imágenes de ovocitos y sus resultados. La edad de la paciente se añade después de la evaluación para proporcionar la predicción de nacidos vivos en nuestros informes VIOLET™ para ofrecer asesoramiento a las pacientes. También recopilamos de forma proactiva otros datos relevantes en colaboración con las clínicas, lo que nos permite desarrollar nuevos estudios y nuevas perspectivas para comprender mejor las correlaciones entre diversos factores y la calidad ovocitaria.

Al igual que un edificio necesita unos cimientos sólidos para sostener su estructura, un modelo de aprendizaje profundo necesita datos de alta calidad que sustenten sus predicciones. Si se entrena un modelo de aprendizaje profundo con datos de baja calidad, las predicciones del modelo no serán fiables y fallarán cuando se enfrenten a nuevos datos.

Algunos ejemplos de factores que influyen en la calidad de los datos de ovocitos son:

  • • Calidad de la imagen (por ejemplo, bien enfocada, correctamente expuesta, con poco ruido, etc.)
  • • Un correcto etiquetado de los resultados de los datos utilizados para entrenar el modelo

Los centros colaboradores pueden cargar fácilmente imágenes y datos de resultados a través de nuestras aplicaciones que son muy fáciles de usar y se integran directamente con el equipo del laboratorio para la obtención de imágenes. Este esfuerzo conjunto para lograr datos de alta calidad pone de relieve la importancia de establecer relaciones sólidas entre el creador del modelo y los centros de recogida de datos.

Para ayudar a nuestros centros colaboradores, los embriólogos de nuestro equipo de Embriología Clínica trabajan coordinados con los laboratorios para configurar el equipo de obtención de imágenes y asesorarles sobre los mejores flujos de trabajo que garanticen la obtención de imágenes de ovocitos de alta calidad.

Para garantizar que los laboratorios toman imágenes de alta calidad, nuestra aplicación de software realiza comprobaciones automáticas de evaluación de la calidad cuando éstas se cargan en nuestra plataforma. El equipo de laboratorio recibe información inmediata a través de nuestra aplicación si las imágenes cargadas están borrosas o tienen ruido, permitiendo así capturar nuevas imágenes de mejor calidad.

HIGIENE DE LOS DATOS:

La calidad de los datos es la clave de una higiene de datos eficaz. Es importante establecer en primer lugar prácticas de calidad de datos para garantizar que los datos sean precisos, fiables y coherentes antes de aplicar técnicas de higiene de datos para mantener la limpieza y organización de los mismos.

Un aspecto clave en el mantenimiento de la higiene consiste en eliminar los datos duplicados, los valores atípicos y los datos irrelevantes. Tener un gran conjunto de datos duplicados o irrelevantes para el entrenamiento del modelo es contraproducente. 

Algunos ejemplos de mantenimiento de la higiene en nuestro conjunto de datos son:

  • • Eliminar las imágenes del mismo ovocito que han sido capturadas dos veces por los equipos de laboratorio.
  •  
  • • Mantener los ovocitos de la misma cohorte dentro de un único tipo de conjunto de datos (conjuntos de entrenamiento, validación o prueba). Esto garantiza que el modelo no haga «trampas» en su prueba al ver ovocitos del mismo ciclo (de la misma punción) del que aprendió en el entrenamiento, ya que podrían tener características similares a las de los demás ovocitos de ese ciclo.
  •  
  • • Etiquetar qué ovocitos proceden de donantes y cuáles de pacientes, para garantizar que la edad del ovocito es la adecuada durante los estudios de investigación (es decir, si una paciente de 38 años recibe un ovocito donado por una donante de 31 años, la edad del ovocito que se evaluará será de 31 años).

BALANCE:

La recopilación de datos suficientes de cada clase de resultado es crucial para un aprendizaje eficaz del modelo. Aunque no se requiere un equilibrio perfecto 50/50, el conjunto de datos debe incluir suficientes muestras de cada clase para permitir que el modelo aprenda las características relevantes y sea representativo de los resultados del mundo real, garantizando una buena generalización para el uso clínico. Nuestro conjunto de datos, por ejemplo, tiene una proporción de 40/60 entre resultados de «blastocisto» y » «no blastocisto» para reflejar los resultados del mundo real que están modelando.

El equilibrio del conjunto de datos permite que el modelo aprenda a reconocer todas las clases por igual, evitando así predicciones sesgadas. Disponer de un conjunto de datos realmente grande no es útil si no está correctamente equilibrado, ya que el modelo puede aprender a predecir bien la clase mayoritaria y obtener malos resultados en la predicción de la clase minoritaria.

Por ejemplo, un conjunto de datos compuesto en gran parte por imágenes de ovocitos que formaron blastocistos será probablemente mejor a la hora de predecir un resultado positivo que uno negativo, porque su entrenamiento se ha centrado principalmente en los aspectos relevantes de la formación de blastocistos. Funciona de la misma manera en nuestros propios cerebros: uno se vuelve más competente a la hora de completar las tareas que realiza con más frecuencia que aquellas en las que rara vez tiene que pensar. 

La recopilación de datos también debe tener en cuenta la distribución de otras características clave de los datos que puedan afectar al rendimiento del modelo. Por ejemplo, nos aseguramos de tener un buen equilibrio entre los distintos grupos de edad de las pacientes, ya que se sabe que la calidad de los ovocitos suele disminuir con la edad.

CONSIDERACIONES ÉTICAS:

Un conjunto de datos sólido debe recopilarse y etiquetarse de forma ética y responsable. También debe representar a diversas poblaciones para garantizar que el propio modelo no perpetúe aún más los sesgos culturales. Los métodos de recopilación de datos, así como las medidas para garantizar la seguridad del almacenamiento y el uso de los datos ( por ejemplo, la desidentificación) deben tenerse en cuenta como parte del proceso de planificación antes de que comience la recopilación de datos.

Ampliar el tamaño de nuestro conjunto de datos y diversificarlo a nuevas regiones, poblaciones de pacientes y donantes, y casos de uso emergentes es una parte clave de nuestra estrategia de datos. Como nuestro modelo no utiliza ninguna información de salud personal (PHI) para la formación, nuestras soluciones también cumplen con HIPAA y GDPR.

Es importante tener en cuenta todas estas características a la hora de crear o evaluar el conjunto de datos de entrenamiento de un modelo. Centrarse en elementos individuales de forma aislada puede dar lugar a deficiencias en la generalización del modelo a escenarios clínicos del mundo real. Por ello, cuando evalúe diferentes soluciones de IA para su clínica, asegúrese de obtener una visión completa y evite dejarse llevar por afirmaciones de marketing que se centran en un solo elemento. Un buen punto de partida es preguntar sobre el conjunto de datos con el que se ha entrenado el modelo y sobre el problema que pretende resolver. 

Los enfoques de Future Fertility sobre la estrategia de datos, la recopilación de datos y las nuevas colaboraciones tienen en cuenta todos los aspectos, lo que nos permite trabajar estrechamente con clínicas e instituciones a escala mundial para establecer un modelo de alto rendimiento que se traduzca en una aplicación práctica con valor clínico, sacando partido de las mejores prácticas de datos en IA.

No se pierda la próxima entrega de esta serie, en la que le ayudaremos a comprender cómo se construye una red neuronal y qué consideraciones son importantes a la hora de desarrollar una solución para la evaluación de imágenes de ovocitos.

MANTÉNGASE INFORMADO

Suscríbase a nuestra newsletter para recibir información sobre los últimos avances en fertilidad

    Sus datos personales serán utilizados para poder responder a su solicitud y se regirán por nuestra Política de privacidad.

    Form was submitted!