Machine Learning y algunas buenas prácticas

En el WIC se desarrollan proyectos multidisciplinarios que suelen encontrarse con un punto en común: El uso de Machine Learning para la detección de ciertos fenómenos asociados a un problema que puede ser representado a través de un conjunto de datos.

Pero, ¿qué es Machine Learning? En palabras simples, es el uso de algoritmos computacionales para que una máquina aprenda a hacer cosas. Podría existir interés en aprender a completar una tarea, realizar predicciones etc. Este aprendizaje siempre se realiza a partir de observaciones o datos asociados al fenómeno que se pretende aprender, como ejemplos, experiencia directa, instrucciones, entre otros. Entonces la premisa general es aprender a hacer mejor las cosas en el futuro, en función de la experiencia del pasado.

Entonces, ¿cómo se desarrolla un proyecto de Machine Learning? Géron (2017) propone 8 pasos principales para llevar a cabo el proyecto:

1.- Mirar la imagen completa

Es importante identificar el contexto del problema. ¿Por qué llevar a cabo este proyecto es beneficioso para la organización? ¿Cuál es el objetivo de negocio? ¿Qué existe actualmente? ¿Cuáles soluciones alternativas tenemos? ¿Cómo mediré el desempeño de mi modelo? Estas preguntas son relevantes a la hora de definir el problema y sus alcances. Una vez que eso está claro, es posible diseñar el sistema que construiremos: ¿Qué tipo de tarea debo diseñar? ¿Una clasificación o regresión? ¿Se utilizará aprendizaje supervisado o no supervisado?

2.- Obtener los datos

Una vez que se determina el problema y el sistema, es hora de mirar los datos y estudiar su estructura. Estadísticas básicas como cantidad de datos, media, desviación estándar, entre otros. También selección de muestras (aleatorias o estratificadas según corresponda) para generar un set de datos de prueba y un set de entrenamiento. El set de entrenamiento es lo que permitirá enseñar al modelo aquellos patrones que desea identificar, mientras que el set de prueba es el conjunto de datos que permitirá probar el rendimiento del modelo.

3.- Descubrir y visualizar los datos para obtener información

Similar al paso anterior, pero la idea es un análisis más profundo a partir de visualizar los datos gráficamente, observar correlaciones entre los atributos existentes, etc.

4.- Preparar los datos para los algoritmos de Machine Learning

Antes de aplicar algoritmos de Machine Learning sobre los datos, es necesario pre-procesarlos/transformarlos a través de distintas técnicas para que los algoritmos tengan un buen desempeño. Entre estas transformaciones se puede destacar el escalar a través de normalización o estandarización (los atributos numéricos podrían tener escalas diferentes y esto puede impactar negativamente el desempeño de los algoritmos).

En vez de realizar este paso manualmente de forma constante, el autor recomienda escribir funciones para hacerlo, lo cual conlleva varios beneficios: Permitiría reproducir el pre-procesamiento de forma fácil en cualquier conjunto de datos, se podrían utilizar en un sistema que transforme los datos en el momento mientras opera (por ejemplo, si se estuviese trabajando con datos transaccionales) y hará que probar distintas combinaciones de transformaciones/pre-procesamientos sea sencillo de realizar.

5.- Seleccionar un modelo y entrenarlo

Ahora es el momento de seleccionar un modelo de Machine Learning y entregarle datos de entrenamiento para que pueda “aprender” a identificar lo que queremos. ¿Cuál es el algoritmo de Machine Learning que debo utilizar? La respuesta es: Depende. Primero, considerar si se pretende trabajar con un algoritmo de aprendizaje supervisado (es decir, que aprende en base a ejemplos previamente etiquetados) o si es un aprendizaje no supervisado (es decir, el algoritmo se encarga de organizar los datos y darles una estructura ya que esta no es conocida previamente). Otras consideraciones se asocian a la precisión deseada (podría preferir métodos menos precisos para evitar que el modelo se sobreajuste a los datos), el tiempo de entrenamiento, linealidad (por ejemplo en algoritmos de regresión logística o SVM donde se asume que las clases a identificar podrían estar separadas mediante una línea recta o su análogo en mayores dimensiones), cantidad de atributos, entre otros.

6.- Ajustar el modelo

Asumiendo que en el paso previo se realizaron pruebas con distintos algoritmos de forma tal que ahora se cuenta con una breve lista de algoritmos prometedores, es hora de ajustarlos de forma detallada. Los algoritmos de Machine Learning en general podrían recibir una gran cantidad de parámetros, los cuales deben ser ajustados y distintas combinaciones de valores para estos podrían dar resultados diferentes en función de los datos. Entonces, la idea es probar con distintos valores para encontrar la configuración más adecuada. Sin embargo, esto podría ser tedioso de realizar de forma manual. En general, paquetes de análisis estadístico y Machine Learning como Scikit-Learn en Python disponen de herramientas que permiten realizar automáticamente esta búsqueda de parámetros.

7.- Presentar la solución

Antes de iniciar todo, es importante “presentar” esta solución, lo que involucra destacar lo aprendido, documentar aquellos elementos que funcionaron y que no funcionaron, dejar claros los supuestos hechos sobre el modelo y las limitaciones que éste tiene. Esto permitirá que sea validado por quienes deben aprobar su lanzamiento a producción.

8.- Iniciar, supervisar y mantener el sistema

Finalmente, luego de validar correctamente el modelo es hora de llevar la solución a un entorno de producción, estando preparado para recibir datos reales y poder operar en ese contexto. Es importante que exista código de monitoreo para supervisar el desempeño del sistema implementado y poder lanzar alertas en caso de que algo no funcione bien.

Equipo ChileVive en Congresos de Trasplante

Luego de exitosas presentaciones en VI Congreso Chileno de Trasplante, el equipo de trasplante del Web Intelligence Centre, participa activamente del XXIV Congreso de Trasplante de Latinoamérica y Caribe en Montevideo, Uruguay.

Las últimas dos semanas, el equipo de trasplantes del WIC, ChileVive, ha ido de congreso en congreso.

Entre el 3 y el 6 de Septiembre, se realizó el XXIV Congreso de Trasplante Latinoamericano y del Caribe en Montevideo, Uruguay, al cual el equipo asistió provechosamente. En él, además de hacer numerosos vínculos internacionales con expertos y líderes en donación y trasplante y llamar la atención el ser los únicos ingenieros asistentes, se presentó el trabajo titulado “El reemplazo de inmunosupresores innovadores por equivalentes genéricos, a primera vista económicamente convenientes, se asocia a pérdidas económicamente importantes.” por Francisca González en la primera sesión de trabajos de Riñón.

Además, el pasado 23, 24 y 25 de Agosto, se realizó en Santiago el VI Congreso Chileno de Trasplante, el cual recibió y presentó 4 trabajos del Web Intelligence Centre. Uno de ellos, titulado “Competencias y capacidades de la Coordinadora Nacional de Procuramiento y Trasplante en la implementación de la ley 19,451. Resultados preliminares.”, presentado por Martín Canales, el segundo titulado “Estudio del proceso de pesquisa de posibles donantes de órganos en hospitales trasplantadores de la Región Metropolitana. Resultados preliminares.”, presentado por Francisca González, y dos de ellos fueron presentados por el Dr. Fernando González del Departamento de Medicina Oriente de la Universidad de Chile, con quien se trabaja conjuntamente, titulados “El reemplazo de inmunosupresores innovadores por equivalentes genéricos, a primera vista económicamente convenientes, se asocia a pérdidas económicamente importantes.” y “Licitaciones de inmunosupresores para trasplante: El ahorro nominal es sólo un espejismo y muy oneroso”.

Todos ellos tuvieron gran aceptación en la sociedad médica, y se destacó el que una ciencia como la ingeniería permeara el ámbito médico, junto a los numerosos beneficios que esto traerá. Además, el primer trabajo, de Martín Canales, fue nominado a mejor trabajo del congreso.

SONAMA en la WI’17 Leipzig

Desde el 23 hasta el 26 de Agosto tomará lugar la IEEE/WIC/ACM International Conference en Web Intelligence en Leipzig, Alemania. La serie de conferencias y el área de Web Intelligence (WI) tienen como objetivo lograr un balance entre los avances de la investigación en teorías y la metodología usualmente asociada con Collective Intelligence, Data Science, HumanCentric Computing, Knowledge Management, and Network Science. También están comprometidas en abordar investigación que profundice el entendimiento los fundamentos computacionales, lógicos, cognitivos, físicos, y sociales de la Web futura, y habilitar el desarrollo y aplicación de tecnologías basadas en Web Intelligence.

La investigación asociada al proyecto SONAMA, mediante su representante el profesor Juan Velásquez, formará parte del conjunto de documentos de investigación originales de alta calidad y aplicaciones del mundo real en todas las área teóricas y tecnológicas que conforman el campo de WI. El trabajo realizado calza perfectamente en dicho marco, pues utiliza datos de contenido de la Web (Twitter) y los procesa para generar información que apoya la toma de decisiones con respecto a la política nacional de drogas y alcohol en Chile. Dicha investigación no sólo será expuesta oralmente, si no que también formará parte de los artículos incluidos en los procedimientos publicados por la ACM Press.

 

 

Diagnóstico veloz de Infarto agudo al miocardio

Según la Organización Mundial de la Salud (OMS), la enfermedad cardiovascular (ECV) es la primera causa de mortalidad en el mundo. En el año 2012 llegó a 17,5 millones, aproximadamente 1 de cada 3 muertes. En Chile, el infarto agudo al miocardio (IAM) es la principal causa de muerte, con un total de 5895 fallecidos. En la década del 2000, se priorizó dentro de los objetivos de salud del país la muerte asociada a falla cardíaca. En particular, se propuso reducirla en un 30%. A pesar de haber conseguido una disminución significativa, el objetivo no se ha logrado.

La isquemia cardíaca (diminución del flujo de sangre al corazón) suele manifestarse con signos clínicos repentinos, en el llamado Síndrome Coronario Agudo (SCA), y también puede ocurrir un estado de isquemia cardíaca crónica o silente. En el último caso, los pacientes tienen un elevado riesgo de experimentar una muerte súbita o un IAM, lo que hace que la detección precoz sea muy importante.

Frente a la sospecha de un IAM es fundamental confirmar el diagnóstico lo antes posible, ya que el daño progresa muy rápidamente. La necrosis en el miocardio se inicia a los 20 a 30 minutos del infarto, llegando a comprometer el 75% de la pared del miocardio a las 3 horas y completándola a las 6. Es por esto que confirmar rápidamente el diagnóstico es determinante para salvar la mayor cantidad de miocardio viable. El “gold standard” para el diagnóstico de IAM es el análisis del contenido plasmático de Troponina y Creatina-quinasa. La elevación de estas proteínas indica que se ha producido un IAM, y el declive de estas que ha terminado. Estos marcadores son liberados durante la destrucción de las células del miocardio, y no se elevan ante de 3 a 4 horas de iniciado el infarto. Esto significa que para el momento que es confirmado el IAM, gran parte del tejido ya ha sido comprometido.

Un grupo de científicos de la Universidad de los Andes, liderado por el Dr. Carlos Irarrázabal, ha estudiado un tipo de microvesículas extracelulares (MVECs) llamadas exosomas. Con los estudios realizados se tiene evidencia de que este tipos de MVECs aumenta significativamente en pacientes con SCA, como se ve en la siguiente figura:

 

En particular, la concentración de exosomas a 0-2 hrs post ingreso a urgencia fue 7,2 veces superior en pacientes con SCA vs la de los controles, mientras los niveles de troponina no mostraron cambios. Luego, a las 10-14 hrs del ingreso, la concentración de las MVECs disminuyó significativamente, mientras la concentración de troponina fue invariable, demostrando que los exosomas se liberan antes al plasma que la troponina, como se ve en la figura a continuación:

Esto permitiría contar con una prueba que entregue resultados más rápidos para confirmar el diagnostico de IAM, mejorando el desenlace de un paciente. Más aún, se tiene la hipótesis de que los exosomas son liberados al plasma cuando la célula es expuesta al daño, pero antes de que se produzca la necrosis celular. Si esta hipótesis se cumple, se podría contar con un indicador que permita detectar la isquemia cardíaca incluso antes de que el paciente se de cuenta de que tiene un problema.

En este contexto es que el WIC se une al proyecto, aplicando el conocimiento que se tiene de Data Science para analizar los datos obtenidos de los pacientes y controles, y poder desarrollar algoritmos que, idealmente, permitan crear una herramienta que pueda diagnosticar rápidamente un IAM. De esta manera se podrán salvar y mejorar la calidad de muchas vidas.

¡ Un nuevo Ingeniero Industrial ha egresado del WIC!

El 21 de Julio, el estudiante de Ingeniería Industrial Javier Tchimino defendió su tema de memoria: ” DISEÑO, DESARROLLO Y VALIDACIÓN DE UN MODULO FUNCIONAL PARA EL
ANÁLISIS Y MONITOREO A DISTANCIA DE FACTORES DE RIESGO EN PACIENTES CON ENFERMEDADES CARDIOVASCULARES”, obteniendo distinción ante una comisión integrada por ingenieros y el ex director del Instituto del Tórax, y médico Francisco Arancibia.

Felicitaciones y Exito en este nuevo comienzo Javier!

Te invitamos a conocer nuestros temas de memoria

El próximo miércoles 09 de agosto a las 12:00 realizaremos nuestra presentación semestral con los proyectos en los que estamos trabajando, y los temas de memoria que tendremos disponibles para este semestre. La presentación se realizará en la sala , ubicada en el tercer piso del edificio de Ingeniería Industrial, en Beaucheff 851, Santiago. La invitación se extiende también para aquellas personas que quieran realizar su práctica o trabajo dirigido con nosotros.

 

Para conocer más información con respecto a los temas que tenemos para ofrecerte, te invitamos a visitar el siguiente link. Si hay alguno que te interese, puedes consultar o postular enviando un correo con tu CV y un breve extracto de por qué te gustaría trabajar en él a postulaciones@wic.uchile.cl.

 

¡Te esperamos!

La apuesta del WIC para mejorar la Donación de Órganos

Este último tiempo se ha hablado bastante de la donación de órganos en Chile. Se han hecho campañas que han incentivado que cada vez más personas hablen del tema. Y, además, las cifras han ido en aumento, lo que para el Ministerio de Salud es un muy buena noticia: la primera mitad de este año hubo un 55% más de donantes que durante el mismo periodo del año anterior.

¿Quedan cosas por mejorar entonces? Creemos que sí, particularmente en lo que ocurre dentro de los hospitales. ¿Sabes cómo funciona nuestro sistema?

¡Te invitamos a ver el siguiente video!

Nuestro sistema de donación de órganos, como se puede ver, no es simple. Tiene muchas etapas que involucran distintos profesionales del área de la salud. La detección de potenciales donantes depende del aviso que dan los profesionales en los Servicios de Urgencias, unidad caracterizada por su alta carga laboral. Una vez detectado el paciente, las Unidades de Procuramiento son las que deben coordinar a los profesionales y  la infraestructura necesaria para el correcto funcionamiento de la cadena ¡Lo que es un trabajo complejo! El trabajo de las profesionales de esta unidaes importante dentro del hospital, ya que ellas son las únicas capaces de transformar el dolor de perder a un ser querido en la tranquilidad de saber que aun después de la vida puede ayudar a otras personas. Y por ello WIC  quiere ayudar en hacer más eficiente su trabajo.

El proyecto Chile Vive está estudiando qué pasa cuando un posible donante llega a un centro de salud, cómo lo cuidan y qué pasos se siguen, para poder proponer soluciones que ayuden a hacer que esta cadena sea más rápida y más transparente, y ayudar a los Servicios de Urgencia a dar aviso de la mayor cantidad posible de pacientes que llegan en condición de ser potencial donante de órganos.

Se puede seguir mejorando, y es nuestra misión hacer que eso suceda.

Epidemiología y Data Science

La epidemiología es un área que estudia la ocurrencia y distribución de eventos, estados y procesos asociados a la salud en poblaciones específicas. El estudio se centra en la identificación de factores determinantes que influencian estos eventos o procesos, los que pueden ser factores biológicos, geofísicos, sociales, culturales, etc. y también en la aplicación de este conocimiento para controlar problemas de salud relevantes. Por esta razón, en Epidemiología es muy importante el concepto de causalidad, el cual corresponde a la relación entre las causas y los efectos que éstas producen. La mayor parte de la investigación epidemiológica se refiere a formas de causalidad.

Aquellos factores determinantes que son relacionados causalmente en el cambio de riesgo de un proceso o condición de salud relevante, se les llama factores de riesgo. En la actualidad, algunos autores hacen referencia a dificultades en el descubrimiento de factores de riesgo. Esto debido a que a medida que el área avanza, los factores de riesgo son más elaborados y abstractos. Como en general, estos factores se caracterizan a través de estudios con grupos de prueba (afectados por ciertas condiciones) y control (no afectados), pero estos son difíciles de llevar a cabo debido a el largo tiempo que podría pasar para que un factor de riesgo en realidad genere una enfermedad, el hecho de que se requiere una muestra bastante grande de personas para poder considerar todos los factores pertinentes y el hecho de que no sería ético permitir que una población consuma alguna sustancia o siga algún estilo de vida que podría ser perjudicial para su salud. Para compensar esto, se comparan los grupos de prueba y control para comprobar eventuales diferencias que existan en los ambientes que les rodean, sus estilos de vida, etc. pero autores como Taubes en 1995 plantean que las conexiones causales que se podrían descubrir, son demasiado complejas e interactúan de forma no lineal. Existen diversos factores de confusión, sesgos en la selección de los grupos de prueba y control, falta de información precisa que la gente no recuerda y por lo mismo, no puede proporcionar (ej. hábitos alimenticios, ejercicio en vida cotidiana).

Ante este escenario, surgen oportunidades de la mano de las nuevas tecnologías de Data Science, como el Data Mining (herramientas para la extracción de información y generación de conocimiento a partir de un conjunto de datos) y Big Data (un entorno preparado para un manejo viable de cantidades masivas de información). Flahault et al 2016 (Public Health and Epidemiology Informatics) menciona algunas de estas oportunidades, pensando en la Epidemiología y su aplicación en salud pública, apoyándose en el escenario actual de E.E.U.U. donde la mayoría de los hospitales públicos utilizan registros médicos electrónicos, facilitando el uso de esta información por parte de estas herramientas. Por ejemplo, un caso del 2012 en el que oficiales de salud pública notaron un incremento en reportes de laboratorio en los que se indicaban casos de infecciones asociadas a Escherichia Coli y ante esto, en menos de una semana reunieron suficiente evidencia como para generar una alerta pública respecto a la infección, vinculadas a los brotes de trébol de una cadena de comida rápida. La cadena actuó, eliminó los brotes y el peligro fue eliminado. O el caso de Google Flu Trends, donde se estimaba la prevalencia de los brotes de gripe en función de las búsquedas relacionadas a gripe y asociados, donde en algunos casos se sobreestimó los niveles de prevalencia de gripe, pero en otros (por ej. casos de Influenza) las predicciones fueron más precisas.

En conclusión, existen formas mejores de manejar datos masivamente en la actualidad, y para la Epidemiología esto se transforma en montones de oportunidades interesantes. Bajo esta idea, el proyecto Koreisha pretende descubrir relaciones causales interesantes en una población seleccionada de adultos mayores, apoyados en estas herramientas e información recolectada. Se espera tener resultados preliminares a fines de este año.