OpinionZoom tiene API

El 16 de noviembre de 2017 se lanzó OpinionZoom en la FCFM, ante a académicos, agencias publicitarias y representantes de empresas de tecnología. Algunas voces rescataron lo valiosa que era la información que presentábamos en la página, frente a lo cual se levantó una petición unánime que validó una idea gestada hace poco tiempo en el WIC: disponibilizar los datos para nuestros clientes a través de una REST API.

Leer más

DOCODE sigue evolucionando

Como suele caracterizar a los distintos proyectos que se gestan en el Web Intelligence Centre, el servicio de detección de plagio DOCODE sigue mejorando tanto a nivel de nuevas herramientas como de mejora de sus algoritmos de detección de plagio. En esta nueva entrega, se han dejado disponibles a nuestros clientes y sin costos las siguientes novedades:

  • Cuentas institucionales: Damos la oportunidad de que el cliente tenga un rol de administrador, el cual le dará las capacidades de crear distintas cuentas dependientes, y definirles una cantidad de palabras que será consumida de su total de palabras contratados. Así también, podrá ver los análisis realizados por sus cuentas creadas.
  • Compartir análisis: Ahora podrás compartir el análisis de plagio mediante un enlace web al que podrán acceder las personas con las que lo compartas. En él, se podrá visualizar el informe de plagio tal cual puedes hacerlo tu.
  • Informe de plagio descargable: Permitimos la opción de que el cliente pueda descargar su informe en formato PDF, con el que podrá dejar almacenado lo distintos resultados que vaya obteniendo.
  • Barra de progreso: Mide el estado de avance del análisis del documento sospechoso.
  • Resultados parciales de análisis: Mientras DOCODE está analizando el documento sospechoso, el cliente podrá visitar las coincidencias que ya se han encontrado en el proceso, aún incluso si no ha terminado el análisis por completo. Esto se puede acceder presionando en la barra de progreso.
  • Alerta por correo: Para aquellos análisis que demoren más de tres horas en finalizar, avisaremos a nuestros clientes mediante un correo una vez que esté finalizado.
  • Personalización de análisis: Ahora se podrán agregar sitios web que se deseen que sean ignorados por el análisis.
  • Personalización de resultado de coincidencias: Una vez obtenido el resultado, con el índice de plagio y las coincidencias encontradas, el cliente tendrá la posibilidad de eliminar aquellas coincidencias que no considere relevantes, o que hayan estado citadas en el documento. Esta acción entregará un índice de plagio actualizado a las nuevas coincidencias.
  • Análisis y edición masivos: Ahora podrás seleccionar varios documentos para analizar al mismo tiempo. Así también, damos la posibilidad de eliminar o compartir varios resultados al mismo tiempo.

Estos nuevos servicios y herramientas van en directa relación con nuestro compromiso de hacer evolucionar la herramientas constantemente. Esperamos que mejoren el trabajo de nuestros cliente y les sea una herramienta útil para la toma de decisión con respecto al plagio.

 

Recuerda que puedes visitar nuestros sitio www.docode.cl y solicitar una cotización enviando un correo a ventas@docode.cl

GuardarGuardarGuardarGuardar

Koreisha – Inicio de toma de encuesta

Esta semana ha dado inicio la toma de encuesta del proyecto Koreisha, una iniciativa de las facultades de Ingeniería y Medicina de la Universidad de Chile, con el apoyo del Servicio de Salud de Aysén. El proyecto se orienta al análisis de variables médicas y psico-sociales provenientes de adultos mayores, en una población seleccionada de la región de Aysén.

Este proceso consiste en la recolección de datos a través de una encuesta especializada de dos partes. En la primera, los encuestadores visitarán de forma aleatoria las casas de la comuna de Coyhaique, solicitando la participación a las personas adultos mayores que encuentren (con edad mayor o igual a 65 años). Una vez que la persona decide participar y se le aplica la primera parte de la encuesta, se lleva a cabo la segunda parte. Ésta consiste en una encuesta realizada en las dependencias del Hospital Regional de Coyhaique, donde un profesional calificado medirá distintos aspectos de su estado de salud. La experiencia será llevada a cabo hasta mediados de Febrero del año 2018.

Los datos obtenidos serán utilizados de forma anónima para el desarrollo de este proyecto durante el año 2018, en el que se pretende descubrir patrones de relevancia presentes en los datos, a través de técnicas avanzadas de minería de datos. Cualquier persona mayor a 65 años y residente en la comuna de Coyhaique puede participar.

Para mayor información, puede contactarse al correo contactokoreisha.coyh@gmail.com y también a través de redes sociales:

Facebook: /KoreishaUchile

Twitter: @KoreishaUchile

Descarga el afiche de la toma de encuesta del proyecto haciendo click acá

DOCODE en la Cámara de Diputados

El pasado miércoles 22 de noviembre de 2017, la Facultad de Ciencias Físicas y Matemáticas de la Universidad de Chile firmó un convenio de colaboración con la Cámara de Diputados, en el cual destaca el apoyo en el proceso de detección de plagio con el software DOCODE. La ceremonia estuvo presidida por el presidente de la Cámara de Diputados, Fidel Espinoza; el Decano de la Facultado de Ciencias Físicas y Matemáticas, Patricio Aceituno;  Juan Velásquez, jefe académico del Departamento de Ingeniería Civil Industrial y director del Web Intelligence Centre y Rocío Ruiz, directora ejecutiva del Web Intelligence Centre. A ella también asistieron Gaspar Pizarro, jefe del área de desarrollo e Ignacio Díaz, jefe del área de comercialización de DOCODE.

Dentro del convenio, destacan también los siguientes puntos:

  • Elaboración de proyectos de investigación y análisis en diversas materias relacionadas con la actividad legislativa;
  • Celebración de conferencias, coloquios, simposios, talleres, cursos, seminarios, diplomados y actividades similares, así como la difusión de estos eventos;
  • Intercambio de información sobre diferentes temas y facilitar la consulta de material bibliogr áfico y bases de datos;
  • Facilitar herramientas para el análisis de la opinión pública en Redes Sociales, con énfasis en el seguimiento de las políticas públicas
  • Llevar a cabo la publicación de artículos en medios de difusión correspondiente a cada una de las partes;
  • Editar, publicar y difundir, cuando se considere pertinente, los resultados de las investigaciones, estudios y análisis desarrollados por las partes en las condiciones que al respecto se establezca;
  • Realización de pasantías y prácticas profesionales

Este es un gran paso en el crecimiento de nuestro servicio, y uno mayor en nuestra búsqueda de generar impacto directo en nuestra sociedad, a través de fuertes alianzas con las instituciones públicas. Esto traerá consigo mas novedades en término de herramientas y servicios para todos nuestros clientes.

DOCODE y la Cámara de Diputados

Durante este lunes 02 de noviembre, en el marco del caso copy-paste, en el que distintos informes de parlamentarios que son solicitados a asesores externos, fueron analizados encontrando plagio en ellos, se sostuvo una reunión con el presidente de la cámara de diputados Fidel Espinoza, y el jefe de la oficina de informaciones Marco Sepúlveda, con el propósito de presentar nuestro servicio de detección de plagio DOCODE, y proponerlo como un aporte para el país.

Durante la reunión se mostraron las distintas bondades del servicio, como sus algoritmos de detección de plagio de última generación y la posibilidad de integrarlo en su propio flujo de trabajo, a través de su API, permitiendo que los documentos que se subieran en su sitio web se analizaran de manera automática, sin necesidad de intervención humana.

Se destacaron también algunos resultados obtenidos de los informes cuestionados en el marco del caso Copy-Paste, con niveles de plagio superiores, pocas veces vistos en la herramienta.

 

Con estos resultados, la cámara acordó trabajar sobre una propuesta en torno al plagio, cuyo actor principal sería DOCODE. Así también, se acordó trabajar en la creación de un congreso latinoamericano del plagio, organizado por la Universidad de Chile bajo el programa Nueva Ingeniería para el 2030.

Esperamos que este sea el inicio de una fructífera relación entre el estado y el Web Intelligence Centre, cuyo rol principal siempre ha sido el generar impacto en la sociedad a través de su investigación aplicada

Machine Learning y algunas buenas prácticas

En el WIC se desarrollan proyectos multidisciplinarios que suelen encontrarse con un punto en común: El uso de Machine Learning para la detección de ciertos fenómenos asociados a un problema que puede ser representado a través de un conjunto de datos.

Pero, ¿qué es Machine Learning? En palabras simples, es el uso de algoritmos computacionales para que una máquina aprenda a hacer cosas. Podría existir interés en aprender a completar una tarea, realizar predicciones etc. Este aprendizaje siempre se realiza a partir de observaciones o datos asociados al fenómeno que se pretende aprender, como ejemplos, experiencia directa, instrucciones, entre otros. Entonces la premisa general es aprender a hacer mejor las cosas en el futuro, en función de la experiencia del pasado.

Entonces, ¿cómo se desarrolla un proyecto de Machine Learning? Géron (2017) propone 8 pasos principales para llevar a cabo el proyecto:

1.- Mirar la imagen completa

Es importante identificar el contexto del problema. ¿Por qué llevar a cabo este proyecto es beneficioso para la organización? ¿Cuál es el objetivo de negocio? ¿Qué existe actualmente? ¿Cuáles soluciones alternativas tenemos? ¿Cómo mediré el desempeño de mi modelo? Estas preguntas son relevantes a la hora de definir el problema y sus alcances. Una vez que eso está claro, es posible diseñar el sistema que construiremos: ¿Qué tipo de tarea debo diseñar? ¿Una clasificación o regresión? ¿Se utilizará aprendizaje supervisado o no supervisado?

2.- Obtener los datos

Una vez que se determina el problema y el sistema, es hora de mirar los datos y estudiar su estructura. Estadísticas básicas como cantidad de datos, media, desviación estándar, entre otros. También selección de muestras (aleatorias o estratificadas según corresponda) para generar un set de datos de prueba y un set de entrenamiento. El set de entrenamiento es lo que permitirá enseñar al modelo aquellos patrones que desea identificar, mientras que el set de prueba es el conjunto de datos que permitirá probar el rendimiento del modelo.

3.- Descubrir y visualizar los datos para obtener información

Similar al paso anterior, pero la idea es un análisis más profundo a partir de visualizar los datos gráficamente, observar correlaciones entre los atributos existentes, etc.

4.- Preparar los datos para los algoritmos de Machine Learning

Antes de aplicar algoritmos de Machine Learning sobre los datos, es necesario pre-procesarlos/transformarlos a través de distintas técnicas para que los algoritmos tengan un buen desempeño. Entre estas transformaciones se puede destacar el escalar a través de normalización o estandarización (los atributos numéricos podrían tener escalas diferentes y esto puede impactar negativamente el desempeño de los algoritmos).

En vez de realizar este paso manualmente de forma constante, el autor recomienda escribir funciones para hacerlo, lo cual conlleva varios beneficios: Permitiría reproducir el pre-procesamiento de forma fácil en cualquier conjunto de datos, se podrían utilizar en un sistema que transforme los datos en el momento mientras opera (por ejemplo, si se estuviese trabajando con datos transaccionales) y hará que probar distintas combinaciones de transformaciones/pre-procesamientos sea sencillo de realizar.

5.- Seleccionar un modelo y entrenarlo

Ahora es el momento de seleccionar un modelo de Machine Learning y entregarle datos de entrenamiento para que pueda “aprender” a identificar lo que queremos. ¿Cuál es el algoritmo de Machine Learning que debo utilizar? La respuesta es: Depende. Primero, considerar si se pretende trabajar con un algoritmo de aprendizaje supervisado (es decir, que aprende en base a ejemplos previamente etiquetados) o si es un aprendizaje no supervisado (es decir, el algoritmo se encarga de organizar los datos y darles una estructura ya que esta no es conocida previamente). Otras consideraciones se asocian a la precisión deseada (podría preferir métodos menos precisos para evitar que el modelo se sobreajuste a los datos), el tiempo de entrenamiento, linealidad (por ejemplo en algoritmos de regresión logística o SVM donde se asume que las clases a identificar podrían estar separadas mediante una línea recta o su análogo en mayores dimensiones), cantidad de atributos, entre otros.

6.- Ajustar el modelo

Asumiendo que en el paso previo se realizaron pruebas con distintos algoritmos de forma tal que ahora se cuenta con una breve lista de algoritmos prometedores, es hora de ajustarlos de forma detallada. Los algoritmos de Machine Learning en general podrían recibir una gran cantidad de parámetros, los cuales deben ser ajustados y distintas combinaciones de valores para estos podrían dar resultados diferentes en función de los datos. Entonces, la idea es probar con distintos valores para encontrar la configuración más adecuada. Sin embargo, esto podría ser tedioso de realizar de forma manual. En general, paquetes de análisis estadístico y Machine Learning como Scikit-Learn en Python disponen de herramientas que permiten realizar automáticamente esta búsqueda de parámetros.

7.- Presentar la solución

Antes de iniciar todo, es importante “presentar” esta solución, lo que involucra destacar lo aprendido, documentar aquellos elementos que funcionaron y que no funcionaron, dejar claros los supuestos hechos sobre el modelo y las limitaciones que éste tiene. Esto permitirá que sea validado por quienes deben aprobar su lanzamiento a producción.

8.- Iniciar, supervisar y mantener el sistema

Finalmente, luego de validar correctamente el modelo es hora de llevar la solución a un entorno de producción, estando preparado para recibir datos reales y poder operar en ese contexto. Es importante que exista código de monitoreo para supervisar el desempeño del sistema implementado y poder lanzar alertas en caso de que algo no funcione bien.

SONAMA en la WI’17 Leipzig

Desde el 23 hasta el 26 de Agosto tomará lugar la IEEE/WIC/ACM International Conference en Web Intelligence en Leipzig, Alemania. La serie de conferencias y el área de Web Intelligence (WI) tienen como objetivo lograr un balance entre los avances de la investigación en teorías y la metodología usualmente asociada con Collective Intelligence, Data Science, HumanCentric Computing, Knowledge Management, and Network Science. También están comprometidas en abordar investigación que profundice el entendimiento los fundamentos computacionales, lógicos, cognitivos, físicos, y sociales de la Web futura, y habilitar el desarrollo y aplicación de tecnologías basadas en Web Intelligence.

La investigación asociada al proyecto SONAMA, mediante su representante el profesor Juan Velásquez, formará parte del conjunto de documentos de investigación originales de alta calidad y aplicaciones del mundo real en todas las área teóricas y tecnológicas que conforman el campo de WI. El trabajo realizado calza perfectamente en dicho marco, pues utiliza datos de contenido de la Web (Twitter) y los procesa para generar información que apoya la toma de decisiones con respecto a la política nacional de drogas y alcohol en Chile. Dicha investigación no sólo será expuesta oralmente, si no que también formará parte de los artículos incluidos en los procedimientos publicados por la ACM Press.

 

 

Te invitamos a conocer nuestros temas de memoria

El próximo miércoles 09 de agosto a las 12:00 realizaremos nuestra presentación semestral con los proyectos en los que estamos trabajando, y los temas de memoria que tendremos disponibles para este semestre. La presentación se realizará en la sala , ubicada en el tercer piso del edificio de Ingeniería Industrial, en Beaucheff 851, Santiago. La invitación se extiende también para aquellas personas que quieran realizar su práctica o trabajo dirigido con nosotros.

 

Para conocer más información con respecto a los temas que tenemos para ofrecerte, te invitamos a visitar el siguiente link. Si hay alguno que te interese, puedes consultar o postular enviando un correo con tu CV y un breve extracto de por qué te gustaría trabajar en él a postulaciones@wic.uchile.cl.

 

¡Te esperamos!

Epidemiología y Data Science

La epidemiología es un área que estudia la ocurrencia y distribución de eventos, estados y procesos asociados a la salud en poblaciones específicas. El estudio se centra en la identificación de factores determinantes que influencian estos eventos o procesos, los que pueden ser factores biológicos, geofísicos, sociales, culturales, etc. y también en la aplicación de este conocimiento para controlar problemas de salud relevantes. Por esta razón, en Epidemiología es muy importante el concepto de causalidad, el cual corresponde a la relación entre las causas y los efectos que éstas producen. La mayor parte de la investigación epidemiológica se refiere a formas de causalidad.

Aquellos factores determinantes que son relacionados causalmente en el cambio de riesgo de un proceso o condición de salud relevante, se les llama factores de riesgo. En la actualidad, algunos autores hacen referencia a dificultades en el descubrimiento de factores de riesgo. Esto debido a que a medida que el área avanza, los factores de riesgo son más elaborados y abstractos. Como en general, estos factores se caracterizan a través de estudios con grupos de prueba (afectados por ciertas condiciones) y control (no afectados), pero estos son difíciles de llevar a cabo debido a el largo tiempo que podría pasar para que un factor de riesgo en realidad genere una enfermedad, el hecho de que se requiere una muestra bastante grande de personas para poder considerar todos los factores pertinentes y el hecho de que no sería ético permitir que una población consuma alguna sustancia o siga algún estilo de vida que podría ser perjudicial para su salud. Para compensar esto, se comparan los grupos de prueba y control para comprobar eventuales diferencias que existan en los ambientes que les rodean, sus estilos de vida, etc. pero autores como Taubes en 1995 plantean que las conexiones causales que se podrían descubrir, son demasiado complejas e interactúan de forma no lineal. Existen diversos factores de confusión, sesgos en la selección de los grupos de prueba y control, falta de información precisa que la gente no recuerda y por lo mismo, no puede proporcionar (ej. hábitos alimenticios, ejercicio en vida cotidiana).

Ante este escenario, surgen oportunidades de la mano de las nuevas tecnologías de Data Science, como el Data Mining (herramientas para la extracción de información y generación de conocimiento a partir de un conjunto de datos) y Big Data (un entorno preparado para un manejo viable de cantidades masivas de información). Flahault et al 2016 (Public Health and Epidemiology Informatics) menciona algunas de estas oportunidades, pensando en la Epidemiología y su aplicación en salud pública, apoyándose en el escenario actual de E.E.U.U. donde la mayoría de los hospitales públicos utilizan registros médicos electrónicos, facilitando el uso de esta información por parte de estas herramientas. Por ejemplo, un caso del 2012 en el que oficiales de salud pública notaron un incremento en reportes de laboratorio en los que se indicaban casos de infecciones asociadas a Escherichia Coli y ante esto, en menos de una semana reunieron suficiente evidencia como para generar una alerta pública respecto a la infección, vinculadas a los brotes de trébol de una cadena de comida rápida. La cadena actuó, eliminó los brotes y el peligro fue eliminado. O el caso de Google Flu Trends, donde se estimaba la prevalencia de los brotes de gripe en función de las búsquedas relacionadas a gripe y asociados, donde en algunos casos se sobreestimó los niveles de prevalencia de gripe, pero en otros (por ej. casos de Influenza) las predicciones fueron más precisas.

En conclusión, existen formas mejores de manejar datos masivamente en la actualidad, y para la Epidemiología esto se transforma en montones de oportunidades interesantes. Bajo esta idea, el proyecto Koreisha pretende descubrir relaciones causales interesantes en una población seleccionada de adultos mayores, apoyados en estas herramientas e información recolectada. Se espera tener resultados preliminares a fines de este año.