Minería de datos: la técnica para resolver problemas, desde TI

Minería de datos: la técnica para resolver problemas, desde TI

La metodología de data mining o minería de datos para realizar proyectos de machine learning es quizá una de las que genera mayor interés en la actualidad, por la posibilidad de aplicar sus técnicas para la resolución de problemas cotidianos en las organizaciones, y por la multiplicidad de herramientas disponibles para trabajar el tema.

RapidMiner es una de esas opciones de plataforma, que se caracteriza por ser intuitiva y tener una curva de aprendizaje fácil, así como optimizaciones automáticas y diversos niveles, que van desde uno gratuito hasta los avanzados.

El ingeniero Jaime Alberto Reinoso, director del Centro de Servicios Informáticos de la Pontificia Universidad Javeriana Cali, y quien ostenta el título de Master of Science (MSc) – Major in Computer Science (Artificial Intelligence), de la Iowa State University, cuenta con amplia experiencia en el manejo de dicha solución, la cual ha empleado para la predicción de la deserción universitaria en su institución, con un nivel de exactitud del 90%, entre otros proyectos. Él será el encargado de orientar los cursos RapidMiner & Data Science, en los niveles Foundations y Advanced, que oferta el Centro de Consultoría y Educación Continua de Javeriana Cali, entre los días 20 y el 23 de agosto de 2019.

En RUAV le preguntamos sobre esta disciplina y algunas recomendaciones para abordarla.

¿Por qué es importante que las áreas de Tecnología se interesen en la minería de datos, en esta época?

Yo considero que las áreas de Tecnología tienen una enorme oportunidad al aplicar técnicas de data mining para solucionar problemas cotidianos, porque, al estar en la era de la ingeniería de machine learning, los algoritmos que se usan están bastante probados y las técnicas en general tienen un formato maduro, que pueden aplicarse en diversos proyectos. Por esto, es una oportunidad enorme, en la que los Departamentos de TI tenemos una posición tremendamente estratégica: conocemos las problemáticas de nuestras instituciones y tenemos acceso a los datos, ninguna otra área tiene esa ‘alineación de las estrellas’ con la que podemos aplicar el conocimiento y generarle valor a la compañía.

¿En qué tipo de situaciones o proyectos es recomendable usar la minería de datos?

Las metodologías de machine learning pueden aplicarse en varios tipos de proyectos, RapidMiner en particularmente dos. El primero tiene que ver con predicciones: ¿Cuánta gente comprará x producto?, ¿Cuántos estudiantes desertarán?, ¿Cuáles créditos bancarios se van a caer?, etc., preguntas relacionadas con el futuro. El segundo consiste en encontrar estructuras, ¿Cuál es la estructura natural de mis clientes?, ¿Cómo se segmentan?, ¿Cuáles son los grupos de clientes que realmente tengo?, etc.

¿Hay alguna cantidad límite de datos para trabajar con RapidMiner?

RapidMiner cuenta con varias versiones de su producto, entre ellas una gratuita, pensada para quienes están iniciando en el tema, con hasta 100 mil filas, que son suficientes para resolver muchos de los problemas importantes, y con entre uno y dos procesadores, que son muy útiles y evitan generar costos de entrada. Luego vienen versiones más sofisticadas, para obtener resultados más rápido, trabajar en varios proyectos en simultáneo e incluir una serie de complejidades, para las que se requieren máquinas más poderosas. Además, los proyectos de machine learning se acomodan muy bien a temas cloud, y RapidMiner también ofrece ese servicio.

¿Cuál es la clave para argumentar proyectos de minería de datos, frente a las áreas administrativas?

Conocer bien el negocio para el que se trabaja es el factor clave para presentar estos proyectos, por eso sostengo que los Departamentos de TI están estratégicamente posicionados para sacarle provecho a esto. A las áreas administrativas hay que acercarse con propuestas relacionadas con el negocio, que resuelvan problemas y que sean costo eficientes. Así mismo, se deben buscar aliados precisos en otras áreas, para enfrentar directamente los problemas, y así motivar en conjunto la ejecución de los proyectos.

¿Qué tanto se puede involucrar a la comunidad de la que se tomarán los datos, en este tipo de procesos o análisis?

Lo más importante es emplear los datos exclusivamente para aquello que los clientes (estudiantes, usuarios, afiliados, etc.) nos autorizaron. Esto aplica para cualquier proyecto en el que se empleen datos, y es lo primordial.

¿Las instituciones deberían comunicar mejor cómo es el uso de esos datos?

Para mí sí es un derecho del cliente saber qué se está haciendo con sus datos, y ahí entramos en un tema muy importante que se llama Explainable Artificial Intelligence XAI, un área en desarrollo que pretende explicar las acciones de un algoritmo, y que estas sean entendidas por los humanos.

Con la aparición de la Ley de Habeas Data europea, GDPR, aparecieron una serie de condiciones que se aplican a todo tipo de proyectos, incluyendo a los de machine learning, que dan derecho a los usuarios/clientes saber y preguntar por qué se toman ciertas decisiones, por qué les ofrecen ciertos créditos o se los rechazan, por qué les sugieren determinados contenidos o amigos, etc., y a su vez, las empresas deben tener la capacidad de responder todas esas preguntas.

Curso de RapidMiner con Javeriana Cali

¿Cómo se va a abordar el curso?, ¿Con qué nivel de conocimiento terminarán los participantes?

Son dos cursos totalmente prácticos, uno introductorio y otro avanzado, de una duración de dos días cada uno. Inicialmente presentaré unos slides básicos, para después resolver algunos problemas en particular, que deberán ser seguidos por los estudiantes en sus propias computadoras. Es primordial que tengan RapidMiner instalado.

En la tarde, se planteará un problema similar que deberá ser resuelto por los estudiantes, aplicando lo que conocieron. Allí me convertiré en un asesor, durante toda la práctica.

Al finalizar, los participantes contarán con las herramientas para aplicar lo aprendido en sus proyectos de machine learning, con datos reales, pues el curso los dejará preparados para lidiar con esa realidad, e ir mejorando con la práctica. Yo aspiro a que todo se muestre sencillo, que desmitifiquemos este tema y que todos puedan utilizarlo.

¿Con qué características deberán cumplir los computadores de los participantes?

El principal es contar con RapidMiner instalado, para que puedan trabajar. En general deben ser máquinas con entre 4 y 6 gigas de RAM, y dos procesadores, por lo menos.

Toda la información acerca del curso, aquí: Foundations  –  Advanced

 

Foto: Cortesía Javeriana Cali.