Importancia de los fundamentos matemáticos en la ciencia de datos

Los engranajes de un amplio campo interdisciplinario

Lo que hoy por hoy conocemos como Ciencia de Datos es un campo interdisciplinar, en el que convergen varias ramas del conocimiento tales como la Matemática, la Estadística, las Ciencias de la Computación y el conocimiento específico en el área de aplicación (Salud, Ciencia Sociales, Logística, etc). Dentro de la sinergia existentes entre estas áreas nacen otras como es el caso de la Inteligencia Artificial (IA), con un impacto vasto y significativo en los últimos años, ya que ha sido utilizada desde el reconocimiento de patrones para identificación facial y de imágenes, la analítica predictiva para procesos de mejoramiento continuo, el procesamiento de lenguaje natural para la extracción de características, hasta en máquinas autónomas que integren la inteligencia artificial para la toma de decisiones en sus procesos. Así pues, en contexto, cuando hablamos de las bases de la IA y la ciencia de datos debemos remontarnos mucho antes de que estos términos existieran, ya que fue desde el desarrollo de la estadística en general que se sientan las bases de desarrollo para estas áreas.


Vemos que por un lado, desde la estadística descriptiva se brindan las herramientas para organizar, presentar, visualizar los datos, esto únicamente a lo que se tiene como observaciones, sin supuesto de que exista una población más grande. Por otro lado, nos encontramos la estadística inferencial en donde se agrupan los análisis y las pruebas que en conjunto nos ayuda a comprender el comportamiento de una muestra cuando esta se extiende al concepto de población. Es también desde la estadística que se han desarrollado otras áreas que al día de hoy son muy útiles en el ejercicio de la ciencia de datos, tales como la minería de datos que es un conjunto de técnicas que nos permiten buscar patrones en bases de datos o la estadística multivariada que son un conjunto de técnicas que busca analizar la dependencia e interdependencia a más de una variable de respuesta. Sin desconocer que todos estos avances se han cimentado con toda la teoría desarrollada en lo que hoy conocemos como Álgebra Lineal.


Lo cierto es que todo esta cantidad de técnicas, métodos y modelos que nos brindan las matemáticas en conjunto con la estadística son útiles en aplicación y abarcan desde los problemas más simple hasta los más sofisticados, aunque en este sentido no todo este escrito, ya que por ejemplo ramas que se creían tan lejanas como el álgebra abstracta y el aprendizaje automático, encuentren un punto convergencia, esto se da dentro de lo que se conoce como álgebras de Lie, en donde a partir de datos sin aparente estructura por medio de lo que se conoce como espacio de aprendizaje (Diagrama de Dynkin), y su correspondiente grupo de Lie, se obtengan clasificaciones [1]. Aunque en este aspecto, en relación a los avances, no todo tiene que ser nuevo o disruptivo, un caso de esto son el incremento en la popularidad de los métodos de la estadística bayesiana, en donde se puede ver como un teorema propuesto hace más de 250 años aún tiene implicaciones al día de hoy, pues propone escenarios de estudios distintos para las técnicas comúnmente utilizadas, este es el caso del estimador en un modelo de regresión, en particular, regresión lineal, brindando un cambio enfoque pues extiende este concepto ya no con lo que se conoce como intervalo de confianza, sino asociado a distribuciones de probabilidad, dando gran flexibilidad a los modelos que necesitaban una gran cantidad de datos para llegar a resultados positivos y óptimos.


Así pues, desde esta perspectiva completa podemos ver la importancia que tiene la matemática en relación con la solución de problemas que se presentan en las diferentes áreas del conocimiento, en particular en la ciencia de datos, brindando herramientas útiles para la construcción de nuevo conocimiento o implementando conceptos propios de la matemática que aún no han sido explorados en este campo.

Realizado por: Anderson Ruiz Delgado

Bibliografía: [1] González Cornejo, J., 2021. Algebra de Lie~ Aplicaciones ~ Formalización. [Online] Docirs.cl. Disponible en: https://docirs.cl/algebra_de_lie_formalizacion.asp.

La ciencia de los datos en el sector aseo: revolucionando la gestión de los residuos

El sector aseo es una de las industrias más importantes del mundo. Entre sus tareas más destacables se encuentra recoger y eliminar los residuos que se producen en los hogares y las empresas, así como del reciclaje y la reutilización de materiales. Día a día se recolectan gran cantidad de datos provenientes de estos procesos, y con el reciente surgimiento de nuevas tecnologías dedicadas al procesamiento de datos y la evolución de técnicas basadas en inteligencia artificial, la analítica de datos juega un papel muy importante. Sin embargo, te preguntarás, ¿Cómo se aplica la analítica de datos en el sector aseo? 

La analítica de datos permite convertir los datos en conocimientos que pueden utilizarse para tomar decisiones, y uno de los sectores que recientemente se beneficia cada vez más de esta ciencia es el sector aseo. Desde este punto de vista, diferentes organizaciones en este campo pueden conocer el rendimiento de sus procesos y personal, para de este modo realizar cambios necesarios y mejorar la eficiencia y la calidad en los mismos.

Desde el análisis de datos se puede hacer el seguimiento de una serie de parámetros, como el número de personal en servicio, y el tiempo dedicado en cada zona, así como la eficiencia en tiempo y cantidad de las rutas de recolección. Por ejemplo, si una organización descubre que su personal pasa mucho tiempo en una zona que no requiere tanta atención, puede decidir reducir el número de personal en esa zona. Por otra parte, si una organización recibe un gran número de quejas sobre una zona concreta, puede decidir aumentar el tiempo dedicado a la limpieza de esa zona. Asimismo, puede utilizarse para determinar la mejor ruta que debe seguir un camión de recogida de residuos, y planificar la ruta del camión de manera que recoja los residuos de la forma más eficiente posible.

Otro ejemplo de estas aplicaciones se encuentra en los mismos residuos que se recolectan, el sector utiliza la analítica de datos para identificar los materiales que pueden ser reciclados o reutilizados. Esta información se utiliza para tomar decisiones sobre qué residuos deben recogerse y cómo deben eliminarse.

Por último, la analítica de datos puede utilizarse para comparar las operaciones de aseo de una organización con otras del sector. Esto puede ayudar a las organizaciones a identificar áreas en las que necesitan hacer mejoras. De este modo, las organizaciones que utilizan el análisis de datos poseen una gran ventaja competitiva, ya que con esto se pueden mejorar sus operaciones de aseo y se obtienen importantes beneficios.  La analítica de datos está desempeñando un papel importante en el sector aseo y esto no solo beneficia a las organizaciones, sino también a la calidad de vida y salud de los habitantes. 

Realizado por: Jesús Alejandro Álzate – Analista de datos

La revolución del NLP y sus aplicaciones en salud

En los últimos años, se ha producido una explosión de interés por el uso del procesamiento del lenguaje natural (NLP, por sus siglas en inglés) para la explotación de las historias clínicas electrónicas (EHR, por sus siglas en inglés). El NLP es una rama de la inteligencia artificial que se ocupa de la comprensión y manipulación del lenguaje humano. Las técnicas de NLP se utilizan para procesar y analizar datos de texto no estructurados, y tienen el potencial de transformar el uso de las EHR convirtiéndolas en una rica fuente de información para el apoyo a la decisión clínica, la investigación epidemiológica y la mejora de la calidad. El uso de estas técnicas para procesar los datos de la EHR plantea muchos retos, como el gran tamaño y la complejidad de los datos, la heterogeneidad de la terminología clínica y la necesidad de desarrollar herramientas personalizadas para los distintos tipos de EHR. Sin embargo, los recientes avances en la tecnología de NLP han permitido superar estos retos y desarrollar aplicaciones que están teniendo un impacto real en la atención sanitaria.

Un área en la que el NLP está teniendo un impacto especialmente fuerte es el campo del apoyo a la decisión clínica. Los sistemas de apoyo a la decisión clínica utilizan algoritmos informáticos para ofrecer recomendaciones al personal médico en el punto de atención; los sistemas basados en la NLP son capaces de extraer automáticamente la información pertinente de las EHR y utilizarla para generar recomendaciones personalizadas para cada paciente. Por ejemplo, la herramienta MyChart Bedside de la Clínica Mayo utiliza NLP para proporcionar a los médicos alertas en tiempo real sobre posibles problemas con la medicación de sus pacientes. Se ha demostrado que esta herramienta reduce la tasa de efectos adversos de los medicamentos en un 40%.

Otras aplicaciones relevantes son los sistemas que responden a preguntas médicas en base a una gran base de conocimiento médico; sistemas de extracción de información que evalúan diferentes tipos de reportes médicos no estructurados y extraen información relevante que se puede usar, por ejemplo, para completar campos faltantes en las EHR; o los sistemas que realizan la tarea de reconocer entidades en los textos médicos, como lo pueden ser medicamentos, síntomas, tratamientos, entre otros. El uso de NLP para procesar los datos de las EHR aún está en sus primeras fases, pero el impacto potencial de esta tecnología ya es evidente en la mejora de la calidad de la atención sanitaria para todos los pacientes.

Realizado por: Alejandro Mora Rubio – Analista de Datos