Importancia de los fundamentos matemáticos en la ciencia de datos

Los engranajes de un amplio campo interdisciplinario

Lo que hoy por hoy conocemos como Ciencia de Datos es un campo interdisciplinar, en el que convergen varias ramas del conocimiento tales como la Matemática, la Estadística, las Ciencias de la Computación y el conocimiento específico en el área de aplicación (Salud, Ciencia Sociales, Logística, etc). Dentro de la sinergia existentes entre estas áreas nacen otras como es el caso de la Inteligencia Artificial (IA), con un impacto vasto y significativo en los últimos años, ya que ha sido utilizada desde el reconocimiento de patrones para identificación facial y de imágenes, la analítica predictiva para procesos de mejoramiento continuo, el procesamiento de lenguaje natural para la extracción de características, hasta en máquinas autónomas que integren la inteligencia artificial para la toma de decisiones en sus procesos. Así pues, en contexto, cuando hablamos de las bases de la IA y la ciencia de datos debemos remontarnos mucho antes de que estos términos existieran, ya que fue desde el desarrollo de la estadística en general que se sientan las bases de desarrollo para estas áreas.


Vemos que por un lado, desde la estadística descriptiva se brindan las herramientas para organizar, presentar, visualizar los datos, esto únicamente a lo que se tiene como observaciones, sin supuesto de que exista una población más grande. Por otro lado, nos encontramos la estadística inferencial en donde se agrupan los análisis y las pruebas que en conjunto nos ayuda a comprender el comportamiento de una muestra cuando esta se extiende al concepto de población. Es también desde la estadística que se han desarrollado otras áreas que al día de hoy son muy útiles en el ejercicio de la ciencia de datos, tales como la minería de datos que es un conjunto de técnicas que nos permiten buscar patrones en bases de datos o la estadística multivariada que son un conjunto de técnicas que busca analizar la dependencia e interdependencia a más de una variable de respuesta. Sin desconocer que todos estos avances se han cimentado con toda la teoría desarrollada en lo que hoy conocemos como Álgebra Lineal.


Lo cierto es que todo esta cantidad de técnicas, métodos y modelos que nos brindan las matemáticas en conjunto con la estadística son útiles en aplicación y abarcan desde los problemas más simple hasta los más sofisticados, aunque en este sentido no todo este escrito, ya que por ejemplo ramas que se creían tan lejanas como el álgebra abstracta y el aprendizaje automático, encuentren un punto convergencia, esto se da dentro de lo que se conoce como álgebras de Lie, en donde a partir de datos sin aparente estructura por medio de lo que se conoce como espacio de aprendizaje (Diagrama de Dynkin), y su correspondiente grupo de Lie, se obtengan clasificaciones [1]. Aunque en este aspecto, en relación a los avances, no todo tiene que ser nuevo o disruptivo, un caso de esto son el incremento en la popularidad de los métodos de la estadística bayesiana, en donde se puede ver como un teorema propuesto hace más de 250 años aún tiene implicaciones al día de hoy, pues propone escenarios de estudios distintos para las técnicas comúnmente utilizadas, este es el caso del estimador en un modelo de regresión, en particular, regresión lineal, brindando un cambio enfoque pues extiende este concepto ya no con lo que se conoce como intervalo de confianza, sino asociado a distribuciones de probabilidad, dando gran flexibilidad a los modelos que necesitaban una gran cantidad de datos para llegar a resultados positivos y óptimos.


Así pues, desde esta perspectiva completa podemos ver la importancia que tiene la matemática en relación con la solución de problemas que se presentan en las diferentes áreas del conocimiento, en particular en la ciencia de datos, brindando herramientas útiles para la construcción de nuevo conocimiento o implementando conceptos propios de la matemática que aún no han sido explorados en este campo.

Realizado por: Anderson Ruiz Delgado

Bibliografía: [1] González Cornejo, J., 2021. Algebra de Lie~ Aplicaciones ~ Formalización. [Online] Docirs.cl. Disponible en: https://docirs.cl/algebra_de_lie_formalizacion.asp.

La ciencia de los datos en el sector aseo: revolucionando la gestión de los residuos

El sector aseo es una de las industrias más importantes del mundo. Entre sus tareas más destacables se encuentra recoger y eliminar los residuos que se producen en los hogares y las empresas, así como del reciclaje y la reutilización de materiales. Día a día se recolectan gran cantidad de datos provenientes de estos procesos, y con el reciente surgimiento de nuevas tecnologías dedicadas al procesamiento de datos y la evolución de técnicas basadas en inteligencia artificial, la analítica de datos juega un papel muy importante. Sin embargo, te preguntarás, ¿Cómo se aplica la analítica de datos en el sector aseo? 

La analítica de datos permite convertir los datos en conocimientos que pueden utilizarse para tomar decisiones, y uno de los sectores que recientemente se beneficia cada vez más de esta ciencia es el sector aseo. Desde este punto de vista, diferentes organizaciones en este campo pueden conocer el rendimiento de sus procesos y personal, para de este modo realizar cambios necesarios y mejorar la eficiencia y la calidad en los mismos.

Desde el análisis de datos se puede hacer el seguimiento de una serie de parámetros, como el número de personal en servicio, y el tiempo dedicado en cada zona, así como la eficiencia en tiempo y cantidad de las rutas de recolección. Por ejemplo, si una organización descubre que su personal pasa mucho tiempo en una zona que no requiere tanta atención, puede decidir reducir el número de personal en esa zona. Por otra parte, si una organización recibe un gran número de quejas sobre una zona concreta, puede decidir aumentar el tiempo dedicado a la limpieza de esa zona. Asimismo, puede utilizarse para determinar la mejor ruta que debe seguir un camión de recogida de residuos, y planificar la ruta del camión de manera que recoja los residuos de la forma más eficiente posible.

Otro ejemplo de estas aplicaciones se encuentra en los mismos residuos que se recolectan, el sector utiliza la analítica de datos para identificar los materiales que pueden ser reciclados o reutilizados. Esta información se utiliza para tomar decisiones sobre qué residuos deben recogerse y cómo deben eliminarse.

Por último, la analítica de datos puede utilizarse para comparar las operaciones de aseo de una organización con otras del sector. Esto puede ayudar a las organizaciones a identificar áreas en las que necesitan hacer mejoras. De este modo, las organizaciones que utilizan el análisis de datos poseen una gran ventaja competitiva, ya que con esto se pueden mejorar sus operaciones de aseo y se obtienen importantes beneficios.  La analítica de datos está desempeñando un papel importante en el sector aseo y esto no solo beneficia a las organizaciones, sino también a la calidad de vida y salud de los habitantes. 

Realizado por: Jesús Alejandro Álzate – Analista de datos

La revolución del NLP y sus aplicaciones en salud

En los últimos años, se ha producido una explosión de interés por el uso del procesamiento del lenguaje natural (NLP, por sus siglas en inglés) para la explotación de las historias clínicas electrónicas (EHR, por sus siglas en inglés). El NLP es una rama de la inteligencia artificial que se ocupa de la comprensión y manipulación del lenguaje humano. Las técnicas de NLP se utilizan para procesar y analizar datos de texto no estructurados, y tienen el potencial de transformar el uso de las EHR convirtiéndolas en una rica fuente de información para el apoyo a la decisión clínica, la investigación epidemiológica y la mejora de la calidad. El uso de estas técnicas para procesar los datos de la EHR plantea muchos retos, como el gran tamaño y la complejidad de los datos, la heterogeneidad de la terminología clínica y la necesidad de desarrollar herramientas personalizadas para los distintos tipos de EHR. Sin embargo, los recientes avances en la tecnología de NLP han permitido superar estos retos y desarrollar aplicaciones que están teniendo un impacto real en la atención sanitaria.

Un área en la que el NLP está teniendo un impacto especialmente fuerte es el campo del apoyo a la decisión clínica. Los sistemas de apoyo a la decisión clínica utilizan algoritmos informáticos para ofrecer recomendaciones al personal médico en el punto de atención; los sistemas basados en la NLP son capaces de extraer automáticamente la información pertinente de las EHR y utilizarla para generar recomendaciones personalizadas para cada paciente. Por ejemplo, la herramienta MyChart Bedside de la Clínica Mayo utiliza NLP para proporcionar a los médicos alertas en tiempo real sobre posibles problemas con la medicación de sus pacientes. Se ha demostrado que esta herramienta reduce la tasa de efectos adversos de los medicamentos en un 40%.

Otras aplicaciones relevantes son los sistemas que responden a preguntas médicas en base a una gran base de conocimiento médico; sistemas de extracción de información que evalúan diferentes tipos de reportes médicos no estructurados y extraen información relevante que se puede usar, por ejemplo, para completar campos faltantes en las EHR; o los sistemas que realizan la tarea de reconocer entidades en los textos médicos, como lo pueden ser medicamentos, síntomas, tratamientos, entre otros. El uso de NLP para procesar los datos de las EHR aún está en sus primeras fases, pero el impacto potencial de esta tecnología ya es evidente en la mejora de la calidad de la atención sanitaria para todos los pacientes.

Realizado por: Alejandro Mora Rubio – Analista de Datos

La velocidad del cambio tecnológico y la importancia de los datos

Cuando hablamos de megatendencias que están impactando a la economía y las sociedades, el cambio tecnológico acelerado está sin duda incluida, junto con las tendencias demográficas, el cambio climático y la globalización. Porque si hay una megatendencia que distingue la era actual es el cambio tecnológico generando impactos masivos en los modelos de negocios, lo que genera nuevos y sorpresivos modelos de hacer las cosas. No es solo la velocidad de los cambios en cada uno de estos campos individualmente, sino la convergencia de algunas de estas tecnologías. Por ejemplo, la Industria 4.0 es un nuevo paradigma de producción basado en la convergencia de la Inteligencia Artificial, -que posibilita la analítica avanzada de los datos y la interface humano máquina-; el internet de las cosas – que permite que los aparatos se comuniquen y haya una revolución en sensores y artefactos inteligentes-; la impresión 3D y la robótica, -creando artefactos, fábricas y logísticas inteligentes.

La industria 4.0 ha tenido un rápido avance y gran parte de la población del mundo es usuaria, no obstante, aún existe una amplia brecha tecnológica, tanto en acceso como en capacidades para su uso y aprovechamiento. La nueva era tecnológica puede ser un instrumento para reducirla, pero también de ampliación, por lo que es necesario entender su uso y aplicación y la forma en que está impactando en la población.

Hoy el sector TIC es protagonista y  tiene grandes desafíos en cuanto a las megatendencias, la industria 4.0 y el veloz cambio tecnológico; es decir debe ir encontrando modelos que faciliten el cambio estratégico de las empresas, teniendo en cuenta la ubicación sectorial dentro del ciclo de cambios estructurales para así́ poder modificar la velocidad de cambio, mantenerse dentro del sector y tomar decisiones sobre estrategia tecnológica, innovación y competencia. 

Ante la evidencia de esta velocidad, la única posibilidad es aprender las reglas que la determinan y tratar de adaptar nuestros procesos a ellas. Hoy en día, un directivo debe ser un sistema capaz de ingerir información a gran velocidad, sin retrasos injustificables, procedente de las fuentes más relevantes, y debe combinar fuentes tradicionales, los «sospechosos habituales» en su industria, con la localización de expertos y recopiladores de información, cuyo rastro debe seguir en aquellas redes en las que desarrollen su actividad. 

Antes una persona se consideraba informada simplemente leyendo un par de periódicos o tres, viendo un informativo en la televisión y escuchando la radio de camino al trabajo, ahora es perfectamente habitual encontrarse con directivos que monitorizan su industria a través de publicaciones periódicas en la red que siguen sus temas de interés en redes como Twitter o LinkedIn, y algunas herramientas de seguimiento en temas específicos. 

Además que deben ser rápidos en el procesamiento de la información: seleccionar aquella que se considera veraz y almacenarla en repositorios que faciliten su acceso, cuando se estime necesario consultarla, procesarla y construir información a partir de ella. Y en último término, generar una serie de salidas de información a través de redes sociales o de herramientas personales que permitan que otros sepan qué hacen, a qué se dedican y por qué son los mejores en ello. Si no se participa en la conversación, no se saldrá en la  fotografía y la marca personal se resentirá. Y de nuevo, a gran velocidad. En un océano de información plagado de zonas de aguas rápidas, el que deja de nadar se va al fondo.  Se esta ante un contexto nuevo sujeto a normas nuevas, con combustibles nuevos que dan lugar a un entorno estratégico donde entender los procesos de innovación y disrupción requiere disponer de información actualizada y, en muchos casos, buscar inspiración en otros ámbitos, en otras industrias, en otros sectores. Todo en el universo tecnológico ha ido evolucionando para aumentar la velocidad (SAS Latin America, n.d.).

Es de destacar que en los últimos años ha habido una exponencial toma de conciencia de la importancia del uso de los datos en tiempo real en las organizaciones. Sin embargo, estudios reflejan que más del 88 % de las empresas aún deben mejorar su capacidad de procesarlos; la proactividad y la velocidad en la gestión de la información es fundamental en la administración moderna. Los modelos de negocio hoy rotan con una velocidad mucho mayor. Hace algunos años un modelo de negocio podía durar de 20 a 30 años. Hoy, normalmente, ese ciclo se ha reducido a cinco o siete años, y en productos tecnológicos, especialmente de alta tecnología, el tiempo se acorta incluso a los tres años(Portafolio, n.d.). Por tanto es importante ir moviéndose a la velocidad del cambio tecnológico.

El lugar donde una tecnología se encuentra en su ciclo de vida puede marcar la diferencia en los datos generados por la adopción, el uso o la implementación de esa tecnología o acerca de ella (O’Leary, 2019).

Realizado por: Alejandra María Restrepo Franco

Líder de servicio Geostrategy


Referencias

O’Leary, D. E. (2019). Technology life cycle and data quality: Action and triangulation. Decision Support Systems, 126, 113139. https://doi.org/10.1016/J.DSS.2019.113139

Portafolio. (n.d.). La velocidad en la innovación | Finanzas | Economía | Portafolio. Retrieved September 9, 2021, from https://www.portafolio.co/economia/finanzas/velocidad-innovacion-236804

SAS Latin America. (n.d.). Analítica, un pilar fundamental de la innovación empresarial. Retrieved September 9, 2021, from https://blogs.sas.com/content/sasla/2019/06/11/analitica-un-pilar-fundamental-de-la-innovacion-empresarial/

Inteligencia empresarial – El secreto está en los datos

La Inteligencia Empresarial o Business Intelligence por sus siglas en inglés BI, es un conjunto de acciones, estrategias y herramientas que transforman grandes cantidades de datos en información relevante para una empresa. Estas herramientas son capaces de analizar y procesar grandes cantidades de datos y además, de ayudar a las empresas a extraer conclusiones significativas para mejorar sus cifras de negocio, esto debido a que por un lado la BI le brinda a las empresas la seguridad en la toma de decisiones estratégica a partir del análisis de los datos que generan, por otro lado, porque la BI permite efectuar una alta profundidad de análisis en los datos de las organizaciones para aumentar la competitividad de las empresas tanto a nivel nacional como internacional y finalmente, porque las herramientas de BI brindan la capacidad de realizar proyecciones y pronósticos a futuro en base a toda la información recolectada para la toma de decisiones que beneficie a las organizaciones.

Cuando los datos correctos se utilizan de forma eficaz, la BI puede ayudar a cualquier empresa, sea del tamaño que sea y se dedique al sector que se dedique, a planificarse, organizarse, detectar cambios en las ventas, identificar los cambios de conducta de los consumidores, a detectar nuevas oportunidades e, incluso, a comparar datos con los competidores, para optimizar operaciones, predecir el éxito e identificar las tendencias del mercado. Se solía decir que la información es poder, pero ahora el poder es entenderla. Por eso cualquier empresa hoy en día debería plantearse el uso de herramientas de BI y de análisis de datos para extraer todo el conocimiento posible de su organización. Solo así podrá mantenerse competitiva en el mercado.