Este repositorio está dirigido a las personas que quieran obtener algún tipo de conocimiento en ciencia de datos, y es uno de los insumos principales del diplomado en ciencia de datos de la Universidad Pedagógica y Tecnológica de Colombia sede de Tunja.
- Andrés Felipe Flórez Olivera
- Nicolás Castillo Ojeda
- Juan Felipe Contreras Alcívar
- Alhim Adonai Vera González
A continuación se presenta cada una de las secciones que componen el diplomado, así como sus temas.
En esta sección se va a explorar la introducción al aprendizaje automático (Machine Learning), se definirán los conceptos del aprendizaje supervisado y no supervisado, así como varias de sus aplicaciones reales en diferentes industrias.
En la ciencia de datos, la Regresión Lineal emerge como una herramienta crucial para la predicción, la inferencia estadística y la explicación de fenómenos estadísticos. Este método se basa en la suposición de una relación lineal entre una variable dependiente y una o más variables independientes, buscando identificar el mejor ajuste lineal posible. Puedes acceder al material interactivo en el siguiente link:
La regresión logística es una técnica estadística fundamentalmente utilizada para la modelización y predicción de variables categóricas. A diferencia de la regresión lineal, que se emplea para predecir valores continuos, la regresión logística estima la probabilidad de que un evento ocurra o no, en función de una o más variables predictoras. En este paradigma, el modelo logístico utiliza una función sigmoide para transformar la combinación lineal de las variables predictoras, lo que permite interpretar fácilmente las probabilidades resultantes y tomar decisiones informadas. Puedes acceder al material interactivo en el siguiente link:
En esta sección, exploraremos los fundamentos y aplicaciones de varios métodos no supervisados. Cada tema incluye una explicación teórica, ejercicios prácticos y un caso aplicado para consolidar el aprendizaje. Puedes acceder al material interactivo en el siguiente link:
La Reducción de Dimensionalidad es una técnica crucial para el análisis de datos de alta dimensión. A través del Análisis de Componentes Principales (PCA), aprenderemos cómo simplificar los conjuntos de datos manteniendo la esencia de la información. Este módulo incluye teoría sobre la reducción de dimensionalidad, ejercicios prácticos para implementar PCA y un estudio de caso para aplicar lo aprendido en un contexto real.
El Clustering es una técnica fundamental en el aprendizaje no supervisado que permite agrupar datos basados en su similitud. En este módulo, cubriremos los conceptos básicos del clustering, seguidos de ejercicios prácticos para entender cómo agrupar datos efectivamente.
Como una de las técnicas de clustering más populares, K-Means ofrece una manera eficiente de clasificar un conjunto de datos en varios grupos (o 'clusters'). Este segmento profundiza en el algoritmo K-Means, acompañado de ejercicios prácticos para aplicar K-Means en diferentes conjuntos de datos y un caso aplicado relevante.
DBScan es un algoritmo de clustering que se destaca por su capacidad de identificar clusters de formas arbitrarias. Este módulo te guiará a través de los principios de DBScan, cómo implementarlo y aplicarlo a un caso de estudio para ilustrar su utilidad en situaciones del mundo real.
Las Reglas de Asociación son herramientas poderosas para descubrir relaciones entre variables en grandes bases de datos. Este tema se enfoca en explicar cómo generar y aplicar reglas de asociación, con ejercicios prácticos para ilustrar su implementación y un caso aplicado para mostrar su aplicación en análisis de datos.