Acceso abierto ¿Necesitas más información?

Curso de Fundamentos de Data Science

El curso de Fundamentos de Data Science tiene una carga lectiva de 6 créditos y una duración de un semestre. 

El programa se estructura a través de una única asignatura:

  • Fundamentos de data science (6 créditos). Esta asignatura presenta los conceptos y la tipología de análisis de diferentes tipos de datos, los modelos y los algoritmos de uso más frecuente de clasificación y agrupación, así como las metodologías y los estándares profesionales y científicos que se utilizan en la analítica de negocio y la ciencia de datos aplicada. El estudiantado trabajará principalmente con R y RStudio, aunque pueden hacerse actividades con otras herramientas.

Por su parte, la asignatura está constituida a través de dos grandes bloques:

Bloque 1. Metodologías y estándares

  • Módulo 1. Se analiza la minería de datos (data mining) en un entorno informacional diferenciándolo del existente en un entorno operacional e introduciendo conceptos como el de los sistemas de soporte a la decisión (DSS), los procesos del entorno informacional y los de extracción de conocimiento, así como el scoring de un modelo de minería de datos. Se presentan también los servicios de minería de datos dentro de la estructura tecnológica y los escenarios para el despliegue de modelos haciendo hincapié en las soluciones tecnológicas tanto de entornos de modelización integrados workbench como de servicios ligados al gestor de la base de datos.
  • Módulo 2. Está dedicado a la metodología CRISP-DM, donde se definen conceptos relevantes como el de calidad total o el de parte implicada (stakeholder) y se estudia la adecuación de la metodología al proyecto. En una primera etapa se realiza una comprensión del negocio teniendo en cuenta los objetivos del negocio y de la minería de datos de acuerdo con la evaluación de la situación actual para realizar un plan de proyecto. Posteriormente se efectúa una comprensión de los datos (se capturan, se describen, se exploran, se realizan verificaciones de estos y se gestiona su calidad) para prepararlos (se seleccionan, se realiza una limpieza de estos y se construye así el juego de datos, integrándolos y formateándolos) con el fin de realizar un modelado con ellos. Se selecciona una técnica específica y se marca una estrategia de verificación de la calidad de un modelo que se construye y se ajusta para evaluar dicho modelo, teniendo en cuenta tanto la revisión del proceso como los siguientes pasos a seguir. El proceso culmina con un despliegue que incluye un plan de entrada en el proceso productivo, un seguimiento y mantenimiento, un informe final que permita una revisión del proyecto y la posibilidad de obtención de objeciones a la metodología.
  • Módulo 3. Se estudia el modelo DELTA para la mejora continua de la analítica de negocio (business analytics) y se definen todos los posibles estados. No se consideran el análisis, la actividad analítica aislada, el aspirante analítico, la organización analítica ni el competidor analítico.
  • Módulo 4. Presenta el estándar PMML, su cobertura y su esquema: cabecera, diccionario de datos, esquema del modelo, agrupaciones, asociaciones, transformaciones, estadísticas, taxonomía y jerarquías y, finalmente, output.
  • Módulo 5. Se trabaja el gobierno de servicios IT; se realizan diversas definiciones básicas de servicio, sistema de información, proceso, grupos de proceso y procedimiento, y se abordan distintos procesos: círculo PDCA (plan, do, check, act), procesos de provisión de servicios, de relación, de resolución, de control y de entrega.
  • Módulo 6. Será de gran ayuda a los estudiantes de la especialidad, ya que en él se realiza una excelente introducción al lenguaje R. Se define el proyecto R y se muestra cómo descargar e instalar R incluyendo algunas convenciones, la interfaz RStudio, cómo instalar un paquete nuevo y las opciones de ayuda. Además, se incluye todo un apartado dedicado a los comandos básicos de R: las funciones de acceso a ayuda, las utilizadas para gestionar el entorno de trabajo, las de selección de datos y las de agregación. También se incide en otros aspectos como las entradas y salidas de R, cómo trabajar con datos y los tipos de datos. El módulo finaliza con algunos ejemplos de juegos de datos para el contrato de suministro de combustibles, la segmentación de clientes, el estudio de aceptación de producto y la clasificación de clientes.

Bloque 2. Materiales específicos de la asignatura de Fundamentos de data science

  • Módulo 1. Versa sobre la analítica de negocio y aborda temas que van desde las definiciones básicas de analítica de negocio (business analytics) y su encaje en la historia hasta sus principales aplicaciones o dominios de aplicación, como la minería de texto (text mining), la minería de opinión (opinion mining), el análisis de datos de redes sociales (social network analysis) y la gestión de la reputación (reputation management). En este módulo se muestra cómo realizar una construcción de una matriz de términos con R.
  • Módulo 2. Presenta algunos conceptos previos necesarios para poder comprender mejor los modelos y los algoritmos como los conceptos de distancia y de similitud, y cómo utilizar R para calcular la distancia de Mahalanobis y detectar valores aberrantes (outliers). El módulo finaliza profundizando en el tema de la ganancia de información, matizando la utilidad de R para este fin.
  • Módulo 3. Se abordan algunos de los modelos y algoritmos más relevantes. Se empieza mostrando la taxonomía de los algoritmos, se continúa con una descripción del aprendizaje supervisado y no supervisado y se finaliza con los modelos de asociaciones. En concreto, se profundiza en los siguientes modelos y algoritmos:
    • Aprendizaje supervisado
      • Algoritmo K-NN
      • Árboles de decisión
    • Aprendizaje no supervisado
      • Clustering dendrogramas
      • Clustering particional: algoritmo k-medias (k-means)
      • Canopy clustering
    • Asociaciones
      • Esperanza y soporte
      • Algoritmo MS-Apriori

 

Recursos para el aprendizaje

El origen de estos recursos de aprendizaje es múltiple. Se trata tanto de materiales didácticos preparados por el equipo de expertos para su actividad docente como de recursos externos.

Las herramientas de software que se utilizarán en el curso de Fundamentos de Data Science son R y RStudio. Esta descripción puede cambiar en cada convocatoria en función de las necesidades docentes, la actualización del programa y la relación con los fabricantes.

Se recomienda disponer de máquinas y SO de 64 bits y 4 GB de RAM mínimo (8 GB recomendados).

Duración

En la UOC, un crédito ECTS equivale a 25 horas de trabajo del estudiante.

Según el número de créditos ECTS, la duración de los programas de posgrado oscila entre 1 mes y 2 años, aproximadamente:
 

  • Máster propio: 2 años
  • Diploma de posgrado: 1 año
  • Especialización: 1 semestre (6 meses) 
  • Curso: entre 1 y  6 meses

Matrícula abierta:
últimos días

Fracciona el pago en cuotas

Matricúlate
Información de precio y matrícula
¿Quieres más información?

Envía tus datos y recibirás información de este programa y relativa a productos, servicios y actividades promocionales de la UOC

Introduce un número de 9 dígitos.
Introduce un número de 9 dígitos.
i_fix
Pref. Int.
Introduce un número de 9 dígitos.
i_fix
Pref. Int.
Introduce un número de 9 dígitos.
¿En qué idioma deseas recibir la información?

La UOC, cuarta mejor universidad de España según el Young University Rankings del Times Higher Education

 


Pago
fraccionado


Puedes fraccionar en cuotas el pago de tu máster, posgrado o especialización.

Infórmate

¿Por qué escoger la UOC?

Reinventando la universidad

El modelo educativo de la UOC

El momento de ser #eltúquequieresser es SIEMPRE

¿Quieres más información?

Envía tus datos y recibirás información de este programa y relativa a productos, servicios y actividades promocionales de la UOC

Introduce un número de 9 dígitos.
Introduce un número de 9 dígitos.
i_fix
Pref. Int.
Introduce un número de 9 dígitos.
i_fix
Pref. Int.
Introduce un número de 9 dígitos.
¿En qué idioma deseas recibir la información?