View on GitHub

SQL

Gestión de big data con MySQL y Teradata

En este proyecto, se armó un sumario de consultas que pueden servir de orientación o práctica en la tarea de recuperación de datos de una base relacional para crear recomendaciones procesables para un negocio. Las consultas se realizaron a bases de datos comerciales del curso de Managing Big Data with MySQL del programa de Especialización de Analytic Techniques for Business de la Universidad de Duke. Los notebooks de consultas están dispuestos en orden creciente según la complejidad en los códigos de las consultas.

MySQL

Se trabaja con una base de datos, de más de un millón de filas, de una empresa que ofrece servicios por internet, que consta de juegos para realizar con mascotas. La empresa evalúa la performance de su producto en términos de la tasa de finalización de las pruebas, entonces, cualquier insight para empujar a los usuarios a completar las pruebas sería útil desde la perspectiva empresarial.

  1. Verificación y descripción del contenido de la base de datos.
  2. Recuperación de datos con criterios específicos, optimizando recursos mediante las cláusulas SELECT, FROM, WHERE, LIMIT y TOP. Operadores =, !=, <, > y operadores lógicos AND, OR, IN y funciones LIKE y de fechas
  3. Formateo de datos recuperados usando alias, cláusulas DISTINCT y ORDER BY.
  4. Obtención de medidas resúmenes usando cláusulas GROUP BY y HAVING. Funciones agregadas AVG(), COUNT(), MAX(), MIN() y SUM(). Revisión de problemas de desajustes de agregación. Función lógica ISNULL(). Funciones de tiempo; TIMESTAMPDIF() y MONTH().
  5. Combinación de información de varias tablas. Uniones internas y externas. Estrategias para administrar uniones entre tablas con filas duplicadas, relaciones de muchos a muchos y configuraciones atípicas.
  6. Subconsultas y tablas derivadas. Operadores IN, NOT IN, EXISTS y NOT EXISTS.
  7. Funciones lógicas en sus consultas usando las declaraciones IF y CASE. Operadores AND, OR y NOT.
  8. Implementar análisis que se adapten a datos faltantes o errores de datos.
  9. Consultas complejas que incorporen muchas tablas y cláusulas.
    Enlaces útiles:

Teradata

Se trabaja con una base de datos de más de 100 millones de fila correspondiente a una cadena de tiendas comerciales.