Este documento describe el entorno de cómputo estadístico para el procesamiento de datos electrónicos. Explica los diferentes entornos computacionales involucrados como la recepción, almacenamiento, procesamiento y difusión de datos. También describe el uso de hilos de procesamiento y microservicios para ejecutar de manera eficiente las diferentes ETL involucradas en la gestión y análisis de datos.
2. Alberto González Yanes
Jefe de Servicio de Estadísticas Económicas
jgonyanp@gobiernodecanarias.org
@algoya_dat
ENTORNO DE CÓMPUTO
ESTADÍSTICO EN eDATOS
Hilos computacionales, ETL y microservicios de
procesamiento
JECAS 2018
3. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
ESQUEMA GENERAL DE LA PRESENTACIÓN
1. Entornos computacionales
2. Hilos de procesamiento y microservicios
5. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Datos
Modelo organizacional por tipología y naturaleza
(esquemas-tipo)
Metadatos
Soporte de normalización semántica
Procedimientos
Soporte de procesos y procesamiento
6. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Entornos del Banco de Datos
Entornos de recepción, captura y
prealmacenamiento
Entorno repositorio
Entornos computacionales
Entornos analíticos
Entornos de difusión
7. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Entornos computacionales
Almacenamiento de datos
Procesamiento de datos
Catalogación de procesos Entornos Clase de almacenamiento
Entornos de recepción y captura Transición
Entorno repositorio Destino
Entornos computacionales Transición
Entornos analíticos Destino
Entornos de difusión Destino
8. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Entornos computacionales
Almacenamiento de datos
Procesamiento de datos
Catalogación de procesos
9. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Entornos computacionales
Almacenamiento de datos
Procesamiento de datos
Catalogación de procesos
1. Almacenamiento
2. Documentación
3. Ejecución
10. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Relación entre entornos
Extensiones de refuerzo, por ejemplo Postgre
Unos entornos computacionales refuerzan el procesamiento
llamando a otros entornos.
PostGIS, CitusData, PgRouting, Fuzzystrmatch, Pg_trgm,
PgSimilarity, MADlib, PG-Strom, PL/pgSQL, PL/R, PL/Python
12. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Hilos computacionales
Hilos de transferencia
13. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Hilos computacionales
Se componen de diversas ETL que se
ejecutan en entornos distintos (SAS o Kette)
aprovechando las capacidades
computacionales de otros entornos de
cómputo.
Ejemplo de ETL en SAS dentro de hilo tipo HC-MDS-1
14. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Hilos computacionales
Se componen de diversas ETL que se
ejecutan en entornos distintos (SAS o Kette)
aprovechando las capacidades
computacionales de otros entornos de
cómputo.
Esquema de profundidad en ETL de cómputo
15. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Hilos computacionales
Para los que se identifican y catalogan los
procesos, que se normalizan e industrializan
mediante microservicios.
1. RECOGER / OBTENER DATOS (GSBPM-4)
2. PROCESAR (GSBPM-5)
a. Codificación
b. Normalización de códigos
c. Integración
d. Generación de subtotales derivados
e. Generación de estimadores derivados para series temporales
f. Generación de estimadores corregidos de estacionalidad y calendario
3. ANALIZAR (GSBPM-6)
a. Generación de atributos de estado OBS_STATUS
b. Control de coherencia entre totales y subtotales
c. Detección de outliers en series temporales
d. Generación de atributos de confidencialiadad OBS_CONFIDENCIALITY
e. Cargar en espacio repositorio (ETL de traspaso)
f. Cargar en espacios analíticos (hilo de transferencia)
g. Análisis exploratorio en espacios analíticos (fuera de hilo
computacional)
4. DIFUNDIR (GSBPM-7)
a. Elaborar datasets cube (DSC)
b. Cargar en espacio repositorio los DSC
c. Cargar en espacios analíticos (hilo de transferencia)
d. Análisis exploratorio en espacios analíticos
e. Cargar en e-Cubos (hilo de transferencia)
Ejemplo de catálogos de procesos en HC-MDS-1
16. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Hilos computacionales
Para los que se identifican y catalogan los
procesos, que se normalizan e
industrializan mediante microservicios.
Ejemplo de microservicios para procesos en HC-MDS-1
1. RECOGER / OBTENER DATOS
a. Macro SAS-R de captura de datos de la API del INE
b. Macro SAS-R de captura de datos de ficheros PC-Axis
c. Macro SAS-R-PYTHON de captura de datos de AENA
d. Macro SAS-R de captura de datos de Eurostat
2. PROCESAR
a. Librería R de lectura de listas de códigos y conceptos de
medida desde el repositorio de metadatos
b. Macro SAS-R de lectura de listas de códigos y conceptos
de medida desde el repositorio de metadatos
c. Macro SAS de estimadores derivados en series
3. ANALIZAR
a. Macro SAS de detección de outliers en series temporales
b. Macro SAS-R de control de secreto estadístico en
macrodatos
17. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Bloque Capa Microservicio Descripción
Captura de datos Jupyter-Python getAENA Código Python, con documentación y ejecución desde Jupyter, que
permite la realización de web-scrapping a los datos publicados por
AENA.
Python getShops Código Python que permite la extracción de datos de empresas y
establecimientos de Big Data.
Librería R INEbaseR Librería de extracción de datos de la API del INE. Permite extraer
operaciones y series de datos de forma estructurada y eficiente.
Librería R istacr Librería en R para la extracción de datos y metadatos de las APIs
del ISTAC.
Paquete Python istacpy Paquete en R para la extracción de datos y metadatos de las APIs
del ISTAC.
Ejemplos de microservicios
18. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Bloque Capa Microservicio Descripción
Tratamiento de datos Macro SAS CALMAR Macro SAS desarrollada por el INSEE para el calibrado de muestras
con información auxiliar.
Macro SAS MacroPX Macro de generación de tablas en formato PX a partir de tablas SAS.
Macro SAS-R GEOCODE Macros de geocodificación
Script R NORMANAME Script de aprovechamiento de las funcionalidades de APIname
Series temporales Macros SAS TIMEOUTLIER Macros de detección de observaciones atípicas en series.
Macros SAS TIMECHANGE Macros de cálculo de medidas de variación en series.
Ejemplos de microservicios