SlideShare ist ein Scribd-Unternehmen logo
1 von 19
Downloaden Sie, um offline zu lesen
ENTORNO DE CÓMPUTO
ESTADÍSTICO EN eDATOS
JECAS 2018
Hilos computacionales, ETL y microservicios de
procesamiento
Alberto González Yanes
Jefe de Servicio de Estadísticas Económicas
jgonyanp@gobiernodecanarias.org
@algoya_dat
ENTORNO DE CÓMPUTO
ESTADÍSTICO EN eDATOS
Hilos computacionales, ETL y microservicios de
procesamiento
JECAS 2018
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
ESQUEMA GENERAL DE LA PRESENTACIÓN
1. Entornos computacionales
2. Hilos de procesamiento y microservicios
ENTORNO DE CÓMPUTO
ESTADÍSTICO EN eDATOS
Entornos computacionales
JECAS 2018
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Datos
Modelo organizacional por tipología y naturaleza
(esquemas-tipo)
Metadatos
Soporte de normalización semántica
Procedimientos
Soporte de procesos y procesamiento
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Entornos del Banco de Datos
Entornos de recepción, captura y
prealmacenamiento
Entorno repositorio
Entornos computacionales
Entornos analíticos
Entornos de difusión
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Entornos computacionales
Almacenamiento de datos
Procesamiento de datos
Catalogación de procesos Entornos Clase de almacenamiento
Entornos de recepción y captura Transición
Entorno repositorio Destino
Entornos computacionales Transición
Entornos analíticos Destino
Entornos de difusión Destino
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Entornos computacionales
Almacenamiento de datos
Procesamiento de datos
Catalogación de procesos
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Entornos computacionales
Almacenamiento de datos
Procesamiento de datos
Catalogación de procesos
1. Almacenamiento
2. Documentación
3. Ejecución
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Relación entre entornos
Extensiones de refuerzo, por ejemplo Postgre
Unos entornos computacionales refuerzan el procesamiento
llamando a otros entornos.
PostGIS, CitusData, PgRouting, Fuzzystrmatch, Pg_trgm,
PgSimilarity, MADlib, PG-Strom, PL/pgSQL, PL/R, PL/Python
ENTORNO DE CÓMPUTO
ESTADÍSTICO EN eDATOS
Hilos de procesamiento y microservicios
JECAS 2018
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Hilos computacionales
Hilos de transferencia
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Hilos computacionales
Se componen de diversas ETL que se
ejecutan en entornos distintos (SAS o Kette)
aprovechando las capacidades
computacionales de otros entornos de
cómputo.
Ejemplo de ETL en SAS dentro de hilo tipo HC-MDS-1
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Hilos computacionales
Se componen de diversas ETL que se
ejecutan en entornos distintos (SAS o Kette)
aprovechando las capacidades
computacionales de otros entornos de
cómputo.
Esquema de profundidad en ETL de cómputo
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Hilos computacionales
Para los que se identifican y catalogan los
procesos, que se normalizan e industrializan
mediante microservicios.
1. RECOGER / OBTENER DATOS (GSBPM-4)
2. PROCESAR (GSBPM-5)
a. Codificación
b. Normalización de códigos
c. Integración
d. Generación de subtotales derivados
e. Generación de estimadores derivados para series temporales
f. Generación de estimadores corregidos de estacionalidad y calendario
3. ANALIZAR (GSBPM-6)
a. Generación de atributos de estado OBS_STATUS
b. Control de coherencia entre totales y subtotales
c. Detección de outliers en series temporales
d. Generación de atributos de confidencialiadad OBS_CONFIDENCIALITY
e. Cargar en espacio repositorio (ETL de traspaso)
f. Cargar en espacios analíticos (hilo de transferencia)
g. Análisis exploratorio en espacios analíticos (fuera de hilo
computacional)
4. DIFUNDIR (GSBPM-7)
a. Elaborar datasets cube (DSC)
b. Cargar en espacio repositorio los DSC
c. Cargar en espacios analíticos (hilo de transferencia)
d. Análisis exploratorio en espacios analíticos
e. Cargar en e-Cubos (hilo de transferencia)
Ejemplo de catálogos de procesos en HC-MDS-1
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Hilos computacionales
Para los que se identifican y catalogan los
procesos, que se normalizan e
industrializan mediante microservicios.
Ejemplo de microservicios para procesos en HC-MDS-1
1. RECOGER / OBTENER DATOS
a. Macro SAS-R de captura de datos de la API del INE
b. Macro SAS-R de captura de datos de ficheros PC-Axis
c. Macro SAS-R-PYTHON de captura de datos de AENA
d. Macro SAS-R de captura de datos de Eurostat
2. PROCESAR
a. Librería R de lectura de listas de códigos y conceptos de
medida desde el repositorio de metadatos
b. Macro SAS-R de lectura de listas de códigos y conceptos
de medida desde el repositorio de metadatos
c. Macro SAS de estimadores derivados en series
3. ANALIZAR
a. Macro SAS de detección de outliers en series temporales
b. Macro SAS-R de control de secreto estadístico en
macrodatos
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Bloque Capa Microservicio Descripción
Captura de datos Jupyter-Python getAENA Código Python, con documentación y ejecución desde Jupyter, que
permite la realización de web-scrapping a los datos publicados por
AENA.
Python getShops Código Python que permite la extracción de datos de empresas y
establecimientos de Big Data.
Librería R INEbaseR Librería de extracción de datos de la API del INE. Permite extraer
operaciones y series de datos de forma estructurada y eficiente.
Librería R istacr Librería en R para la extracción de datos y metadatos de las APIs
del ISTAC.
Paquete Python istacpy Paquete en R para la extracción de datos y metadatos de las APIs
del ISTAC.
Ejemplos de microservicios
ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS
Bloque Capa Microservicio Descripción
Tratamiento de datos Macro SAS CALMAR Macro SAS desarrollada por el INSEE para el calibrado de muestras
con información auxiliar.
Macro SAS MacroPX Macro de generación de tablas en formato PX a partir de tablas SAS.
Macro SAS-R GEOCODE Macros de geocodificación
Script R NORMANAME Script de aprovechamiento de las funcionalidades de APIname
Series temporales Macros SAS TIMEOUTLIER Macros de detección de observaciones atípicas en series.
Macros SAS TIMECHANGE Macros de cálculo de medidas de variación en series.
Ejemplos de microservicios
www.gobiernodecanarias.org
@istac_es
ENTORNO DE CÓMPUTO
ESTADÍSTICO EN eDATOS
JECAS 2018

Weitere ähnliche Inhalte

Ähnlich wie [Jecas2018] entorno de computo estadistico en e datos

IMPLEMENTACION DE UNA BASE DE DATOS
IMPLEMENTACION DE UNA BASE DE DATOS IMPLEMENTACION DE UNA BASE DE DATOS
IMPLEMENTACION DE UNA BASE DE DATOS Paul steven Quiñonez
 
Hackathon the 5 min pitch - a base for development v1.0
Hackathon   the 5 min pitch - a base for development v1.0Hackathon   the 5 min pitch - a base for development v1.0
Hackathon the 5 min pitch - a base for development v1.0Ricardo Gutierrez
 
Clase 1 - CicloProcesoAnálisisDatos.pptx
Clase 1 - CicloProcesoAnálisisDatos.pptxClase 1 - CicloProcesoAnálisisDatos.pptx
Clase 1 - CicloProcesoAnálisisDatos.pptxVanessaGironda4
 
Infraestructura de difusión de datos y metadatos  estadísticos del ISTAC en e...
Infraestructura de difusión de datos y metadatos  estadísticos del ISTAC en e...Infraestructura de difusión de datos y metadatos  estadísticos del ISTAC en e...
Infraestructura de difusión de datos y metadatos  estadísticos del ISTAC en e...Instituto Canario de Estadística (ISTAC)
 
Personalización Data Collectors
Personalización Data CollectorsPersonalización Data Collectors
Personalización Data CollectorsSolidQ
 
Keepler | Data Analysis Lifecycle
Keepler | Data Analysis LifecycleKeepler | Data Analysis Lifecycle
Keepler | Data Analysis LifecycleKeepler Data Tech
 
0157 genexus full_throttling
0157 genexus full_throttling0157 genexus full_throttling
0157 genexus full_throttlingGeneXus
 
0157 genexus full_throttling
0157 genexus full_throttling0157 genexus full_throttling
0157 genexus full_throttlingGeneXus
 
Examen ISC
Examen ISCExamen ISC
Examen ISCivan mtz
 
Características de Capataz 2007
Características de Capataz 2007Características de Capataz 2007
Características de Capataz 2007Gonzalo Ferreyra
 
La estandarización y automatización como factores clave para el éxito de una ...
La estandarización y automatización como factores clave para el éxito de una ...La estandarización y automatización como factores clave para el éxito de una ...
La estandarización y automatización como factores clave para el éxito de una ...confluent
 
Adsi guía 4 - realizar el analisis de las bases de datos
Adsi   guía 4 - realizar el analisis de las bases de datosAdsi   guía 4 - realizar el analisis de las bases de datos
Adsi guía 4 - realizar el analisis de las bases de datosHelver Gilberto Parra Gonzalez
 
PráCtica M1
PráCtica M1PráCtica M1
PráCtica M1mvaicilla
 
PráCtica M1
PráCtica M1PráCtica M1
PráCtica M1mvaicilla
 
PráCtica M1
PráCtica M1PráCtica M1
PráCtica M1mvaicilla
 

Ähnlich wie [Jecas2018] entorno de computo estadistico en e datos (20)

IMPLEMENTACION DE UNA BASE DE DATOS
IMPLEMENTACION DE UNA BASE DE DATOS IMPLEMENTACION DE UNA BASE DE DATOS
IMPLEMENTACION DE UNA BASE DE DATOS
 
Hackathon the 5 min pitch - a base for development v1.0
Hackathon   the 5 min pitch - a base for development v1.0Hackathon   the 5 min pitch - a base for development v1.0
Hackathon the 5 min pitch - a base for development v1.0
 
Clase 1 - CicloProcesoAnálisisDatos.pptx
Clase 1 - CicloProcesoAnálisisDatos.pptxClase 1 - CicloProcesoAnálisisDatos.pptx
Clase 1 - CicloProcesoAnálisisDatos.pptx
 
Ejemplo de tesis incompleta
Ejemplo de tesis incompletaEjemplo de tesis incompleta
Ejemplo de tesis incompleta
 
TODO.pdf
TODO.pdfTODO.pdf
TODO.pdf
 
Infraestructura de difusión de datos y metadatos  estadísticos del ISTAC en e...
Infraestructura de difusión de datos y metadatos  estadísticos del ISTAC en e...Infraestructura de difusión de datos y metadatos  estadísticos del ISTAC en e...
Infraestructura de difusión de datos y metadatos  estadísticos del ISTAC en e...
 
Analisis de rendimiento_en_oracle
Analisis de rendimiento_en_oracleAnalisis de rendimiento_en_oracle
Analisis de rendimiento_en_oracle
 
Personalización Data Collectors
Personalización Data CollectorsPersonalización Data Collectors
Personalización Data Collectors
 
Keepler | Data Analysis Lifecycle
Keepler | Data Analysis LifecycleKeepler | Data Analysis Lifecycle
Keepler | Data Analysis Lifecycle
 
0157 genexus full_throttling
0157 genexus full_throttling0157 genexus full_throttling
0157 genexus full_throttling
 
0157 genexus full_throttling
0157 genexus full_throttling0157 genexus full_throttling
0157 genexus full_throttling
 
Examen ISC
Examen ISCExamen ISC
Examen ISC
 
Características de Capataz 2007
Características de Capataz 2007Características de Capataz 2007
Características de Capataz 2007
 
Resumen
ResumenResumen
Resumen
 
La estandarización y automatización como factores clave para el éxito de una ...
La estandarización y automatización como factores clave para el éxito de una ...La estandarización y automatización como factores clave para el éxito de una ...
La estandarización y automatización como factores clave para el éxito de una ...
 
Adsi guía 4 - realizar el analisis de las bases de datos
Adsi   guía 4 - realizar el analisis de las bases de datosAdsi   guía 4 - realizar el analisis de las bases de datos
Adsi guía 4 - realizar el analisis de las bases de datos
 
PráCtica M1
PráCtica M1PráCtica M1
PráCtica M1
 
PráCtica M1
PráCtica M1PráCtica M1
PráCtica M1
 
PráCtica M1
PráCtica M1PráCtica M1
PráCtica M1
 
IDboxRT Presentación Corporativa
IDboxRT Presentación CorporativaIDboxRT Presentación Corporativa
IDboxRT Presentación Corporativa
 

Mehr von Instituto Canario de Estadística (ISTAC)

[Jecas2018] estadisticas suburbanas de poblacion y su relacion con la actividad
[Jecas2018] estadisticas suburbanas de poblacion y su relacion con la actividad[Jecas2018] estadisticas suburbanas de poblacion y su relacion con la actividad
[Jecas2018] estadisticas suburbanas de poblacion y su relacion con la actividadInstituto Canario de Estadística (ISTAC)
 
Análisis regional e insular de las predicciones de entradas de pasajeros en C...
Análisis regional e insular de las predicciones de entradas de pasajeros en C...Análisis regional e insular de las predicciones de entradas de pasajeros en C...
Análisis regional e insular de las predicciones de entradas de pasajeros en C...Instituto Canario de Estadística (ISTAC)
 
La estadística pública en la evaluación de políticas publicas. 2ª parte
La estadística pública en la evaluación de políticas publicas. 2ª parteLa estadística pública en la evaluación de políticas publicas. 2ª parte
La estadística pública en la evaluación de políticas publicas. 2ª parteInstituto Canario de Estadística (ISTAC)
 
La estadística pública en la evaluación de políticas: Introducción a la esta...
La estadística pública en la evaluación  de políticas: Introducción a la esta...La estadística pública en la evaluación  de políticas: Introducción a la esta...
La estadística pública en la evaluación de políticas: Introducción a la esta...Instituto Canario de Estadística (ISTAC)
 
Apuntes metodológicos de la Encuesta de Seguimiento de la Marca Turística de ...
Apuntes metodológicos de la Encuesta de Seguimiento de la Marca Turística de ...Apuntes metodológicos de la Encuesta de Seguimiento de la Marca Turística de ...
Apuntes metodológicos de la Encuesta de Seguimiento de la Marca Turística de ...Instituto Canario de Estadística (ISTAC)
 
Casos de uso de fuentes big data en las estadísticas económicas de Canarias
Casos de uso de fuentes big data en las estadísticas económicas de CanariasCasos de uso de fuentes big data en las estadísticas económicas de Canarias
Casos de uso de fuentes big data en las estadísticas económicas de CanariasInstituto Canario de Estadística (ISTAC)
 
REGIONAL TOURISM INFORMATION SYSTEM (R-TIS) OF THE CANARY ISLANDS . A strateg...
REGIONAL TOURISM INFORMATION SYSTEM (R-TIS) OF THE CANARY ISLANDS. A strateg...REGIONAL TOURISM INFORMATION SYSTEM (R-TIS) OF THE CANARY ISLANDS. A strateg...
REGIONAL TOURISM INFORMATION SYSTEM (R-TIS) OF THE CANARY ISLANDS . A strateg...Instituto Canario de Estadística (ISTAC)
 
SISTEMA REGIONAL DE ESTADÍSTICAS DE TURISMO. Una aproximación estratégica
SISTEMA REGIONAL DE ESTADÍSTICAS DE TURISMO. Una aproximación estratégicaSISTEMA REGIONAL DE ESTADÍSTICAS DE TURISMO. Una aproximación estratégica
SISTEMA REGIONAL DE ESTADÍSTICAS DE TURISMO. Una aproximación estratégicaInstituto Canario de Estadística (ISTAC)
 
Estrategia para la difusión abierta de estadísticas. Máster Universidad de Se...
Estrategia para la difusión abierta de estadísticas. Máster Universidad de Se...Estrategia para la difusión abierta de estadísticas. Máster Universidad de Se...
Estrategia para la difusión abierta de estadísticas. Máster Universidad de Se...Instituto Canario de Estadística (ISTAC)
 

Mehr von Instituto Canario de Estadística (ISTAC) (20)

Turismo Canarias 2018. Islas
Turismo Canarias 2018. IslasTurismo Canarias 2018. Islas
Turismo Canarias 2018. Islas
 
Crecimiento vegetativo
Crecimiento vegetativoCrecimiento vegetativo
Crecimiento vegetativo
 
Indicadores para politicas publicas
Indicadores para politicas publicasIndicadores para politicas publicas
Indicadores para politicas publicas
 
Presentacion chatbot istac
Presentacion chatbot istacPresentacion chatbot istac
Presentacion chatbot istac
 
[Jecas2018] estadisticas suburbanas de poblacion y su relacion con la actividad
[Jecas2018] estadisticas suburbanas de poblacion y su relacion con la actividad[Jecas2018] estadisticas suburbanas de poblacion y su relacion con la actividad
[Jecas2018] estadisticas suburbanas de poblacion y su relacion con la actividad
 
[Jecas2018] marco de estadistica espacial de canarias
[Jecas2018] marco de estadistica espacial de canarias[Jecas2018] marco de estadistica espacial de canarias
[Jecas2018] marco de estadistica espacial de canarias
 
Matrimonios. 2015
Matrimonios. 2015Matrimonios. 2015
Matrimonios. 2015
 
Nombres más comunes entre recién nacidos. 2016
Nombres más comunes entre recién nacidos. 2016Nombres más comunes entre recién nacidos. 2016
Nombres más comunes entre recién nacidos. 2016
 
201807 gobcan jordanas datos abiertos
201807  gobcan   jordanas datos abiertos 201807  gobcan   jordanas datos abiertos
201807 gobcan jordanas datos abiertos
 
Análisis regional e insular de las predicciones de entradas de pasajeros en C...
Análisis regional e insular de las predicciones de entradas de pasajeros en C...Análisis regional e insular de las predicciones de entradas de pasajeros en C...
Análisis regional e insular de las predicciones de entradas de pasajeros en C...
 
La estadística pública en la evaluación de políticas publicas. 2ª parte
La estadística pública en la evaluación de políticas publicas. 2ª parteLa estadística pública en la evaluación de políticas publicas. 2ª parte
La estadística pública en la evaluación de políticas publicas. 2ª parte
 
La estadística pública en la evaluación de políticas: Introducción a la esta...
La estadística pública en la evaluación  de políticas: Introducción a la esta...La estadística pública en la evaluación  de políticas: Introducción a la esta...
La estadística pública en la evaluación de políticas: Introducción a la esta...
 
Apuntes metodológicos de la Encuesta de Seguimiento de la Marca Turística de ...
Apuntes metodológicos de la Encuesta de Seguimiento de la Marca Turística de ...Apuntes metodológicos de la Encuesta de Seguimiento de la Marca Turística de ...
Apuntes metodológicos de la Encuesta de Seguimiento de la Marca Turística de ...
 
Casos de uso de fuentes big data en las estadísticas económicas de Canarias
Casos de uso de fuentes big data en las estadísticas económicas de CanariasCasos de uso de fuentes big data en las estadísticas económicas de Canarias
Casos de uso de fuentes big data en las estadísticas económicas de Canarias
 
REGIONAL TOURISM INFORMATION SYSTEM (R-TIS) OF THE CANARY ISLANDS . A strateg...
REGIONAL TOURISM INFORMATION SYSTEM (R-TIS) OF THE CANARY ISLANDS. A strateg...REGIONAL TOURISM INFORMATION SYSTEM (R-TIS) OF THE CANARY ISLANDS. A strateg...
REGIONAL TOURISM INFORMATION SYSTEM (R-TIS) OF THE CANARY ISLANDS . A strateg...
 
SISTEMA REGIONAL DE ESTADÍSTICAS DE TURISMO. Una aproximación estratégica
SISTEMA REGIONAL DE ESTADÍSTICAS DE TURISMO. Una aproximación estratégicaSISTEMA REGIONAL DE ESTADÍSTICAS DE TURISMO. Una aproximación estratégica
SISTEMA REGIONAL DE ESTADÍSTICAS DE TURISMO. Una aproximación estratégica
 
Entidades y núcleos turísticos. estadísticas asociadas
Entidades y núcleos turísticos. estadísticas asociadasEntidades y núcleos turísticos. estadísticas asociadas
Entidades y núcleos turísticos. estadísticas asociadas
 
Jornada OpenData La Palma: Generando valor y transparencia
Jornada OpenData La Palma: Generando valor y transparenciaJornada OpenData La Palma: Generando valor y transparencia
Jornada OpenData La Palma: Generando valor y transparencia
 
Estrategia para la difusión abierta de estadísticas. Máster Universidad de Se...
Estrategia para la difusión abierta de estadísticas. Máster Universidad de Se...Estrategia para la difusión abierta de estadísticas. Máster Universidad de Se...
Estrategia para la difusión abierta de estadísticas. Máster Universidad de Se...
 
Istac I feria_vocaciones_cientificas_profesionales_canarias
Istac I feria_vocaciones_cientificas_profesionales_canariasIstac I feria_vocaciones_cientificas_profesionales_canarias
Istac I feria_vocaciones_cientificas_profesionales_canarias
 

Kürzlich hochgeladen

UNIDAD II - CURSO DE DERECHO ADMINISTRATIVO (Parte I) (1).pdf
UNIDAD II - CURSO DE DERECHO ADMINISTRATIVO (Parte I) (1).pdfUNIDAD II - CURSO DE DERECHO ADMINISTRATIVO (Parte I) (1).pdf
UNIDAD II - CURSO DE DERECHO ADMINISTRATIVO (Parte I) (1).pdfELIAMARYTOVARFLOREZD
 
POLÍTICA CRIMINAL - SEGURIDAD CIUDADANA Y TECNOLOGÍA.pptx
POLÍTICA CRIMINAL - SEGURIDAD CIUDADANA Y TECNOLOGÍA.pptxPOLÍTICA CRIMINAL - SEGURIDAD CIUDADANA Y TECNOLOGÍA.pptx
POLÍTICA CRIMINAL - SEGURIDAD CIUDADANA Y TECNOLOGÍA.pptxBeyker Chamorro
 
manejo de encaste en ovinos pdti indap PLC
manejo de encaste en ovinos pdti indap PLCmanejo de encaste en ovinos pdti indap PLC
manejo de encaste en ovinos pdti indap PLCMarceloAlvarez76065
 
UNIDAD 3.1, 3.2 y 3.3 3.5 FUNCIÓN PÚBLICA 2.pptx
UNIDAD 3.1, 3.2 y 3.3 3.5 FUNCIÓN PÚBLICA 2.pptxUNIDAD 3.1, 3.2 y 3.3 3.5 FUNCIÓN PÚBLICA 2.pptx
UNIDAD 3.1, 3.2 y 3.3 3.5 FUNCIÓN PÚBLICA 2.pptxMERCEDESCHABLE
 
UNIDAD DIDÁCTICA MAYO TERCER GRADO (2).docx
UNIDAD DIDÁCTICA MAYO TERCER GRADO (2).docxUNIDAD DIDÁCTICA MAYO TERCER GRADO (2).docx
UNIDAD DIDÁCTICA MAYO TERCER GRADO (2).docxanaalmeyda1998
 
Programa electoral de Vox para las elecciones catalanas
Programa electoral de Vox para las elecciones catalanasPrograma electoral de Vox para las elecciones catalanas
Programa electoral de Vox para las elecciones catalanasluarodalegre97
 
Descentralización Y Desarrollo Territorial.pdf
Descentralización Y Desarrollo Territorial.pdfDescentralización Y Desarrollo Territorial.pdf
Descentralización Y Desarrollo Territorial.pdfanibalcetrero
 
La tributación municipal en el Perú y sus pasos
La tributación municipal en el Perú y sus pasosLa tributación municipal en el Perú y sus pasos
La tributación municipal en el Perú y sus pasosChristianFernndez41
 
Revista Ejército nº 989 mar-abr 2024.pdf
Revista Ejército nº 989 mar-abr 2024.pdfRevista Ejército nº 989 mar-abr 2024.pdf
Revista Ejército nº 989 mar-abr 2024.pdfEjército de Tierra
 
Boletin 1077 - Tramitación - Ley Integral Contra La Violencia Hacia Las Mujeres
Boletin 1077 - Tramitación - Ley Integral Contra La Violencia Hacia Las MujeresBoletin 1077 - Tramitación - Ley Integral Contra La Violencia Hacia Las Mujeres
Boletin 1077 - Tramitación - Ley Integral Contra La Violencia Hacia Las MujeresBaker Publishing Company
 
Plan de Desarrollo y Ordenamiento Territorial de Imbabura.pptx
Plan de Desarrollo y Ordenamiento Territorial de Imbabura.pptxPlan de Desarrollo y Ordenamiento Territorial de Imbabura.pptx
Plan de Desarrollo y Ordenamiento Territorial de Imbabura.pptxAndresUrieta2
 
#DigitalTierra nº 99 Al máximo nivel en Irak
#DigitalTierra nº 99 Al máximo nivel en Irak#DigitalTierra nº 99 Al máximo nivel en Irak
#DigitalTierra nº 99 Al máximo nivel en IrakEjército de Tierra
 
Día Mundial de la Seguridad y Salud en el Trabajo 2024, 28 de abril - Cambio ...
Día Mundial de la Seguridad y Salud en el Trabajo 2024, 28 de abril - Cambio ...Día Mundial de la Seguridad y Salud en el Trabajo 2024, 28 de abril - Cambio ...
Día Mundial de la Seguridad y Salud en el Trabajo 2024, 28 de abril - Cambio ...Christina Parmionova
 
PLAN DE MEJORA DE BIOSEGURIDAD EN HOSPITALES.pptx
PLAN DE MEJORA DE BIOSEGURIDAD EN  HOSPITALES.pptxPLAN DE MEJORA DE BIOSEGURIDAD EN  HOSPITALES.pptx
PLAN DE MEJORA DE BIOSEGURIDAD EN HOSPITALES.pptxLuzIreneBancesGuevar
 
Clase 4 Análisis PESTEL.PDF Material de calidad
Clase 4 Análisis PESTEL.PDF Material de calidadClase 4 Análisis PESTEL.PDF Material de calidad
Clase 4 Análisis PESTEL.PDF Material de calidadssuserfa578f
 

Kürzlich hochgeladen (15)

UNIDAD II - CURSO DE DERECHO ADMINISTRATIVO (Parte I) (1).pdf
UNIDAD II - CURSO DE DERECHO ADMINISTRATIVO (Parte I) (1).pdfUNIDAD II - CURSO DE DERECHO ADMINISTRATIVO (Parte I) (1).pdf
UNIDAD II - CURSO DE DERECHO ADMINISTRATIVO (Parte I) (1).pdf
 
POLÍTICA CRIMINAL - SEGURIDAD CIUDADANA Y TECNOLOGÍA.pptx
POLÍTICA CRIMINAL - SEGURIDAD CIUDADANA Y TECNOLOGÍA.pptxPOLÍTICA CRIMINAL - SEGURIDAD CIUDADANA Y TECNOLOGÍA.pptx
POLÍTICA CRIMINAL - SEGURIDAD CIUDADANA Y TECNOLOGÍA.pptx
 
manejo de encaste en ovinos pdti indap PLC
manejo de encaste en ovinos pdti indap PLCmanejo de encaste en ovinos pdti indap PLC
manejo de encaste en ovinos pdti indap PLC
 
UNIDAD 3.1, 3.2 y 3.3 3.5 FUNCIÓN PÚBLICA 2.pptx
UNIDAD 3.1, 3.2 y 3.3 3.5 FUNCIÓN PÚBLICA 2.pptxUNIDAD 3.1, 3.2 y 3.3 3.5 FUNCIÓN PÚBLICA 2.pptx
UNIDAD 3.1, 3.2 y 3.3 3.5 FUNCIÓN PÚBLICA 2.pptx
 
UNIDAD DIDÁCTICA MAYO TERCER GRADO (2).docx
UNIDAD DIDÁCTICA MAYO TERCER GRADO (2).docxUNIDAD DIDÁCTICA MAYO TERCER GRADO (2).docx
UNIDAD DIDÁCTICA MAYO TERCER GRADO (2).docx
 
Programa electoral de Vox para las elecciones catalanas
Programa electoral de Vox para las elecciones catalanasPrograma electoral de Vox para las elecciones catalanas
Programa electoral de Vox para las elecciones catalanas
 
Descentralización Y Desarrollo Territorial.pdf
Descentralización Y Desarrollo Territorial.pdfDescentralización Y Desarrollo Territorial.pdf
Descentralización Y Desarrollo Territorial.pdf
 
La tributación municipal en el Perú y sus pasos
La tributación municipal en el Perú y sus pasosLa tributación municipal en el Perú y sus pasos
La tributación municipal en el Perú y sus pasos
 
Revista Ejército nº 989 mar-abr 2024.pdf
Revista Ejército nº 989 mar-abr 2024.pdfRevista Ejército nº 989 mar-abr 2024.pdf
Revista Ejército nº 989 mar-abr 2024.pdf
 
Boletin 1077 - Tramitación - Ley Integral Contra La Violencia Hacia Las Mujeres
Boletin 1077 - Tramitación - Ley Integral Contra La Violencia Hacia Las MujeresBoletin 1077 - Tramitación - Ley Integral Contra La Violencia Hacia Las Mujeres
Boletin 1077 - Tramitación - Ley Integral Contra La Violencia Hacia Las Mujeres
 
Plan de Desarrollo y Ordenamiento Territorial de Imbabura.pptx
Plan de Desarrollo y Ordenamiento Territorial de Imbabura.pptxPlan de Desarrollo y Ordenamiento Territorial de Imbabura.pptx
Plan de Desarrollo y Ordenamiento Territorial de Imbabura.pptx
 
#DigitalTierra nº 99 Al máximo nivel en Irak
#DigitalTierra nº 99 Al máximo nivel en Irak#DigitalTierra nº 99 Al máximo nivel en Irak
#DigitalTierra nº 99 Al máximo nivel en Irak
 
Día Mundial de la Seguridad y Salud en el Trabajo 2024, 28 de abril - Cambio ...
Día Mundial de la Seguridad y Salud en el Trabajo 2024, 28 de abril - Cambio ...Día Mundial de la Seguridad y Salud en el Trabajo 2024, 28 de abril - Cambio ...
Día Mundial de la Seguridad y Salud en el Trabajo 2024, 28 de abril - Cambio ...
 
PLAN DE MEJORA DE BIOSEGURIDAD EN HOSPITALES.pptx
PLAN DE MEJORA DE BIOSEGURIDAD EN  HOSPITALES.pptxPLAN DE MEJORA DE BIOSEGURIDAD EN  HOSPITALES.pptx
PLAN DE MEJORA DE BIOSEGURIDAD EN HOSPITALES.pptx
 
Clase 4 Análisis PESTEL.PDF Material de calidad
Clase 4 Análisis PESTEL.PDF Material de calidadClase 4 Análisis PESTEL.PDF Material de calidad
Clase 4 Análisis PESTEL.PDF Material de calidad
 

[Jecas2018] entorno de computo estadistico en e datos

  • 1. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS JECAS 2018 Hilos computacionales, ETL y microservicios de procesamiento
  • 2. Alberto González Yanes Jefe de Servicio de Estadísticas Económicas jgonyanp@gobiernodecanarias.org @algoya_dat ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos computacionales, ETL y microservicios de procesamiento JECAS 2018
  • 3. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS ESQUEMA GENERAL DE LA PRESENTACIÓN 1. Entornos computacionales 2. Hilos de procesamiento y microservicios
  • 4. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Entornos computacionales JECAS 2018
  • 5. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Datos Modelo organizacional por tipología y naturaleza (esquemas-tipo) Metadatos Soporte de normalización semántica Procedimientos Soporte de procesos y procesamiento
  • 6. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Entornos del Banco de Datos Entornos de recepción, captura y prealmacenamiento Entorno repositorio Entornos computacionales Entornos analíticos Entornos de difusión
  • 7. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Entornos computacionales Almacenamiento de datos Procesamiento de datos Catalogación de procesos Entornos Clase de almacenamiento Entornos de recepción y captura Transición Entorno repositorio Destino Entornos computacionales Transición Entornos analíticos Destino Entornos de difusión Destino
  • 8. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Entornos computacionales Almacenamiento de datos Procesamiento de datos Catalogación de procesos
  • 9. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Entornos computacionales Almacenamiento de datos Procesamiento de datos Catalogación de procesos 1. Almacenamiento 2. Documentación 3. Ejecución
  • 10. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Relación entre entornos Extensiones de refuerzo, por ejemplo Postgre Unos entornos computacionales refuerzan el procesamiento llamando a otros entornos. PostGIS, CitusData, PgRouting, Fuzzystrmatch, Pg_trgm, PgSimilarity, MADlib, PG-Strom, PL/pgSQL, PL/R, PL/Python
  • 11. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos de procesamiento y microservicios JECAS 2018
  • 12. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos computacionales Hilos de transferencia
  • 13. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos computacionales Se componen de diversas ETL que se ejecutan en entornos distintos (SAS o Kette) aprovechando las capacidades computacionales de otros entornos de cómputo. Ejemplo de ETL en SAS dentro de hilo tipo HC-MDS-1
  • 14. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos computacionales Se componen de diversas ETL que se ejecutan en entornos distintos (SAS o Kette) aprovechando las capacidades computacionales de otros entornos de cómputo. Esquema de profundidad en ETL de cómputo
  • 15. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos computacionales Para los que se identifican y catalogan los procesos, que se normalizan e industrializan mediante microservicios. 1. RECOGER / OBTENER DATOS (GSBPM-4) 2. PROCESAR (GSBPM-5) a. Codificación b. Normalización de códigos c. Integración d. Generación de subtotales derivados e. Generación de estimadores derivados para series temporales f. Generación de estimadores corregidos de estacionalidad y calendario 3. ANALIZAR (GSBPM-6) a. Generación de atributos de estado OBS_STATUS b. Control de coherencia entre totales y subtotales c. Detección de outliers en series temporales d. Generación de atributos de confidencialiadad OBS_CONFIDENCIALITY e. Cargar en espacio repositorio (ETL de traspaso) f. Cargar en espacios analíticos (hilo de transferencia) g. Análisis exploratorio en espacios analíticos (fuera de hilo computacional) 4. DIFUNDIR (GSBPM-7) a. Elaborar datasets cube (DSC) b. Cargar en espacio repositorio los DSC c. Cargar en espacios analíticos (hilo de transferencia) d. Análisis exploratorio en espacios analíticos e. Cargar en e-Cubos (hilo de transferencia) Ejemplo de catálogos de procesos en HC-MDS-1
  • 16. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Hilos computacionales Para los que se identifican y catalogan los procesos, que se normalizan e industrializan mediante microservicios. Ejemplo de microservicios para procesos en HC-MDS-1 1. RECOGER / OBTENER DATOS a. Macro SAS-R de captura de datos de la API del INE b. Macro SAS-R de captura de datos de ficheros PC-Axis c. Macro SAS-R-PYTHON de captura de datos de AENA d. Macro SAS-R de captura de datos de Eurostat 2. PROCESAR a. Librería R de lectura de listas de códigos y conceptos de medida desde el repositorio de metadatos b. Macro SAS-R de lectura de listas de códigos y conceptos de medida desde el repositorio de metadatos c. Macro SAS de estimadores derivados en series 3. ANALIZAR a. Macro SAS de detección de outliers en series temporales b. Macro SAS-R de control de secreto estadístico en macrodatos
  • 17. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Bloque Capa Microservicio Descripción Captura de datos Jupyter-Python getAENA Código Python, con documentación y ejecución desde Jupyter, que permite la realización de web-scrapping a los datos publicados por AENA. Python getShops Código Python que permite la extracción de datos de empresas y establecimientos de Big Data. Librería R INEbaseR Librería de extracción de datos de la API del INE. Permite extraer operaciones y series de datos de forma estructurada y eficiente. Librería R istacr Librería en R para la extracción de datos y metadatos de las APIs del ISTAC. Paquete Python istacpy Paquete en R para la extracción de datos y metadatos de las APIs del ISTAC. Ejemplos de microservicios
  • 18. ENTORNO DE CÓMPUTO ESTADÍSTICO EN eDATOS Bloque Capa Microservicio Descripción Tratamiento de datos Macro SAS CALMAR Macro SAS desarrollada por el INSEE para el calibrado de muestras con información auxiliar. Macro SAS MacroPX Macro de generación de tablas en formato PX a partir de tablas SAS. Macro SAS-R GEOCODE Macros de geocodificación Script R NORMANAME Script de aprovechamiento de las funcionalidades de APIname Series temporales Macros SAS TIMEOUTLIER Macros de detección de observaciones atípicas en series. Macros SAS TIMECHANGE Macros de cálculo de medidas de variación en series. Ejemplos de microservicios