SlideShare ist ein Scribd-Unternehmen logo
1 von 22
Система ведения
государственных
данных в
Правительстве Москвы
Иван Фост
Инфраструктура Москвы
Взаимодействие (опыт прошлого)
Взаимодействие (опыт прошлого)
Текущая схема взаимодействия
Алгоритм работы с входными данными
Аудит всех информационных систем
Правительства Москвы
Подготовка единых требований к ведению данных
Интеграция с информационными системами
Аудит систем
Функционирует более 400 информационных систем:
Базы данных:
• Oracle;
• IBM DB2;
• MS SQL
и др.
Языки
программирования:
• С#;
• JAVA;
• PHP;
и др.
Было выбрано 42 системы поставщиков данных
Единый технологический паспорт
Единый технологический паспорт
Настройка форматно-логического
контроля входящих данных
Более 300 правил ведения данных для всех
атрибутов.
Технические характеристики
• Хранилище –
• WEB приложение – + JavaScript
• Сервисы загрузки информации (SOAP) – +
• Сервисы раскрытия информации (REST) – +
• Внутренние сервисы системы (экспорты, импорты,
операции с файлами и т.д.) -
Единое хранилище данных
Общее описание системы
• Система полностью строится на описании метаданных,
которые вносит оператор системы, при этом структура
хранения данных может быть абсолютно любой
Единое хранилище данных
• Интерфейс для настройки сложных Workflow для
проверки данных
• Интерфейс для настройки автозаполнения и
автоизменения полей на основе данных системы
• Интерфейс для настройки фоновых процессов
изменений и проверки данных
• Интерфейс для анализа данных поступающих из
разных источников, с отображением расхождений и
интерфейсом data steward
Сценарий работы с данными
• Публикация набора данных в сервис
Единое хранилище данных
• Создание структуры данных для работы органов
власти
• Наполнение набора данных объектами
• Подписание наполнения с использованием ЭЦП
(КриптоПРО)
• Копирование структуры в сегмент публикации или
создание собственной структуры для публикации
данных
Способы наполнения данными
• Через WEB интерфейс системы
• Через импорт csv файлов. Позволяет загружать
многоуровневые наборы данных. Каждый импорт
настраивается отдельно на основе метаданных
• Через SOAP сервис:
– Универсальные методы обмена информацией. Структура запросов
не меняется в зависимости от набора данных.
– Возможность подписания данных ЭЦП в момент передачи пакета
обновления.
– Детализированные ошибки при обработке данных.
Единое хранилище данных
Описание сервиса публикации
• Данные после публикации попадают в очередь
обновление кэш БД в MongoDB
• После синхронизации становятся доступны в REST
сервисе
• Сервис позволяет:
– Получать текущее наполнение каталога раскрытия
– Возможность осуществлять фильтрацию по атрибутам каталога
– Возможность просматривать историю изменений как объекта, так
и каталога
– Возможность поиска объектов по геоданным (рядом с точкой,
внутри полигона, вне полигона)
• Среднее время отклика сервиса – 500 ms
Единое хранилище данных
Текущие объемы данных
• Объектов в системе – 22 375 806
• Объем БД – 1,2 Тб
• Количество набор данных:
– во внутреннем контуре - 676
– в контуре публикации - 480
• За октябрь добавлено новых записей – 1 581 296
Единое хранилище данных
Данные по органам власти
Единое хранилище данных
106594
383639
1139193
Топливно-энергетического хозяйства
Городского имущества
По конкурентной политике
Департаменты-лидеры...
16
21
21
Инспекция по качеству сельхозпродукции
Главное архивное управление
Комитет ветеринарии
... и аутсайдеры
Данные по органам власти
Лидеры:
– Департамент города Москвы по конкурентной политике – 1 139 193
– Департамент городского имущества города Москвы – 383 639
– Департамент топливно-энергетического хозяйства города Москвы –
106 594
Аутсайдеры
– Государственная инспекция города Москвы по качеству
сельскохозяйственной продукции, сырья и продовольствия – 16
– Главное архивное управление города Москвы– 21
– Комитет ветеринарии города Москвы – 21
Единое хранилище данных
Внешнее взаимодействие с другими
системами
Экспорт данных в форматах:
• json;
• csv;
• xlsx;
• docx.
По средствам API портала открытых данных:
• json;
• geojson.
Ссылка на API- api.data.mos.ru
Основные итоги
Устранили хаос, но проблемы с данными остались:
– потребность ведения on-line данных – не готовность
системы к таким нагрузкам;
– быстрое увеличение количества информации –
существующая инфраструктура требует расширения
технических возможностей;
– Функционал единого хранилища данных большой и пока
не все функции доступны для внешних пользователей (API
открытых данных);
– Требуется всё больше связности между данными и
потребностей в выдаче данных внешним потребителям.
Ключевой результат
Системный проект Правительства Москвы:
– при подготовке инфраструктуры для
открытых данных наладилось
межведомственное взаимодействие;
– опыт сбора и хранения такого количества
данных применим для разнообразных
целей, не только для публикации открытых
данных.
Спасибо за
внимание!
Фост Иван
fostid@mos.ru
Skype: fostivan

Weitere ähnliche Inhalte

Andere mochten auch

Как и зачем создавать NginX-модуль - теория, практика, профит / Василий Сошни...
Как и зачем создавать NginX-модуль - теория, практика, профит / Василий Сошни...Как и зачем создавать NginX-модуль - теория, практика, профит / Василий Сошни...
Как и зачем создавать NginX-модуль - теория, практика, профит / Василий Сошни...
Ontico
 
101 способ приготовления RabbitMQ и немного о pipeline архитектуре / Филонов ...
101 способ приготовления RabbitMQ и немного о pipeline архитектуре / Филонов ...101 способ приготовления RabbitMQ и немного о pipeline архитектуре / Филонов ...
101 способ приготовления RabbitMQ и немного о pipeline архитектуре / Филонов ...
Ontico
 
Большие данные в телеком
Большие данные в телекомБольшие данные в телеком
Большие данные в телеком
glebmikh
 
Практическое использование «больших данных» в бизнесе
Практическое использование «больших данных» в бизнесеПрактическое использование «больших данных» в бизнесе
Практическое использование «больших данных» в бизнесе
Anton Vokrug
 

Andere mochten auch (20)

Как и зачем создавать NginX-модуль - теория, практика, профит / Василий Сошни...
Как и зачем создавать NginX-модуль - теория, практика, профит / Василий Сошни...Как и зачем создавать NginX-модуль - теория, практика, профит / Василий Сошни...
Как и зачем создавать NginX-модуль - теория, практика, профит / Василий Сошни...
 
Строим сервисы на базе Nginx и Tarantool / Василий Сошников, Андрей Дроздов (...
Строим сервисы на базе Nginx и Tarantool / Василий Сошников, Андрей Дроздов (...Строим сервисы на базе Nginx и Tarantool / Василий Сошников, Андрей Дроздов (...
Строим сервисы на базе Nginx и Tarantool / Василий Сошников, Андрей Дроздов (...
 
101 способ приготовления RabbitMQ и немного о pipeline архитектуре / Филонов ...
101 способ приготовления RabbitMQ и немного о pipeline архитектуре / Филонов ...101 способ приготовления RabbitMQ и немного о pipeline архитектуре / Филонов ...
101 способ приготовления RabbitMQ и немного о pipeline архитектуре / Филонов ...
 
ИТМО Machine Learning 2015. Рекомендательные системы
ИТМО Machine Learning 2015. Рекомендательные системыИТМО Machine Learning 2015. Рекомендательные системы
ИТМО Machine Learning 2015. Рекомендательные системы
 
ИТМО Machine Learning. Рекомендательные системы — часть 2
ИТМО Machine Learning. Рекомендательные системы — часть 2ИТМО Machine Learning. Рекомендательные системы — часть 2
ИТМО Machine Learning. Рекомендательные системы — часть 2
 
Большие данные в телеком
Большие данные в телекомБольшие данные в телеком
Большие данные в телеком
 
Xtrem n p1560t
Xtrem n p1560tXtrem n p1560t
Xtrem n p1560t
 
Юлмарт. История создания, Дмитрий Завалишин (DZ Systems)
Юлмарт. История создания, Дмитрий Завалишин (DZ Systems)Юлмарт. История создания, Дмитрий Завалишин (DZ Systems)
Юлмарт. История создания, Дмитрий Завалишин (DZ Systems)
 
Большие данные для реформы здравоохранения
Большие данные для реформы здравоохранения Большие данные для реформы здравоохранения
Большие данные для реформы здравоохранения
 
51 Use Cases and implications for HPC & Apache Big Data Stack
51 Use Cases and implications for HPC & Apache Big Data Stack51 Use Cases and implications for HPC & Apache Big Data Stack
51 Use Cases and implications for HPC & Apache Big Data Stack
 
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данныхSECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
 
ИТМО Machine Learning. Рекомендательные системы — часть 1
ИТМО Machine Learning. Рекомендательные системы — часть 1ИТМО Machine Learning. Рекомендательные системы — часть 1
ИТМО Machine Learning. Рекомендательные системы — часть 1
 
Sublinear tolerant property_testing_halfplane
Sublinear tolerant property_testing_halfplaneSublinear tolerant property_testing_halfplane
Sublinear tolerant property_testing_halfplane
 
שיטות הסתברותיות תרגול 6
שיטות הסתברותיות תרגול 6שיטות הסתברותיות תרגול 6
שיטות הסתברותיות תרגול 6
 
Практическое использование «больших данных» в бизнесе
Практическое использование «больших данных» в бизнесеПрактическое использование «больших данных» в бизнесе
Практическое использование «больших данных» в бизнесе
 
ITMO RecSys course. Autumn 2014. Lecture 6
ITMO RecSys course. Autumn 2014. Lecture 6ITMO RecSys course. Autumn 2014. Lecture 6
ITMO RecSys course. Autumn 2014. Lecture 6
 
Онлайн-революция: от ранних репозиториев – к современным МООС-курсам
Онлайн-революция: от ранних репозиториев – к современным МООС-курсамОнлайн-революция: от ранних репозиториев – к современным МООС-курсам
Онлайн-революция: от ранних репозиториев – к современным МООС-курсам
 
Алексей Натекин (Deloitte)
Алексей Натекин (Deloitte)Алексей Натекин (Deloitte)
Алексей Натекин (Deloitte)
 
Александр Семенов (НИУ ВШЭ)
Александр Семенов (НИУ ВШЭ)Александр Семенов (НИУ ВШЭ)
Александр Семенов (НИУ ВШЭ)
 
Александр Петров (E-contenta)
Александр Петров (E-contenta)Александр Петров (E-contenta)
Александр Петров (E-contenta)
 

Mehr von Ontico

Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Ontico
 

Mehr von Ontico (20)

One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
 
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
 
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
 
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
 

Система ведения государственных данных в Правительстве Москвы / Иван Фост (ДИТ Москвы)

  • 6. Алгоритм работы с входными данными Аудит всех информационных систем Правительства Москвы Подготовка единых требований к ведению данных Интеграция с информационными системами
  • 7. Аудит систем Функционирует более 400 информационных систем: Базы данных: • Oracle; • IBM DB2; • MS SQL и др. Языки программирования: • С#; • JAVA; • PHP; и др. Было выбрано 42 системы поставщиков данных
  • 10. Настройка форматно-логического контроля входящих данных Более 300 правил ведения данных для всех атрибутов.
  • 11. Технические характеристики • Хранилище – • WEB приложение – + JavaScript • Сервисы загрузки информации (SOAP) – + • Сервисы раскрытия информации (REST) – + • Внутренние сервисы системы (экспорты, импорты, операции с файлами и т.д.) - Единое хранилище данных
  • 12. Общее описание системы • Система полностью строится на описании метаданных, которые вносит оператор системы, при этом структура хранения данных может быть абсолютно любой Единое хранилище данных • Интерфейс для настройки сложных Workflow для проверки данных • Интерфейс для настройки автозаполнения и автоизменения полей на основе данных системы • Интерфейс для настройки фоновых процессов изменений и проверки данных • Интерфейс для анализа данных поступающих из разных источников, с отображением расхождений и интерфейсом data steward
  • 13. Сценарий работы с данными • Публикация набора данных в сервис Единое хранилище данных • Создание структуры данных для работы органов власти • Наполнение набора данных объектами • Подписание наполнения с использованием ЭЦП (КриптоПРО) • Копирование структуры в сегмент публикации или создание собственной структуры для публикации данных
  • 14. Способы наполнения данными • Через WEB интерфейс системы • Через импорт csv файлов. Позволяет загружать многоуровневые наборы данных. Каждый импорт настраивается отдельно на основе метаданных • Через SOAP сервис: – Универсальные методы обмена информацией. Структура запросов не меняется в зависимости от набора данных. – Возможность подписания данных ЭЦП в момент передачи пакета обновления. – Детализированные ошибки при обработке данных. Единое хранилище данных
  • 15. Описание сервиса публикации • Данные после публикации попадают в очередь обновление кэш БД в MongoDB • После синхронизации становятся доступны в REST сервисе • Сервис позволяет: – Получать текущее наполнение каталога раскрытия – Возможность осуществлять фильтрацию по атрибутам каталога – Возможность просматривать историю изменений как объекта, так и каталога – Возможность поиска объектов по геоданным (рядом с точкой, внутри полигона, вне полигона) • Среднее время отклика сервиса – 500 ms Единое хранилище данных
  • 16. Текущие объемы данных • Объектов в системе – 22 375 806 • Объем БД – 1,2 Тб • Количество набор данных: – во внутреннем контуре - 676 – в контуре публикации - 480 • За октябрь добавлено новых записей – 1 581 296 Единое хранилище данных
  • 17. Данные по органам власти Единое хранилище данных 106594 383639 1139193 Топливно-энергетического хозяйства Городского имущества По конкурентной политике Департаменты-лидеры... 16 21 21 Инспекция по качеству сельхозпродукции Главное архивное управление Комитет ветеринарии ... и аутсайдеры
  • 18. Данные по органам власти Лидеры: – Департамент города Москвы по конкурентной политике – 1 139 193 – Департамент городского имущества города Москвы – 383 639 – Департамент топливно-энергетического хозяйства города Москвы – 106 594 Аутсайдеры – Государственная инспекция города Москвы по качеству сельскохозяйственной продукции, сырья и продовольствия – 16 – Главное архивное управление города Москвы– 21 – Комитет ветеринарии города Москвы – 21 Единое хранилище данных
  • 19. Внешнее взаимодействие с другими системами Экспорт данных в форматах: • json; • csv; • xlsx; • docx. По средствам API портала открытых данных: • json; • geojson. Ссылка на API- api.data.mos.ru
  • 20. Основные итоги Устранили хаос, но проблемы с данными остались: – потребность ведения on-line данных – не готовность системы к таким нагрузкам; – быстрое увеличение количества информации – существующая инфраструктура требует расширения технических возможностей; – Функционал единого хранилища данных большой и пока не все функции доступны для внешних пользователей (API открытых данных); – Требуется всё больше связности между данными и потребностей в выдаче данных внешним потребителям.
  • 21. Ключевой результат Системный проект Правительства Москвы: – при подготовке инфраструктуры для открытых данных наладилось межведомственное взаимодействие; – опыт сбора и хранения такого количества данных применим для разнообразных целей, не только для публикации открытых данных.