Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

GCP для работы с большими данными

51 Aufrufe

Veröffentlicht am

В своей презентации Сергей Бондарь, Team Lead of BI Compute | OWOX, поделился тем как он вместе с командой использует Google Cloud Platform для построения прогнозов.

Veröffentlicht in: Daten & Analysen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

GCP для работы с большими данными

  1. 1. Сегодня в программе ● Инструменты для сбора данных ● Инструменты для обработки данных ● Инструменты для хранения данных ● Пример архитектуры для прогнозирования данных
  2. 2. Streaming processing in GCP
  3. 3. Cloud Pub/Sub
  4. 4. Streaming processing in GCP
  5. 5. Варианты преобразования
  6. 6. Данные приходят с задержкой
  7. 7. Можно разделить данные на окна
  8. 8. Но тогда потеряем данные пришедшие с опозданием
  9. 9. Apache Beam поддерживает концепцию окон
  10. 10. Cloud Dataflow serverless fully-managed сервис для запуска пайплайнов Apache Beam
  11. 11. Streaming processing in GCP
  12. 12. BigQuery Стриминг данных в BigQuery ● BigQuery позволяет сохранять данные со скоростью 100 000 строк в секунду для одной таблицы ○ актуально как для партиционированных таблиц так и для обычных ○ работает через REST API ● Стриминговые данные могут запрашиваться сразу же после добавления ○ доступность спустя секунды ● serverless fully-managed data warehouse ● колоночная база данных ● масштабируется на петабайты
  13. 13. Cloud Bigtable ● fully-managed data warehouse ● колоночная NoSQL база данных ● масштабируется на терабайты
  14. 14. Cloud Bigtable Когда стоит использовать: ● при необходимости быстрого чтения и высокой пропускной способности ● при неструктурированных данных ● когда размер элемента данных <10Mb а общий размер данных >1Tb ● когда нет необходимости в транзакциях
  15. 15. Cloud Bigtable Когда не стоит использовать: ● при необходимости транзакций - стоит использовать Cloud SQL или Cloud Spanner ● при общем объеме данных меньше чем 1Tb (не будет паралелизации) ● если есть необходимость Business Intelligence - стоит использовать BigQuery ● для хранения документов или структурированных иерархий - стоит использовать DataStore ● для хранения больших сырых данных, например фильмов - стоит использовать Cloud Storage
  16. 16. Cloud Storage ● хранилище объектов ● гибкое, масштабируемое, надежное ● практически бесконечный размер, но один объект максимум 5 Тb ● используется если скорость получения не критична ● и когда есть необходимость разделять данные между несколькими инстансами или зонами ● производительность зависит от класса хранилища ○ Multi-regional ○ Regional ○ Nearline ○ Coldline
  17. 17. Streaming processing in GCP
  18. 18. Cloud DataProc DataProc это managed Hadoop и Spark сервис используемый для выполнения задач на кластере Compute Engine.
  19. 19. типичный деплой Spark или Hadoop
  20. 20. Dataproc упрощает работу с управлением Hadoop
  21. 21. Cloud ML Engine Managed execution environment for machine learning Поддерживаемые фреймворки: ● TensorFlow ● Scikit-learn ● XGBoost Автоматически масштабируемый Версионирование моделей Позволяет делать AB тесты моделей Нет lock-in, обученную модель можно использовать где угодно ML engine predictions service позволяет получать предсказания с помощью REST API
  22. 22. Как мы работаем с GCP

×