Wir haben unsere Datenschutzbestimmungen aktualisiert. Klicke hier, um dir die _Einzelheiten anzusehen. Tippe hier, um dir die Einzelheiten anzusehen.
Aktiviere deine kostenlose 30-tägige Testversion, um unbegrenzt zu lesen.
Erstelle deine kostenlose 30-tägige Testversion, um weiterzulesen.
Herunterladen, um offline zu lesen
No matter if your data pipelines are handling real-time event-driven streams, near-real-time streams, or batch processing jobs. When you work with a massive amount of data made out of small files, specifically parquet, your system performance will degrade.
A small file is one that is significantly smaller than the storage block size. Yes, even with object stores such as Amazon S3, Azure Blob, etc., there is minimum block size. Having a significantly smaller object file can result in wasted space on the disk since the storage is optimized to support fast read and write for minimal block size.
To understand why this happens, you need first to understand how cloud storage works with the Apache Spark engine. In this session, you will learn about Parquet, the Storage API calls, how they work together, why small files are a problem, and how you can leverage DeltaLake for a more straightforward, cleaner solution.
No matter if your data pipelines are handling real-time event-driven streams, near-real-time streams, or batch processing jobs. When you work with a massive amount of data made out of small files, specifically parquet, your system performance will degrade.
A small file is one that is significantly smaller than the storage block size. Yes, even with object stores such as Amazon S3, Azure Blob, etc., there is minimum block size. Having a significantly smaller object file can result in wasted space on the disk since the storage is optimized to support fast read and write for minimal block size.
To understand why this happens, you need first to understand how cloud storage works with the Apache Spark engine. In this session, you will learn about Parquet, the Storage API calls, how they work together, why small files are a problem, and how you can leverage DeltaLake for a more straightforward, cleaner solution.
Sie haben diese Folie bereits ins Clipboard „“ geclippt.
Sie haben Ihre erste Folie geclippt!
Durch Clippen können Sie wichtige Folien sammeln, die Sie später noch einmal ansehen möchten. Passen Sie den Namen des Clipboards an, um Ihre Clips zu speichern.Die SlideShare-Familie hat sich gerade vergrößert. Genießen Sie nun Zugriff auf Millionen eBooks, Bücher, Hörbücher, Zeitschriften und mehr von Scribd.
Jederzeit kündbar.Unbegrenztes Lesevergnügen
Lerne schneller und intelligenter von Spitzenfachleuten
Unbegrenzte Downloads
Lade es dir zum Lernen offline und unterwegs herunter
Außerdem erhältst du auch kostenlosen Zugang zu Scribd!
Sofortiger Zugriff auf Millionen von E-Books, Hörbüchern, Zeitschriften, Podcasts und mehr.
Lese und höre offline mit jedem Gerät.
Kostenloser Zugang zu Premium-Diensten wie TuneIn, Mubi und mehr.
Wir haben unsere Datenschutzbestimmungen aktualisiert, um den neuen globalen Regeln zum Thema Datenschutzbestimmungen gerecht zu werden und dir einen Einblick in die begrenzten Möglichkeiten zu geben, wie wir deine Daten nutzen.
Die Einzelheiten findest du unten. Indem du sie akzeptierst, erklärst du dich mit den aktualisierten Datenschutzbestimmungen einverstanden.
Vielen Dank!