Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Python, Pandas, Spark 2.0
Sky
•
• Python 2000
(**)
• db tech showcase MongoDB
•
• FB: Ryuji Tamagawa
• Twitter : tamagawa_ryuji
2017
• Python Spark
•
•
• Python / Pandas
• Spark 2.0
Part 1 :
•
•
•
csv
Python
Pandas Python
Jupyter Notebook
Jenkins
Spark 2.0
• Spark API RDD ~1.3 DataFrame
/ DataSet 1.4~
• DataFrame API
RDD API Python Spark
DataFrame
• RDB /
• R Pandas Spark
Spark
R / Pandas
Spark
+
Part 2 :
CSV
zip
RDB
Parquet
Excel
CSV
Feather
Spark
Pandas / Spark
•
• CPU
•
• Pandas read_csv zip CSV
Pandas
2
• CSV CPU
Pandas zip CSV
CPU …
• Parquet !
•
: Parquet
I/O
•
• Spark Parquet
• Python Parquet
HDFS / S3
Parquet Parquet
SSD
Parquet Parquet
Parquet
No
No
Yes
HDD
•
• I/O Pandas
• Spark
• DataFrame Pandas → Spark
Spark → Pandas Pandas → Spark
• Apache Arrow
CPU
~2010
2010~
SSD
CPU 

Apache Spark 2.0
• 1.x
• 2.0
1.x
• DataFrame API Python
• databricks 

http://go.databricks.com/mastering-apache-spark-2.0...
Spark 2.0
• CPU
• CPU
• SQL DataFrame
• + SSD
• CSV zip
Pandas read_csv
Python + Spark
• Python serialize
• DataFrame API UDF
UDF Scala/Java
• http://www.slideshare.net/dragan10/performant-data-...
20161215 python pandas-spark四方山話
20161215 python pandas-spark四方山話
20161215 python pandas-spark四方山話
Nächste SlideShare
Wird geladen in …5
×

20161215 python pandas-spark四方山話

724 Aufrufe

Veröffentlicht am

2016/12/15 インサイトテクノロジーさんの三木会でお話しした内容のスライドです。PythonとかPandasとかSparkとか。

Veröffentlicht in: Technologie

20161215 python pandas-spark四方山話

  1. 1. Python, Pandas, Spark 2.0 Sky
  2. 2. • • Python 2000 (**) • db tech showcase MongoDB • • FB: Ryuji Tamagawa • Twitter : tamagawa_ryuji
  3. 3. 2017
  4. 4. • Python Spark •
  5. 5. • • Python / Pandas • Spark 2.0
  6. 6. Part 1 :
  7. 7. • • • csv
  8. 8. Python Pandas Python Jupyter Notebook Jenkins Spark 2.0
  9. 9. • Spark API RDD ~1.3 DataFrame / DataSet 1.4~ • DataFrame API RDD API Python Spark
  10. 10. DataFrame • RDB / • R Pandas Spark Spark R / Pandas Spark +
  11. 11. Part 2 :
  12. 12. CSV zip RDB Parquet Excel CSV Feather Spark Pandas / Spark
  13. 13. • • CPU • • Pandas read_csv zip CSV Pandas
  14. 14. 2 • CSV CPU Pandas zip CSV CPU … • Parquet ! •
  15. 15. : Parquet I/O • • Spark Parquet • Python Parquet
  16. 16. HDFS / S3 Parquet Parquet
  17. 17. SSD Parquet Parquet
  18. 18. Parquet No No Yes HDD
  19. 19. • • I/O Pandas • Spark • DataFrame Pandas → Spark Spark → Pandas Pandas → Spark • Apache Arrow
  20. 20. CPU ~2010 2010~ SSD CPU 

  21. 21. Apache Spark 2.0 • 1.x • 2.0 1.x • DataFrame API Python • databricks 
 http://go.databricks.com/mastering-apache-spark-2.0 •
  22. 22. Spark 2.0 • CPU • CPU • SQL DataFrame • + SSD • CSV zip Pandas read_csv
  23. 23. Python + Spark • Python serialize • DataFrame API UDF UDF Scala/Java • http://www.slideshare.net/dragan10/performant-data-processing-with-pyspark-sparkr- and-dataframe-api Executor JVM DataFrame, Cached Python lambda items: items[0] == ‘abc’ transfer DataFrame, result transfer Driver

×