Atoto.cz - Do pekla pro data a zpět [Lukáš Huňka] (5. sraz, Praha, 18.2.2016)

•Als PPTX, PDF herunterladen•

1 gefällt mir•292 views

Péhápkaři

Jak jsme začali získávat data a osvědčené tipy a triky pro hledání lepších cest.

Internet

Atoto.cz
do pekla pro data a zpět
Lukáš Huňka
CTO Atoto.cz
@hunaczech

První český porovnávač online supermarketů
- Porovnáme všechno zboží všech providerů
- Vybereme vám nejvýhodnějšího providera
- Vylijeme košík
- Pošleme odkaz
- Profit !

Technologické pozadí projektu
- Oddělení APP do Microservices (REST-API)
- Vyhledávání, našeptávání, nahrazování (Elastic)
- Backend
- NETTE (co tu jako děláš kámo?), Kdyby, MySQL(Percona), Doctrine, REDIS, RabbitMQ
- Testování
- Nette/Tester, Codeception (!)

Symfony ass-savers
Věci které používáme v naší APP a výrazně nás posouvají
- Symfony/Console
- Veškeré datové operace
- Symfony/DomCrawler (Symfony/CSS-selector,Symfony/Browser-kit)
- taky datové operace
- Symfony/YAML

Teď to hlavní - DATA
- 6 providerů=prodejců
- denní aktualizace dat
- jedna kompletní aktualizace dat = 56 815 položek
- oddělený front-end od data-warehousu
- několik parserů a downloaderů
- různé vstupy - API (json), HTML (parsing) , manuální export (CSV)

Teď to hlavní - DATA po II.
- co se s daty u nás děje
- automatické třídění do Master kategorií
- kontrola validity
- doplňující vlastnosti
- gramáže
- jednotky apd.
- parsery není jen na získání dat

Teď to hlavní - DATA po III.
- ukládáme do Elasticu
- místo hromadné reindexace -> pomáhá RabbitMQ
- rabbit zvládne naplnit celou DB během 8 minut (16 consumerů)
- na frontendu udržujeme data v MySQL jako fallback
- primárně čerpáme z Elasticu

Teď to hlavní - DATA po IV.
- úskalí více systémů
- rozdílná data
- synchronizace IDs
- duplikace dat
- provider upraví ID
- delistuje a znovu zalistuje produkt
- se změnou EANu nedelistuje starý produkt ale updatne EAN

Koloběh dat v Atoto
- Import -> Data Warehouse -> ElasticSearch -> FrontEnd
- v rámci DataWarehousu další operace:
- trendy - vývoj ceny
- napárování externích dat (fotky, popisy, složení atp.)
- Synchronizace IDs mezi několika systémy
- Kvůli dokončení objednávek u providerů

S čím jsme se potýkali
- inkognito - nemožnost dohody s providery
- čerpat data ale neupozornit na sebe a zároveň nenaštvat providera
- HTML parsing
- neakceptovatelný
- celé stažení všech dat cca 5 hodin (pouhé stažení bez dalšího zpracování)
- API parsing

Od prvních kroků k chůzi
- Na začátku byla naše aplikace monolit (období hrubého prototypu)
- Nic takového nechceme ! (a nechtějte, fakt !)
- rozpadnutí do více oddělených microservices
- reforma procesu získání dat (viz. další slide)
- sestavení a vytvoření Partnerského API

Reforma procesu získávání dat
Gateway - vstup data
Imigrační - kontrola validity dat a známosti dat
-> Známe -> Reality check (jak moc se liší data oproti stávajícím hodnotám)
-> Neznáme -> Human validation (naše lidská továrna)
ukládáme do Intelligence

Budoucnost dat
- Integrace pomocí partnerského API
- výlet do UK za klukama z Tesco IT
- rychlá aktualizace pomocí nodeJS app
- ještě větší sbírání trendů => větší množství dat
- Co nás zajímá
- YesSQL - Maria + Percona

H.R. okénko II - Q&A
- Dotazy osobně nebo kdykoliv jindy na
- lukas@atoto.cz
- 607 049 258 (24@7)
- Twitter
- Facebook
- Google+
- http://developer.atoto.cz - 20.000 Kč za tip na vývojáře

Konec :(
I. Podívejte se napravo
II. Pokud vidíte spícího člověka vzbuďte ho a řekněte mu ať tleská
III.Podívejte se nalevo
IV.Zopakujte bod II
V.Tleskejte
Díky za pozornost

Weitere ähnliche Inhalte

Andere mochten auch

5 colloque toit-terrasse - jean-claude zemmour - Les cles de la reussite d ...

CIMBETON

Vegetalisons Paris, saison #2 - compte-rendu

Paris - Ville intelligente et Durable

1 colloque toit-terrasse - frederic schoeller, architecte

CIMBETON

La notion de l'économie

Sami Sahli

Dans une entreprise, il arrive parfois que la greffe d’un recrutement ne prenne pas. Souvent, on attribue l’échec à la personnalité (ou aux compétences) du recruté. On oublie souvent dans cette circonstance qu’il y a des éléments exogènes et endogènes à l’entreprise qui expliquent que la greffe ne pouvait prendre. Il en va de même pour la gestion d’un projet. Qui n’a pas assisté au lancement d’un projet en grande pompe dans son entreprise ? Et parfois il arrive que ces projets soient des montagnes qui accouchent d’une souris, si ce n’est pire. La différence entre un projet qui réussit et un projet qui rate est parfois ténue. Il ne faut pas grand chose pour que la pièce tombe d’un côté ou de l’autre.

Pourquoi votre agence ou votre projet avec votre client s’est-il planté ?

Thomas BART

Cour 06-réglement-du-pos

Sami Sahli

China NCAP Updates

Global NCAP

Bruce Laymon Updated Resume 2015

Bruce Laymon

>DESCRIPTION: Google Self-driving Cars are developed by Google [X] as part of its project to develop technology for mainly electric cars. A Self-driving car (driver-less car, unmanned car, autonomous car, robotic car) is a vehicle that is capable of sensing its environment and navigating without human supervision or input. These modern cars are incorporated with finest features which allow them to operate autonomously. Autonomous and unmanned technology is emerging gradually but continually, with new opportunities for its employment likely to follow in almost every industry which are involve in vehicle manufacturing like Ford, BMW, Audi etc. Despite of the fact that this technology is emerging but autonomous and unmanned vehicles involve a transfer of control from direct human input to automated or self-control. This has implications for the determination of liability in the event of an incident, and will be a key factor in the pricing and risk transfer. >MISSION: According to Jennifer Haroon (Head of Business Operations - Google[X]): “Our mission is to improve people’s life by transforming ability, and when we talk about transforming ability, one of the main part of that is “Safety” >HISTORY: The vision behind the Google Autonomous Cars was began as early as the 1939 New York World’s Fair where visitors were presented a vision of automated cars. Another concept behind the “Google Driver-less Car” is the advertise from 1950’s showing a family on route trip. >BEGINNING: Numerous major companies and research organizations have developed working prototype autonomous vehicles, including Mercedes-Benz, General Motors, Continental Automotive Systems, IAV, Autoliv Inc., Bosch, Nissan, Renault, Toyota, Audi, Volvo, Tesla Motors, Peugeot, AKKA Technologies, Vislab from University of Parma, Oxford University and Google. The reason behind the popularity of “Google Autonomous Vehicle” is because in May 2014, Google presented a new concept for their driver-less car that had neither a steering wheel nor pedals, and unveiled a fully functioning prototype in December of that year that they planned to test on San Francisco Bay Area roads beginning in 2015. >TECHNOLOGY: Google's robotic cars have about $150,000 in equipment. The software installed in Google's cars is named Google Chauffeur as well as including Lasers, Cameras, Radars, and Computing System that makes it into a “Self Driving Vehicle” >SURVEY: Expert members of the Institute of Electrical and Electronics Engineers (IEEE) have determined that driver-less vehicles will be the most viable form of intelligent transportation. They estimate that up to 75% of all vehicles will be autonomous by 2040.

Google Driverless (Autonomous) Car

Farhan Badar

Le Digital marketing

Yacine Iheb Tekkour

Le marketing digital.pdf book

Fethi Ferhane

How to run a debate

Imane SBAI

« Qui seront les HEROes de l’entreprise 4.0 ? » HEROes : Highly Empowered and Resourceful Operatives "Les deux choses les plus importantes n'apparaissent pas au bilan d'une entreprise : sa réputation et ses hommes." Henry Ford La 4ème révolution industrielle actuelle, portée par la généralisation du numérique modifie les repères et bouscule les habitudes. Le citoyen s’est approprié les nouveaux outils et a modifié son comportement. Le consommateur s’est équipé et s’invite dans la conversation des marques. L’entreprise s’est adapté et suit pas à pas ses consommateurs. La relation clients est devenu LA priorité. Tous les moyens ont été mis en œuvre pour que la marque ne perde pas le fil de la conversation et poursuive le dialogue avec le client, tout au long de son parcours d’achat. La vision « customer centric » domine la stratégie des entreprises. Toutes ont mis en place des programmes fidélités et cherchent à identifier leurs ambassadeurs parmi leurs clients. Les entreprises sont persuadées que c’est comme cela qu’elles se différencieront et qu’elles gagneront. Je n’en suis pas si sûre. Il pourrait y a avoir des surprises. Des entreprises plus agiles que d’autres, pourraient comprendre qu’elles ont d’autres atouts : leurs salariés. Je suis en effet convaincue qu’il n’y aura d’expérience client satisfaisante que si il y a une expérience collaborateur valorisante. Il n’y aura plus d’expérience client sans expérience salarié. Les collaborateurs sont au cœur de la mutation digitale de l’entreprise et représentent une formidable ressource. De la même façon que les entreprises ont automatisé leur stratégie social media pour porter les messages de la marque, elles doivent à présent se donner les moyens d’engager leurs collaborateurs pour qu’ils deviennent de véritables ambassadeurs-influenceurs auprès de leur communauté. L’approche communication interne / communication externe n’est plus viable. Il n’y a plus de frontière et chacun sait à présent qu’il est dans l’intérêt d’une marque de jouer la transparence, pour gagner la confiance de sa communauté. Qui mieux que le collaborateur peut légitimement parler de l’entreprise ? de son métier ? des marques ? des produits ? Personne. Parce qu’il s’agit de son quotidien, il connaît les coulisses et sa parole vaut de l’or. Bien plus que celles des communications formatées. N’allez pas chercher d’égérie à l’extérieur. Les stars de l’entreprises sont en interne.

"Qui seront les HEROes de l'entreprise 4.0 ?" Anne Rey-Ferrer #MBAMCI

Anne Rey-Ferrer

Modèles d’affaires pour tablettes

Transcontinental

Andere mochten auch (14)

5 colloque toit-terrasse - jean-claude zemmour - Les cles de la reussite d ...

Vegetalisons Paris, saison #2 - compte-rendu

1 colloque toit-terrasse - frederic schoeller, architecte

La notion de l'économie

Pourquoi votre agence ou votre projet avec votre client s’est-il planté ?

Cour 06-réglement-du-pos

China NCAP Updates

Bruce Laymon Updated Resume 2015

Google Driverless (Autonomous) Car

Le Digital marketing

Le marketing digital.pdf book

How to run a debate

"Qui seront les HEROes de l'entreprise 4.0 ?" Anne Rey-Ferrer #MBAMCI

Modèles d’affaires pour tablettes

Mehr von Péhápkaři

Startup vs korporace vs Previo

Péhápkaři

RabbitMQ a ElasticSearch v Previu

Péhápkaři

Martin Froněk - Jak využít soft skills ve svůj prospěch 2 (15. sraz přátel PH...

Péhápkaři

Profil: Štěpán pracuje jako jako PHP vývojář ve společnosti ZOOT. Téma: Programovali jste někdy aplikaci úplně od píky? Pamatujete si na rychlost, se kterou jste na začátku dokázali přidávat první featury. A znáte ten pocit, jak se po pár měsících s rozšiřující funkcionalitou a rozrůstajícím týmem z některých částí kódu stane bludiště a implementace zdánlivě jednoduché funkcí je najednou řádově obtížnější než na počátku? Představím vám strýčka Boba – super hrdinu objektově orientovaného návrhu a jeho patero přikázání, které vám pomůže původní ladnost a efektivitu zažívat i v pokročilejších fázích projektu.

Čtvrtkon #53 - Štěpán Zikmund

Péhápkaři

Václav Makeš - Infrastructure as code - Jak nahazovat stroje a nic moc nevědě...

Péhápkaři

Tomáš Klíma - Implementace BitCoinut v praxi (13. sraz přátel PHP v Praze)

Péhápkaři

PHP Evening #1 - Automatizace [Jan Klat]

Péhápkaři

PHP Evening #1 - Propel ORM [Martin Sojka]

Péhápkaři

Tomáš Kazatel - Jsme přece vývojáři, ne textaři (12. sraz přátel PHP v P...

Péhápkaři

Jakub Kratina - Když si dva vývojáři založí s.r.o. (12. sraz přátel PHP v Pra...

Péhápkaři

Petr Pavel - Co musí programátor umět kromě programování (12. sraz přátel PHP...

Péhápkaři

Tomáš Strejček - Velikost týmu vs. monolith a mikroservicy (11. sraz přátel ...

Péhápkaři

Jindřich Kubát - Microservice – Post Monolith Architecture (11. sraz přátel P...

Péhápkaři

Jakub Kratina - Jak testovat aplikace s radostí díky Codeception (11. sraz př...

Péhápkaři

Ako nespáliť server - Monit [Jozef Lami] (7. sraz, Praha)

Péhápkaři

Doctrine - Co dělat když entity nestačí [Filip Procházka] (7. sraz, Praha)

Péhápkaři

Blackfire.io - Fire up your php app performance [Jan Kopp] (7. sraz, Praha)

Péhápkaři

Automatizace jednoduše [Martin Zeman] (6. sraz, Praha, 31.3.2016)

Péhápkaři

MicroKernel aneb spatny nazev pro Helper (5. sraz pratel Symfony)

Péhápkaři

Petr Nikolas Prokop - Symfony framework (0. sraz přátel Symfony v Hradci Král...

Péhápkaři

Mehr von Péhápkaři (20)

Startup vs korporace vs Previo

RabbitMQ a ElasticSearch v Previu

Martin Froněk - Jak využít soft skills ve svůj prospěch 2 (15. sraz přátel PH...

Čtvrtkon #53 - Štěpán Zikmund

Václav Makeš - Infrastructure as code - Jak nahazovat stroje a nic moc nevědě...

Tomáš Klíma - Implementace BitCoinut v praxi (13. sraz přátel PHP v Praze)

PHP Evening #1 - Automatizace [Jan Klat]

PHP Evening #1 - Propel ORM [Martin Sojka]

Tomáš Kazatel - Jsme přece vývojáři, ne textaři (12. sraz přátel PHP v P...

Jakub Kratina - Když si dva vývojáři založí s.r.o. (12. sraz přátel PHP v Pra...

Petr Pavel - Co musí programátor umět kromě programování (12. sraz přátel PHP...

Tomáš Strejček - Velikost týmu vs. monolith a mikroservicy (11. sraz přátel ...

Jindřich Kubát - Microservice – Post Monolith Architecture (11. sraz přátel P...

Jakub Kratina - Jak testovat aplikace s radostí díky Codeception (11. sraz př...

Ako nespáliť server - Monit [Jozef Lami] (7. sraz, Praha)

Doctrine - Co dělat když entity nestačí [Filip Procházka] (7. sraz, Praha)

Blackfire.io - Fire up your php app performance [Jan Kopp] (7. sraz, Praha)

Automatizace jednoduše [Martin Zeman] (6. sraz, Praha, 31.3.2016)

MicroKernel aneb spatny nazev pro Helper (5. sraz pratel Symfony)

Petr Nikolas Prokop - Symfony framework (0. sraz přátel Symfony v Hradci Král...

Atoto.cz - Do pekla pro data a zpět [Lukáš Huňka] (5. sraz, Praha, 18.2.2016)

1. Atoto.cz do pekla pro data a zpět Lukáš Huňka CTO Atoto.cz @hunaczech

2. První český porovnávač online supermarketů - Porovnáme všechno zboží všech providerů - Vybereme vám nejvýhodnějšího providera - Vylijeme košík - Pošleme odkaz - Profit !

3. Technologické pozadí projektu - Oddělení APP do Microservices (REST-API) - Vyhledávání, našeptávání, nahrazování (Elastic) - Backend - NETTE (co tu jako děláš kámo?), Kdyby, MySQL(Percona), Doctrine, REDIS, RabbitMQ - Testování - Nette/Tester, Codeception (!)

4. Symfony ass-savers Věci které používáme v naší APP a výrazně nás posouvají - Symfony/Console - Veškeré datové operace - Symfony/DomCrawler (Symfony/CSS-selector,Symfony/Browser-kit) - taky datové operace - Symfony/YAML

5. Teď to hlavní - DATA - 6 providerů=prodejců - denní aktualizace dat - jedna kompletní aktualizace dat = 56 815 položek - oddělený front-end od data-warehousu - několik parserů a downloaderů - různé vstupy - API (json), HTML (parsing) , manuální export (CSV)

6. Teď to hlavní - DATA po II. - co se s daty u nás děje - automatické třídění do Master kategorií - kontrola validity - doplňující vlastnosti - gramáže - jednotky apd. - parsery není jen na získání dat

7. Teď to hlavní - DATA po III. - ukládáme do Elasticu - místo hromadné reindexace -> pomáhá RabbitMQ - rabbit zvládne naplnit celou DB během 8 minut (16 consumerů) - na frontendu udržujeme data v MySQL jako fallback - primárně čerpáme z Elasticu

8. Teď to hlavní - DATA po IV. - úskalí více systémů - rozdílná data - synchronizace IDs - duplikace dat - provider upraví ID - delistuje a znovu zalistuje produkt - se změnou EANu nedelistuje starý produkt ale updatne EAN

9. Koloběh dat v Atoto - Import -> Data Warehouse -> ElasticSearch -> FrontEnd - v rámci DataWarehousu další operace: - trendy - vývoj ceny - napárování externích dat (fotky, popisy, složení atp.) - Synchronizace IDs mezi několika systémy - Kvůli dokončení objednávek u providerů

10. S čím jsme se potýkali - inkognito - nemožnost dohody s providery - čerpat data ale neupozornit na sebe a zároveň nenaštvat providera - HTML parsing - neakceptovatelný - celé stažení všech dat cca 5 hodin (pouhé stažení bez dalšího zpracování) - API parsing

11. Od prvních kroků k chůzi - Na začátku byla naše aplikace monolit (období hrubého prototypu) - Nic takového nechceme ! (a nechtějte, fakt !) - rozpadnutí do více oddělených microservices - reforma procesu získání dat (viz. další slide) - sestavení a vytvoření Partnerského API

12. Reforma procesu získávání dat Gateway - vstup data Imigrační - kontrola validity dat a známosti dat -> Známe -> Reality check (jak moc se liší data oproti stávajícím hodnotám) -> Neznáme -> Human validation (naše lidská továrna) ukládáme do Intelligence

13. Budoucnost dat - Integrace pomocí partnerského API - výlet do UK za klukama z Tesco IT - rychlá aktualizace pomocí nodeJS app - ještě větší sbírání trendů => větší množství dat - Co nás zajímá - YesSQL - Maria + Percona

14. H.R. okénko II - Q&A - Dotazy osobně nebo kdykoliv jindy na - lukas@atoto.cz - 607 049 258 (24@7) - Twitter - Facebook - Google+ - http://developer.atoto.cz - 20.000 Kč za tip na vývojáře

15. Konec :( I. Podívejte se napravo II. Pokud vidíte spícího člověka vzbuďte ho a řekněte mu ať tleská III.Podívejte se nalevo IV.Zopakujte bod II V.Tleskejte Díky za pozornost

Atoto.cz - Do pekla pro data a zpět [Lukáš Huňka] (5. sraz, Praha, 18.2.2016)

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (14)

Mehr von Péhápkaři

Mehr von Péhápkaři (20)

Atoto.cz - Do pekla pro data a zpět [Lukáš Huňka] (5. sraz, Praha, 18.2.2016)