SlideShare a Scribd company logo
1 of 12
Získávání a analýza názorů
uživatelů na produkty
Vladimír Vacula
15. 4. 2019
Usnadňujeme orientaci
v publikovaných
názorech na daný
produkt
Za pomoci strojového
učení pro analýzu
velkého množství
nestrukturovaných dat
Tým: Informatika @ MENDELU + CYRRUS Advisory
Projekty: Textové recenze – ubytování, lékaři
Burzovní zprávy – korelace zpráv a pohyb cen na burze
MTA – motivace, využití
- Dovoz nového výrobku na český trh (zpoždění oproti US trhu)
- Branding – sentiment uživatelů vůči značce
- Řízení produktového portfolia výrobních a distribučních podniků
- Rychlé získávání informací v obchodě
- zadání názvu produktu
- scan QR nebo čárového kódu produktu
- rozpoznání produktu pomocí fotoaparátu
Mobilní aplikace
Demo aplikace
MTA – architektura
internet
identifikace
produktu
sběr dat pre-processing analýza textu
produktové
informace
app
server
clustering klasifikace
prezentace
crawlers
{
"titul": "Technologie – Výzva IX",
"stav": "Otevřená výzva",
"Vyhlášení výzvy:": "10. 12. 2018",
"Zahájení příjmu:": "11. 3. 2019",
"Ukončení příjmu:": "13. 6. 2019",
"popis": "Cílem IX. Výzvy programu Technologie je podpora růstu a posilování konkurenceschopnosti malých a
středních podniků prostřednictvím digitální transformace a přispívat tak k rozvoji regionů.",
...
}
Sběr dat
Příklad automatizace sběru dat pro Cyrrus Advisory
- www.dotacni.info
- API - Agentura pro podnikání a inovace
- Crawler : http://git.pef.mendelu.cz/MTA/oppik-scraper/
Analýza textu
- Vektorová reprezentace dokumentů
- Shluky reprezentují diskutovaná témata
- Hledání podobnosti
vektorů (např. k-means)
- Problematické určení
počtu shluků
- Klasifikační metody pro
nově přidané recenze
Problém omezení sběru dat
Problém crawlers – omezení přístupů, ochrana proti robotům (captcha)
Robustní crawler – definice pomocí meta jazyka
Problém identifikace produktů
Jak určit o jaký produkt se jedná ?
- “Zrcadlovka Canon EOS 600D”
- “Canon EOS 600D SLR digitální kamera”
- “Digitální fotoaparát Canon EOS 600D SLR (18 mpx, 7,6 cm (3") otočný displej, Full HD”
- “Digitální zrcadlovka Canon EOS 600D (18 megapixelů, 7,6cm (3palcový) displej, APS-C CMOS
senzor, WLAN s NFC, Full HD, Digic 7) kit vč. EF-S 18-55mm, 1:4,0 – 5,6 IS STM, černá”
- “Canon EF-S 18-55mm 1:3.5-5.6 IS II Universal zoom Objektiv (58mm Filter)”
Fuzzy-wuzzy python knihovna
Problém překladu jazyků
Velké množství recenzí je dostupné v cizích jazycích
- Jak získávat recenze z cizích jazyků, analyzovat a konsolidovat do
referenčního jazyka
- Různý sentiment různých trhů
- americký vs. český uživatel,
- různé varianty produktů pro různé trhy,
- různá kupní síla, atd.
Děkuji za pozornost
Otázky?
mta@cyrrusadvisory.cz

More Related Content

Similar to Získávání a analýza názorů uživatelů na produkty

SmartCard Forum 2010 - Autentizace platební kartou
SmartCard Forum 2010 - Autentizace platební kartouSmartCard Forum 2010 - Autentizace platební kartou
SmartCard Forum 2010 - Autentizace platební kartou
OKsystem
 
SmartCard Forum 2008 - truconnexion
SmartCard Forum 2008 - truconnexionSmartCard Forum 2008 - truconnexion
SmartCard Forum 2008 - truconnexion
OKsystem
 
20091202 Aplikované nástroje SW inženýra
20091202 Aplikované nástroje SW inženýra20091202 Aplikované nástroje SW inženýra
20091202 Aplikované nástroje SW inženýra
Jiří Mareš
 

Similar to Získávání a analýza názorů uživatelů na produkty (20)

Prediktivní analytika pro rok 2020
Prediktivní analytika pro rok 2020Prediktivní analytika pro rok 2020
Prediktivní analytika pro rok 2020
 
QR Kody A Jine Kody
QR Kody A Jine KodyQR Kody A Jine Kody
QR Kody A Jine Kody
 
Rockaway AWS Hackaton – Kick-off Meeting
Rockaway AWS Hackaton – Kick-off MeetingRockaway AWS Hackaton – Kick-off Meeting
Rockaway AWS Hackaton – Kick-off Meeting
 
Softwarově definované úložiště
Softwarově definované úložištěSoftwarově definované úložiště
Softwarově definované úložiště
 
Problémy ICT a zkušenosti z jiných oborů
Problémy ICT a zkušenosti z jiných oborůProblémy ICT a zkušenosti z jiných oborů
Problémy ICT a zkušenosti z jiných oborů
 
Smart Cards and Devices Forum 2016 - Bezpečnost multi-banking mobilních aplikací
Smart Cards and Devices Forum 2016 - Bezpečnost multi-banking mobilních aplikacíSmart Cards and Devices Forum 2016 - Bezpečnost multi-banking mobilních aplikací
Smart Cards and Devices Forum 2016 - Bezpečnost multi-banking mobilních aplikací
 
Přehled aplikací v soutěži CREATIVE COMMUNICATION AWARD
Přehled aplikací v soutěži CREATIVE COMMUNICATION AWARDPřehled aplikací v soutěži CREATIVE COMMUNICATION AWARD
Přehled aplikací v soutěži CREATIVE COMMUNICATION AWARD
 
SmartCard Forum 2010 - Autentizace platební kartou
SmartCard Forum 2010 - Autentizace platební kartouSmartCard Forum 2010 - Autentizace platební kartou
SmartCard Forum 2010 - Autentizace platební kartou
 
Co sledovat a jak měřit u mobilního webu
Co sledovat a jak měřit u mobilního webuCo sledovat a jak měřit u mobilního webu
Co sledovat a jak měřit u mobilního webu
 
New Media Inspiration 2014 - Bezpečnost v kontextu Internetu věcí
New Media Inspiration 2014 - Bezpečnost v kontextu Internetu věcíNew Media Inspiration 2014 - Bezpečnost v kontextu Internetu věcí
New Media Inspiration 2014 - Bezpečnost v kontextu Internetu věcí
 
Progress Is
Progress IsProgress Is
Progress Is
 
SmartCard Forum 2008 - truconnexion
SmartCard Forum 2008 - truconnexionSmartCard Forum 2008 - truconnexion
SmartCard Forum 2008 - truconnexion
 
mDevCamp 2013 - Bezpečnost mobilního bankovnictví
mDevCamp 2013 - Bezpečnost mobilního bankovnictvímDevCamp 2013 - Bezpečnost mobilního bankovnictví
mDevCamp 2013 - Bezpečnost mobilního bankovnictví
 
Úvod do analýzy - 2 část
Úvod do analýzy -  2 částÚvod do analýzy -  2 část
Úvod do analýzy - 2 část
 
Product API in MallGroup
Product API in MallGroupProduct API in MallGroup
Product API in MallGroup
 
NoSQL databáze, MongoDB
NoSQL databáze, MongoDBNoSQL databáze, MongoDB
NoSQL databáze, MongoDB
 
20091202 Aplikované nástroje SW inženýra
20091202 Aplikované nástroje SW inženýra20091202 Aplikované nástroje SW inženýra
20091202 Aplikované nástroje SW inženýra
 
McAfee Adaptive threat intelligence i ve virtuálním prostředí
McAfee Adaptive threat intelligence i ve virtuálním prostředí McAfee Adaptive threat intelligence i ve virtuálním prostředí
McAfee Adaptive threat intelligence i ve virtuálním prostředí
 
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
 
Jan Baštýř | VIVmail.cz | 4 hádanky budoucnosti e-mail marketingu
Jan Baštýř | VIVmail.cz | 4 hádanky budoucnosti e-mail marketinguJan Baštýř | VIVmail.cz | 4 hádanky budoucnosti e-mail marketingu
Jan Baštýř | VIVmail.cz | 4 hádanky budoucnosti e-mail marketingu
 

Získávání a analýza názorů uživatelů na produkty

  • 1. Získávání a analýza názorů uživatelů na produkty Vladimír Vacula 15. 4. 2019
  • 2. Usnadňujeme orientaci v publikovaných názorech na daný produkt Za pomoci strojového učení pro analýzu velkého množství nestrukturovaných dat
  • 3. Tým: Informatika @ MENDELU + CYRRUS Advisory Projekty: Textové recenze – ubytování, lékaři Burzovní zprávy – korelace zpráv a pohyb cen na burze
  • 4. MTA – motivace, využití - Dovoz nového výrobku na český trh (zpoždění oproti US trhu) - Branding – sentiment uživatelů vůči značce - Řízení produktového portfolia výrobních a distribučních podniků - Rychlé získávání informací v obchodě - zadání názvu produktu - scan QR nebo čárového kódu produktu - rozpoznání produktu pomocí fotoaparátu
  • 6. MTA – architektura internet identifikace produktu sběr dat pre-processing analýza textu produktové informace app server clustering klasifikace prezentace crawlers
  • 7. { "titul": "Technologie – Výzva IX", "stav": "Otevřená výzva", "Vyhlášení výzvy:": "10. 12. 2018", "Zahájení příjmu:": "11. 3. 2019", "Ukončení příjmu:": "13. 6. 2019", "popis": "Cílem IX. Výzvy programu Technologie je podpora růstu a posilování konkurenceschopnosti malých a středních podniků prostřednictvím digitální transformace a přispívat tak k rozvoji regionů.", ... } Sběr dat Příklad automatizace sběru dat pro Cyrrus Advisory - www.dotacni.info - API - Agentura pro podnikání a inovace - Crawler : http://git.pef.mendelu.cz/MTA/oppik-scraper/
  • 8. Analýza textu - Vektorová reprezentace dokumentů - Shluky reprezentují diskutovaná témata - Hledání podobnosti vektorů (např. k-means) - Problematické určení počtu shluků - Klasifikační metody pro nově přidané recenze
  • 9. Problém omezení sběru dat Problém crawlers – omezení přístupů, ochrana proti robotům (captcha) Robustní crawler – definice pomocí meta jazyka
  • 10. Problém identifikace produktů Jak určit o jaký produkt se jedná ? - “Zrcadlovka Canon EOS 600D” - “Canon EOS 600D SLR digitální kamera” - “Digitální fotoaparát Canon EOS 600D SLR (18 mpx, 7,6 cm (3") otočný displej, Full HD” - “Digitální zrcadlovka Canon EOS 600D (18 megapixelů, 7,6cm (3palcový) displej, APS-C CMOS senzor, WLAN s NFC, Full HD, Digic 7) kit vč. EF-S 18-55mm, 1:4,0 – 5,6 IS STM, černá” - “Canon EF-S 18-55mm 1:3.5-5.6 IS II Universal zoom Objektiv (58mm Filter)” Fuzzy-wuzzy python knihovna
  • 11. Problém překladu jazyků Velké množství recenzí je dostupné v cizích jazycích - Jak získávat recenze z cizích jazyků, analyzovat a konsolidovat do referenčního jazyka - Různý sentiment různých trhů - americký vs. český uživatel, - různé varianty produktů pro různé trhy, - různá kupní síla, atd.

Editor's Notes

  1. Motivace Náš tým v současné chvíli pracuje na projektu usnadňujícím rozhodování v oblasti nakupování nejrůznějších produktů. Snažíme se pomoci uživatelům zorientovat se ve velkém množství názorů publikovaných na internetu na konkrétní zboží, které by si chtěli zakoupit. Tyto uživatelské recenze jsou rozesety na nejrůznějších diskusních fórech, webech pro hodnocení produktů či portálech zabývajících se konkrétní problematikou. Pro běžného uživatele je obtížné tyto informace vyhledat, zorientovat se v nich a udělat si vlastní názor. Metody Pro analýzu velkého množství nestrukturovaných dat jsme se rozhodli využít metod strojového učení. Chceme pomocí nich v datech identifikovat témata, o kterých se uživatelé v souvislosti s produkty baví, a určit jejich pozitivní nebo negativní postoj k jednotlivým vlastnostem produktů.
  2. Řešitelský tým: ústav informatiky Mendelu Zkušenosti řešitelského týmu s textovou analýzou (v angličtině)
  3. MTA - co to je, sber dat, analyza, aplikace, schematicky diagram Ukládání v dokumentové DB + pre-procesing + ulozeni v relacni DB