Інтелектуальний аналіз слабоструктурованих даних.

Розробка та прототипування систем ізРозробка та прототипування систем із
елементами інтелектуального аналізуелементами інтелектуального аналізу
слабоструктурованих даних.слабоструктурованих даних.
Прогнозування соціальних,Прогнозування соціальних,
економічних, маркетингових таекономічних, маркетингових та
фінансових трендів.фінансових трендів.
Павлишенко Б.М.Павлишенко Б.М.
e-mail: b.pavlyshenko@gmail.come-mail: b.pavlyshenko@gmail.com
blog: bpavlyshenko.blogspot.comblog: bpavlyshenko.blogspot.com
тел. +380505037290

•Засоби прототипування: R, Python, Java
•Для Big Data: Hadoop/MapReduce/Pig/Hive
В основі прототипування інтелектуальних систем є авторські
розробки на основі теорії аналізу формальних концептів та теорії
частих множин. Використання моделі гратки семантичних концептів
дає можливість аналізувати семантично зв’язані множини лексем та
будувати асоціативні правила.
Використання квантитативних характеристик інформаційних потоків
для прогнозування маркетингових трендів та для аналізу відношення
користувачів до тих чи інших товарів чи послуг (Opinion Mining).
Виявлення прогностичного потенціалу асоціативних правил в
інформаційних потоках та їх використання у авторегресійних моделях
(ARIMA, VAR) для прогнозування, зокрема, фінансових трендів на
ринку акцій. Така модель враховує як минулу поведінку самого
фінансового часового ряду компанії, так і часову динаміку кількісних
характеристик асоціативних правил.

Аналіз спільнот та їх лідерів, які формують аналізовані тренди у
соціальних мрежах. Аналіз наявності маніпулятивного формування
відношення користувачів до того чи іншого товару чи економічного
тренду.
Аналіз причинності на основі тестів Гранжера для виділення
основних та підпорядкованих часових рядів, зокрема для інформаційних
потоків, економічних показників тощо.
Побудова підсистеми рекомендацій для користувачів. Наприклад, у
інтернет-магазині така система аналізує поведінку користувачів, їх
покупки, їх відгуки на послуги чи товари. На основі активності
користувача формується його семантичний профіль і здійснюється
формування пропозицій цьому користувачу із врахуванням активності та
рішень інших користувачів із подібними профілями. Такий підхід може
суттєво скоротити час пошуку послуг та товарів користувачем та дати
йому невідомі, але потрібні пропозиції, які виявлені на основі активності
інших подібних користувачів.

Аналіз фінансових твітів
Розроблений пакет “Tweet Miner for Stock Market”

Формування частих множин ключових слів із найбільшим
значенням підтримки
Приклади частих множин та величини їх підтримки:
{aapl, apple} (0.7357955),
{apple, stocks} (0.5227273),
{aapl, stock}(0.4687500),
{aapl, apple, stock} (0.4289773),

Аналіз причинного зв”язку між частими множинами у твітах та
курсом акцій Apple.
Отримані результати показують можливість прогнозування курсу акцій
на основі інтелектуального аналізу текстових потоків соціальних
мереж.

test 1
Granger causality test
Model 1: V3 ~ Lags(V3, 1:1) + Lags(V2, 1:1)
Model 2: V3 ~ Lags(V3, 1:1)
Res.Df Df F Pr(>F)
1 87
2 88 -1 10.05 0.002103 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
test 2
Granger causality test
Model 1: V2 ~ Lags(V2, 1:1) + Lags(V3, 1:1)
Model 2: V2 ~ Lags(V2, 1:1)
Res.Df Df F Pr(>F)
1 87
2 88 -1 0.3261 0.5694
Тест Гранжера на причинний зв”язок між
кількісними характеристиками повідомлень
Twitter та курсом акцій Apple
Прогнозування на основі ARIMA моделі
Прогнозування на основі VAR моделі

Приклади проведених тестових досліджень
семантичних концептів у повідомленнях Twitter

Олімпійський фінал із тенісу (2012)

Прогнозування фаворитів Eurovision 2013
Приклади проведених тестових
досліджень семантичних концептів у
повідомленнях Twitter
Перед фіналом Eurovision 2013 ми опублікували у
блозі прогноз лідера та фаворитів конкурсу, що пізніше
співпало із результатами голосування.

Аналіз трендів подорожей
досліджень семантичних концептів у
повідомленнях Twitter

досліджень семантичних концептів
у повідомленнях Twitter
Аналіз трендів подорожей

досліджень семантичних концептів
у повідомленнях Twitter
Маркетинговий аналіз концепту iPhone

У дослідженні ми аналізуємо наявність можливого зв"язку між
суспільною думкою користувачів твітера та прийняттям рішень
особами, які мають вагу у суспільстві. Цей аналіз ми проводимо на
прикладі обговорень можливого імені народженого у липні 2013 року
британського принца. В аналізі використовуються методи кількісної
обробки природньої мови, теорії частих множин, алгоритми
візуального відображення спільнот користувачів. Проаналізована
часова динаміка частот ключових слів. Показано, що основне
прогнозоване ім"я було домінуючим у спектрі імен перед офіційним
оголошенням імені. При використанні теорії частих множин показано,
що повне ім"я із трьох складових імен входило у топ 5 частих множин
за величиною підтримки. Показано, що структура динамічно утворених
спільнот користувачів, які взяли участь у обговоренні, визначається,
лише декількома лідерами, які мають суттєвий вплив на формування
позиції інших користувачів.
Прогнозування імені британського принца

Приклади проведених тестових досліджень семантичних
концептів у повідомленнях Twitter
Основне прогнозоване ім"я George було домінуючим у спектрі імен перед офіційним
оголошенням імені. 10 перших частих множин утворені п”ятьма іменами, три із яких є складовими
повного імені принца George Alexander Louis.

Приклади проведених тестових досліджень семантичних
концептів у повідомленнях Twitter
Виявлені спільноти користувачів, які формували тренди обговорення

Більше тестових прикладів та результатів досліджень можна знайти
у блозі http://bpavlyshenko.blogspot.com
Богдан Павлишенко,
доцент факультету електроніки ЛНУ, канд.фіз-мат.наук,
e-mail: b.pavlyshenko@gmail.com , tel. +380505037290
Дякую за увагу !

Інтелектуальний аналіз слабоструктурованих даних.

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (10)

Ähnlich wie Інтелектуальний аналіз слабоструктурованих даних.

Ähnlich wie Інтелектуальний аналіз слабоструктурованих даних. (20)

Інтелектуальний аналіз слабоструктурованих даних.

Hinweis der Redaktion