Entreprises de la réputation à I' e-réputation - Isabelle Saladin (article l'...
Content analytics slideshare aproged
1. Un document APROGED avec les contributions de :
Ever Team , IBM, Intellique, Novadys ,
Normier, Banctec, Proxem, Magillem
Christian Dubourg
Groupe de travail piloté par Ever-Team 01 / 2013
2. Toujours plus de contenu
Croissance de la volumétrie quotidienne des données
15 petabytes (1015) par jour
90% des contenus datent de moins de 2 ans
80% de l’information est disponible sour une forme
non structurée
3. Cohabitation des types de contenu
Pas de séparation stricte entre le contenu structuré et non
structuré. Constante cohabitation
Contenu structuré:
Reference article (une tablette IPAD)
Contenu non structuré mais lié
Mode opératoire
Texte réglementaire ou/et normatif associé
Avis d’un consommateur dans un forum
J’aime sur Facebook ou Linkedin, …
5. Les 3V de l’ECM
Gérer l’augmentation des volumes (Volume)
Surplus des coûts de stockage
Difficultés accrues pour les sécuriser (sauvegardes, PRA, PCA)
Gérer la diversité des contenus (Variété)
Documents techniques, documents bureautiques,
Email, vidéos, enregistrements,
Documents multilingues
Valoriser et maîtriser les contenus (Valeur)
Indexation , catégorisation, classement
Recherche structurée et non structurée
Archivage
7. Les 4 V de la Big Data économie
Localiser les contenus produit sur une période courte
Volume : Gérer l’accroissement des volumes
Variété : Détecter les relations entre les contenus
Valeur : Valoriser les données extraites
Vélocité : Détecter les tendances, les exceptions et
signaux faibles et surveiller les évolutions.
8. Sources de contenu
et réseaux sociaux
Type de média:
Contenu d’entreprise (ECM, GED, …)
Fil d’information : twitter
Classiques : Facebook, Linkedin, Google +
Youtube
Type de contenu
Classiques : Articles, photos, vidéos, …
Commentaires : pauvres (kdo), riches, …
Tags : classification, catégorisation
Opinion : Like, ou aucun deux indicateurs
9. Analyse niveau 1
Time line, population , géolocalisation, fréquentation
Google Analystic
Youtube Insight
…
Des information sur :
les contenus
L’intérêt associé
Les catégories de contenu
La fréquentation
10. Analyse niveau 2 : Text mining
Le Text Mining, base du Content Analytics, repose sur
des contenus textuels
Extraction
Web : du formulaire Web au métadonnées textuelles
Speach2Text : De la parole au texte
Image2Text : OCR, ICR, Barcode, Qr code, …
Video2Text : VCA = Speach2Text+ Image2Text++…
11. Du texte au sens
Extraction des entités nommées
Entités connus (listes d’autorité de produits, sociétés, …)
Extraction des thématiques
Entités découvertes (par analyse)
Identifier les entités qui ne sont pas des entités nommées
Extraction des opinions
Analyse des avis,
opinion mining,
sentiment analysis
12. Analyse des sentiments
Analyse globale
Un texte dégage une tonalité positive ou négative
Ex. Le beaujolais Nouveau est bon cette année
Analyse fine
Difficultés lorsque plusieurs opinions sont exprimées:
Ex. Un avis sur un restaurant peut avoir une tonalité globalement positive
sur la carte, l’accueil mais des réserves peuvent être négatives sur le prix
13. Analyse des tendances
Natural Language Processing
chaque mot à une tonalité intrinsèque :
« aimer », « satisfait », « soulagement » sont positifs
« Craindre », « mécontent » « douleur » sont négatifs
Cependant
Ce médicament me donne des douleurs négatif
Ce médicament calme mes douleurs positif
Ce médicament ne calme pas mes douleurs négatif
J’espérais que ce médicament calmerait mes douleurs négatif
Est-ce que cela a calmé tes douleurs? pas de tonalité
Ce médicament est indiqué pour calmer les douleurs pas de
tonalité
14. Analyse des tonalités
Les adverbes inverse souvent la tonalité
Diminution des bénéfices négatif
Augmentation des bénéfices positif
Une augmentation scandaleuse des bénéfices du CAC40
négatif
Ce projet de loi devrait permettre e mettre un coup d’arrêt à
l’augmentation scandaleuse des bénéfices du CAC40
Tonalité ???
L’analyse linguistique est indispensable pour résoudre ces
ambiguïtés (composants morphologique, syntaxiques,
sémantiques)
15. Composants d’analyse
Morphologique
La tokenisation : identification des mots et des
phrases d’un texte (découpage)
Le tagging: identification de la catégorie (verbe,
nom, adjectif, …)
La lemmatisation : identification de la forme
canonique des mots (ou lemme)
16. Composants « syntaxiques »
Analyse de surface d’une phrase (chuncking)
Identification des frontières majeures et/ou de relations
majeurs entre les mots.
Ex: Entité nommé
Les actionnaires d’Ever-Team ont décidé
Ever-Team est une société
17. Composants « syntaxiques »
Analyse de surface d’une phrase (chuncking)
Ex . Règles pour reconnaitre un nom de personne:
« Prénom non ambiguë » suivi de « mot inconnu » nom de
personne. Ex. « Joseph Merheb »
« Prénom ambiguë » « mot inconnu » « nom de
personne ». Ex. Claire Merheb
« Prénom ambiguë « nom commun » « nom de
personne ». Ex. Claire Potier
18. Composants « syntaxiques »
Etiquetage fonctionnel (tagging)
Affectation de fonction grammaticale à un groupe de mots
Analyse syntaxique (parsing)
Construction d’un arbre représentant la structure de la
phrase complète
Ex. La société Ever-Team a pris une participation de 90%
dans la société Creativ System
[Société X] (actionnaire de) [société Y]
19. Composants « sémantiques »
Sélection du sens (WSD pour Word Sense
Disambiguation)
Déterminer le sens de chaque mot
Structuration logique : transformer la représentation
syntaxique de la phrase en une forme prédicative: un
prédicat et ses arguments (agent, but, lieu, …)
Résolution des anaphores
Ex. François Hollande à peine élu. Il a déjà rencontré
Obama, après avoir vu Angela, il lui a parlé.
20. Composants « sémantiques »
Extraction de thématiques
Le boucher propose du veau thématique commerce
alimentaire
L’évier vient de se boucher thématique plomberie
Limites de l’exercice
Les jumelles de ma voisine viennent de naître
Ma voisine a des jumelles… elle s’en sert peu
21. Catégorisation
Méthodes basées sur l’apprentissage
Lors de l’arrivée d’un nouveau contenu, une ou plusieurs
catégories lui sont affectées.
Nécessite l’existence d’un Corpus qui permet de construire
un référentiel statistique (ES-CTS)
Méthodes basées sur des profils linguistiques
associées aux catégories
Définir des formules de recherche thématiques associées aux
catégories.
Ex. Si recherche « mai 68 » catégorie : manifestation
22. Exceptions et signaux faibles
Définition des Signaux faibles :
Relève souvent de la sphère de la veille (technologie
concurrentielle, commerciale, environnementale, sociale, …)
Elément peu visible, inattendu, perdu dans la masse
Signal de faible fréquence, qu’un agent intérêt à détecter et à
exploiter au plus tôt surveillance à mettre en oeuvre
Surveillance et détection
Proposition de candidats (fréquence d’apparition est en
croissance)
Analyse dans l’espace temps
Pose de seuil d’alerte : passage du signal faible au signal fort
23. Exceptions et signaux faibles
Evolution du nombre de résultats de la recherche du buzz word "big data" via Google
24. Simplifier et représenter
Représentation des contenus
Gérer le niveau de détail : Corrélation entre la taille des
données à analyser et le niveau de détail représenté
représenter des statistiques sur 22 régions de France / sur
36700 communes.
Définir le type de données à représenter:
Données brutes, numériques
Données calculées (comptage, somme, …)
Données annotées
Données habillées par du texte explicatif
25. Simplifier et représenter
Possibilité d’interactivité
Dépendant du média : Zoomer, utiliser un curseur pour
naviguer, un slider, …
Possibilité d’utiliser des facettes
Affectation de facettes sur les contenus pour permettre
d’avoir une navigation synthétique et guidée
28. Exemple d’application
du Content Analytics
Réduction des risques dans une compagnie
d’assurance
Amélioration de l’efficacité des investigations
policières
Réduction du taux d’attrition clients dans une société
de telco
Application d’une taxe écologiste
e@reputation d’une personne, d’une marque, d’une
société
29. Réduction des risques dans une
compagnie d’assurance
Les besoins
Détection et prévention de la fraude.
Meilleure analyse des risques.
La solution
Analyse des dossiers de traitement des dommages des 15 dernières années, plus
de 15 sources différentes.
Détermination de profils et évolutions de comportements.
Les bénéfices
Proposition de catégorisation automatique des déclarations de sinistre selon
niveau de risque et probabilité de tentative de fraude.
Traitement par exception et suivi des déclarations à risque.
Rapidité du traitement des dossiers.
Réduction des coûts.
Expertise croissante.
30. Amélioration de l’efficacité des
investigations policières
Les besoins
La partie rédactionnelle des déclarations d’homicides, des rapports
d’investigations et d’expertises emploient des termes sans
standardisation dépendant de chaque individu. Il n’est pas possible
d’exploiter ces informations.
La solution
Analyse de l’ensemble de ces documents avec extraction
d’informations permettant une caractérisation des faits
indépendamment du mode de formulation de chaque auteur.
Les bénéfices techniques
Capacité de traiter une information volumineuse avec mise en
évidence de corrélations (homicides, auteurs, …) permettant la
résolution de dossiers, la détermination de profils et une approche
prédictive du comportement criminel
31. Réduction du taux d’attrition
clients dans une société de telco
Les besoins
Accroitre la satisfaction clients.
Etre à l’écoute de la « Voix du client » pour identifier de nouvelles
opportunités, éviter des ruptures de contrat par une réponse plus efficace aux
incidents et la proposition de nouveaux services.
La solution
Analyse des rapports d’intervention du centre de support, des enquêtes de
satisfaction et des messages clients.
Identification pour action des clients à risque de rupture.
Meilleur traitement des incidents fréquents par un site d’information.
Détermination de corrélations entre problèmes, comportements et offres
Les bénéfices
Diminution du taux d’attrition de 50 %.
Définition de nouvelles offres.
Amélioration du support.
32. Application d’une taxe écologiste
Les besoins
Mettre en œuvre une taxe écologiste pour les véhicules qui circulent sur les routes
nationales et les voies rapides françaises.
Gérer la volumétrie engendrée par l’émission des points de collecte de passage des
usagers.
Etablir une taxe liée aux relevés de passage.
La solution
Collecte des points de passage des usagers.
Extraction des entités (lieux, point de passage, identité, …) pour établir la taxe.
Analyse des données par les organismes habilités au contrôle.
Archivage à valeur probatoire.
Les bénéfices techniques
Mise en place d’un mécanisme de calcul de la taxe basé sur l’utilisation du réseau routier.
Analyse des données pour optimisation de la taxe
Détection de la fraude.
33. e@reputation
e@reputation en B to C
l’individu au cœur de la Big Data
Ebay : notation des vendeurs
e@reputation en B to B
L’entreprise au cœur de la Big Data
Valorisation des marques et du savoir faire
34. APROGED
Association des professionnels pour l ’économie
numérique
Site de l’APROGED : http:/www.aproged.org
Courriel : contact@aproged.org
Autres Publications à télécharger sur le site de l’APROGED
DocuCloud
E-Reputation B2B
Ethique et Big Data
Video Content Analytics
Archivage sur le Cloud