SlideShare ist ein Scribd-Unternehmen logo
1 von 34
Un document APROGED avec les contributions de :

                      Ever Team , IBM, Intellique, Novadys ,
                       Normier, Banctec, Proxem, Magillem

                                            Christian Dubourg

Groupe de travail piloté par Ever-Team             01 / 2013
Toujours plus de contenu
Croissance de la volumétrie quotidienne des données


                15 petabytes (1015) par jour
     90% des contenus datent de moins de 2 ans

  80% de l’information est disponible sour une forme
                     non structurée
Cohabitation des types de contenu
Pas de séparation stricte entre le contenu structuré et non
              structuré. Constante cohabitation

                  Contenu structuré:
           Reference article (une tablette IPAD)

            Contenu non structuré mais lié
                     Mode opératoire
         Texte réglementaire ou/et normatif associé
         Avis d’un consommateur dans un forum
           J’aime sur Facebook ou Linkedin, …
La gestion des contenus
Les 3V de l’ECM
 Gérer l’augmentation des volumes (Volume)

    Surplus des coûts de stockage
    Difficultés accrues pour les sécuriser (sauvegardes, PRA, PCA)

 Gérer la diversité des contenus (Variété)

    Documents techniques, documents bureautiques,
    Email, vidéos, enregistrements,
    Documents multilingues

 Valoriser et maîtriser les contenus (Valeur)

    Indexation , catégorisation, classement
    Recherche structurée et non structurée
    Archivage
La valorisation des contenus
Les 4 V de la Big Data économie
Localiser les contenus produit sur une période courte

Volume : Gérer l’accroissement des volumes

Variété : Détecter les relations entre les contenus

Valeur : Valoriser les données extraites

Vélocité : Détecter les tendances, les exceptions et
 signaux faibles et surveiller les évolutions.
Sources de contenu
              et réseaux sociaux
Type de média:
   Contenu d’entreprise (ECM, GED, …)
   Fil d’information : twitter
   Classiques : Facebook, Linkedin, Google +
   Youtube


Type de contenu
   Classiques : Articles, photos, vidéos, …
   Commentaires : pauvres (kdo), riches, …
   Tags : classification, catégorisation
   Opinion : Like, ou aucun  deux indicateurs
Analyse niveau 1
Time line, population , géolocalisation, fréquentation
  Google Analystic
  Youtube Insight
  …


  Des information sur :
     les contenus
     L’intérêt associé

     Les catégories de contenu

     La fréquentation
Analyse niveau 2 : Text mining
Le Text Mining, base du Content Analytics, repose sur
                des contenus textuels

Extraction
  Web : du formulaire Web au métadonnées textuelles
  Speach2Text : De la parole au texte
  Image2Text : OCR, ICR, Barcode, Qr code, …
  Video2Text : VCA = Speach2Text+ Image2Text++…
Du texte au sens
Extraction des entités nommées
   Entités connus (listes d’autorité de produits, sociétés, …)


Extraction des thématiques
   Entités découvertes (par analyse)
   Identifier les entités qui ne sont pas des entités nommées


Extraction des opinions
   Analyse des avis,
   opinion mining,
   sentiment analysis
Analyse des sentiments
Analyse globale
   Un texte dégage une tonalité positive ou négative
   Ex. Le beaujolais Nouveau est bon cette année




Analyse fine
   Difficultés lorsque plusieurs opinions sont exprimées:
   Ex. Un avis sur un restaurant peut avoir une tonalité globalement positive
    sur la carte, l’accueil mais des réserves peuvent être négatives sur le prix
Analyse des tendances
    Natural Language Processing
chaque mot à une tonalité intrinsèque :
   « aimer », « satisfait », « soulagement » sont positifs
   « Craindre », « mécontent » « douleur » sont négatifs


Cependant

    Ce médicament me donne des douleurs  négatif
    Ce médicament calme mes douleurs  positif
    Ce médicament ne calme pas mes douleurs  négatif
    J’espérais que ce médicament calmerait mes douleurs  négatif
    Est-ce que cela a calmé tes douleurs?  pas de tonalité
    Ce médicament est indiqué pour calmer les douleurs  pas de
     tonalité
Analyse des tonalités
Les adverbes inverse souvent la tonalité
   Diminution des bénéfices  négatif
   Augmentation des bénéfices  positif
   Une augmentation scandaleuse des bénéfices du CAC40 
    négatif
   Ce projet de loi devrait permettre e mettre un coup d’arrêt à
    l’augmentation scandaleuse des bénéfices du CAC40 
    Tonalité ???

L’analyse linguistique est indispensable pour résoudre ces
  ambiguïtés (composants morphologique, syntaxiques,
  sémantiques)
Composants d’analyse
            Morphologique
La tokenisation : identification des mots et des
 phrases d’un texte (découpage)
Le tagging: identification de la catégorie (verbe,
 nom, adjectif, …)
La lemmatisation : identification de la forme
 canonique des mots (ou lemme)
Composants « syntaxiques »
Analyse de surface d’une phrase (chuncking)

  Identification des frontières majeures et/ou de relations
   majeurs entre les mots.

  Ex: Entité nommé
    Les actionnaires d’Ever-Team ont décidé
     Ever-Team est une société
Composants « syntaxiques »
Analyse de surface d’une phrase (chuncking)

  Ex . Règles pour reconnaitre un nom de personne:


     « Prénom non ambiguë » suivi de « mot inconnu »  nom de
      personne. Ex. « Joseph Merheb »
     « Prénom ambiguë » « mot inconnu »  « nom de
      personne ». Ex. Claire Merheb
     « Prénom ambiguë « nom commun »  « nom de
      personne ». Ex. Claire Potier
Composants « syntaxiques »
Etiquetage fonctionnel (tagging)
   Affectation de fonction grammaticale à un groupe de mots


Analyse syntaxique (parsing)
   Construction d’un arbre représentant la structure de la
    phrase complète

   Ex. La société Ever-Team a pris une participation de 90%
    dans la société Creativ System

    [Société X]  (actionnaire de)  [société Y]
Composants « sémantiques »
Sélection du sens (WSD pour Word Sense
 Disambiguation)
   Déterminer le sens de chaque mot


Structuration logique : transformer la représentation
 syntaxique de la phrase en une forme prédicative: un
 prédicat et ses arguments (agent, but, lieu, …)

Résolution des anaphores
 Ex. François Hollande à peine élu. Il a déjà rencontré
 Obama, après avoir vu Angela, il lui a parlé.
Composants « sémantiques »
Extraction de thématiques

  Le boucher propose du veau  thématique commerce
   alimentaire
  L’évier vient de se boucher  thématique plomberie


Limites de l’exercice

  Les jumelles de ma voisine viennent de naître
  Ma voisine a des jumelles… elle s’en sert peu
Catégorisation
Méthodes basées sur l’apprentissage

   Lors de l’arrivée d’un nouveau contenu, une ou plusieurs
    catégories lui sont affectées.
   Nécessite l’existence d’un Corpus qui permet de construire
    un référentiel statistique (ES-CTS)

Méthodes basées sur des profils linguistiques
 associées aux catégories

   Définir des formules de recherche thématiques associées aux
    catégories.
       Ex. Si recherche « mai 68 »  catégorie : manifestation
Exceptions et signaux faibles
Définition des Signaux faibles :
   Relève souvent de la sphère de la veille (technologie
    concurrentielle, commerciale, environnementale, sociale, …)
   Elément peu visible, inattendu, perdu dans la masse
   Signal de faible fréquence, qu’un agent intérêt à détecter et à
    exploiter au plus tôt  surveillance à mettre en oeuvre
Surveillance et détection
   Proposition de candidats (fréquence d’apparition est en
    croissance)
   Analyse dans l’espace temps
   Pose de seuil d’alerte : passage du signal faible au signal fort
Exceptions et signaux faibles




     Evolution du nombre de résultats de la recherche du buzz word "big data" via Google
Simplifier et représenter
Représentation des contenus

   Gérer le niveau de détail : Corrélation entre la taille des
    données à analyser et le niveau de détail représenté 
    représenter des statistiques sur 22 régions de France / sur
    36700 communes.

   Définir le type de données à représenter:
       Données brutes, numériques
       Données calculées (comptage, somme, …)
       Données annotées
       Données habillées par du texte explicatif
Simplifier et représenter
Possibilité d’interactivité
  Dépendant du média : Zoomer, utiliser un curseur pour
    naviguer, un slider, …

Possibilité d’utiliser des facettes
  Affectation de facettes sur les contenus pour permettre
    d’avoir une navigation synthétique et guidée
Exemples de représentation
Exemples de représentation
Exemple d’application
           du Content Analytics
Réduction des risques dans une compagnie
 d’assurance
Amélioration de l’efficacité des investigations
 policières
Réduction du taux d’attrition clients dans une société
 de telco
Application d’une taxe écologiste
e@reputation d’une personne, d’une marque, d’une
 société
Réduction des risques dans une
      compagnie d’assurance
 Les besoins
    Détection et prévention de la fraude.
    Meilleure analyse des risques.


 La solution
    Analyse des dossiers de traitement des dommages des 15 dernières années, plus
      de 15 sources différentes.
    Détermination de profils et évolutions de comportements.


 Les bénéfices
    Proposition de catégorisation automatique des déclarations de sinistre selon
     niveau de risque et probabilité de tentative de fraude.
    Traitement par exception et suivi des déclarations à risque.
    Rapidité du traitement des dossiers.
    Réduction des coûts.
    Expertise croissante.
Amélioration de l’efficacité des
     investigations policières
 Les besoins
    La partie rédactionnelle des déclarations d’homicides, des rapports
     d’investigations et d’expertises emploient des termes sans
     standardisation dépendant de chaque individu. Il n’est pas possible
     d’exploiter ces informations.

 La solution
    Analyse de l’ensemble de ces documents avec extraction
     d’informations permettant une caractérisation des faits
     indépendamment du mode de formulation de chaque auteur.

 Les bénéfices techniques
    Capacité de traiter une information volumineuse avec mise en
     évidence de corrélations (homicides, auteurs, …) permettant la
     résolution de dossiers, la détermination de profils et une approche
     prédictive du comportement criminel
Réduction du taux d’attrition
  clients dans une société de telco
 Les besoins
    Accroitre la satisfaction clients.
    Etre à l’écoute de la « Voix du client » pour identifier de nouvelles
     opportunités, éviter des ruptures de contrat par une réponse plus efficace aux
     incidents et la proposition de nouveaux services.

 La solution
    Analyse des rapports d’intervention du centre de support, des enquêtes de
      satisfaction et des messages clients.
    Identification pour action des clients à risque de rupture.
    Meilleur traitement des incidents fréquents par un site d’information.
    Détermination de corrélations entre problèmes, comportements et offres


 Les bénéfices
    Diminution du taux d’attrition de 50 %.
    Définition de nouvelles offres.
    Amélioration du support.
Application d’une taxe écologiste
 Les besoins
    Mettre en œuvre une taxe écologiste pour les véhicules qui circulent sur les routes
      nationales et les voies rapides françaises.
    Gérer la volumétrie engendrée par l’émission des points de collecte de passage des
      usagers.
    Etablir une taxe liée aux relevés de passage.

 La solution
    Collecte des points de passage des usagers.
    Extraction des entités (lieux, point de passage, identité, …) pour établir la taxe.
    Analyse des données par les organismes habilités au contrôle.
    Archivage à valeur probatoire.

 Les bénéfices techniques
    Mise en place d’un mécanisme de calcul de la taxe basé sur l’utilisation du réseau routier.
    Analyse des données pour optimisation de la taxe
    Détection de la fraude.
e@reputation
e@reputation en B to C
  l’individu au cœur de la Big Data
  Ebay : notation des vendeurs


e@reputation en B to B
  L’entreprise au cœur de la Big Data
  Valorisation des marques et du savoir faire
APROGED
Association des professionnels pour l ’économie
                  numérique

    Site de l’APROGED : http:/www.aproged.org
           Courriel : contact@aproged.org

Autres Publications à télécharger sur le site de l’APROGED
                      DocuCloud
                   E-Reputation B2B
                  Ethique et Big Data
                Video Content Analytics
                Archivage sur le Cloud

Weitere ähnliche Inhalte

Andere mochten auch

Panorama Top250 EY SYNTEC Software 2014
Panorama Top250 EY SYNTEC Software 2014Panorama Top250 EY SYNTEC Software 2014
Panorama Top250 EY SYNTEC Software 2014Franck Sebag
 
Maîtriser les outils web gratuits pour faire votre veille
Maîtriser les outils web gratuits pour faire votre veilleMaîtriser les outils web gratuits pour faire votre veille
Maîtriser les outils web gratuits pour faire votre veilleBilly Jannequin
 
Les grandes marques de champagne
Les grandes marques de champagneLes grandes marques de champagne
Les grandes marques de champagneAmo' Bedos
 
Vendretips - Optimisez son utilisation des moteurs de recherche
Vendretips - Optimisez son utilisation des moteurs de recherche Vendretips - Optimisez son utilisation des moteurs de recherche
Vendretips - Optimisez son utilisation des moteurs de recherche Clémence Bertrand-Jaume
 
1Collecte, analyse et valorisation de Bigdata textuelles multilingues
1Collecte, analyse et valorisation de Bigdata textuelles multilingues1Collecte, analyse et valorisation de Bigdata textuelles multilingues
1Collecte, analyse et valorisation de Bigdata textuelles multilinguesAproged
 
Systematic Solutions Linux 2009
Systematic Solutions Linux 2009Systematic Solutions Linux 2009
Systematic Solutions Linux 2009Stefane Fermigier
 
Les communautés virtuelles sur internet
Les communautés virtuelles sur internetLes communautés virtuelles sur internet
Les communautés virtuelles sur internetCyrille Dagorn
 
Limites d'un moteur de recherche classique
Limites d'un moteur de recherche classiqueLimites d'un moteur de recherche classique
Limites d'un moteur de recherche classiqueProxem
 
Livret bleu etudiants_gt-logiciellibre_systematic
Livret bleu etudiants_gt-logiciellibre_systematicLivret bleu etudiants_gt-logiciellibre_systematic
Livret bleu etudiants_gt-logiciellibre_systematicPascal Flamand
 
La proxemie mediatee (des ordis et des hommes part. 3)
La proxemie mediatee (des ordis et des hommes part. 3)La proxemie mediatee (des ordis et des hommes part. 3)
La proxemie mediatee (des ordis et des hommes part. 3)Vincent Mabillot
 
Twitter et la recherche d'emploi, volume 2
Twitter et la recherche d'emploi, volume 2Twitter et la recherche d'emploi, volume 2
Twitter et la recherche d'emploi, volume 2PoleDocumentation.fr
 
Le cheveu et la coiffure sur le web social français
Le cheveu et la coiffure sur le web social françaisLe cheveu et la coiffure sur le web social français
Le cheveu et la coiffure sur le web social françaisProxem
 
Emploi et Reseaux Sociaux
Emploi et Reseaux SociauxEmploi et Reseaux Sociaux
Emploi et Reseaux SociauxPierre Metivier
 
[FW Invest] Près de 2,3 milliards d’euros investis dans la Tech française en ...
[FW Invest] Près de 2,3 milliards d’euros investis dans la Tech française en ...[FW Invest] Près de 2,3 milliards d’euros investis dans la Tech française en ...
[FW Invest] Près de 2,3 milliards d’euros investis dans la Tech française en ...FrenchWeb.fr
 
Les réseaux sociaux pour un emploi
Les réseaux sociaux pour un emploiLes réseaux sociaux pour un emploi
Les réseaux sociaux pour un emploiÉric Delcroix
 
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...Le_GFII
 

Andere mochten auch (18)

Panorama Top250 EY SYNTEC Software 2014
Panorama Top250 EY SYNTEC Software 2014Panorama Top250 EY SYNTEC Software 2014
Panorama Top250 EY SYNTEC Software 2014
 
Maîtriser les outils web gratuits pour faire votre veille
Maîtriser les outils web gratuits pour faire votre veilleMaîtriser les outils web gratuits pour faire votre veille
Maîtriser les outils web gratuits pour faire votre veille
 
Les grandes marques de champagne
Les grandes marques de champagneLes grandes marques de champagne
Les grandes marques de champagne
 
Vendretips - Optimisez son utilisation des moteurs de recherche
Vendretips - Optimisez son utilisation des moteurs de recherche Vendretips - Optimisez son utilisation des moteurs de recherche
Vendretips - Optimisez son utilisation des moteurs de recherche
 
1Collecte, analyse et valorisation de Bigdata textuelles multilingues
1Collecte, analyse et valorisation de Bigdata textuelles multilingues1Collecte, analyse et valorisation de Bigdata textuelles multilingues
1Collecte, analyse et valorisation de Bigdata textuelles multilingues
 
Systematic Solutions Linux 2009
Systematic Solutions Linux 2009Systematic Solutions Linux 2009
Systematic Solutions Linux 2009
 
A3 relation client et observatoire
A3 relation client et observatoireA3 relation client et observatoire
A3 relation client et observatoire
 
Les communautés virtuelles sur internet
Les communautés virtuelles sur internetLes communautés virtuelles sur internet
Les communautés virtuelles sur internet
 
Présentations de vente impactantes
Présentations de vente impactantesPrésentations de vente impactantes
Présentations de vente impactantes
 
Limites d'un moteur de recherche classique
Limites d'un moteur de recherche classiqueLimites d'un moteur de recherche classique
Limites d'un moteur de recherche classique
 
Livret bleu etudiants_gt-logiciellibre_systematic
Livret bleu etudiants_gt-logiciellibre_systematicLivret bleu etudiants_gt-logiciellibre_systematic
Livret bleu etudiants_gt-logiciellibre_systematic
 
La proxemie mediatee (des ordis et des hommes part. 3)
La proxemie mediatee (des ordis et des hommes part. 3)La proxemie mediatee (des ordis et des hommes part. 3)
La proxemie mediatee (des ordis et des hommes part. 3)
 
Twitter et la recherche d'emploi, volume 2
Twitter et la recherche d'emploi, volume 2Twitter et la recherche d'emploi, volume 2
Twitter et la recherche d'emploi, volume 2
 
Le cheveu et la coiffure sur le web social français
Le cheveu et la coiffure sur le web social françaisLe cheveu et la coiffure sur le web social français
Le cheveu et la coiffure sur le web social français
 
Emploi et Reseaux Sociaux
Emploi et Reseaux SociauxEmploi et Reseaux Sociaux
Emploi et Reseaux Sociaux
 
[FW Invest] Près de 2,3 milliards d’euros investis dans la Tech française en ...
[FW Invest] Près de 2,3 milliards d’euros investis dans la Tech française en ...[FW Invest] Près de 2,3 milliards d’euros investis dans la Tech française en ...
[FW Invest] Près de 2,3 milliards d’euros investis dans la Tech française en ...
 
Les réseaux sociaux pour un emploi
Les réseaux sociaux pour un emploiLes réseaux sociaux pour un emploi
Les réseaux sociaux pour un emploi
 
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
 

Ähnlich wie Content analytics slideshare aproged

2011 05 26 Anticipez les évolutions de votre environnement pour adapter votre...
2011 05 26 Anticipez les évolutions de votre environnement pour adapter votre...2011 05 26 Anticipez les évolutions de votre environnement pour adapter votre...
2011 05 26 Anticipez les évolutions de votre environnement pour adapter votre...COMPETITIC
 
Pdj pharma partie lingway
Pdj pharma partie lingwayPdj pharma partie lingway
Pdj pharma partie lingwayLingway
 
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic  2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic COMPETITIC
 
Lingway salon Documation 2011
Lingway  salon Documation 2011Lingway  salon Documation 2011
Lingway salon Documation 2011Lingway
 
Text mining, sentiment analysis, big data.
Text mining, sentiment analysis, big data.Text mining, sentiment analysis, big data.
Text mining, sentiment analysis, big data.Bruno Teboul
 
Presentation linked in-2011-11-09
Presentation linked in-2011-11-09Presentation linked in-2011-11-09
Presentation linked in-2011-11-09Voxco
 
2009 Search Vivisimo Social Computing
2009 Search Vivisimo Social Computing2009 Search Vivisimo Social Computing
2009 Search Vivisimo Social ComputingSocial Computing
 
Image&dialogue/lingway Reputation day
Image&dialogue/lingway Reputation dayImage&dialogue/lingway Reputation day
Image&dialogue/lingway Reputation dayLingway
 
Agences de Communication et outils de veille et d’e-Réputation : quelle métho...
Agences de Communication et outils de veille et d’e-Réputation : quelle métho...Agences de Communication et outils de veille et d’e-Réputation : quelle métho...
Agences de Communication et outils de veille et d’e-Réputation : quelle métho...image(&)dialogue
 
Oe Abes Mai2008
Oe Abes Mai2008Oe Abes Mai2008
Oe Abes Mai2008olivier
 
Presentation 2009 offre Social Computing
Presentation 2009 offre Social ComputingPresentation 2009 offre Social Computing
Presentation 2009 offre Social ComputingSocial Computing
 
La recherche d'information : une question de stratégie
La recherche d'information : une question de stratégieLa recherche d'information : une question de stratégie
La recherche d'information : une question de stratégieLuc Charron
 
Les outils de veille sur internet
Les outils de veille sur internetLes outils de veille sur internet
Les outils de veille sur internetAref Jdey
 
Techniques documentaires et veille stratégique
Techniques documentaires et veille stratégiqueTechniques documentaires et veille stratégique
Techniques documentaires et veille stratégiqueapajard
 
Veille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du tempsVeille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du tempsVincent Pereira
 
Veille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du tempsVeille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du tempsVincent Pereira
 
Who is watson?
Who is watson?Who is watson?
Who is watson?_unknowns
 

Ähnlich wie Content analytics slideshare aproged (20)

2011 05 26 Anticipez les évolutions de votre environnement pour adapter votre...
2011 05 26 Anticipez les évolutions de votre environnement pour adapter votre...2011 05 26 Anticipez les évolutions de votre environnement pour adapter votre...
2011 05 26 Anticipez les évolutions de votre environnement pour adapter votre...
 
Pdj pharma partie lingway
Pdj pharma partie lingwayPdj pharma partie lingway
Pdj pharma partie lingway
 
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic  2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
2011 02 17 Suivez votre marché et vos concurrents sur internet by competitic
 
Lingway salon Documation 2011
Lingway  salon Documation 2011Lingway  salon Documation 2011
Lingway salon Documation 2011
 
Text mining, sentiment analysis, big data.
Text mining, sentiment analysis, big data.Text mining, sentiment analysis, big data.
Text mining, sentiment analysis, big data.
 
LINGWAY - Opinion mining: exemples d'applications
LINGWAY -  Opinion mining: exemples d'applicationsLINGWAY -  Opinion mining: exemples d'applications
LINGWAY - Opinion mining: exemples d'applications
 
Presentation linked in-2011-11-09
Presentation linked in-2011-11-09Presentation linked in-2011-11-09
Presentation linked in-2011-11-09
 
2009 Search Vivisimo Social Computing
2009 Search Vivisimo Social Computing2009 Search Vivisimo Social Computing
2009 Search Vivisimo Social Computing
 
Image&dialogue/lingway Reputation day
Image&dialogue/lingway Reputation dayImage&dialogue/lingway Reputation day
Image&dialogue/lingway Reputation day
 
Offre Search
Offre SearchOffre Search
Offre Search
 
Agences de Communication et outils de veille et d’e-Réputation : quelle métho...
Agences de Communication et outils de veille et d’e-Réputation : quelle métho...Agences de Communication et outils de veille et d’e-Réputation : quelle métho...
Agences de Communication et outils de veille et d’e-Réputation : quelle métho...
 
Oe Abes Mai2008
Oe Abes Mai2008Oe Abes Mai2008
Oe Abes Mai2008
 
Presentation 2009 offre Social Computing
Presentation 2009 offre Social ComputingPresentation 2009 offre Social Computing
Presentation 2009 offre Social Computing
 
La recherche d'information : une question de stratégie
La recherche d'information : une question de stratégieLa recherche d'information : une question de stratégie
La recherche d'information : une question de stratégie
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
 
Les outils de veille sur internet
Les outils de veille sur internetLes outils de veille sur internet
Les outils de veille sur internet
 
Techniques documentaires et veille stratégique
Techniques documentaires et veille stratégiqueTechniques documentaires et veille stratégique
Techniques documentaires et veille stratégique
 
Veille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du tempsVeille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du temps
 
Veille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du tempsVeille sur Internet, les outils qui font gagner du temps
Veille sur Internet, les outils qui font gagner du temps
 
Who is watson?
Who is watson?Who is watson?
Who is watson?
 

Mehr von Aproged

"Réseau social d'entreprise et GED : mythes et réalités"
"Réseau social d'entreprise et GED : mythes et réalités""Réseau social d'entreprise et GED : mythes et réalités"
"Réseau social d'entreprise et GED : mythes et réalités"Aproged
 
Les technologies liées à la gestion de contenus professionnels, levier de la ...
Les technologies liées à la gestion de contenus professionnels, levier de la ...Les technologies liées à la gestion de contenus professionnels, levier de la ...
Les technologies liées à la gestion de contenus professionnels, levier de la ...Aproged
 
"Comment l'accès à l'Assurance Maladie est facilité pour des millions d'Amér...
"Comment l'accès à l'Assurance Maladie est facilité  pour des millions d'Amér..."Comment l'accès à l'Assurance Maladie est facilité  pour des millions d'Amér...
"Comment l'accès à l'Assurance Maladie est facilité pour des millions d'Amér...Aproged
 
Aproged 2015 18 mars chantier gouvernance documation v3
Aproged 2015 18 mars   chantier gouvernance documation v3Aproged 2015 18 mars   chantier gouvernance documation v3
Aproged 2015 18 mars chantier gouvernance documation v3Aproged
 
Petit Déjeuner Expert Aproged 3ème Plateforme par Alain Le Corre / EMC
Petit Déjeuner Expert Aproged 3ème Plateforme par Alain Le Corre / EMCPetit Déjeuner Expert Aproged 3ème Plateforme par Alain Le Corre / EMC
Petit Déjeuner Expert Aproged 3ème Plateforme par Alain Le Corre / EMCAproged
 
La facture signée : c'est démodé !
La facture signée : c'est démodé !La facture signée : c'est démodé !
La facture signée : c'est démodé !Aproged
 
PDF/A : l’essentiel 2.0
PDF/A : l’essentiel 2.0PDF/A : l’essentiel 2.0
PDF/A : l’essentiel 2.0Aproged
 
Pdfa l essentiel 2.0
Pdfa l essentiel 2.0Pdfa l essentiel 2.0
Pdfa l essentiel 2.0Aproged
 
Transition numerique everial petit dejeuner expert aproged
Transition numerique everial   petit dejeuner expert aprogedTransition numerique everial   petit dejeuner expert aproged
Transition numerique everial petit dejeuner expert aprogedAproged
 
Gouvernance de l'information RSD (petit déjeuner expert Aproged)
 Gouvernance de l'information RSD (petit déjeuner expert Aproged) Gouvernance de l'information RSD (petit déjeuner expert Aproged)
Gouvernance de l'information RSD (petit déjeuner expert Aproged)Aproged
 
Identification, investigation et prévention des fraudes : la nécessité d'inn...
Identification, investigation et prévention des fraudes :  la nécessité d'inn...Identification, investigation et prévention des fraudes :  la nécessité d'inn...
Identification, investigation et prévention des fraudes : la nécessité d'inn...Aproged
 
"Comment le Patriot Act, Prism et la loi de programmation militaire impactent...
"Comment le Patriot Act, Prism et la loi de programmation militaire impactent..."Comment le Patriot Act, Prism et la loi de programmation militaire impactent...
"Comment le Patriot Act, Prism et la loi de programmation militaire impactent...Aproged
 
Analyse de l’opinion et développement des marques - Présentation Gil Adamy
Analyse de l’opinion et développement des marques - Présentation Gil AdamyAnalyse de l’opinion et développement des marques - Présentation Gil Adamy
Analyse de l’opinion et développement des marques - Présentation Gil AdamyAproged
 
Livre Blanc Big Data : fin ou renouveau du Marketing ?
Livre Blanc Big Data : fin ou renouveau du Marketing ?Livre Blanc Big Data : fin ou renouveau du Marketing ?
Livre Blanc Big Data : fin ou renouveau du Marketing ?Aproged
 
Livre Blanc Big Data et Marketing - Chapitre III
Livre Blanc Big Data et Marketing - Chapitre IIILivre Blanc Big Data et Marketing - Chapitre III
Livre Blanc Big Data et Marketing - Chapitre IIIAproged
 
4 pages Content Analytics
4 pages Content Analytics 4 pages Content Analytics
4 pages Content Analytics Aproged
 
Entreprises de la réputation à I' e-réputation - Isabelle Saladin (article l'...
Entreprises de la réputation à I' e-réputation - Isabelle Saladin (article l'...Entreprises de la réputation à I' e-réputation - Isabelle Saladin (article l'...
Entreprises de la réputation à I' e-réputation - Isabelle Saladin (article l'...Aproged
 

Mehr von Aproged (17)

"Réseau social d'entreprise et GED : mythes et réalités"
"Réseau social d'entreprise et GED : mythes et réalités""Réseau social d'entreprise et GED : mythes et réalités"
"Réseau social d'entreprise et GED : mythes et réalités"
 
Les technologies liées à la gestion de contenus professionnels, levier de la ...
Les technologies liées à la gestion de contenus professionnels, levier de la ...Les technologies liées à la gestion de contenus professionnels, levier de la ...
Les technologies liées à la gestion de contenus professionnels, levier de la ...
 
"Comment l'accès à l'Assurance Maladie est facilité pour des millions d'Amér...
"Comment l'accès à l'Assurance Maladie est facilité  pour des millions d'Amér..."Comment l'accès à l'Assurance Maladie est facilité  pour des millions d'Amér...
"Comment l'accès à l'Assurance Maladie est facilité pour des millions d'Amér...
 
Aproged 2015 18 mars chantier gouvernance documation v3
Aproged 2015 18 mars   chantier gouvernance documation v3Aproged 2015 18 mars   chantier gouvernance documation v3
Aproged 2015 18 mars chantier gouvernance documation v3
 
Petit Déjeuner Expert Aproged 3ème Plateforme par Alain Le Corre / EMC
Petit Déjeuner Expert Aproged 3ème Plateforme par Alain Le Corre / EMCPetit Déjeuner Expert Aproged 3ème Plateforme par Alain Le Corre / EMC
Petit Déjeuner Expert Aproged 3ème Plateforme par Alain Le Corre / EMC
 
La facture signée : c'est démodé !
La facture signée : c'est démodé !La facture signée : c'est démodé !
La facture signée : c'est démodé !
 
PDF/A : l’essentiel 2.0
PDF/A : l’essentiel 2.0PDF/A : l’essentiel 2.0
PDF/A : l’essentiel 2.0
 
Pdfa l essentiel 2.0
Pdfa l essentiel 2.0Pdfa l essentiel 2.0
Pdfa l essentiel 2.0
 
Transition numerique everial petit dejeuner expert aproged
Transition numerique everial   petit dejeuner expert aprogedTransition numerique everial   petit dejeuner expert aproged
Transition numerique everial petit dejeuner expert aproged
 
Gouvernance de l'information RSD (petit déjeuner expert Aproged)
 Gouvernance de l'information RSD (petit déjeuner expert Aproged) Gouvernance de l'information RSD (petit déjeuner expert Aproged)
Gouvernance de l'information RSD (petit déjeuner expert Aproged)
 
Identification, investigation et prévention des fraudes : la nécessité d'inn...
Identification, investigation et prévention des fraudes :  la nécessité d'inn...Identification, investigation et prévention des fraudes :  la nécessité d'inn...
Identification, investigation et prévention des fraudes : la nécessité d'inn...
 
"Comment le Patriot Act, Prism et la loi de programmation militaire impactent...
"Comment le Patriot Act, Prism et la loi de programmation militaire impactent..."Comment le Patriot Act, Prism et la loi de programmation militaire impactent...
"Comment le Patriot Act, Prism et la loi de programmation militaire impactent...
 
Analyse de l’opinion et développement des marques - Présentation Gil Adamy
Analyse de l’opinion et développement des marques - Présentation Gil AdamyAnalyse de l’opinion et développement des marques - Présentation Gil Adamy
Analyse de l’opinion et développement des marques - Présentation Gil Adamy
 
Livre Blanc Big Data : fin ou renouveau du Marketing ?
Livre Blanc Big Data : fin ou renouveau du Marketing ?Livre Blanc Big Data : fin ou renouveau du Marketing ?
Livre Blanc Big Data : fin ou renouveau du Marketing ?
 
Livre Blanc Big Data et Marketing - Chapitre III
Livre Blanc Big Data et Marketing - Chapitre IIILivre Blanc Big Data et Marketing - Chapitre III
Livre Blanc Big Data et Marketing - Chapitre III
 
4 pages Content Analytics
4 pages Content Analytics 4 pages Content Analytics
4 pages Content Analytics
 
Entreprises de la réputation à I' e-réputation - Isabelle Saladin (article l'...
Entreprises de la réputation à I' e-réputation - Isabelle Saladin (article l'...Entreprises de la réputation à I' e-réputation - Isabelle Saladin (article l'...
Entreprises de la réputation à I' e-réputation - Isabelle Saladin (article l'...
 

Content analytics slideshare aproged

  • 1. Un document APROGED avec les contributions de : Ever Team , IBM, Intellique, Novadys , Normier, Banctec, Proxem, Magillem Christian Dubourg Groupe de travail piloté par Ever-Team 01 / 2013
  • 2. Toujours plus de contenu Croissance de la volumétrie quotidienne des données 15 petabytes (1015) par jour 90% des contenus datent de moins de 2 ans 80% de l’information est disponible sour une forme non structurée
  • 3. Cohabitation des types de contenu Pas de séparation stricte entre le contenu structuré et non structuré. Constante cohabitation Contenu structuré: Reference article (une tablette IPAD) Contenu non structuré mais lié Mode opératoire Texte réglementaire ou/et normatif associé Avis d’un consommateur dans un forum J’aime sur Facebook ou Linkedin, …
  • 4. La gestion des contenus
  • 5. Les 3V de l’ECM  Gérer l’augmentation des volumes (Volume)  Surplus des coûts de stockage  Difficultés accrues pour les sécuriser (sauvegardes, PRA, PCA)  Gérer la diversité des contenus (Variété)  Documents techniques, documents bureautiques,  Email, vidéos, enregistrements,  Documents multilingues  Valoriser et maîtriser les contenus (Valeur)  Indexation , catégorisation, classement  Recherche structurée et non structurée  Archivage
  • 7. Les 4 V de la Big Data économie Localiser les contenus produit sur une période courte Volume : Gérer l’accroissement des volumes Variété : Détecter les relations entre les contenus Valeur : Valoriser les données extraites Vélocité : Détecter les tendances, les exceptions et signaux faibles et surveiller les évolutions.
  • 8. Sources de contenu et réseaux sociaux Type de média:  Contenu d’entreprise (ECM, GED, …)  Fil d’information : twitter  Classiques : Facebook, Linkedin, Google +  Youtube Type de contenu  Classiques : Articles, photos, vidéos, …  Commentaires : pauvres (kdo), riches, …  Tags : classification, catégorisation  Opinion : Like, ou aucun  deux indicateurs
  • 9. Analyse niveau 1 Time line, population , géolocalisation, fréquentation Google Analystic Youtube Insight … Des information sur :  les contenus  L’intérêt associé  Les catégories de contenu  La fréquentation
  • 10. Analyse niveau 2 : Text mining Le Text Mining, base du Content Analytics, repose sur des contenus textuels Extraction Web : du formulaire Web au métadonnées textuelles Speach2Text : De la parole au texte Image2Text : OCR, ICR, Barcode, Qr code, … Video2Text : VCA = Speach2Text+ Image2Text++…
  • 11. Du texte au sens Extraction des entités nommées  Entités connus (listes d’autorité de produits, sociétés, …) Extraction des thématiques  Entités découvertes (par analyse)  Identifier les entités qui ne sont pas des entités nommées Extraction des opinions  Analyse des avis,  opinion mining,  sentiment analysis
  • 12. Analyse des sentiments Analyse globale  Un texte dégage une tonalité positive ou négative  Ex. Le beaujolais Nouveau est bon cette année Analyse fine  Difficultés lorsque plusieurs opinions sont exprimées:  Ex. Un avis sur un restaurant peut avoir une tonalité globalement positive sur la carte, l’accueil mais des réserves peuvent être négatives sur le prix
  • 13. Analyse des tendances Natural Language Processing chaque mot à une tonalité intrinsèque :  « aimer », « satisfait », « soulagement » sont positifs  « Craindre », « mécontent » « douleur » sont négatifs Cependant  Ce médicament me donne des douleurs  négatif  Ce médicament calme mes douleurs  positif  Ce médicament ne calme pas mes douleurs  négatif  J’espérais que ce médicament calmerait mes douleurs  négatif  Est-ce que cela a calmé tes douleurs?  pas de tonalité  Ce médicament est indiqué pour calmer les douleurs  pas de tonalité
  • 14. Analyse des tonalités Les adverbes inverse souvent la tonalité  Diminution des bénéfices  négatif  Augmentation des bénéfices  positif  Une augmentation scandaleuse des bénéfices du CAC40  négatif  Ce projet de loi devrait permettre e mettre un coup d’arrêt à l’augmentation scandaleuse des bénéfices du CAC40  Tonalité ??? L’analyse linguistique est indispensable pour résoudre ces ambiguïtés (composants morphologique, syntaxiques, sémantiques)
  • 15. Composants d’analyse Morphologique La tokenisation : identification des mots et des phrases d’un texte (découpage) Le tagging: identification de la catégorie (verbe, nom, adjectif, …) La lemmatisation : identification de la forme canonique des mots (ou lemme)
  • 16. Composants « syntaxiques » Analyse de surface d’une phrase (chuncking) Identification des frontières majeures et/ou de relations majeurs entre les mots. Ex: Entité nommé Les actionnaires d’Ever-Team ont décidé  Ever-Team est une société
  • 17. Composants « syntaxiques » Analyse de surface d’une phrase (chuncking) Ex . Règles pour reconnaitre un nom de personne:  « Prénom non ambiguë » suivi de « mot inconnu »  nom de personne. Ex. « Joseph Merheb »  « Prénom ambiguë » « mot inconnu »  « nom de personne ». Ex. Claire Merheb  « Prénom ambiguë « nom commun »  « nom de personne ». Ex. Claire Potier
  • 18. Composants « syntaxiques » Etiquetage fonctionnel (tagging)  Affectation de fonction grammaticale à un groupe de mots Analyse syntaxique (parsing)  Construction d’un arbre représentant la structure de la phrase complète  Ex. La société Ever-Team a pris une participation de 90% dans la société Creativ System [Société X]  (actionnaire de)  [société Y]
  • 19. Composants « sémantiques » Sélection du sens (WSD pour Word Sense Disambiguation)  Déterminer le sens de chaque mot Structuration logique : transformer la représentation syntaxique de la phrase en une forme prédicative: un prédicat et ses arguments (agent, but, lieu, …) Résolution des anaphores Ex. François Hollande à peine élu. Il a déjà rencontré Obama, après avoir vu Angela, il lui a parlé.
  • 20. Composants « sémantiques » Extraction de thématiques Le boucher propose du veau  thématique commerce alimentaire L’évier vient de se boucher  thématique plomberie Limites de l’exercice Les jumelles de ma voisine viennent de naître Ma voisine a des jumelles… elle s’en sert peu
  • 21. Catégorisation Méthodes basées sur l’apprentissage  Lors de l’arrivée d’un nouveau contenu, une ou plusieurs catégories lui sont affectées.  Nécessite l’existence d’un Corpus qui permet de construire un référentiel statistique (ES-CTS) Méthodes basées sur des profils linguistiques associées aux catégories  Définir des formules de recherche thématiques associées aux catégories.  Ex. Si recherche « mai 68 »  catégorie : manifestation
  • 22. Exceptions et signaux faibles Définition des Signaux faibles :  Relève souvent de la sphère de la veille (technologie concurrentielle, commerciale, environnementale, sociale, …)  Elément peu visible, inattendu, perdu dans la masse  Signal de faible fréquence, qu’un agent intérêt à détecter et à exploiter au plus tôt  surveillance à mettre en oeuvre Surveillance et détection  Proposition de candidats (fréquence d’apparition est en croissance)  Analyse dans l’espace temps  Pose de seuil d’alerte : passage du signal faible au signal fort
  • 23. Exceptions et signaux faibles Evolution du nombre de résultats de la recherche du buzz word "big data" via Google
  • 24. Simplifier et représenter Représentation des contenus  Gérer le niveau de détail : Corrélation entre la taille des données à analyser et le niveau de détail représenté  représenter des statistiques sur 22 régions de France / sur 36700 communes.  Définir le type de données à représenter:  Données brutes, numériques  Données calculées (comptage, somme, …)  Données annotées  Données habillées par du texte explicatif
  • 25. Simplifier et représenter Possibilité d’interactivité Dépendant du média : Zoomer, utiliser un curseur pour naviguer, un slider, … Possibilité d’utiliser des facettes Affectation de facettes sur les contenus pour permettre d’avoir une navigation synthétique et guidée
  • 28. Exemple d’application du Content Analytics Réduction des risques dans une compagnie d’assurance Amélioration de l’efficacité des investigations policières Réduction du taux d’attrition clients dans une société de telco Application d’une taxe écologiste e@reputation d’une personne, d’une marque, d’une société
  • 29. Réduction des risques dans une compagnie d’assurance  Les besoins  Détection et prévention de la fraude.  Meilleure analyse des risques.  La solution  Analyse des dossiers de traitement des dommages des 15 dernières années, plus de 15 sources différentes.  Détermination de profils et évolutions de comportements.  Les bénéfices  Proposition de catégorisation automatique des déclarations de sinistre selon niveau de risque et probabilité de tentative de fraude.  Traitement par exception et suivi des déclarations à risque.  Rapidité du traitement des dossiers.  Réduction des coûts.  Expertise croissante.
  • 30. Amélioration de l’efficacité des investigations policières  Les besoins  La partie rédactionnelle des déclarations d’homicides, des rapports d’investigations et d’expertises emploient des termes sans standardisation dépendant de chaque individu. Il n’est pas possible d’exploiter ces informations.  La solution  Analyse de l’ensemble de ces documents avec extraction d’informations permettant une caractérisation des faits indépendamment du mode de formulation de chaque auteur.  Les bénéfices techniques  Capacité de traiter une information volumineuse avec mise en évidence de corrélations (homicides, auteurs, …) permettant la résolution de dossiers, la détermination de profils et une approche prédictive du comportement criminel
  • 31. Réduction du taux d’attrition clients dans une société de telco  Les besoins  Accroitre la satisfaction clients.  Etre à l’écoute de la « Voix du client » pour identifier de nouvelles opportunités, éviter des ruptures de contrat par une réponse plus efficace aux incidents et la proposition de nouveaux services.  La solution  Analyse des rapports d’intervention du centre de support, des enquêtes de satisfaction et des messages clients.  Identification pour action des clients à risque de rupture.  Meilleur traitement des incidents fréquents par un site d’information.  Détermination de corrélations entre problèmes, comportements et offres  Les bénéfices  Diminution du taux d’attrition de 50 %.  Définition de nouvelles offres.  Amélioration du support.
  • 32. Application d’une taxe écologiste  Les besoins  Mettre en œuvre une taxe écologiste pour les véhicules qui circulent sur les routes nationales et les voies rapides françaises.  Gérer la volumétrie engendrée par l’émission des points de collecte de passage des usagers.  Etablir une taxe liée aux relevés de passage.   La solution  Collecte des points de passage des usagers.  Extraction des entités (lieux, point de passage, identité, …) pour établir la taxe.  Analyse des données par les organismes habilités au contrôle.  Archivage à valeur probatoire.   Les bénéfices techniques  Mise en place d’un mécanisme de calcul de la taxe basé sur l’utilisation du réseau routier.  Analyse des données pour optimisation de la taxe  Détection de la fraude.
  • 33. e@reputation e@reputation en B to C l’individu au cœur de la Big Data Ebay : notation des vendeurs e@reputation en B to B L’entreprise au cœur de la Big Data Valorisation des marques et du savoir faire
  • 34. APROGED Association des professionnels pour l ’économie numérique Site de l’APROGED : http:/www.aproged.org Courriel : contact@aproged.org Autres Publications à télécharger sur le site de l’APROGED DocuCloud E-Reputation B2B Ethique et Big Data Video Content Analytics Archivage sur le Cloud