Corpus et interfaces: comment penser le partage du sens

Quoi:
Talk
Quand:
mardi 14 août 10:00 AM (1 heure 15 minutes)
Discussion:
0
Cet article présente la plateforme #Idéo2017 (http://ideo2017.ensea.fr/plateforme/), qui répond au besoin sociétal d’une meilleure compréhension des événements sociaux, politiques, culturels. Les réseaux sociaux font de plus en plus partie du quotidien, notamment en ce qui concerne la « consommation » de l’information (Mercier, 2014). Le service de microblogging Twitter peut être considéré comme un indicateur pour connaître les réactions de ses utilisateurs sur des sujets sociaux (Longhi et Saigh, 2016 à sur la réforme du statut des intermittents), politiques (Longhi, 2014 ; Conover et al., 2011), économiques, etc. Par conséquent, on peut utiliser ces données textuelles pour extraire les émotions, les sentiments, les opinions, des utilisateurs (Kristen et Dan, 2016). Si des travaux universitaires ou industriels existent, les résultats sont difficilement accessibles pour les citoyens intéressés par ce thème. Il existe en parallèle certaines analyses présentées actuellement aux citoyens, mais elles sont déjà agrégées par les médias, médiées par des spécialistes, ou présentent des méthodologies et traitements relativement simples.

La méthodologie de la plateforme #Idéo2017 est la suivante:
- récupération des tweets sera faite via l’API Twitter puis stockage dans une base de données NoSql MongoDB;
- utilisation d'Elasticsearch pour stocker les données (Kononenko et al., 2014) : cela permet d’améliorer le temps de réponse de notre outil surtout lors de l’utilisation du moteur de recherche;
- pour la partie d’analyse linguistique et la visualisation des réseaux lexicaux, sémantiques, thématiques, nous utilisons certaines fonctionnalités du logiciel Iramuteq implémentées en PHP et disponibles en open source. Pour la réalisation de certaines analyses dans notre outil, nous apportons des modifications à l’implémentation d’Iramuteq;
- nous utilisons également PHP Word Cloud pour un nuage de mots et pChart ainsi que Kibana pour des graphiques permettant de visualiser les interactions dans les communautés, les évolutions temporelles, etc
En particulier, le moteur de recherche que nous développons a pour but de proposer à l’utilisateur des recherches intelligentes à facettes sur la totalité des tweets.

Afin de nous différencier du moteur de recherche présent sur l’interface de Twitter, nous avons conçu notre outil de recherche comme un système hybride, associant les réponses des tweets d'une recherche en temps réel à une synthèse de plusieurs tweets par agrégation de l'information via les facettes et les calculs linguistiques de clustering ou de nuages de mots.

Cette plateforme donne des éléments de réponse à la question du partage de sens, par le biais de la constitution de corpus: par l'agrégation et l'indexation automatique de flux, l'interface développée permet aux usages d'analyse les données, soit à travers le lexique employé (mots, associations de mots, mots et leurs dérivés, etc.), soit en fonction des auteurs des tweets émis.
Participant
Université de Cergy-Pontoise
Professeur

Mon horaire

Ajouter à votre horaire