Imprimer

623 - Sciences des données et sciences sociales : regards croisés

Le mardi 8 mai 2018

Le colloque portera sur l’utilisation des sciences de données en sciences sociales. Fondées sur les principes de la recherche reproductible, les sciences de données se présentent comme une discipline transversale pouvant lier des champs de recherche autrefois considérés en silos. 

Depuis le début du 21e siècle, nos sociétés connaissent des transformations en profondeur : évolution du marché du travail, habitudes de communication, rôle de la formation permanente, etc. Tandis que la 4e révolution technologique est portée principalement par des innovations technologiques (amélioration des processeurs informatiques, de la capacité de stockage et d’analyse des données), mais aussi par un changement structurel découlant de la démocratisation d’Internet et des modes de consommation et de production de l’information, les questionnements de recherche évoluent aussi.

Ces questions serviront de base au déroulement du colloque proposé. Articulé en deux volets, le colloque présentera un panorama de l’évolution des méthodologies de recherche en sciences des données et les portées et limites de leur utilisation en sciences sociales. Il proposera ensuite des résultats de recherches universitaires appliquées à différents champs de recherche.

Lire la suite »
Remerciements

Nous remercions HEC Montréal, le Centre interuniversitaire de recherche en analyse des organisations (CIRANO) et le Centre interuniversitaire québécois de statistiques sociales (CIQSS) pour leur soutien à la recherche en Science des données pour les sciences sociales et à l'organisation de ce colloque.  

Colloque
Section 600 - Colloques multisectoriels
Responsables
Thierry Warin
HEC Montréal
Polytechnique Montréal
Afficher tous les résumés
Avant-midi
09 h 00 à 12 h 00
Communications orales
Exemples d’application des sciences des données aux sciences sociales
Présidence/Animation : Thierry Warin (HEC Montréal)
Batiment : UQAC
Local : H0-1090
09 h 00
Mot de bienvenue du président du CRSH
Ted Hewitt
09 h 15
La révolution des Sciences des données dans les Sciences sociales
Thierry Warin (HEC Montréal)
09 h 45
Les défis d'ingérer 400 millions de points par jour
10 h 15
Pause
10 h 45
Populisme et intégration européenne : une analyse de Science des données des doctrines de partis politiques
William SANGER (Polytechnique Montréal), Thierry Warin (HEC Montréal)

Bien que le processus d'intégration européenne ait été confronté à de nombreux défis, il semble que ceux à venir pourraient être plus déterminant quant à son avenir. Depuis la crise financière de 2008, l’Europe a mis en place un ensemble de nouvelles réglementations et d’institutions afin d’apporter une réponse crédible. Les crises de la dette souveraine ont par la suite rouvert le débat sur la légitimité du projet européen, accélérées par des chocs externes comme la crise des réfugiés. Celle-ci a été utilisée pour promouvoir la renationalisation du contrôle politique, ayant écho le 23 juin 2016, lors du vote du Brexit.

Comment l’intégration européenne se reflète-t’elle à travers les plateformes électorales des partis politiques en Europe? Quelles sont les positions des partis à l’extrémité du spectre politique et comment évoluent-elles depuis deux décennies?

Pour répondre à ces questions, nous utilisons une base de données qui agrège l’ensemble des manifestes politiques depuis 1945. Nous mesurons le degré de similitude entre les propositions des différents partis politiques, puis développons un modèle économétrique pour mettre en relation le succès électoral et le sentiment d’intégration européenne. Les algorithmes de science de données permettent de comparer un ensemble de textes écrits en plusieurs langues, de créer des indicateurs basés sur des données non structurées et d’observer les variations au sein de l’Union européenne depuis le début des années 2000.

Résumé
11 h 15
Le forage de données (Data Mining), une approche pour adresser la complexité dans les grandes bases de données liées au vieillissement
Maimouna Bagna (UdeS - Université de Sherbrooke)

L'un des défis majeurs de la recherche sur le vieillissement est l’interaction complexe des mécanismes biologiques, psychologiques et sociologiques impliqués dans le processus. Pour mieux comprendre cette complexité, il faut mettre en œuvre une approche intégrative, capable de jumeler plusieurs domaines de connaissances et de recherche afin de mieux appréhender leur interaction. Aujourd’hui, avec le nombre grandissant des bases de données liées au vieillissement disponibles, cette approche intégrative devient possible, en autant que des méthodes d’analyse suffisamment puissantes soient utilisées.

Les techniques de forages de données (Data Mining), sciences issues de l’informatique et de l’IA, sont basées sur l’apprentissage à partir des données (Data-driven Knowledge Discovery Methods). Ce sont de puissantes techniques automatiques qui permettent de générer de nouvelles connaissances et proposer de nouvelles hypothèses. Considérant notre démarche pluridisciplinaire et multidimensionnelle pour adresser la complexité du vieillissement, ces techniques sont toutes indiquées.
Cette présentation a donc pour but d’introduire les méthodes de forage de données et d’illustrer les résultats de leur application pour le profilage des patrons de vieillissement dans la cohorte de NuAge, une étude longitudinale populationnelle québécoise, ainsi que dans l’échantillon de l’Enquête sur la Santé dans les Collectivités Canadiennes-ESCC-Vieillissement en santé, de Statistiques Canada.

Résumé
11 h 45
Discussion
Dîner
12 h 00 à 13 h 30
Dîner
Dîner
Batiment : UQAC
Local : Dîner libre
Après-midi
13 h 30 à 17 h 00
Communications orales
Sciences des données et sciences sociales : portées et limites
Présidence/Animation : William SANGER (Polytechnique Montréal)
Batiment : UQAC
Local : H0-1090
13 h 30
L’Infrastructure intégrée des microdonnées historiques de la population québécoise : une ressource pour le jumelage et l’analyse des données d’état civil et de recensement
Hélène Vézina (UQAC - Université du Québec à Chicoutimi)

Le Québec a l'avantage d'une ressource documentaire exceptionnelle et remarquablement bien conservée : les actes de naissance, de mariage et de  décès enregistrés par l’Église catholique depuis les débuts de la colonisation française au 17e siècle. Il y a 50 ans, le Programme de recherche en démographique historique (PRDH) à l’Université de Montréal et BALSAC à l’Université du Québec à Chicoutimi, entamaient la saisie et le jumelage de ces actes d’état civil dans le but de constituer des fichiers de population. Plus récemment, des données québécoises provenant des recensements historiques canadiens (1852‐1911) ont été informatisées par le Centre interuniversitaire d’études québécoises (CIEQ). Née du partenariat développé entre ces trois groupes, l’Infrastructure intégrée des microdonnées historiques de la population québécoise (IMPQ) vise à mettre en commun ce patrimoine historique et scientifique unique et à favoriser son accessibilité à la communauté scientifique notamment par le développement d’un portail d’accès Web et par la création d’outils de jumelage et d’analyse. Le vaste ensemble d’informations biographiques colligées dans l’IMPQ ouvre de nouvelles perspectives de recherche sur la base des trajectoires individuelles au sein des familles, des ménages et des communautés, et ce, selon une approche multi-générationnelle.

Résumé
14 h 00
Une visualisation des données des publications qui traitent des impacts du gaz de schiste sur la santé et l'environnement aux Etats-Unis
Christophe Mondin (CIRANO), Nathalie De Marcellis - Warin (Polytechnique Montréal), Ann Backus (Harvard T. Chan School of Public Health), Thierry Warin (HEC Montréal)

Les États-Unis sont le seul pays au monde où la fracturation hydraulique, une méthode de production d’hydrocarbures non-conventionnelle, s’est fortement implantée et continue à se développer à grande vitesse.
A l’inverse, de nombreux gouvernements restent prudents face à l’exploitation des huiles et gaz de schiste, le recours aux techniques de fracking s’accompagnant de sérieuses préoccupations face aux risques pour la santé publique et l’environnement.
Sous la forme de cartes, FrackProject présente trois niveaux d’analyse de cette industrie : (1) FrackMap avec ses données empiriques et économiques relatives à l'activité de l'industrie); (2) FrackBiblio avec ses données non-structurées et localisées issues de la revue de littérature systématique; (3) FrackTweet avec ses données non-structurées et localisées issues des réseaux sociaux. Localiser les données sert à produire des cartes interactives, offrant un prisme d’analyse des différents enjeux relatifs à l’industrie de la fracturation hydraulique. En illustrant les préoccupations des scientifiques ainsi que celles du public sous forme de cartes, FrackProject présente une nouvelle perspective au sujet et permet d'informer le public et les décideurs (e.g. soutenir les politiques publiques).
 

Résumé
14 h 30
Brevets pharmaceutiques en Chine : une perspective de Science des données
Charlotte Vorreuther (HEC Montréal), Thierry Warin (HEC Montréal)

Depuis 2015, la Chine est le premier pays devant les États-Unis en termes du nombre de brevets soumis chaque année. Le gouvernement Chinois joue un rôle important dans ce projet de réduction de la dépendance du pays à la R&D internationale ou de l'attractivité de l'économie chinoise aux innovations mondiales. Cet article a pour but d’explorer les spécificités de l’innovation en Chine à travers le cas de l’industrie pharmaceutique. Plusieurs champs de la littérature sont mobilisés : les dynamiques de l’innovation, l’internationalisation de la R&D, l’innovation ouverte et, finalement, le concept de transfert des connaissances. En termes méthodologiques, afin de caractériser les dynamiques d’innovation au sein de l'industrie pharmaceutique en Chine, une nouvelle technique issue de la Science des données est utilisée: l’analyse de texte sur l’ensemble des brevets. L’objectif est d’obtenir une compréhension plus précise de ce qu’est l’innovation en Chine. La base de données collectée est constituée de 238,000 brevets pharmaceutiques du Derwent World Patent Index entre 1990 et 2017, et constitue ainsi une source de données non-structurées. La contribution de ce mémoire est double : d’une part méthodologique, à travers l’utilisation de la Sciences des données appliquées aux sciences sociales, d’autre part thématique, de part la cartographie de l’innovation en Chine au regard de l’industrie pharmaceutique.

Résumé
15 h 00
Pause
15 h 15
Une cartographie des brevets en intelligence artificielle
Romain Le Duc (HEC Montreal & CIRANO), Thierry Warin (HEC Montréal), William SANGER (Polytechnique Montréal)
15 h 45
Fintech et analyse des données : les robots conseillers
Paul Daigle (HEC Montréal), Robert Normand (CIRANO )

Depuis Markowitz, l’écart-type des rendements est utilisé comme la mesure principale de risque pour construire les portefeuilles financiers. La prémisse est que la corrélation est un indicateur parfait pour évaluer les interactions entre les différents actifs. Cependant, dans des environnements informationnels incomplets et imparfaits, des défis apparaissent. Dans un contexte de transformation numérique des processus via l’apprentissage machine, de nouvelles méthodes émergent pour essayer de résoudre ces défis. Parmi eux, les réseaux Bayesiens utilisent la parenté des variables pour inférer une forme de causalité et surtout capturer les dynamiques informationnelles, en utilisant les probabilités conditionnelles. Ce papier de recherche vise à évaluer la viabilité des réseaux Bayesiens pour la gestion des risques, notamment via des simulations de scénarios. Les rendements historiques des 500 compagnies du S&P500 sont utilisés avec ceux de l’indice et des différents secteurs industriels afin de bâtir des réseaux Bayesiens. Dans un premier temps, nous testons l’efficacité de ces réseaux en comparant les distributions conditionnelles (des rendements des compagnies sur ceux du S&P500) prédites et celles historiques, via un test de Pearson (Chi-carré). Les modèles traditionnels tels que le CAPM ou les modèles multi-facteurs sont aussi testés et comparés. Dans un second temps, nous effectuons la même procédure pour les rendements des compagnies entre elles.
 

Résumé
16 h 15
Discussion
16 h 45
Mot de clôture