Imprimer

605 - Analyser la science : les bibliothèques numériques comme objet de recherche

À l’ère d’Internet, l’accès à un volume conséquent de publications a des incidences sur le travail des chercheurs, leur positionnement dans la communauté internationale, l’évaluation de la recherche et les modèles économiques sous-jacents.

Le développement des données en libre accès (open data) ainsi que les bibliothèques, archives et musées en ligne ne sont que quelques exemples illustrant l’évolution de la notion de texte ou de document, sa diversité et sa prolifération.

Des collections issues de bibliothèques traditionnelles sont maintenant accessibles librement, comme Gallica et Digital Public Library of America. À ce type de bibliothèques numériques s’ajoutent les publications savantes, qui sont une part importante des publications numériques. Des acteurs francophones importants ont vu le jour aussi bien au Canada qu’en France (Persée, Cairn.info, HAL et Érudit). De récentes initiatives nationales ont également permis le développement d’importantes archives scientifiques (ISTEX en France, Swissbib en Suisse, GBV en Allemagne et Scholars Portal en Ontario) ou muséales (Europeana et Musée virtuel du Canada).

Parallèlement, les méthodes automatisées de traitement se diversifient et se spécialisent : fouille de texte, méthodes d’apprentissage profond (deep learning) pour traiter des données massives et transformation d’informations en données liées. Cependant, de nombreuses questions restent en suspens, notamment en ce qui concerne la gestion de gros corpus multithématiques. Pouvoir disposer d’outils d’analyse efficaces capables de s’adapter à de gros volumes de données, souvent de nature hétérogène et non toujours structurés, dans des langues variées et des domaines très spécialisés, reste un défi.

Le traitement des données numériques implique de multiples domaines (traitement automatique des langues, intelligence artificielle, linguistique, statistiques et informatique), permettant des applications diversifiées : recherche d’information, veille, évaluation de programmes de recherches, prospective, etc.

Lire la suite »
Colloque
Section 600 - Colloques multisectoriels
Responsables
UdeM - Université de Montréal
CNRS - Centre national de la recherche scientifique
Afficher tous les résumés
Avant-midi
08 h 30 à 09 h 45
Communications orales
Conférence invitée
Présidence/Animation : Pascal Cuxac (CNRS - Centre national de la recherche scientifique)
Batiment : (T) TROTTIER
Local : (T) 2120
08 h 30
Mot de bienvenue
Lyne Da Sylva (UdeM - Université de Montréal)
08 h 45
Mesure du libre accès aux articles scientifiques : un exercice complexe
Eric Archambault (Science-Metrix)

À ce jour, pratiquement toutes les mesures effectuées sur le libre accès aux articles scientifiques ont utilisé des échantillons, souvent de taille réduite. Or, en bibliométrie la tradition est plutôt de produire des statistiques à partir de banques de données dont on considère l’ensemble du contenu, par exemple en se servant du Web of Science (Clarivate Analytics). 1science et Science-Metrix, deux entreprises montréalaises, ont combiné leurs efforts pour amorcer l’ère de la mesure du libre accès à l’échelle d’une quasi-population d’articles. Cette présentation décrira la définition du libre accès utilisée dans l’étude, fera état des difficultés spécifiques à la mesure du libre accès, et présentera des résultats exclusifs sur l’état du libre accès au Québec, au Canada et dans le monde.

Résumé
10 h 00 à 12 h 00
Communications orales
Pratiques communicationnelles
Présidence/Animation : Pascal Cuxac (CNRS - Centre national de la recherche scientifique)
Batiment : (T) TROTTIER
Local : (T) 2120
10 h 00
Constitution et exploitation du corpus NLP4NLP pour l’analyse bibliométrique de 50 ans de recherche en traitement automatique de la parole et du langage naturel
Joseph MARIANI (CNRS), Gil Francopoulo (Tagmatica), Patrick Paroubek (LIMSI - CNRS)

Nous avons constitué le corpus NLP4NLP pour étudier le contenu des publications scientifiques dans le domaine du traitement automatique de la parole et du langage naturel. Il contient les articles publiés dans 34 conférences et revues principales du domaine, sur une période de 50 ans (1965-2015), comprenant 65.000 documents, rassemblant 50.000 auteurs et représentant environ 270 millions de mots. La plupart de ces publications sont en langue anglaise, certaines en français, en allemand ou en russe. Certaines sont en accès libres, d’autres ont été fournies par leurs maisons d’édition. Pour constituer et analyser ce corpus, plusieurs outils ont été utilisés ou développés. Certains d’entre eux utilisent des méthodes de traitement du langage naturel qui ont été publiées dans le corpus, d’où son nom. Il a été nécessaire d’effectuer de nombreuses corrections manuelles qui ont montré l’importance d’établir des normes permettant d’identifier de manière unique les auteurs, les publications, les données ou les sources. Nous avons conduit différentes études : évolution au fil du temps du nombre d’articles et d’auteurs, collaborations entre auteurs, citations entre papiers et entre auteurs, évolution des thèmes de recherche et identification des auteurs qui les ont introduits, détection des innovations et des ruptures épistémologiques, réutilisation des articles et plagiat, utilisation des ressources linguistiques, dans le cadre d’une analyse globale ou comparative entre sources.

Résumé
10 h 30
Typologie du blogging scientifique : étude exploratoire sur Hypotheses.org
Elsa Poupardin (Université de Strasbourg), Evelyne Broudoux (Equipe de recherche Dicen. Conservatoire National des Arts et Métiers )

Les recherches qualitatives sur le blogging de chercheurs, leurs motivations et leurs influences sont encore peu nombreuses. En France, le bouquet de blogs « Hypothèses.org » créé par le Cléo héberge depuis 2008 des « carnets de recherche » en SHS. Ouvrir un carnet procède de différents objectifs : accompagnement d’un programme de recherche ou d’études de terrain, réflexions argumentées sur des thématiques disciplinaires, sont parmi les plus représentés. Les 1722 blogs actuellement sur la plateforme sont répartis en 17 catégories, choisies par les auteurs à l’ouverture de leur blog. L'étude quantitative menée dans le cadre d’un projet de recherche sur l’écosystème scientifique numérique porte sur la catégorie « Carnets de chercheurs » qui regroupe 257 blogs francophones publiés jusqu’en décembre 2016. Une première typologie de ces blogs en sciences humaines sera proposée. L’hypothèse posée que se mettent en place des dynamiques citationnelles commencera d’être étudiée dans la seconde partie de ce travail.
Les blogs du corpus construisent une pensée, installent et mettent à l’épreuve des concepts théoriques, en s’appuyant sur des références, en choisissant certains termes spécialisés. Les citations explicites (liens hypertextes) ou implicites (simple nom d’auteurs ou d’œuvres) sont les marques qui nous intéressent tout comme celles qui signalent l'intérêt du blogueur pour ses lecteurs (vulgarisation, explication, argumentation, etc.) confrontant des concepts ou des idées.

Résumé
11 h 00
BAnQ numérique comme partie intégrante d’un écosystème de services innovants
Jean-François Gauvin (Bibliothèque et Archives nationales du Québec), Marielle St-Germain (Bibliothèque et Archives nationales du Québec (Canada))

Projet phare de l’horizon 2020 de Bibliothèque et Archives nationales du Québec (BAnQ),
BAnQ numérique (numerique.banq.qc.ca) a comme objectif de rendre accessible l’ensemble des
ressources numériques du patrimoine documentaire conservé par l’institution ainsi que les
ressources sous licence, telles que les livres numériques et les bases de données faisant partie de
son offre.
La constitution d’une bibliothèque numérique est le premier jalon de la stratégie numérique de
BAnQ qui s’appuie sur une structure réfléchie dont l’objectif est de permettre d’assurer et de
faciliter l’accès à l’information, la préservation du patrimoine documentaire numérique, la
découverte, la recherche, le partage, le décloisonnement des contenus et l’enrichissement de
l’expérience usager. Ainsi, à cette structure s’ajoutent, complémentaires à BAnQ numérique, des
projets tels que le dépôt numérique fiable, basés sur la norme Open Archival Information System
(OAIS), ainsi qu’une plateforme visant la publication de données ouvertes et de données
ouvertes et liées (Linked Open Data). La mise sur pied de ces services n’est évidemment pas
sans défi et implique une réflexion nouvelle quant au traitement des documents et des
métadonnées qui y sont rattachées.
Nous présenterons d’abord cette nouvelle façon d’envisager la bibliothèque numérique au sein de
BAnQ ainsi que les projets en développement qui s’y rattachent, formant un écosystème de
services cohérent et innovant.

Résumé
11 h 30
Open Science et présence numérique en sciences humaines et sociales
Camille Prime-Claverie (Université Paris 10 Nanterre), Annaïg Mahé (Urfist de Paris (France))

Dans la mouvance de la science ouverte qui vise un meilleur accès aux publications, aux résultats et aux données de la recherche, leur partage et leur réutilisation, différents dispositifs communicationnels à destination de la communauté scientifique ont vu le jour : archives ouvertes, réseaux sociaux de chercheurs, plateformes de blogging scientifique, etc. Qu’ils soient portés par des initiatives privées (ResearchGate, Academia.edu, etc.) ou publiques (HAL, OpenEdition), les chercheurs se les approprient avec des stratégies et motivations différentes.

Cette communication s’inscrit dans un programme de recherche qui vise l’étude des pratiques communicationnelles et de mise en visibilité des chercheurs en sciences humaines et sociales dans le nouvel écosystème scientifique numérique. Elle présente un travail en cours qui a pour objectif d’étudier du point de vue des acteurs les interactions entre la plateforme Hypothèses.org et l’archive ouverte HAL-SHS. Il s’agira d’évaluer le degré d’investissement et d’implication des chercheurs sur ces plateformes afin d’en dégager des comportements types.

Pour cette étude, nous adoptons une démarche quantitative et travaillons sur deux corpus extraits par le protocole OAI-PMH : le premier, constitué des billets de blogs de la plateforme Hypothèses.org postés en 2015. Le second regroupant l’ensemble des notices déposées dans HAL-SHS (2002-2015).

Résumé
Dîner
12 h 00 à 13 h 15
Dîner
Dîner
Après-midi
13 h 15 à 15 h 15
Communications orales
Usages et usagers
Présidence/Animation : Pascal Cuxac (CNRS - Centre national de la recherche scientifique)
Batiment : (T) TROTTIER
Local : (T) 2120
13 h 15
Usages des bibliothèques numériques : interroger la genèse instrumentale de leur interopérabilité technocentrée
Antoine Henry (Aix-Marseille Université), Fabrice Papy (IRSIC (EA 4262) & Université de Lorraine (France)), Edwige Pierot (IRSIC (EA 4262), Université Aix-Marseille (France))

Ancrées dans les SHS, les questions relatives aux usages se posent légitimement aux bibliothèques numériques (BM) considérées avant tout comme des objets sociotechniques et socioculturels. Ces questionnements s’imposent d’autant plus que les usages des BM demeurent incertains. Élaborés sur une transposition illusoire de la bibliothèque physique, ces artefacts techno-documentaires imposent une désintermédiation aux usagers au profit d'une interaction instrumentée de la RI par les TIC. L’interopérabilité technocentrée de ces BM paroxyse la désintermédiation et malmène acceptabilité et utilisabilité. De nombreuses recherches soulignent que les usagers ne parviennent pas à s’approprier les dispositifs qui devraient répondre à leurs attentes d’association et de contextualisation de l’information que les actions en faveur de l’Open Data et des Linked Open Data encouragent. Parmi les technologies du Web présentes dans les BM patrimoniales, l’architecture REST est négligée alors que les GAFA l’utilisent – et la mettent à disposition - dans leurs BM pour améliorer l’appropriation de leurs services. A la lumière des travaux de P. Rabardel sur les genèses instrumentales et le nécessaire assujettissement de l’instrument aux formes de l’organisation du travail, les API REST, en réajustant la vocation de l’interopérabilité technologique, sont de nature à réhabiliter l’usage réel des BM et à offrir aux usagers des instruments adaptés à leurs activités constructives.

Résumé
13 h 45
Une production documentaire au service de l’usage? L’évolution du système d’information de l’Institut national de l’audiovisuel (INA)
Eleonore Alquier (Institut national de l'audiovisuel )

Établissement public français consacré à la conservation du patrimoine radio- et télédiffusé, et plus largement, audiovisuel, l’INA s’est positionné dès les années 1990 comme une structure documentaire résolument numérique, proposant à ses usagers des outils experts d’interrogation des fonds, mais aussi d’appropriation de ceux-ci par constitution de corpus, segmentation de contenus audiovisuels… L’analyse des usages occupant dès l’origine une place centrale, la conception d’interfaces de consultation adaptées aux différents besoins a permis de balayer un spectre large, depuis les professionnels (journalistes, producteurs) en attente d’un résultat unique et pertinent, jusqu’aux chercheurs du monde académique, avides de collections massives sur lesquelles mener des analyses tant qualitatives que quantitatives.

Alors que l’Ina procède depuis plus de 15 ans à la numérisation systématique de ses collections, la refonte de son modèle de données documentaires interroge aujourd’hui l’évolution des pratiques documentaires. L’intégration annoncée de procédés automatiques de transcription, détection d’entités nommées, reconnaissances de sons et d’images, peut-elle garantir un niveau homogène dans la qualité des métadonnées ? Comment cette entrée progressive dans l’univers, sinon du big, au moins du Linked Data, trouve-t-elle son articulation avec le respect de la propriété intellectuelle et avec les évolutions réglementaires françaises touchant à l’ouverture des données publiques ?

Résumé
14 h 15
Vidéoethnographie des usages de la bibliothèque numérique Gallica : une exploration au plus près de l’activité
Nicolas Rollet (Télécom ParisTech), Valérie Beaudouin (Télécom ParisTech (France)), Isabelle Garron (Télécom ParisTech.)

Dans le cadre d’un projet associant la Bibliothèque nationale de France, le labex Obvil et Télécom ParisTech, plusieurs modalités d’enquête (entretiens, questionnaire en ligne, vidéo-ethnographie) ont été mobilisées pour mieux appréhender les publics en ligne. En particulier, poussés par le souhait de renouveler les manières d’étudier les usages des bibliothèques en ligne, nous nous sommes orientés vers une approche vidéo-ethnographique, afin de documenter comment des utilisateurs organisaient leur consultation de la bibliothèque Gallica en situation. Nous avons mobilisé le protocole SEBE (Subjective Evidence Based Ethnography), développé par Saadi Lahlou, qui combine prise de vue subjective et entretien d’autoconfrontation – auprès d'une dizaine de personnes. Cette approche permet de documenter l'usage de Gallica d’une façon inédite, dans la mesure où les personnes sont invitées à reconstituer leurs raisonnements, à expliciter à chaque instant quels étaient leurs buts.
Nous nous sommes en particulier intéressés à deux aspects de l'usage : 1) les processus d'évaluation et de catégorisation en jeu dans les résultats d'une recherche, dans la consultation d'une liste, ou dans la perception d'un document 2) la dimension écologique de l’usage de Gallica, qui s'inscrit dans un contexte de multiactivité (à l'écran et hors écran) fait d'interruptions, de bifurcations et de collaborations, renforçant son analyse en tant que pratique sociale.

Résumé
14 h 45
Une cyberinfrastructure numérique et humaniste pour analyser et diffuser la science
Jacques Ducloy (Universté de Lorraine), Thierry Daunois (Direction des partenariats, Université de Lorraine (France)), Ali Tebbakh (Paragraphe, Université Paris 8)

Avec le soutien du programme ISTEX, le démonstrateur Wicri expérimente l’élaboration d’informations de synthèse en explorant des corpus scientifiques. Son socle est un réseau de wikis sémantiques (Semantic MediaWiki). Les corpus sont traités dans des plateformes de curation et d’exploration, fabriquées, sous Unix, avec une bibliothèque de composants XML ou PHP. Avec un haut niveau de personnalisation, la version actuelle permet de fusionner des métadonnées hétérogènes (ISTEX, HAL, Pascal/Francis, PubMed, PubMed Central) avec réduction des doublons et homogénéisation des données. Il est possible ensuite d’exploiter le texte intégral.

Le rédacteur, humaniste numérique, est le véritable pilote d’une étude. Il bénéficie des performances de MediaWiki pour rédiger un texte scientifique en mode collaboratif. Il assemble des briques XML pour obtenir des modèles wiki contenant des cartes et des tableaux de résultats qu’il introduira dans les pages wiki. Il manipule l’environnement sémantique pour exprimer les règles utilisées dans la curation des données.

Cette infrastructure, encore expérimentale, est notamment utilisée pour des travaux dirigés dans des Master en science de l’information. Sur des sujets en rapport avec le contenu des wikis thématiques (environnement, linguistique, informatique…) ou régionaux (Allemagne, France, Brésil, Lorraine…), un groupe d’étudiants peut ainsi analyser un ensemble de plusieurs milliers de documents et rédiger des observations synthétiques.

Résumé
15 h 30 à 17 h 00
Communications orales
Web sémantique et données ouvertes liées
Présidence/Animation : Pascal Cuxac (CNRS - Centre national de la recherche scientifique)
Batiment : (T) TROTTIER
Local : (T) 2120
15 h 30
DOLMEN : Données ouvertes liées pour un meilleur accès aux collections virtuelles des musées canadiens
Alexandre FORTIER (Université McGill), Elaine Ménard (School of Information Studies, Université McGill (Canada))

Le projet DOLMEN (Données Ouvertes Liées : Musées et Environnement Numérique) propose d’examiner les éléments essentiels à la description des objets muséaux et de modéliser ceux-ci à l’aide de données ouvertes liées (DOL). Traditionnellement, les musées offrent à leurs usagers des descriptions limitées à quelques informations textuelles décrivant les objets muséaux. Des informations complémentaires sur l’œuvre ou son créateur ne sont pas nécessairement offertes aux usagers. L’utilisation des DOL semble une solution idéale pouvant améliorer ces descriptions. Cette proposition trace un portrait des éléments utilisés par les musées pour la description de leurs collections en ligne. Pour cette étape, les collections de 266 musées canadiens ont été examinées. Les métadonnées associées à une dizaine d’objets ont été extraites et compilées. L’analyse révèle que quatre types d’objets sont présents dans les collections (œuvres d’art, objets fonctionnels artisanaux, objets fonctionnels industriels et documents) et que certaines métadonnées sont associées aux quatre types, alors que d’autres sont exclusives à un type particulier. Les résultats de cette première phase du projet constituent le fondement du modèle des DOL et indiquent que sa création doit tenir compte de la disparité des types d’objets. Ce projet se veut donc un tremplin vers le Web sémantique et de nouveaux outils permettant de rendre les collections culturelles et patrimoniales mieux accessibles aux générations futures.

Résumé
16 h 00
Les collections muséales au service de la science : une analyse de la collection d’instruments scientifiques historiques de l’Université Harvard
Maxime Sainte-Marie (UQAM - Université du Québec à Montréal), Jean-François Gauvin (Collection of Historical Scientific Instruments, Harvard University (États-Unis)), Vincent Larivière (École de bibliothéconomie et des sciences de l'information, Université de Montréal)

À l’ère numérique, si la plupart des musées maintiennent une base de données de leur collection, certains vont jusqu’à la rendre accessible en ligne, permettant ainsi aux internautes de la consulter et de s’enquérir au sujet d’artefacts particuliers. La Collection of Historical Scientific Instruments (CHSI) de l’université Harvard, comprenant plus de 20,000 objets datant du 15e au 20e siècles, est de ce nombre: que ce soit en ligne (http://waywiser.rc.fas.harvard.edu) ou à des fins internes, le EMuseum de la CHSI permet d’accéder en ligne à une grande quantité d’informations sur les artefacts qu’elle possède.
D’un intérêt scientifique certain, cette collection offre la possibilité, moyennant une analyse de données adéquate, de révéler des informations intéressantes sur l’évolution des pratiques scientifiques. Toutefois, à l’instar des autres interfaces muséales, le EMuseum n’est pas conçu à des fins de forage de données muséales. En vue de pallier cette lacune, le présent projet consiste à dresser un portrait global du EMuseum, basé sur une analyse tripartite des artefacts de la collection, du réseau social qui les entoure et de la littérature s’y rapportant. À terme, ce projet vise à convaincre les autres musées des sciences de collaborer à la mise en commun de leurs bases de données, initiative qui permettrait d’élargir les perspectives de recherche en matière d’histoire des sciences et de la technologie.

Résumé
16 h 30
Bibliothèque du Réseau francophone numérique : étude sémiotique de ses données ouvertes liées
Lyne Da Sylva (UdeM - Université de Montréal), Marielle Saint-Germain (EBSI, Université de Montréal (Canada))

Le Réseau francophone numérique (RFN, rfnum.org), fondé en 2006 par un groupe de six pays de la Francophonie, a pour mission de favoriser la numérisation de documents patrimoniaux francophones et de faciliter leur consultation en ligne. Le réseau compte dix-sept pays à ce jour. Un des projets du réseau a été la création d’une bibliothèque numérique (BN), soit un ensemble de documents numérisés dont les métadonnées ont été encodées en données ouvertes liées (Linked Open Data). Les métadonnées des 522 documents, hébergés dans les sites des membres respectifs, sont disponibles par requête SPARQL ou accès OAI-PMH (Open Archives Initiative-Protocol for Metadata Harvesting).

Dans le but d’étudier le processus de communication à l’œuvre dans la création des BN, notre étude s’intéresse aux choix méthodologiques manifestes dans la formulation des données ouvertes liées de la BN. Spécifiquement, nous étudions les propriétés sémiotiques (soit sémantiques et informationnelles) de ces données liées.

Nous présenterons les caractéristiques saillantes des documents de la BN (qui inclut journaux, livres, revues, cartes et plans, images et matériel audiovisuel) par le biais de leurs métadonnées. Puis, puisant à la théorie de la sémiotique, nous analyserons les signes sélectionnés par chaque groupe national, mettant en relief la représentation de la communauté visée et donc les enjeux de la diffusion de ces documents. Ce court exercice esquissera une approche méthodologique sémiotique novatrice.

Résumé
Afficher tous les résumés
Avant-midi
08 h 30 à 09 h 45
Communications orales
Conférence invitée
Présidence/Animation : Lyne Da Sylva (UdeM - Université de Montréal)
Batiment : (T) TROTTIER
Local : (T) 2120
08 h 30
Accueil
Pascal Cuxac (CNRS - Centre national de la recherche scientifique)
08 h 45
Extraction ouverte d’information : de Wikipédia à Érudit
Philippe Langlais (UdeM - Université de Montréal)

Tirer parti de la masse grandissante de textes disponibles sur la toile constitue un enjeu tant universitaire qu'industriel. Dans cette présentation, nous proposons un tour d’horizon des travaux en extraction ouverte d’information, en prenant soin d’en montrer les limites. Nous décrivons ensuite des scénarios d’utilisation de ces technologies pour les sciences humaines. Nous nous appuyons sur une expérience réalisée au RALI dans laquelle l’information extraite de Wikipédia a été mise à profit pour étiqueter des entités extraites de la base documentaire d’Érudit. 

 

Résumé
10 h 00 à 12 h 00
Communications orales
Extraction de métadonnées
Présidence/Animation : Lyne Da Sylva (UdeM - Université de Montréal)
Batiment : (T) TROTTIER
Local : (T) 2120
10 h 00
Indexer les entités nommées dans une volumineuse bibliothèque numérique scientifique multidisciplinaire
Anubhav Gupta (Université de François Rabelais), Denis Maurel (Laboratoire d’informatique, Université François-Rabelais de Tours (France))

Cette communication porte sur la recherche des entités nommées dans une volumineuse bibliothèque numérique scientifique multidisciplinaire. L'objectif étant de permettre une interrogation avancée de cette bibliothèque en accompagnant le mot clé recherché d'une catégorisation. Par exemple la requête "Washington - nom de personne" évitera de retrouver des textes parlant de la ville ou de l'état, ou comprenant une adresse. De même la requête "2005 - date" ne retournera pas les textes citant dans la bibliographie un article de 2005, mais des articles comprenant une mention de l’année 2005 elle-même. Les entités, catégorisées et quantifiées, sont enregistrées, au format TEI stand-off, dans un fichier externe propre à chaque article.
Nous utilisons un système à base de règles, des cascades de graphes sur la plateforme libre Unitex. Les systèmes par apprentissage nécessiteraient trop de textes annotés, étant donné la grande diversité de la base. Ces graphes décrivent le contexte des entités nommées pour les repérer. Nous avons implanté un nouveau type de graphes, le graphe de généralisation d’étiquetage, qui généralise dans un article (et dans celui-là seulement) les entités déjà repérées au moins une fois par leur contexte. Par exemple, un article comprenait 25 fois la mention HCR (Haut-commissariat aux réfugiés), mais seulement 3 fois avec un contexte permettant de l’identifier. L'utilisation de ces nouveaux graphes a permis la bonne quantification dans le fichier stand-off.

Résumé
10 h 30
Identification des terrains d’études dans les corpus scientifiques
Eric KERGOSIEN (Université Lille 3), Maguelonne Teisseire (IRSTEA, UMR TETIS (France)), Marie-Noëlle Bessagnet (LIUPPA, Université de Pau et des Pays de l’Adour (France)), Joachim Schöpfel (GERiiCO, Université Lille (France)), Amin Farvardin (GERiiCO, Université Lille (France))

Le projet interdisciplinaire TERRE-ISTEX a pour objectif d’identifier l’évolution des fronts de recherche en relation avec les territoires d’études, les croisements disciplinaires ainsi que les modalités concrètes de recherche à partir des contenus numériques hétérogènes disponibles dans les corpus scientifiques. Le projet se décompose en trois actions principales : (1) identifier les périodes et les lieux qui ont fait l’objet d’études empiriques et dont rendent compte les publications issues des corpus analysés, (2) identifier les approches (méthodes et concepts) mobilisées pour la réalisation de ces études et enfin (3) développer un démonstrateur Web de recherche d’information géographique (RIG). Les deux premières actions pour l’indexation des corpus font intervenir des approches automatiques combinant des patrons du traitement automatique du langage naturel à des méthodes de fouille de textes. En croisant les trois dimensions (spatial, thématique et temporel) dans un moteur de RIG s’appuyant sur la solution Elastic Search, il sera ainsi possible de comprendre quelles recherches ont été menées sur quels territoires, selon quelles approches et à quel moment. Dans le cadre du projet, les expérimentations sont menées sur un corpus hétérogène constitué de thèses électroniques et d’articles scientifiques provenant des bibliothèques numériques d’ISTEX et du centre de recherche CIRAD. Les corpus indexés via la plateforme sont accessibles au format XML MODS sous forme d’archives.

Résumé
11 h 00
La production de l’espace dans l’Encyclopédie : portraits d’une géographie imaginée
François Dominic Laramée (UdeM - Université de Montréal)

Pour l’historien, le traitement numérique de documents du XVIIIe siècle pose des problèmes méthodologiques considérables. Même les sources qui ont été retranscrites dans des bibliothèques numériques, comme celle du projet ARTFL de l’Université de Chicago qui regroupe l’Encyclopédie et des centaines de fascicules de littérature populaire, sont truffées d’archaïsmes et d’orthographes instables qui déjouent les modèles linguistiques des outils d’analyse. Néanmoins, avec les précautions requises, il est possible d’appliquer des techniques informatiques à un corpus d’articles de l’Encyclopédie pour en extraire les multiples portraits du monde — explicites ou implicites — que leurs auteurs y ont inséré.

L’étude des spécificités lexicales et la modélisation thématique permettent notamment de caractériser la représentation de l’Amérique dans l’Encyclopédie comme celle d’un objet de curiosité scientifique dont on parle au présent, contrairement à d’autres parties du monde. L’analyse factorielle des correspondances a, quant à elle, permis de confirmer la subversion du projet géographique original de Diderot par le chevalier Louis de Jaucourt, dont les plus de 8 000 articles géographiques dominent les derniers volumes de l’ouvrage.

La présentation s’articulera autour du concept de production de l’espace, tel que formulé par le philosophe Henri Lefebvre, ainsi que des définitions de l’espace (incertain) et du lieu (familier) du géographe Yi-Fu Tuan.

Résumé
11 h 30
Apprentissage non supervisé pour l’extraction de relations d’hyperonymie à partir de textes scientifiques
Elena Manishina (Université de Lorraine / Université Toulouse 3), Mouna Kamel (IRIT, Toulouse (France)), Cassia Trojahn (IRIT, Toulouse (France)), Nathalie Aussenac-Gilles (IRIT, Toulouse (France))

Les articles scientifiques, spécifiques d’un domaine, sont riches en connaissances dudit domaine. Ces connaissances non structurées nécessitent le développement des techniques d’extraction de connaissances efficaces, qui consistent à identifier les concepts et les relations qui les relient. Les modèles d’extraction basés sur des approches d’apprentissage supervisé nécessitent l'annotation du corpus, ce qui est coûteux en temps et en ressources humaines. Des travaux récents montrent que les méthodes d’apprentissage non supervisé donnent des résultats équivalents lorsqu’elles sont appliquées à des corpus volumineux. Appliquer de telles approches à des corpus de taille modeste est un nouveau défi.

L’approche que nous proposons tente de relever ce défi, en détectant automatiquement les concepts du domaine et en mettant en œuvre un algorithme de classification basé sur les réseaux de neurones, afin d’identifier les relations entre concepts. Notre objectif est de construire un système indépendant du domaine, pour lequel le paradigme de sélection de traits permettrait d’ajuster les paramètres du système en fonction du domaine et de la relation ciblée. L’évaluation menée à ce jour sur les articles
issus de la revue Nature du corpus ISTEX montre que notre modèle donne de meilleurs résultats que l’algorithme K-Means, dans les mêmes conditions d’évaluation, ce qui apparaît comme une alternative aux approches supervisées.

Résumé
Dîner
12 h 00 à 13 h 15
Dîner
Dîner
Après-midi
13 h 15 à 14 h 15
Communications orales
Résumé automatique
Présidence/Animation : Lyne Da Sylva (UdeM - Université de Montréal)
Batiment : (T) TROTTIER
Local : (T) 2120
13 h 15
Utilisation des citations pour le résumé automatique des contributions d’articles scientifiques
Bruno MALENFANT (UdeM - Université de Montréal), Guy Lapalme (Département d'informatique et de recherche opérationelle, Université de Montréal)

Les bibliothèques numériques donnant accès à une multitude d'articles sous forme traitable par ordinateur, il est maintenant possible de développer de nouvelles applications. Si ces bibliothèques facilitent l'accès aux articles, il n'est pas toujours facile d'en déterminer l'impact ou pour un chercheur d'identifier de nouveaux problèmes ou de situer son travail dans la littérature courante. Des articles du même domaine répètent souvent les mêmes informations. Pour déterminer ce qu'un article ajoute au discours scientifique, un chercheur doit lire plusieurs sections contenant de l'information déjà connue, ou encore utiliser l'ensemble des citations d'un article donné pour en déduire le contenu marquant. Nous avons appliqué, combiné et modifié des techniques de résumé automatique pour la littérature scientifique pour créer notre système, Citatum. Le texte des citations vers l'article est utilisé pour constituer la base du résumé. L'ensemble des citations permet d'obtenir un résumé reflétant l'opinion de la communauté scientifique. Citatum effectue l'analyse d'articles scientifiques et construit le résumé à l'aide de l'algorithme de Maximal Marginal Relevance appliqué sur les phrases entourant les citations et sur les phrases de l'article. Si Citatum est basé sur des techniques existantes, il est le premier à effectuer toutes les tâches depuis l'identification des articles citant jusqu'à la présentation du résumé dans un navigateur web avec des liens vers les articles originaux.

Résumé
13 h 45
GRAD : une mesure pour évaluer l’informativité de résumés
Liana Ermakova (LISIS, Université de Lorraine), Frédérique Bordignon (École des Ponts ParisTech (France)), Marianne Noel (LISIS, Université Paris-Est Marne-la-Vallée (France)), Nicolas Turenne (LISIS, Université Paris-Est Marne-la-Vallée (France))

Cette recherche s’intéresse à l’article scientifique et plus précisément à son résumé ou abstract. Réalisée dans le cadre des chantiers d’usage de l’initiative d’excellence ISTEX, elle vise à comparer la quantité d’informations livrées par l’abstract avec celle du texte intégral (fulltext) de l’article qu’il résume. La communication se propose de détailler l’état de l’art et les limites des mesures existantes. La plupart de ces méthodes (e.g. ROUGE) nécessitent une intervention humaine importante car elles comparent le résumé considéré avec un ensemble des résumés de référence (gold standard). De plus, les métriques basées sur le chevauchement de vocabulaires ne sont pas appropriées pour la comparaison avec le texte intégral. La métrique proposée intitulée GRAD vise a dépasser les défauts des mesures existantes et s’appuie sur la représentation graphique du texte. Nous basant sur l’hypothèse qu’un résumé informatif doit être composé de sommets qui sont connectés avec un maximum d’autres sommets, nous proposons de calculer ce que nous appelons le taux d’informativité (ou le taux de générosité) de l’abstract par rapport au texte intégral. En outre, nous introduisons un cadre entièrement automatique pour évaluer les métriques qui n’exige aucune annotation humaine. Les expérimentations conduites sur une collection d’articles scientifiques disponibles sur la plate-forme ISTEX prouvent que la métrique proposée est meilleure de façon significative comparativement aux mesures existantes.

Résumé
14 h 15 à 15 h 15
Communications orales
Fouille de texte
Présidence/Animation : Lyne Da Sylva (UdeM - Université de Montréal)
Batiment : (T) TROTTIER
Local : (T) 2120
14 h 15
ISTEX, un projet national d’archives documentaires : au-delà de l’accès au texte intégral, l’enrichissement des données par méthodes de fouille de textes
Pascal Cuxac (CNRS - Centre national de la recherche scientifique), Alain Collignon (INIST - CNRS (France))

Le projet ISTEX (initiative d’excellence en Information Scientifique et Technique) a pour objectif de permettre à la communauté scientifique française d’accéder, à une bibliothèque numérique pluridisciplinaire en texte intégral regroupant l’essentiel des publications scientifiques mondiales. Ces dernières sont accessibles à tous les chercheurs, notamment ceux gravitants autour des thématiques de la fouille de texte, du TAL, de la recherche d’Information, etc. Cela se concrétise par des actions R&D à la fois pour enrichir les données brutes et aussi pour développer de nouveaux algorithmes de fouille et d'analyse de textes.

A travers quatre axes d’enrichissement (structuration des documents ; indexation automatique ; reconnaissance d’entités nommées ; catégorisation des documents) nous avons répondu aux trois principaux challenges rencontrés :

1. Mise au point et intégration d'outils : entraînement, adaptation, mise en production;

2. Passage à l’échelle : 20 millions de documents à traiter;

3. Reversement des données.

Le résultat d’une ou toute partie de ces travaux a permis de proposer un nouveau processus de diffusion d’ISTEX en construisant des triplets de données alignées et interopérables selon les standards du web sémantique (LOD).

Nous construisons maintenant une plateforme dédiée à la fouille de textes directement connectée aux données ISTEX. Les outils mis à disposition, peuvent être développés en collaboration avec tout laboratoire désireux de faire partager une application.

Résumé
14 h 45
Indexation automatique des documents : application d’une technique de fouille de textes basée sur l’alignement de deux espaces sémantiques
Jean-françois Chartier (UdeM - Université de Montréal), Dominic Forest (École de bibliothéconomie et des sciences de l'information, Université de Montréal (Canada))

Cette communication présente les résultats d’un projet sur l’indexation automatique des documents textuels. La méthode développée repose sur une procédure d’apprentissage automatique supervisée. Elle est basée sur un espace sémantique des mots-clés d’indexation (ESMC) induit à partir d'une base d’apprentissage et d’un espace sémantique de documents construit à partir d'une base de test (ESD). La prédiction des mots-clés d’indexation est réalisée en calculant la proximité entre les documents de l’ESD et les mots-clés de l’ESMC. Les k mots-clés les plus proches d’un document sont considérés être les mots-clés les plus pertinents pour son indexation.

Cette démarche a été appliquée à quatre corpus d’articles scientifiques appartenant à quatre domaines de spécialité différente, soit la chimie (CHIMIE - 782 notices), les sciences de l’information (INFO - 706 notices), la linguistique (LING - 715 notices) et l’archéologie (ARCHEO - 718 notices). Chaque notice contient un document textuel (titre et résumé) et des mots-clés attribués manuellement par des indexeurs professionnels. Ces mots-clés peuvent être de type contrôlé (appartenant à un thésaurus) ou non-contrôlé.

Lors de cette communication, nous présenterons la méthode développée dans le cadre de ce projet et nous discuterons des résultats que nous avons obtenus.

Résumé
15 h 30 à 17 h 00
Communications orales
Recherche et découverte d’information
Présidence/Animation : Lyne Da Sylva (UdeM - Université de Montréal)
Batiment : (T) TROTTIER
Local : (T) 2120
15 h 30
La visualisation des réseaux sémantiques et l’hypertexte des auteurs et des mots clés comme moyens de recherche d’information et d’indexation des revues
Audilio GONZALEZ (Institut de Recherche en Sciences de l'Information et de la Communication (IRSIC EA 4262))

L'hétérogénéité et la complexité de l'information sont un défi aux techniques de recherche d'information traditionnels et aux théories de recherche de l’information. (Zhang, J. 2008). Les publications scientifiques n’échappent pas à ce défi, car les systèmes traditionnels d'extraction d'informations et de recherche d'information se font avant tout par mots-clés (Gil-Leiva & Alonso-Arroyo 2007). Notre travail prend en exemple la revue Hermès (http://documents.irevues.inist.fr/handle/2042/8538) pour constituer un corpus qui fera l’objet d’une analyse visuelle. L’utilisation de la visualisation pour la recherche d'information dans la revue peut apporter une explication du point de vue théorique et pratique de l’hypertextualité de l’indexation des publications.
Les nouvelles méthodes de visualisation permettent la navigation hypertextuelle dans une publication scientifique et donnent un aperçu visuel et interactif de la revue.
Les relations et les liens entre les articles sont rarement illustrés, et l'environnement de récupération manque d'un mécanisme interactif pour la navigation. Avec la méthode d’analyse de réseaux (ARS) on récupère l’espace multidimensionnel de l’information (Bôrner & Polley 2014). Notre article propose de techniques de visualisation interactives qui sont utiles pour l'exploration et l'analyse des textes. Ceci nous permet de visualiser les deux aspects fondamentaux : d’une part, les réseaux sémantiques (résultant de l’ensemble de la revue et les relations avec mots clés) et d’autre part, la spatialité cognitive de l’information.

Résumé
16 h 00
Traduction automatique contextuelle avec sélection du mot de contexte pertinent
dorsaf haouari (UdeM - Université de Montréal), Jian Yun Nie (Département d'informatique et de recherche opérationnelle, Université de Montreal (Canada))

La bibliothèque numérique est une base de documents numériques caractérisée par un large volume de données diverses. Toutefois, trouver le bon document qui répond au besoin de l'utilisateur est une tâche difficile. Pour cela, l'utilisation d'un outil de recherche automatique est nécessaire. Cependant, se limiter à une recherche monolingue restreint l'accès à l'ensemble des documents pertinents dans la langue de la requête et ne retourne pas les documents pertinents écrits dans d'autres langues. En conséquence, le besoin d'un outil de recherche translinguistique qui dépasse les barrières de la langue est nécessaire.
La recherche translinguistique nécessite la traduction de la requête. Nous proposons un modèle de traduction qui tient compte des longues dépendances entre les mots. Le modèle est calculé à partir des fréquences relatives des alignements d'un mot cible à un mot source dans un contexte précis. Nous proposons également de sélectionner le mot de contexte pertinent à la traduction. Un mot de contexte est jugé pertinent si la distribution de probabilité de traduction contextuelle est différente de celle hors contextuelle. Nous présenterons les résultats de l’utilisation des différentes méthodes de sélection du mot de contexte pour traduire un mot source et analyserons leur impact sur la performance en recherche de documents.

Résumé
16 h 30
Les nouveaux paradigmes scientifiques : alternance de citations et d’oublis, étude automatique sur une volumineuse bibliothèque numérique et exemple de l’astrophysique
Jean-Charles Lamirel (LORIA)

Le but de ce travail est de mettre en évidence, dans une volumineuse bibliothèque numérique, l'émergence parfois longue et contestée ou même un temps ignorée de nouveaux paradigmes scientifiques.

L’originalité de ce travail est d’exploiter le texte plein des publications en mettant en jeu de manière coordonnée des méthodes d’extraction d’entités nommées et des méthodes d’apprentissage non supervisé spécifiques au texte, capables de fonctionner à grande échelle. La combinaison de ces méthodes représente une nouvelle approche dans le domaine.

L’expérimentation que nous menons repose sur un corpus anglophone de 235479 articles sélectionnés à partir d’une requête générale sur les thèmes de l’astronomie et de l'astrophysique, couvrant une large période (190 années entre 1825 et 2014). Nous utilisons des mesures de centralité, dont certaines originales, et des techniques de détection d’entités nommées pour identifier les références à des chercheurs dans les textes (références bibliographiques, bien sûr, mais aussi nominales), puis des méthodes de sélection de variables, basées sur la métrique de maximisation d’étiquetage,pour identifier l’influence de ces chercheurs et de leur recherche à travers le temps. Nous illustrerons notre approche en prenant plus spécifiquement comme exemples la théorie des cordes et celle du big bang. Nous analysons ensuite la pertinence des résultats obtenus à partir de vérité terrain.

Résumé