Nous présentons dans cet article une méthode de construction de lexiques bilingues pour les entités nommées basée sur les corpus parallèle. Les types des entités nommées étudiées sont les noms de personnes, des lieux et des organisations. Une application est faite sur la paire de langues anglais-arabe.
La construction des lexiques des entités nommées de type organisation se base sur différentes ressources linguistiques dont les ontologies comme DBPedia ou des listes préétablies comme JRC-Names.
La construction des lexiques des entités nommées de type noms de personnes et lieux, se base sur un modèle de translitération pour chaque entité nommée à partir de l'anglais vers l'arabe.
La procédure de translitération consiste à trouver les différentes translitérations de chaque lettre de l’entité nommée en anglais, et à chercher la meilleure combinaison dans la phrase en langue arabe.
Pour diminuer le nombre de combinaisons des translitérations possibles d’une entité nommée, une méthode de normalisation des lettres en langue arabe vers une seule lettre, est proposée.
Une application est faite sur deux corpus. Un est extrait de Wikipédia et le très connu corpus des nations unis (UN).
La mesure généralement utilisée pour comparer les performances des systèmes se fonde sur le score de précision et de rappel. Cette mesure s’appelle la mesure F. Nos expérimentations ont montré un score de F-mesure égale à 99,1% en utilisant le corpus UN et 93,3% en utilisant le corpus extrait de Wikipédia.