# Analyse lexicale distributionnelle pour mesurer la similarité de phrase Equipe MELODI; Durée 4-5 mois Encadrants : - Stergos Afantenos - Tim Van de Cruys - Philippe Muller Être capable de mesurer la similarité entre phrases joue un rôle de plus en plus important pour les recherches liées au traitement automatique des langues, comme le résumé automatique et l'extraction d'information. En identifiant les phrases dont le contenu est plus ou moins équivalent, on peut par exemple détecter des informations redondantes, ou trouver des associations entre des documents différents mais reliés aux mêmes sujets. Par ailleurs, de nombreux travaux récents s'attachent à définir des mesures de similarité au niveau lexical (au niveau des mots), fondées sur des mesures de distribution. L'hypothèse sous-jacente, avancée par Harris (1954), est que les mots qui apparaissent souvent dans les mêmes contextes ont une tendance à avoir un sens similaire. Cela passe le plus souvent par la construction de matrices d'association dans lesquelles on cherche des dimensions latentes par réduction de dimension. Peu de travaux ont proposé des méthodes pour relier ce niveau de similarité lexicale au niveau de la phrase, et le but de ce stage est d'explorer ces mesures pour identifier des liens phrastiques. Nous utiliserons pour cela des corpus analysés syntaxiquement (en français et en anglais).