Reconnaissance d’entités nommées
La reconnaissance d’entités nommées (ou identification de l’entité ou entité Chunking ou extraction d'entités) est une sous-tâche de l’extraction d’information qui cherche à localiser et classer des mentions d’une entité nommée dans le texte non structuré en catégories préfinies comme les noms de personnes, les organisations, les lieux, les codes médicaux, les expressions du temps, les quantités, les valeurs monétaires, les pourcentages, etc.
La plupart des recherches sur les systèmes NER ont été structurées comme prenant un bloc de texte non annoté, tel que celui-ci:
Jim a acheté 300 actions de Acme Corp. en 2006.
Et produire un bloc de texte annoté mettant en évidence les noms d'entités:
[Jim] Person a acheté 300 actions de [Acme Corp.] Organization en [2006] Time.
Dans cet exemple, un nom de personne composé d'un jeton, d'un nom de société à deux jetons et d'une expression temporelle a été détecté et classifié.
Les systèmes de reconnaissances ultramodernes pour l'anglais produisent des performances quasi humaines. Par exemple, lors d’un challenge, le meilleur système d’entrée MUC-7 a obtenu un score de 93,39% de F-measure alors que les deux annoteurs humains ont marqué un score de 97,60% et 96,95%.