Extraction de connaissances
L’extraction de connaissances est la création de connaissances à partir de sources structurées ( bases de données relationnelles, XML) et non structurées (textes, documents, images) sources.
Les connaissances résultantes doivent être présentées dans un format lisible et interprétable par une machine, et doivent représenter les connaissances de manière à faciliter l'inférence. Bien qu’il soit méthodiquement similaire à l’extraction d’informations (NLP) et à l’ETL (entrepôt de données), le principal critère est que le résultat de l’extraction va au-delà de la création d’informations structurées ou de la transformation en un schéma relationnel. Cela nécessite soit la réutilisation de connaissances formelles existantes (réutilisation d'identificateurs ou ontologies), soit la création d'un schéma basé sur les données source.
Le groupe RDB2 du W3C est en train de standardiser couramment un langage d’extraction de cadres de description de ressources (RDF) à partir de bases de données relationnelles. Un autre exemple populaire pour l’extraction de connaissances est la transformation de Wikipédia en données structurées un d aussi la mise en correspondance aux éléments existants des connaissances