L’ensemble des techniques, de méthodes et d’outils qui facilitent l’exploitation des documents non structurés est appelé text mining. Afin d’analyser et donner un sens aux textes écrits comme les documents de présentation de type PowerPoint ou les fichiers bureautiques de type Word, le text mining a recours aux techniques d’analyse de la langue. C’est une méthode efficace qui facilite le rangement des documents, aide à la réalisation des résumés de synthèse automatique, optimise la veille stratégique et technologique en fonction des objectifs à atteindre.

Le text mining et les débuts de l’informatique


Le recours à l’informatique pour automatiser la synthèse des écrits n’est pas une méthode nouvelle. L’authentique inventeur de l’expression Business Intelligence en 1958, Hans Peter Lihn, chercheur à IBM, publia en 1957 une étude intitulée : « The Automatic Creation of Literature Abstracts ». Le résultat de ces recherches, en consultation libre sur le site de recherche d’IBM, confirme l’usage de l’informatique lors de l’analyse des textes. Au cours de ses travaux, il prend un article complet rédigé dans le New York Times qu’il scanne avec l’ordinateur IBM 704. La machine parvint à lire et analyser le contenu. La mesure statistique de la distribution des mots et leur fréquence met en évidence la concordance des mots et des phrases. Les phrases ayant le plus de sens ont été extraites pour produire la synthèse.

Pour rappel, l’ordinateur IBM 704 sorti en 1955 fut une véritable révolution. C’est via cette machine qu’a été conçu Fortran un langage de programmation célèbre. Le text mining était bien présent au début de l’essor des applications informatiques. La méthode a bien évolué de nos jours, Google dispose d’un service analogue au text mining. Le leader de la recherche sur internet souhaite produire du contenu original par la synthèse des articles publiés en ligne.