29 juillet 2007

les espoirs du data mining


Parmi les thèmes qui traversent la masse foisonnante des réflexions sur la société de l'information et de la connaissance, il y a cette idée que le volume des données générées et disponibles dans les systèmes d'information, est un or dont l'extraction fait des miracles.

Nous restons pour notre part sceptique en avant quelques arguments issus de l'expérience mais aussi de l'analyse.

Par expérience, nous évoquons les multiples bases de données commerciales que nous avons traitées, les multiples modèles bâtis, et ce fait obsédant des r2 désespérant. Les capacités prédictives des outils de la statistique moderne ne réduisent pas les comportements. Si connaissance on peut tirer de ces modèles, elle reste fragile, et n'est en aucun cas une martingale. Nous doutons qu'une amélioration de la formulation des modèles, l'intégration d'un plus grand nombre de variable puisse résoudre cette sorte d'impasse.

La question est épistémologique : peut-on connaître avec une précision individuelle presque parfaite les valeurs que prend le comportement? Y a-t-il une loi précise, physique, que nous avons à découvrir? Ou ne doit-on pas prendre à la lettre la nature aléatoire des variables que nous traitons, pour dire que la seule connaissance possible est probabiliste?

Des monceaux de données n'apportent rien à la marge. De simples échantillons suffisent le plus souvent, et ce qui manque toujours est un cadre analytique qui nous fasse lire dans les millions de variations, la raison des consommateurs.

Très sûrement l'avancée dans la capacité à transformer en réelle connaissance ces montagnes de données avance moins vite que n'est produite l'information. S'il est en ce domaine une voie de progrès, nous pensons qu'elle ne se tracera pas dans celle de l'économétrie, de l'analyse de données, des modèles de probabilités, mais beaucoup plus dans celle de ces outils qui aident l'esprit à voir, à concevoir. Moins que de tenter de construire une représentation réaliste du réel, ces outils cherchent à les visualiser, et à laisser faire l'esprit dans la tâche de distinguer, de hiérarchiser et d'ordonner une multiplicité de faits dont la signification ne se cache pas dans le ventre des modèles, mais dans l'imagination et la culture de l'analyste.

Le succès relatif des nuages de tags, l'émergence de nouvelles représentations graphiques, à l'exemple de ce que fait Digg Labs, va sans doute dans ce sens. Quand chacun est analyste il doit voir littéralement les données et leur donner du sens. Pour un début de réflexion sur le sujet on ira voir la gallerie de la visualisation de Michael Friendly et pour de belles réalisations l'atelier de Karl Hartig.

Aucun commentaire: