Difference between revisions of "B40"

From SAS
Jump to: navigation, search
(Created page with "Introduction à l'analyse conceptuelle formelle et à ses applications dans la recherche d'informations et les domaines connexes Dmitry I. Ignatov École supérieure d'écon...")
 
 
(2 intermediate revisions by the same user not shown)
Line 1: Line 1:
 +
 +
 +
 
Introduction à l'analyse conceptuelle formelle et à ses applications dans la recherche d'informations et les domaines connexes
 
Introduction à l'analyse conceptuelle formelle et à ses applications dans la recherche d'informations et les domaines connexes
  
Line 12: Line 15:
 
Mots-clés: analyse de concept formelle, réseaux conceptuels, récupération d'informations, apprentissage automatique, exploration de données, découverte de connaissances, exploration de texte, biclustering, clustering multimodal
 
Mots-clés: analyse de concept formelle, réseaux conceptuels, récupération d'informations, apprentissage automatique, exploration de données, découverte de connaissances, exploration de texte, biclustering, clustering multimodal
  
1. Introduction
+
==1. Introduction==
  
 
Selon [1], «la recherche d'informations (RI) consiste à trouver du matériel (généralement des documents) de nature non structurée (généralement du texte) qui satisfait un besoin d'informations provenant de grandes collections (généralement stockées sur des ordinateurs)». Dans le passé, seules les professions spécialisées telles que les bibliothécaires devaient récupérer régulièrement des informations. De nos jours, des quantités massives d'informations sont disponibles sur Internet et des centaines de millions de personnes utilisent quotidiennement des systèmes de recherche d'informations tels que des moteurs de recherche sur le Web ou par e-mail. L'analyse formelle du concept (FCA) a été introduite au début des années 1980 par Rudolf Wille en tant que théorie mathématique [2,3] et est devenue une technique populaire dans le domaine des IR. La FCA s'intéresse à la formalisation des concepts et de la pensée conceptuelle et a été appliquée dans de nombreuses disciplines telles que le génie logiciel,apprentissage automatique, découverte de connaissances et construction d'ontologies au cours des 20-25 dernières années. De manière informelle, FCA étudie comment les objets peuvent être regroupés hiérarchiquement avec leurs attributs communs.
 
Selon [1], «la recherche d'informations (RI) consiste à trouver du matériel (généralement des documents) de nature non structurée (généralement du texte) qui satisfait un besoin d'informations provenant de grandes collections (généralement stockées sur des ordinateurs)». Dans le passé, seules les professions spécialisées telles que les bibliothécaires devaient récupérer régulièrement des informations. De nos jours, des quantités massives d'informations sont disponibles sur Internet et des centaines de millions de personnes utilisent quotidiennement des systèmes de recherche d'informations tels que des moteurs de recherche sur le Web ou par e-mail. L'analyse formelle du concept (FCA) a été introduite au début des années 1980 par Rudolf Wille en tant que théorie mathématique [2,3] et est devenue une technique populaire dans le domaine des IR. La FCA s'intéresse à la formalisation des concepts et de la pensée conceptuelle et a été appliquée dans de nombreuses disciplines telles que le génie logiciel,apprentissage automatique, découverte de connaissances et construction d'ontologies au cours des 20-25 dernières années. De manière informelle, FCA étudie comment les objets peuvent être regroupés hiérarchiquement avec leurs attributs communs.
Line 24: Line 27:
 
En 2013, la Conférence européenne sur la recherche d'informations [7] a accueilli un atelier thématique que la FCA rencontre avec l'IR a consacré à deux questions principales:
 
En 2013, la Conférence européenne sur la recherche d'informations [7] a accueilli un atelier thématique que la FCA rencontre avec l'IR a consacré à deux questions principales:
  
    Comment FCA peut-il prendre en charge les activités IR, y compris, mais sans s'y limiter, l'analyse des requêtes, la représentation des documents, la classification et le regroupement des textes, l'exploration des réseaux sociaux, l'accès aux données Web sémantiques et l'ingénierie ontologique?
+
* Comment FCA peut-il prendre en charge les activités IR, y compris, mais sans s'y limiter, l'analyse des requêtes, la représentation des documents, la classification et le regroupement des textes, l'exploration des réseaux sociaux, l'accès aux données Web sémantiques et l'ingénierie ontologique?
  
    Comment FCA peut-il être étendu pour couvrir un éventail plus large d'activités IR, y compris éventuellement de nouvelles tâches de récupération?
+
* Comment FCA peut-il être étendu pour couvrir un éventail plus large d'activités IR, y compris éventuellement de nouvelles tâches de récupération?
  
 
Claudio Carpineto a prononcé une conférence invitée à l'atelier - «FCA et IR: l'histoire jusqu'à présent». Les articles pertinents et les résultats qui y sont présentés sont également discutés dans le tutoriel.
 
Claudio Carpineto a prononcé une conférence invitée à l'atelier - «FCA et IR: l'histoire jusqu'à présent». Les articles pertinents et les résultats qui y sont présentés sont également discutés dans le tutoriel.
Line 38: Line 41:
 
La section 4 donne un aperçu des méthodes et applications basées sur FCA dans l'exploration de données et l'apprentissage automatique, et décrit un outil basé sur FCA pour l'apprentissage supervisé, QuDA (Qualitative Data Analysis). La section 5 présente la partie la plus pertinente du cours, la FCA en recherche d'information et exploration de texte. La section 6 détaillée traite de la FCA dans la modélisation ontologique et donne un exemple de technique d'exploration des attributs basée sur la FCA pour construire la taxonomie des moyens de transport. La section 7 conclut le document et décrit brièvement les perspectives et les limites des modèles et techniques basés sur le FCA.
 
La section 4 donne un aperçu des méthodes et applications basées sur FCA dans l'exploration de données et l'apprentissage automatique, et décrit un outil basé sur FCA pour l'apprentissage supervisé, QuDA (Qualitative Data Analysis). La section 5 présente la partie la plus pertinente du cours, la FCA en recherche d'information et exploration de texte. La section 6 détaillée traite de la FCA dans la modélisation ontologique et donne un exemple de technique d'exploration des attributs basée sur la FCA pour construire la taxonomie des moyens de transport. La section 7 conclut le document et décrit brièvement les perspectives et les limites des modèles et techniques basés sur le FCA.
  
2 Introduction à FCA
+
==2 Introduction à FCA==
  
 
Même si de nombreuses disciplines peuvent être remontées à l'époque d'Aristote, des prolégomènes plus proches de la FCA peuvent être trouvés, par exemple, dans la Logique de Port Royal (1662) [8], une vieille logique conceptuelle philosophique, où un concept était traité comme une paire de son étendue et de son intention (pourtant sans appareil mathématique formel).
 
Même si de nombreuses disciplines peuvent être remontées à l'époque d'Aristote, des prolégomènes plus proches de la FCA peuvent être trouvés, par exemple, dans la Logique de Port Royal (1662) [8], une vieille logique conceptuelle philosophique, où un concept était traité comme une paire de son étendue et de son intention (pourtant sans appareil mathématique formel).
  
Faisant partie de la théorie du réseau, les réseaux conceptuels sont profondément enracinés dans les travaux de Dedekind, Birkgoff [9] (Connexions de Galois et «polarités»), et Ore [10] (Connexions de Galois), et, plus tard, sur Barbut & Monjardet [11] ( treillis de Galois,
+
Faisant partie de la théorie du réseau, les réseaux conceptuels sont profondément enracinés dans les travaux de Dedekind, Birkgoff [9] (Connexions de Galois et «polarités»), et Ore [10] (Connexions de Galois), et, plus tard, sur Barbut & Monjardet [11] ( treillis de Galois, c'est-à-dire des réseaux de Galois).
 
+
c'est-à-dire des réseaux de Galois).
+
  
 
En fait, la structure sous-jacente, la connexion Galois, a un fort impact dans l'analyse des données [12,13,14,15].
 
En fait, la structure sous-jacente, la connexion Galois, a un fort impact dans l'analyse des données [12,13,14,15].
Line 50: Line 51:
 
Dans cette section, nous reproduisons principalement les définitions de base du livre de Ganter & Wille sur l'analyse formelle de concepts [3]. Cependant, on peut trouver un bon matériel d'introduction, plus axé sur les commandes partielles et les treillis, dans le livre de Davey and Priestly [16]. Un lecteur orienté IR peut également trouver les livres suivants intéressants et utiles [15,17].
 
Dans cette section, nous reproduisons principalement les définitions de base du livre de Ganter & Wille sur l'analyse formelle de concepts [3]. Cependant, on peut trouver un bon matériel d'introduction, plus axé sur les commandes partielles et les treillis, dans le livre de Davey and Priestly [16]. Un lecteur orienté IR peut également trouver les livres suivants intéressants et utiles [15,17].
  
1 http: // bit-ly / RuSSIR2014FCAtut
+
1 http: // bit-ly / RuSSIR2014FCAtut
  
 
Il y avait plusieurs bons tutoriels avec des notes dans le passé, par exemple, un basique [18] et plus théorique avec des aspects algorithmiques [19].
 
Il y avait plusieurs bons tutoriels avec des notes dans le passé, par exemple, un basique [18] et plus théorique avec des aspects algorithmiques [19].
Line 58: Line 59:
 
Un bref résumé de la section:
 
Un bref résumé de la section:
  
    Relations binaires, ordres partiels, réseaux, diagramme linéaire (Hasse).
+
* Relations binaires, ordres partiels, réseaux, diagramme linéaire (Hasse).
  
    Connexion Galois, Contexte formel, Concept formel, Réseau conceptuel.
+
* Connexion Galois, Contexte formel, Concept formel, Réseau conceptuel.
  
    Dessin en treillis concept. Algorithmes pour la génération de réseaux de concepts (na¨ıve, algorithme de Ganter, Close-by-One).
+
* Dessin en treillis concept. Algorithmes pour la génération de réseaux de concepts (na¨ıve, algorithme de Ganter, Close-by-One).
  
    Dépendances des attributs: implications, dépendances fonctionnelles. Règles Armstrong. Bases d'implication (base de tige, base de générateur).
+
* Dépendances des attributs: implications, dépendances fonctionnelles. Règles Armstrong. Bases d'implication (base de tige, base de générateur).
  
    Contextes à valeurs multiples. Mise à l'échelle du concept.
+
* Contextes à valeurs multiples. Mise à l'échelle du concept.
  
2.1 Relations binaires, ordres partiels, réseaux, diagramme de Hasse
+
===2.1 Relations binaires, ordres partiels, réseaux, diagramme de Hasse===
  
 
La notion d'ensemble est fondamentale en mathématiques. Dans ce qui suit, nous ne considérons que des ensembles d'objets finis.
 
La notion d'ensemble est fondamentale en mathématiques. Dans ce qui suit, nous ne considérons que des ensembles d'objets finis.
Line 130: Line 131:
 
Fig. 2. Les diagrammes linéaires de l'ordre, qui n'est pas un réseau (à gauche), et de l'ordre, qui est un réseau (à droite)
 
Fig. 2. Les diagrammes linéaires de l'ordre, qui n'est pas un réseau (à gauche), et de l'ordre, qui est un réseau (à droite)
  
3 Galois Connection, Context Formal, Formal Concept, Concept Lattice
+
==3 Galois Connection, Context Formal, Formal Concept, Concept Lattice==
  
 
Définition 6. Soit maps: PQ et ψ: QP des cartes entre deux posets (P,) et (Q,). Une telle paire de cartes est appelée connexion galoisienne entre les ensembles ordonnés si:
 
Définition 6. Soit maps: PQ et ψ: QP des cartes entre deux posets (P,) et (Q,). Une telle paire de cartes est appelée connexion galoisienne entre les ensembles ordonnés si:
Line 206: Line 207:
 
2 - triangle rectangle,
 
2 - triangle rectangle,
  
                                3 - rectangle,
+
* * * * * * * *  3 - rectangle,
  
 
4 - carré.
 
4 - carré.
Line 273: Line 274:
 
Un lecteur intéressé peut se référer au livre de Ganter & Wille sur FCA [3] pour plus de détails et d'exemples.
 
Un lecteur intéressé peut se référer au livre de Ganter & Wille sur FCA [3] pour plus de détails et d'exemples.
  
3.1 Dessin de réseau conceptuel et algorithmes pour la génération de réseaux conceptuels
+
===3.1 Dessin de réseau conceptuel et algorithmes pour la génération de réseaux conceptuels===
  
 
On peut obtenir l'ensemble des concepts d'un contexte particulier K simplement par définition, c'est-à-dire qu'il suffit d'énumérer tous les sous-ensembles d'objets A ⊆ tt (ou attribue B ⊆ M) et de leur appliquer des opérateurs de dérivation. Par exemple, pour le contexte de l'exemple 3 et un ensemble vide d'objets, A = ∅, on peut obtenir AJ = ∅J = {a, b, c, d} = B, puis en appliquant (·) J une deuxième fois BJ = ∅. Ainsi, le concept résultant est (A, B) = (∅, M).
 
On peut obtenir l'ensemble des concepts d'un contexte particulier K simplement par définition, c'est-à-dire qu'il suffit d'énumérer tous les sous-ensembles d'objets A ⊆ tt (ou attribue B ⊆ M) et de leur appliquer des opérateurs de dérivation. Par exemple, pour le contexte de l'exemple 3 et un ensemble vide d'objets, A = ∅, on peut obtenir AJ = ∅J = {a, b, c, d} = B, puis en appliquant (·) J une deuxième fois BJ = ∅. Ainsi, le concept résultant est (A, B) = (∅, M).
Line 504: Line 505:
 
Après le lancement des premiers algorithmes batch, l'inventaire FCA élargi comprend des algorithmes incrémentiels efficaces [21] et les versions distribuées de NextClosure et CbO pour MapReduce [22,23].
 
Après le lancement des premiers algorithmes batch, l'inventaire FCA élargi comprend des algorithmes incrémentiels efficaces [21] et les versions distribuées de NextClosure et CbO pour MapReduce [22,23].
  
3.2 Contextes à valeurs multiples et mise à l'échelle des concepts
+
===3.2 Contextes à valeurs multiples et mise à l'échelle des concepts===
  
 
Définition 15. Un contexte à plusieurs valeurs (tt, M, W, I) se compose d'ensembles tt, M ​​et W et d'une relation ternaire I entre ces trois ensembles, c'est-à-dire I tt MW, pour laquelle il soutient que (g, m, w) I et (g, m, v) J'implique toujours w = v Le fait (g, m, w) I signifie «l'attribut m prend la valeur w pour l'objet g», simplement écrit comme m (g) = w.
 
Définition 15. Un contexte à plusieurs valeurs (tt, M, W, I) se compose d'ensembles tt, M ​​et W et d'une relation ternaire I entre ces trois ensembles, c'est-à-dire I tt MW, pour laquelle il soutient que (g, m, w) I et (g, m, v) J'implique toujours w = v Le fait (g, m, w) I signifie «l'attribut m prend la valeur w pour l'objet g», simplement écrit comme m (g) = w.
Line 530: Line 531:
 
Ce type de mise à l'échelle convient à la représentation binaire d'attributs nominaux (catégoriels) comme la couleur. Pour le contexte des matières universitaires, les matières peuvent être mises à l'échelle par une mise à l'échelle nominale comme ci-dessous.
 
Ce type de mise à l'échelle convient à la représentation binaire d'attributs nominaux (catégoriels) comme la couleur. Pour le contexte des matières universitaires, les matières peuvent être mises à l'échelle par une mise à l'échelle nominale comme ci-dessous.
  
= Math CS DM
+
#NOM?
  
 
Math ×
 
Math ×
Line 592: Line 593:
 
5 × × × × × × × ×
 
5 × × × × × × × ×
  
3.3 Dépendances des attributs
+
===3.3 Dépendances des attributs===
  
 
Définition 17. Implication A B, où A, B M est en contexte (tt, M, I) si AJ BJ, c'est-à-dire que chaque objet ayant tous les attributs de A a également tous les attributs de B.
 
Définition 17. Implication A B, où A, B M est en contexte (tt, M, I) si AJ BJ, c'est-à-dire que chaque objet ayant tous les attributs de A a également tous les attributs de B.
Line 806: Line 807:
 
Dans cette section, nous fournissons un bref résumé des logiciels prêts à l'emploi qui prennent en charge les fonctionnalités de base de Formal Concept Analysis.
 
Dans cette section, nous fournissons un bref résumé des logiciels prêts à l'emploi qui prennent en charge les fonctionnalités de base de Formal Concept Analysis.
  
    Logiciels pour FCA: Concept Explorer, Lattice Miner, ToscanaJ, Galicia, FCART etc.
+
* Logiciels pour FCA: Concept Explorer, Lattice Miner, ToscanaJ, Galicia, FCART etc.
  
    Des exercices.
+
* Des exercices.
  
 
Explorateur de concept. ConExp 5 est probablement l'un des outils FCA les plus conviviaux avec des fonctionnalités de base; il a été développé en Java par S. Yevtushenko
 
Explorateur de concept. ConExp 5 est probablement l'un des outils FCA les plus conviviaux avec des fonctionnalités de base; il a été développé en Java par S. Yevtushenko
Line 816: Line 817:
 
Maintenant, la fonctionnalité présente les fonctionnalités suivantes:
 
Maintenant, la fonctionnalité présente les fonctionnalités suivantes:
  
    Édition de contexte (les formats séparés par des tabulations et csv des fichiers d'entrée sont également pris en charge);
+
* Édition de contexte (les formats séparés par des tabulations et csv des fichiers d'entrée sont également pris en charge);
  
    Dessin de diagrammes de lignes (permettant leur importation sous forme de clichés d'image et même de fichiers texte avec la position des nœuds, les bords et les noms d'attributs, mais les formats vectoriels ne sont pas pris en charge);
+
* Dessin de diagrammes de lignes (permettant leur importation sous forme de clichés d'image et même de fichiers texte avec la position des nœuds, les bords et les noms d'attributs, mais les formats vectoriels ne sont pas pris en charge);
  
    Trouver la base d'implications Duquenne-Guigues;
+
* Trouver la base d'implications Duquenne-Guigues;
  
    Trouver la base de règles d'association valides dans un contexte formel;
+
* Trouver la base de règles d'association valides dans un contexte formel;
  
    Exécution de l'exploration d'attributs.
+
* Exécution de l'exploration d'attributs.
  
 
Il est important de noter que le diagramme résultant n'est pas statique et que l'on peut effectuer une analyse exploratoire de manière interactive en sélectionnant des nœuds intéressants, en les déplaçant, etc. ConExp s'affiche. Voir plus de détails dans la Fig. [31].
 
Il est important de noter que le diagramme résultant n'est pas statique et que l'on peut effectuer une analyse exploratoire de manière interactive en sélectionnant des nœuds intéressants, en les déplaçant, etc. ConExp s'affiche. Voir plus de détails dans la Fig. [31].
Line 920: Line 921:
 
3. Client lourd pour le traitement interactif des données et la visualisation dans une interface utilisateur graphique multi-documents intégrée.
 
3. Client lourd pour le traitement interactif des données et la visualisation dans une interface utilisateur graphique multi-documents intégrée.
  
4. Solveurs basés sur le Web pour la mise en œuvre de
+
4. Solveurs basés sur le Web pour la mise en œuvre de tations.
 
+
tations.
+
  
 
Le flux de travail est illustré à la Fig.10.
 
Le flux de travail est illustré à la Fig.10.
Line 960: Line 959:
 
5 FCA en exploration de données et apprentissage automatique
 
5 FCA en exploration de données et apprentissage automatique
  
    Règles d'exploitation et d'association d'éléments fréquents: la FCA l'a fait encore plus tôt [43,44]
+
* Règles d'exploitation et d'association d'éléments fréquents: la FCA l'a fait encore plus tôt [43,44]
  
    Groupement multimodal (biclustering et triclustering) [45,46,47]
+
* Groupement multimodal (biclustering et triclustering) [45,46,47]
  
    FCA dans la classification: méthode JSM, espaces de version 16 et arbres de décision [48]
+
* FCA dans la classification: méthode JSM, espaces de version 16 et arbres de décision [48]
  
    Structures de modèle pour les données avec des descriptions complexes [49,50]
+
* Structures de modèle pour les données avec des descriptions complexes [49,50]
  
    Factorisation de la matrice booléenne basée sur le FCA [51]
+
* Factorisation de la matrice booléenne basée sur le FCA [51]
  
    Étude de cas sur l'exploration de données éducatives [52]
+
* Étude de cas sur l'exploration de données éducatives [52]
  
    Exercices avec la méthode JSM dans QuDA (Qualitative Data Analysis): résolution d'une tâche de classification [53]
+
* Exercices avec la méthode JSM dans QuDA (Qualitative Data Analysis): résolution d'une tâche de classification [53]
  
5.1 Règles d'exploitation et d'association d'éléments fréquents
+
===5.1 Règles d'exploitation et d'association d'éléments fréquents===
  
 
La découverte des connaissances dans les bases de données (KDD) est introduite comme l'extraction non triviale d'informations valides, implicites, potentiellement utiles et finalement compréhensibles dans les grandes bases de données [54]. L'exploration de données est une étape principale de KDD et, à son tour, les règles d'association et l'extraction fréquente d'éléments sont parmi les techniques clés de
 
La découverte des connaissances dans les bases de données (KDD) est introduite comme l'extraction non triviale d'informations valides, implicites, potentiellement utiles et finalement compréhensibles dans les grandes bases de données [54]. L'exploration de données est une étape principale de KDD et, à son tour, les règles d'association et l'extraction fréquente d'éléments sont parmi les techniques clés de
Line 1,014: Line 1,013:
 
c5 × × × ×
 
c5 × × × ×
  
    supp ({bière, frites}) = 3/5
+
* supp ({bière, frites}) = 3/5
  
    supp ({Gâteaux, Mu¨sli} → {Lait}) = | ({Gâteaux, Mu¨sli} ∪ {Lait}) t | = | {C2, C5} | =
+
* supp ({Gâteaux, Mu¨sli} → {Lait}) = | ({Gâteaux, Mu¨sli} ∪ {Lait}) t | = | {C2, C5} | =
  
2/5
+
02-mai
  
 
| G | 5
 
| G | 5
  
    conf ({Gâteaux, Mu¨sli} → {Lait}) = | ({Gâteaux, Mu¨sli} ∪ {Lait}) t | = | {c2, c5} | =
+
* conf ({Gâteaux, Mu¨sli} → {Lait}) = | ({Gâteaux, Mu¨sli} ∪ {Lait}) t | = | {c2, c5} | =
  
 
1 | {Gâteaux, Mu¨sli} t |
 
1 | {Gâteaux, Mu¨sli} t |
Line 1,054: Line 1,053:
 
Cette propriété implique les faits suivants:
 
Cette propriété implique les faits suivants:
  
    Le plus grand ensemble, le plus petit support dont il dispose ou son support reste le même;
+
* Le plus grand ensemble, le plus petit support dont il dispose ou son support reste le même;
  
    La prise en charge d'un ensemble d'éléments n'est pas supérieure à une prise en charge minimale de l'un de ses sous-ensembles;
+
* La prise en charge d'un ensemble d'éléments n'est pas supérieure à une prise en charge minimale de l'un de ses sous-ensembles;
  
    Un ensemble d'éléments de taille n est fréquent si et seulement si tous ses (n 1) sous-ensembles sont fréquents.
+
* Un ensemble d'éléments de taille n est fréquent si et seulement si tous ses (n 1) sous-ensembles sont fréquents.
  
 
L'algorithme Apriori trouve tous les ensembles d'éléments fréquents.
 
L'algorithme Apriori trouve tous les ensembles d'éléments fréquents.
Line 1,124: Line 1,123:
 
Exemple 12. Union et étapes d'élimination d'AprioriGen pour un certain contexte.
 
Exemple 12. Union et étapes d'élimination d'AprioriGen pour un certain contexte.
  
    L'ensemble des 3 éléments fréquents: F3 = {{a, b, c}, {a, b, d}, {a, c, d}, {a, c, e}, {b, c, d} }.
+
* L'ensemble des 3 éléments fréquents: F3 = {{a, b, c}, {a, b, d}, {a, c, d}, {a, c, e}, {b, c, d} }.
  
    L'ensemble des 4 éléments candidats (étape d'union): C4 = {{a, b, c, d}, {a, c, d, e}}.
+
* L'ensemble des 4 éléments candidats (étape d'union): C4 = {{a, b, c, d}, {a, c, d, e}}.
  
    Le candidat restant est C4 = Modèle: A, b, c, d , car est éliminé {a, c, d, e}
+
* Le candidat restant est C4 = Modèle: A, b, c, d , car est éliminé {a, c, d, e}
  
 
car {c, d, e} ƒ∈ F3 (étape d'élimination).
 
car {c, d, e} ƒ∈ F3 (étape d'élimination).
Line 1,150: Line 1,149:
 
maximale.
 
maximale.
  
    La confiance est maximale lorsque la règle conséquente F f se compose d'un attribut (1 jeu d'éléments). Les sous-ensembles d'un tel conséquent ont un plus grand soutien et la confiance en eux diminue.
+
* La confiance est maximale lorsque la règle conséquente F f se compose d'un attribut (1 jeu d'éléments). Les sous-ensembles d'un tel conséquent ont un plus grand soutien et la confiance en eux diminue.
  
    La procédure récursive d'extraction des règles commence par (| F | - 1) -itemset f remplissant min conf et min sup; ensuite, il forme la règle f → F \ f et vérifie tous ses sous-ensembles (| F | - 2) -itemset (le cas échéant) et ainsi de suite.
+
* La procédure récursive d'extraction des règles commence par (| F | - 1) -itemset f remplissant min conf et min sup; ensuite, il forme la règle f → F \ f et vérifie tous ses sous-ensembles (| F | - 2) -itemset (le cas échéant) et ainsi de suite.
  
 
Exercice 14. Trouvez tous les itemsets fréquents pour le contexte client avec l'algorithme d'Arizona et min sup = 1/3. Q
 
Exercice 14. Trouvez tous les itemsets fréquents pour le contexte client avec l'algorithme d'Arizona et min sup = 1/3. Q
Line 1,192: Line 1,191:
 
dix
 
dix
  
(2)
+
-2
  
 
5
 
5
Line 1,214: Line 1,213:
 
CD
 
CD
  
(3)
+
-3
  
 
13
 
13
Line 1,260: Line 1,259:
 
Un exemple est les matrices d'expression génique, dont les entrées montrent les niveaux d'expression du matériel génétique capturé dans une réaction de polymérase. Un autre exemple serait les relations n-aires entre plusieurs ensembles d'entités telles que:
 
Un exemple est les matrices d'expression génique, dont les entrées montrent les niveaux d'expression du matériel génétique capturé dans une réaction de polymérase. Un autre exemple serait les relations n-aires entre plusieurs ensembles d'entités telles que:
  
    Données de folksonomie [65] capturant une relation ternaire entre trois ensembles: utilisateurs, balises et ressources;
+
* Données de folksonomie [65] capturant une relation ternaire entre trois ensembles: utilisateurs, balises et ressources;
  
    Base de données de films IMDb (17) décrivant une relation binaire de «pertinence» entre un ensemble de films et un ensemble de mots clés ou une relation ternaire entre des ensembles
+
* Base de données de films IMDb (17) décrivant une relation binaire de «pertinence» entre un ensemble de films et un ensemble de mots clés ou une relation ternaire entre des ensembles
  
 
des films, des mots-clés et des genres;
 
des films, des mots-clés et des genres;
  
    sites Web de révision de produits contenant au moins trois ensembles d'articles (produit, caractéristiques du produit, produit concurrent);
+
* sites Web de révision de produits contenant au moins trois ensembles d'articles (produit, caractéristiques du produit, produit concurrent);
  
    banques d'emplois comprenant au moins quatre ensembles (emplois, descriptions de poste, demandeurs d'emploi, compétences des demandeurs).
+
* banques d'emplois comprenant au moins quatre ensembles (emplois, descriptions de poste, demandeurs d'emploi, compétences des demandeurs).
  
 
Pour les cas à deux modes, d'autres approches de cluster démontrent une popularité croissante. Ainsi la notion de bicluster dans une matrice de données (inventée par B. Mirkin dans [66], p.
 
Pour les cas à deux modes, d'autres approches de cluster démontrent une popularité croissante. Ainsi la notion de bicluster dans une matrice de données (inventée par B. Mirkin dans [66], p.
Line 1,470: Line 1,469:
 
Q
 
Q
  
5.2 FCA en Classiftcation
+
===5.2 FCA en Classiftcation===
  
 
En fait, l'Analyse Formelle de Concept a aidé à repenser algébriquement plusieurs modèles et méthodes en Machine Learning tels que les espaces de version [113], l'apprentissage à partir d'exemples positifs et négatifs [74,48], et les arbres de décision [48]. Il a également été montré que le réseau conceptuel est un espace de recherche parfait pour l'apprentissage d'arbres de décision globalement optimaux [114]. Déjà au début des années 90, des techniques et des applications d'apprentissage automatique supervisées et non supervisées basées sur l'analyse formelle de concepts ont été introduites dans la communauté de l'apprentissage automatique. Par exemple, dans les sites liés au ML, des résultats ont été rapportés sur le concept de clustering basé sur un réseau dans le système GA-LOIS qui convenait à la recherche d'informations via la navigation [115,116]. [117] ont effectué une comparaison de sept algorithmes de classification basés sur FCA. [118] et
 
En fait, l'Analyse Formelle de Concept a aidé à repenser algébriquement plusieurs modèles et méthodes en Machine Learning tels que les espaces de version [113], l'apprentissage à partir d'exemples positifs et négatifs [74,48], et les arbres de décision [48]. Il a également été montré que le réseau conceptuel est un espace de recherche parfait pour l'apprentissage d'arbres de décision globalement optimaux [114]. Déjà au début des années 90, des techniques et des applications d'apprentissage automatique supervisées et non supervisées basées sur l'analyse formelle de concepts ont été introduites dans la communauté de l'apprentissage automatique. Par exemple, dans les sites liés au ML, des résultats ont été rapportés sur le concept de clustering basé sur un réseau dans le système GA-LOIS qui convenait à la recherche d'informations via la navigation [115,116]. [117] ont effectué une comparaison de sept algorithmes de classification basés sur FCA. [118] et
Line 1,490: Line 1,489:
 
Soit K = (tt, M, I) un contexte. Il existe un attribut cible w ∈ / M,
 
Soit K = (tt, M, I) un contexte. Il existe un attribut cible w ∈ / M,
  
    exemples positifs, c'est-à-dire ensemble tt + ⊆ tt d'objets connus pour avoir w,
+
* exemples positifs, c'est-à-dire ensemble tt + ⊆ tt d'objets connus pour avoir w,
  
    exemples négatifs, c'est-à-dire ensemble tt− ⊆ tt d'objets connus pour ne pas avoir w,
+
* exemples négatifs, c'est-à-dire ensemble tt− ⊆ tt d'objets connus pour ne pas avoir w,
  
    des exemples indéterminés, c'est-à-dire définir ttτ tt des objets pour lesquels
+
* des exemples indéterminés, c'est-à-dire définir ttτ tt des objets pour lesquels
  
 
sait s'ils ont l'attribut cible ou non.
 
sait s'ils ont l'attribut cible ou non.
Line 1,594: Line 1,593:
 
Fig. 15. Les diagrammes linéaires du réseau d'hypothèses positives (à gauche) et du réseau d'hypothèses négatives (à droite).
 
Fig. 15. Les diagrammes linéaires du réseau d'hypothèses positives (à gauche) et du réseau d'hypothèses négatives (à droite).
  
    Si gτ contient une hypothèse positive mais pas d'hypothèse négative, alors gτ est classifté
+
* Si gτ contient une hypothèse positive mais pas d'hypothèse négative, alors gτ est classifté
  
 
positivement (présence de l'attribut cible w prévue).
 
positivement (présence de l'attribut cible w prévue).
  
    Si gτ contient une hypothèse négative, mais pas d'hypothèse positive, alors gτ classifted
+
* Si gτ contient une hypothèse négative, mais pas d'hypothèse positive, alors gτ classifted
  
 
négativement (absence d'attribut cible w prévue).
 
négativement (absence d'attribut cible w prévue).
  
    Si gτ contient à la fois des hypothèses négatives et positives, ou si gτ ne
+
* Si gτ contient à la fois des hypothèses négatives et positives, ou si gτ ne
  
 
τ τ
 
τ τ
Line 1,634: Line 1,633:
 
quelques problèmes de ce type, nous mentionnerions les problèmes de relation structure-activité pour les produits chimiques donnés par les graphes moléculaires et l'apprentissage de la sémantique à partir de représentations textuelles basées sur des graphiques (XML, arbre syntaxique). Motivé par la recherche d'extensions possibles de machines FCA originales pour analyser des données avec une structure complexe, Ganter et Kuznetsov ont proposé des structures dites de modèle [132].
 
quelques problèmes de ce type, nous mentionnerions les problèmes de relation structure-activité pour les produits chimiques donnés par les graphes moléculaires et l'apprentissage de la sémantique à partir de représentations textuelles basées sur des graphiques (XML, arbre syntaxique). Motivé par la recherche d'extensions possibles de machines FCA originales pour analyser des données avec une structure complexe, Ganter et Kuznetsov ont proposé des structures dites de modèle [132].
  
5.3 Structures de modèle pour les données avec des descriptions complexes
+
===5.3 Structures de modèle pour les données avec des descriptions complexes===
  
 
Les définitions de base des structures de motif ont été proposées dans [132].
 
Les définitions de base des structures de motif ont été proposées dans [132].
Line 1,724: Line 1,723:
 
Cependant, Pattern Structures n'est pas la seule tentative pour adapter FCA à des données avec une description plus complexe que booléenne. Ainsi, au cours des dernières années, les recherches sur l'extension de la théorie de la FCA pour faire face aux informations imprécises et incomplètes ont fait des progrès significatifs. Le modèle sous-jacent est un réseau dit de concepts flous; il existe plusieurs définitions d'un tel réseau, mais l'hypothèse de base est généralement qu'un objet peut posséder des attributs dans une certaine mesure [136]. Par exemple, dans les études sociologiques, la représentation par âge requiert une attention particulière: une personne adolescente ne peut pas être traitée comme une adulte vraiment le premier jour lorsque son âge dépasse un seuil de 18 ans (de plus, pour des raisons formelles, cet âge peut différer selon les pays). Cependant, c'est généralement le cas lorsque nous traitons de la mise à l'échelle nominale;même une mise à l'échelle ordinale peut entraîner une perte d'informations en raison du niveau de granularité choisi. Donc, nous avons besoin d'une mesure flexible d'être à la fois un adulte et un adolescent et ce pourrait être un degré compris dans l'intervalle [0,1] pour chacun de ces attributs. Une autre façon de caractériser cette imprécision ou rugosité peut être faite en termes d'ensembles approximatifs [137]. Un lecteur intéressé est invité à suivre une enquête sur Fuzzy et Rough FCA dans [138]. La correspondance entre Pattern Structures et Fuzzy FCA peut être trouvée dans [139].Un lecteur intéressé est invité à suivre une enquête sur Fuzzy et Rough FCA dans [138]. La correspondance entre Pattern Structures et Fuzzy FCA peut être trouvée dans [139].Un lecteur intéressé est invité à suivre une enquête sur Fuzzy et Rough FCA dans [138]. La correspondance entre Pattern Structures et Fuzzy FCA peut être trouvée dans [139].
 
Cependant, Pattern Structures n'est pas la seule tentative pour adapter FCA à des données avec une description plus complexe que booléenne. Ainsi, au cours des dernières années, les recherches sur l'extension de la théorie de la FCA pour faire face aux informations imprécises et incomplètes ont fait des progrès significatifs. Le modèle sous-jacent est un réseau dit de concepts flous; il existe plusieurs définitions d'un tel réseau, mais l'hypothèse de base est généralement qu'un objet peut posséder des attributs dans une certaine mesure [136]. Par exemple, dans les études sociologiques, la représentation par âge requiert une attention particulière: une personne adolescente ne peut pas être traitée comme une adulte vraiment le premier jour lorsque son âge dépasse un seuil de 18 ans (de plus, pour des raisons formelles, cet âge peut différer selon les pays). Cependant, c'est généralement le cas lorsque nous traitons de la mise à l'échelle nominale;même une mise à l'échelle ordinale peut entraîner une perte d'informations en raison du niveau de granularité choisi. Donc, nous avons besoin d'une mesure flexible d'être à la fois un adulte et un adolescent et ce pourrait être un degré compris dans l'intervalle [0,1] pour chacun de ces attributs. Une autre façon de caractériser cette imprécision ou rugosité peut être faite en termes d'ensembles approximatifs [137]. Un lecteur intéressé est invité à suivre une enquête sur Fuzzy et Rough FCA dans [138]. La correspondance entre Pattern Structures et Fuzzy FCA peut être trouvée dans [139].Un lecteur intéressé est invité à suivre une enquête sur Fuzzy et Rough FCA dans [138]. La correspondance entre Pattern Structures et Fuzzy FCA peut être trouvée dans [139].Un lecteur intéressé est invité à suivre une enquête sur Fuzzy et Rough FCA dans [138]. La correspondance entre Pattern Structures et Fuzzy FCA peut être trouvée dans [139].
  
5.4 Factorisation de la matrice booléenne basée sur FCA
+
===5.4 Factorisation de la matrice booléenne basée sur FCA===
  
 
Les techniques de factorisation matricielle (MF) figurent dans l'inventaire typique de l'apprentissage automatique ([125], chapitre Caractéristiques), de l'exploration de données ([63], chapitre Réduction de la dimensionnalité) et de la recherche d'informations ([1], chapitre Décompositions matricielles et indexation sémantique latente) . Ainsi, la MF utilisée pour la réduction de dimensionnalité et l'extraction de caractéristiques, et, par exemple, dans le filtrage collaboratif, les techniques MF recommandées sont désormais considérées comme des normes de l'industrie [140].
 
Les techniques de factorisation matricielle (MF) figurent dans l'inventaire typique de l'apprentissage automatique ([125], chapitre Caractéristiques), de l'exploration de données ([63], chapitre Réduction de la dimensionnalité) et de la recherche d'informations ([1], chapitre Décompositions matricielles et indexation sémantique latente) . Ainsi, la MF utilisée pour la réduction de dimensionnalité et l'extraction de caractéristiques, et, par exemple, dans le filtrage collaboratif, les techniques MF recommandées sont désormais considérées comme des normes de l'industrie [140].
Line 1,806: Line 1,805:
 
et [147], respectivement (le dernier n'est pas basé sur FCA)
 
et [147], respectivement (le dernier n'est pas basé sur FCA)
  
5.5 Étude de cas: processus d'admission à l'université HSE
+
===5.5 Étude de cas: processus d'admission à l'université HSE===
  
 
dans cette étude de cas, nous reproduisons les résultats de notre article à partir de [52]. En supposant une confusion probable du système éducatif russe, nous devons dire quelques mots sur l'École supérieure d'économie de l'Université nationale de recherche19 et son processus d'admission.
 
dans cette étude de cas, nous reproduisons les résultats de notre article à partir de [52]. En supposant une confusion probable du système éducatif russe, nous devons dire quelques mots sur l'École supérieure d'économie de l'Université nationale de recherche19 et son processus d'admission.
Line 1,844: Line 1,843:
 
Sociologie
 
Sociologie
  
10 Génie logiciel
+
==10 Génie logiciel==
  
 
Économie
 
Économie
Line 1,908: Line 1,907:
 
Un autre cas d'exploration de données éducatives comprend l'analyse des résultats des élèves au cours des deux années suivantes pour le même groupe au moyen de données de notation [148].
 
Un autre cas d'exploration de données éducatives comprend l'analyse des résultats des élèves au cours des deux années suivantes pour le même groupe au moyen de données de notation [148].
  
5.6 Exercices d'apprentissage automatique avec la méthode JSM dans QuDA
+
===5.6 Exercices d'apprentissage automatique avec la méthode JSM dans QuDA===
  
 
QuDA a été développé au début des années 2000 comme «un environnement logiciel pour ceux qui veulent apprendre le Data Mining en faisant» au groupe Intellectics de l'Université technique de technologie de Darmstadt [149,150,53]. Il comprend diverses techniques, telles que l'exploration de règles d'association, les arbres de décision et l'apprentissage basé sur des règles, le raisonnement JSM (y compris divers schémas de raisonnement [151]), l'apprentissage bayésien et la découverte intéressante de sous-groupes. Il fournit également à l'expérimentateur des outils d'estimation d'erreur et de sélection de modèle ainsi que plusieurs utilitaires de prétraitement et de post-traitement, y compris des outils de nettoyage des données, des diagrammes linéaires, la visualisation des distributions d'attributs et un navigateur de règles pratique, etc. Il était principalement destiné à soutenir les scientifiques et des activités d'enseignement dans le domaine de l'apprentissage automatique et de l'exploration de données. cependant,puisque QuDA possède une architecture ouverte et prend en charge les formats de données les plus courants ainsi que la
 
QuDA a été développé au début des années 2000 comme «un environnement logiciel pour ceux qui veulent apprendre le Data Mining en faisant» au groupe Intellectics de l'Université technique de technologie de Darmstadt [149,150,53]. Il comprend diverses techniques, telles que l'exploration de règles d'association, les arbres de décision et l'apprentissage basé sur des règles, le raisonnement JSM (y compris divers schémas de raisonnement [151]), l'apprentissage bayésien et la découverte intéressante de sous-groupes. Il fournit également à l'expérimentateur des outils d'estimation d'erreur et de sélection de modèle ainsi que plusieurs utilitaires de prétraitement et de post-traitement, y compris des outils de nettoyage des données, des diagrammes linéaires, la visualisation des distributions d'attributs et un navigateur de règles pratique, etc. Il était principalement destiné à soutenir les scientifiques et des activités d'enseignement dans le domaine de l'apprentissage automatique et de l'exploration de données. cependant,puisque QuDA possède une architecture ouverte et prend en charge les formats de données les plus courants ainsi que la
Line 1,952: Line 1,951:
 
répartis parmi les exemples les plus représentatifs de tâches et de systèmes IR basés sur FCA, y compris le résumé de l'expérience de l'auteur.
 
répartis parmi les exemples les plus représentatifs de tâches et de systèmes IR basés sur FCA, y compris le résumé de l'expérience de l'auteur.
  
    Textes scientifiques de Text Mining: une enquête sur les applications IR basées sur FCA [37]
+
* Textes scientifiques de Text Mining: une enquête sur les applications IR basées sur FCA [37]
  
    Moteurs de méta-recherche basés sur FCA (FOOCa, SearchSleuth, Credo, etc.) [83,15]
+
* Moteurs de méta-recherche basés sur FCA (FOOCa, SearchSleuth, Credo, etc.) [83,15]
  
    Visualisation IR basée sur FCA [15] et navigation (ImageSleuth, Camelis [160])
+
* Visualisation IR basée sur FCA [15] et navigation (ImageSleuth, Camelis [160])
  
    FCA en criminologie: fouille de textes de rapports de police [37]
+
* FCA en criminologie: fouille de textes de rapports de police [37]
  
    Approche basée sur la FCA pour la publicité de mots clés dans la recherche sur le Web [96]
+
* Approche basée sur la FCA pour la publicité de mots clés dans la recherche sur le Web [96]
  
    Systèmes de recommandation basés sur FCA [145]
+
* Systèmes de recommandation basés sur FCA [145]
  
    FCA triadique pour les tâches infrarouges dans les folksonomies [161]
+
* FCA triadique pour les tâches infrarouges dans les folksonomies [161]
  
    Approche basée sur FCA pour la détection de quasi-doublons de documents [162,81]
+
* Approche basée sur FCA pour la détection de quasi-doublons de documents [162,81]
  
    Explorer les taxonomies des utilisateurs de sites Web [163]
+
* Explorer les taxonomies des utilisateurs de sites Web [163]
  
    Modèles basés sur des concepts dans les plateformes Crowdsourced: un système de recommandation de personnes, d'antagonistes et d'idées partageant les mêmes idées [164]
+
* Modèles basés sur des concepts dans les plateformes Crowdsourced: un système de recommandation de personnes, d'antagonistes et d'idées partageant les mêmes idées [164]
  
6.1 Articles Scientiftc de Text Mining: une enquête sur les applications IR basées sur FCA
+
===6.1 Articles Scientiftc de Text Mining: une enquête sur les applications IR basées sur FCA===
  
 
Dans [4], nous avons représenté visuellement la littérature sur la FCA et l'IR à l'aide de concepts concepts, dans lesquels les objets sont les articles scientifiques et les attributs sont les termes pertinents disponibles dans le titre, les mots-clés et l'abrégé des articles. Nous avons développé un outil IR avec un composant FCA central que nous utilisons pour indexer les articles avec un thésaurus contenant des termes liés à la recherche FCA et pour générer les réseaux. Cela nous a aidés à faire un zoom avant et à donner un aperçu complet de 103 articles publiés entre 2003 et 2009 sur l'utilisation de la FCA dans la recherche d'informations.
 
Dans [4], nous avons représenté visuellement la littérature sur la FCA et l'IR à l'aide de concepts concepts, dans lesquels les objets sont les articles scientifiques et les attributs sont les termes pertinents disponibles dans le titre, les mots-clés et l'abrégé des articles. Nous avons développé un outil IR avec un composant FCA central que nous utilisons pour indexer les articles avec un thésaurus contenant des termes liés à la recherche FCA et pour générer les réseaux. Cela nous a aidés à faire un zoom avant et à donner un aperçu complet de 103 articles publiés entre 2003 et 2009 sur l'utilisation de la FCA dans la recherche d'informations.
Line 2,094: Line 2,093:
 
Un lecteur intéressé peut trouver les autres sections de notre enquête:
 
Un lecteur intéressé peut trouver les autres sections de notre enquête:
  
    Récupération Web et e-mail (partiellement couvert dans la section 6.2);
+
* Récupération Web et e-mail (partiellement couvert dans la section 6.2);
  
    Récupération d'images, de logiciels et de bases de connaissances (partiellement couvert dans la section 6.3);
+
* Récupération d'images, de logiciels et de bases de connaissances (partiellement couvert dans la section 6.3);
  
    Définition et traitement de requêtes complexes avec FCA;
+
* Définition et traitement de requêtes complexes avec FCA;
  
    Connaissance du domaine dans les résultats de recherche: réponses contextuelles et classement.
+
* Connaissance du domaine dans les résultats de recherche: réponses contextuelles et classement.
  
6.2 Visualisation IR basée sur FCA et moteurs de méta-recherche
+
===6.2 Visualisation IR basée sur FCA et moteurs de méta-recherche===
  
 
Depuis le début des années 2000, de nombreux développeurs IR indépendants ont proposé ce que l'on appelle des moteurs de méta-recherche, également appelés moteurs de regroupement des résultats de recherche. Pour n'en nommer que quelques-uns, deux projets sont encore vivants Carrots228 et Nigma.ru29. Voir le résumé de l'enquête sur la recherche en cluster sur le Web par Carpineto et al. dans [167].
 
Depuis le début des années 2000, de nombreux développeurs IR indépendants ont proposé ce que l'on appelle des moteurs de méta-recherche, également appelés moteurs de regroupement des résultats de recherche. Pour n'en nommer que quelques-uns, deux projets sont encore vivants Carrots228 et Nigma.ru29. Voir le résumé de l'enquête sur la recherche en cluster sur le Web par Carpineto et al. dans [167].
Line 2,136: Line 2,135:
 
Fig. 23. Un exemple de l'interface Web de SearchSleuth. Il traite les résultats des requêtes de recherche vers Yahoo. Le passage à des catégories plus générales (plus spécifiques) se fait en cliquant sur
 
Fig. 23. Un exemple de l'interface Web de SearchSleuth. Il traite les résultats des requêtes de recherche vers Yahoo. Le passage à des catégories plus générales (plus spécifiques) se fait en cliquant sur
  
    terme (+ terme).
+
* terme (+ terme).
  
 
d'une requête. Cole et al. [175] discutent d'un outil de découverte de documents nommé Conceptual Email Manager (CEM) qui est basé sur FCA. Le programme permet aux utilisateurs de parcourir les e-mails à l'aide d'un réseau visuel. Le document explique également comment les ontologies conceptuelles peuvent prendre en charge les systèmes traditionnels de récupération de documents et faciliter la découverte des connaissances dans les collections de documents. Le développement de ce logiciel est basé sur des recherches antérieures sur la récupération d'informations à partir de textes semi-structurés ([176,177]). S'appuyant sur ces travaux, le logiciel Mail-Sleuth (Eklund et al. [178]) peut être utilisé pour extraire de grandes archives de courrier électronique. Eklund et al. [179] utiliser FCA pour afficher, rechercher et parcourir le contenu de l'aide dans un système d'aide.Stojanovic [180] présente une méthode basée sur FCA pour affiner la requête qui fournit à un utilisateur les requêtes qui sont "proches" de la requête donnée. Leur approche pour la navigation dans l'espace des requêtes a été validée dans le cadre de la recherche de résumés médicaux. Stojanovic [180] présente le système SMART pour la navigation dans un catalogue de produits en ligne. Les produits de la base de données sont décrits par des éléments d'une ontologie et visualisés avec un treillis, dans lequel les utilisateurs peuvent naviguer d'un cluster d'attributs de produit très général contenant beaucoup de produits à des clusters très spécifiques qui semblent en contenir quelques-uns, mais pour l'utilisateur des produits très pertinents. Spyratos et al. [181] décrivent une approche pour l'optimisation des requêtes qui intègre la navigation et l'interrogation dans un seul processus. Le réseau FCA sert à la navigation et les attributs à la formulation des requêtes. Le Grand et al.[182] présentent une méthode IR basée sur FCA en conjonction avec la sémantique pour fournir des réponses contextuelles aux requêtes Web. Un réseau global est construit à partir de pages Web touristiques. Ensuite, les utilisateurs formulent leur requête et les concepts les mieux adaptés sont retournés, les utilisateurs peuvent ensuite naviguer dans le réseau en généralisant ou en affinant leur requête. Eklund et al. [183] ​​présentent AnnotationSleuth pour étendre une interface de recherche et de navigation standard afin de présenter un quartier conceptuel centré sur un concept formel dérivé de balises de conservation dans un système de gestion de musée. Cigarran et al. [184] se concentrent sur la sélection automatique des phrases nominales comme descripteurs de documents pour construire un système IR basé sur FCA. La sélection automatique d'attributs est importante lors de l'utilisation de FCA dans un cadre de récupération de documents en texte libre. Les attributs optimaux que les descripteurs de documents devraient produire plus petits,réseaux de concept plus clairs et plus navigables avec de meilleures fonctionnalités de clustering. Recio-Garcia et al. [185] utilisent FCA pour effectuer des annotations sémantiques de pages Web avec des ontologies de domaine. Les techniques de correspondance de similarité du raisonnement basé sur les cas peuvent être appliquées pour récupérer ces pages annotées en tant que cas. Liu et al. [186] utiliser FCA pour optimiser un moteur de recherche d'actualités personnel afin d'aider les utilisateurs à obtenir rapidement le contenu d'actualités dont ils ont besoin. La technique proposée combine la construction de l'arrière-plan de l'utilisateur à l'aide de FCA, l'optimisation des mots clés de requête en fonction de l'arrière-plan de l'utilisateur et une nouvelle stratégie de mise en page des résultats de recherche basée sur un «arbre conceptuel». Lungley et al. [187] utilisent la rétroaction implicite des utilisateurs pour adapter le modèle de domaine sous-jacent d'un système de recherche intranet.FCA est utilisé comme interface interactive pour identifier les termes de raffinement des requêtes qui aident à obtenir de meilleures descriptions de documents et des réseaux plus navigables.
 
d'une requête. Cole et al. [175] discutent d'un outil de découverte de documents nommé Conceptual Email Manager (CEM) qui est basé sur FCA. Le programme permet aux utilisateurs de parcourir les e-mails à l'aide d'un réseau visuel. Le document explique également comment les ontologies conceptuelles peuvent prendre en charge les systèmes traditionnels de récupération de documents et faciliter la découverte des connaissances dans les collections de documents. Le développement de ce logiciel est basé sur des recherches antérieures sur la récupération d'informations à partir de textes semi-structurés ([176,177]). S'appuyant sur ces travaux, le logiciel Mail-Sleuth (Eklund et al. [178]) peut être utilisé pour extraire de grandes archives de courrier électronique. Eklund et al. [179] utiliser FCA pour afficher, rechercher et parcourir le contenu de l'aide dans un système d'aide.Stojanovic [180] présente une méthode basée sur FCA pour affiner la requête qui fournit à un utilisateur les requêtes qui sont "proches" de la requête donnée. Leur approche pour la navigation dans l'espace des requêtes a été validée dans le cadre de la recherche de résumés médicaux. Stojanovic [180] présente le système SMART pour la navigation dans un catalogue de produits en ligne. Les produits de la base de données sont décrits par des éléments d'une ontologie et visualisés avec un treillis, dans lequel les utilisateurs peuvent naviguer d'un cluster d'attributs de produit très général contenant beaucoup de produits à des clusters très spécifiques qui semblent en contenir quelques-uns, mais pour l'utilisateur des produits très pertinents. Spyratos et al. [181] décrivent une approche pour l'optimisation des requêtes qui intègre la navigation et l'interrogation dans un seul processus. Le réseau FCA sert à la navigation et les attributs à la formulation des requêtes. Le Grand et al.[182] présentent une méthode IR basée sur FCA en conjonction avec la sémantique pour fournir des réponses contextuelles aux requêtes Web. Un réseau global est construit à partir de pages Web touristiques. Ensuite, les utilisateurs formulent leur requête et les concepts les mieux adaptés sont retournés, les utilisateurs peuvent ensuite naviguer dans le réseau en généralisant ou en affinant leur requête. Eklund et al. [183] ​​présentent AnnotationSleuth pour étendre une interface de recherche et de navigation standard afin de présenter un quartier conceptuel centré sur un concept formel dérivé de balises de conservation dans un système de gestion de musée. Cigarran et al. [184] se concentrent sur la sélection automatique des phrases nominales comme descripteurs de documents pour construire un système IR basé sur FCA. La sélection automatique d'attributs est importante lors de l'utilisation de FCA dans un cadre de récupération de documents en texte libre. Les attributs optimaux que les descripteurs de documents devraient produire plus petits,réseaux de concept plus clairs et plus navigables avec de meilleures fonctionnalités de clustering. Recio-Garcia et al. [185] utilisent FCA pour effectuer des annotations sémantiques de pages Web avec des ontologies de domaine. Les techniques de correspondance de similarité du raisonnement basé sur les cas peuvent être appliquées pour récupérer ces pages annotées en tant que cas. Liu et al. [186] utiliser FCA pour optimiser un moteur de recherche d'actualités personnel afin d'aider les utilisateurs à obtenir rapidement le contenu d'actualités dont ils ont besoin. La technique proposée combine la construction de l'arrière-plan de l'utilisateur à l'aide de FCA, l'optimisation des mots clés de requête en fonction de l'arrière-plan de l'utilisateur et une nouvelle stratégie de mise en page des résultats de recherche basée sur un «arbre conceptuel». Lungley et al. [187] utilisent la rétroaction implicite des utilisateurs pour adapter le modèle de domaine sous-jacent d'un système de recherche intranet.FCA est utilisé comme interface interactive pour identifier les termes de raffinement des requêtes qui aident à obtenir de meilleures descriptions de documents et des réseaux plus navigables.
  
6.3 Récupération et navigation d'images basées sur FCA
+
===6.3 Récupération et navigation d'images basées sur FCA===
  
 
Visualisation IR basée sur FCA [15] et navigation (ImageSleuth, Camelis [160])
 
Visualisation IR basée sur FCA [15] et navigation (ImageSleuth, Camelis [160])
Line 2,148: Line 2,147:
 
Dans [160] Ferre et al. a proposé d'utiliser les systèmes d'information logiques (LIS) pour naviguer dans les collections de photos33. En fait, LIS, de la même manière que Pattern Structures, exploite des descriptions d'objets partiellement ordonnées mais exprimées sous forme de formules logiques.
 
Dans [160] Ferre et al. a proposé d'utiliser les systèmes d'information logiques (LIS) pour naviguer dans les collections de photos33. En fait, LIS, de la même manière que Pattern Structures, exploite des descriptions d'objets partiellement ordonnées mais exprimées sous forme de formules logiques.
  
    emplacement: Nizhniy Novgorod ± Russie
+
* emplacement: Nizhniy Novgorod ± Russie
  
    date: date = 18 août 2014 ± date en août 2014 .. juil 2015
+
* date: date = 18 août 2014 ± date en août 2014 .. juil 2015
  
    événement: l'événement est «école d'été RuSSIR» ± l'événement contient «école d'été»
+
* événement: l'événement est «école d'été RuSSIR» ± l'événement contient «école d'été»
  
 
En outre, il a été étendu pour le travail avec les collections de documents [192]. Comme Camelis utilise la navigation sur réseau et la recherche par formules, il surmonte les inconvénients actuels de la navigation arborescente imposés par les restrictions actuelles des systèmes de fichiers.
 
En outre, il a été étendu pour le travail avec les collections de documents [192]. Comme Camelis utilise la navigation sur réseau et la recherche par formules, il surmonte les inconvénients actuels de la navigation arborescente imposés par les restrictions actuelles des systèmes de fichiers.
Line 2,160: Line 2,159:
 
objets dans une collection de musée.
 
objets dans une collection de musée.
  
6.4 FCA en criminologie: fouille de textes de rapports de police
+
===6.4 FCA en criminologie: fouille de textes de rapports de police===
  
 
Dans [37], nous avons proposé une méthodologie de découverte des connaissances itérative et centrée sur l'homme basée sur la FCA. L'approche proposée reconnaît le rôle important du
 
Dans [37], nous avons proposé une méthodologie de découverte des connaissances itérative et centrée sur l'homme basée sur la FCA. L'approche proposée reconnaît le rôle important du
Line 2,222: Line 2,221:
 
Il existe d'autres études basées sur la FCA en criminologie, par exemple, la modélisation et l'analyse des activités terroristes [198] et les développements des politiques d'accès en réseau pour les systèmes d'information [199 200].
 
Il existe d'autres études basées sur la FCA en criminologie, par exemple, la modélisation et l'analyse des activités terroristes [198] et les développements des politiques d'accès en réseau pour les systèmes d'information [199 200].
  
6.5 Approche basée sur FCA pour la publicité de mots clés dans la recherche sur le Web
+
===6.5 Approche basée sur FCA pour la publicité de mots clés dans la recherche sur le Web===
  
 
La publicité en ligne par correspondance de mots clés est le pain et le beurre des sociétés de recherche Web modernes comme Google et Yandex. Pour notre expérimentation, nous avons utilisé les données de US Overture [201] (maintenant, une partie de Yahoo), qui ont d'abord été transformées sous la forme de contexte standard. Nous considérons le contexte suivant: KF T = (F, T, IF T), où F est l'ensemble des agences de publicité (entreprises), T est l'ensemble des termes ou expressions publicitaires, f IF T t signifie que l'entreprise f ∈ F a acheté le terme publicitaire t ∈ T.
 
La publicité en ligne par correspondance de mots clés est le pain et le beurre des sociétés de recherche Web modernes comme Google et Yandex. Pour notre expérimentation, nous avons utilisé les données de US Overture [201] (maintenant, une partie de Yahoo), qui ont d'abord été transformées sous la forme de contexte standard. Nous considérons le contexte suivant: KF T = (F, T, IF T), où F est l'ensemble des agences de publicité (entreprises), T est l'ensemble des termes ou expressions publicitaires, f IF T t signifie que l'entreprise f ∈ F a acheté le terme publicitaire t ∈ T.
Line 2,306: Line 2,305:
 
Exemple 22. Voici quelques exemples de règles d'association:
 
Exemple 22. Voici quelques exemples de règles d'association:
  
    {évitamine} → {cvitamine}, supp = 31 [1,55%] et conf = 0,86;
+
* {évitamine} → {cvitamine}, supp = 31 [1,55%] et conf = 0,86;
  
    {remise de diplôme} → {cadeau d'anniversaire}, supp = 41 [2,05%] et conf = 0,82.
+
* {remise de diplôme} → {cadeau d'anniversaire}, supp = 41 [2,05%] et conf = 0,82.
  
 
Q
 
Q
Line 2,352: Line 2,351:
 
dans le terme antérieur. De toute évidence, la construction de règles de ce type peut entraîner la fusion de phrases liées à différents secteurs du marché, par exemple «black jack» et
 
dans le terme antérieur. De toute évidence, la construction de règles de ce type peut entraîner la fusion de phrases liées à différents secteurs du marché, par exemple «black jack» et
  
"manteau noir". Deuxièmement, nous avons considéré des règles de la forme t −F− → T (S s) IT S, c'est-à-dire des règles
+
manteau noir. Deuxièmement, nous avons considéré des règles de la forme t −F− → T (S s) IT S, c'est-à-dire des règles
  
 
je
 
je
Line 2,414: Line 2,413:
 
Exemple 24. Un exemple de métarules.
 
Exemple 24. Un exemple de métarules.
  
    t −F− → T
+
* t −F− → T
  
 
IT S
 
IT S
Line 2,424: Line 2,423:
 
supp = 19 conf = 0,90
 
supp = 19 conf = 0,90
  
    t −F− → T
+
* t −F− → T
  
 
S sIT S
 
S sIT S
Line 2,436: Line 2,435:
 
supp = 19 conf = 0,95
 
supp = 19 conf = 0,95
  
    t −F− → T (S s) IT S
+
* t −F− → T (S s) IT S
  
 
je
 
je
Line 2,450: Line 2,449:
 
IT S IT S
 
IT S IT S
  
    t −− → t, t ⊆ t
+
* t −− → t, t ⊆ t
  
 
{jet d'encre} → {encre}, supp = 14 conf = 0,7
 
{jet d'encre} → {encre}, supp = 14 conf = 0,7
Line 2,460: Line 2,459:
 
liste des synonymes produits par AdWords.
 
liste des synonymes produits par AdWords.
  
6.6 Systèmes de recommandation basés sur FCA
+
===6.6 Systèmes de recommandation basés sur FCA===
  
 
Motivés par des applications prospectives de la factorisation de la matrice booléenne (BMF) dans le contexte des systèmes de recommandation (RS), nous avons proposé une approche basée sur FCA qui suit la stratégie basée sur l'utilisateur k-plus proches voisins [94]. Une autre approche similaire à MF est le biclustering, qui a également été appliqué avec succès dans le domaine du système de recommandation [207,96]. Comme nous l'avons mentionné, le FCA peut également être utilisé comme technique de biclustering et il existe plusieurs exemples de ses applications dans le domaine des systèmes de recommandation [90,92]. Une approche sans paramètre qui exploite un voisinage du concept d'objet pour un utilisateur particulier a également prouvé son efficacité [208].
 
Motivés par des applications prospectives de la factorisation de la matrice booléenne (BMF) dans le contexte des systèmes de recommandation (RS), nous avons proposé une approche basée sur FCA qui suit la stratégie basée sur l'utilisateur k-plus proches voisins [94]. Une autre approche similaire à MF est le biclustering, qui a également été appliqué avec succès dans le domaine du système de recommandation [207,96]. Comme nous l'avons mentionné, le FCA peut également être utilisé comme technique de biclustering et il existe plusieurs exemples de ses applications dans le domaine des systèmes de recommandation [90,92]. Une approche sans paramètre qui exploite un voisinage du concept d'objet pour un utilisateur particulier a également prouvé son efficacité [208].
Line 2,765: Line 2,764:
 
Dans notre étude précédente, avec le schéma original basé sur le BMF (la pondération n'est pas utilisée), nous avons obtenu des résultats comparables en termes de MAE et de précision et de rappel [94,145].
 
Dans notre étude précédente, avec le schéma original basé sur le BMF (la pondération n'est pas utilisée), nous avons obtenu des résultats comparables en termes de MAE et de précision et de rappel [94,145].
  
6.7 Approche basée sur FCA pour la détection de quasi-doublons de documents
+
===6.7 Approche basée sur FCA pour la détection de quasi-doublons de documents===
  
 
Depuis l'aube des moteurs de recherche sur le Web, le problème de trouver des documents presque en double dans les résultats de recherche sur le Web est crucial pour fournir aux utilisateurs des documents pertinents [211,212,213].
 
Depuis l'aube des moteurs de recherche sur le Web, le problème de trouver des documents presque en double dans les résultats de recherche sur le Web est crucial pour fournir aux utilisateurs des documents pertinents [211,212,213].
Line 2,853: Line 2,852:
 
Nous résumons brièvement les résultats expérimentaux ci-dessous:
 
Nous résumons brièvement les résultats expérimentaux ci-dessous:
  
    FPmax * (mesure F = 0,61 et temps écoulé 0,6 seconde), ClusterRB (mesure F = 0,63 et temps écoulé 4 heures);
+
* FPmax * (mesure F = 0,61 et temps écoulé 0,6 seconde), ClusterRB (mesure F = 0,63 et temps écoulé 4 heures);
  
    Pour FPMax *, le nombre de grappes de documents uniques est de 566, pour ClusterRB 4227;
+
* Pour FPMax *, le nombre de grappes de documents uniques est de 566, pour ClusterRB 4227;
  
    Le nombre total de clusters pour FPmax * est de 903 contre 5000 pour Cluto 903;
+
* Le nombre total de clusters pour FPmax * est de 903 contre 5000 pour Cluto 903;
  
    Le nombre de clusters NDD pour FPmax * est de 337 contre 773 Cluto.
+
* Le nombre de clusters NDD pour FPmax * est de 337 contre 773 Cluto.
  
 
Les graphiques et les tableaux montrent que pour 5000 grappes, la sortie de ClusterRB a presque la même valeur de mesure F (0,63) que FPmax * pour le seuil 150 (F1 = 0,61). Cependant, les calculs ont pris 4 heures pour ClusterRB et une demi-seconde pour FP-max *.
 
Les graphiques et les tableaux montrent que pour 5000 grappes, la sortie de ClusterRB a presque la même valeur de mesure F (0,63) que FPmax * pour le seuil 150 (F1 = 0,61). Cependant, les calculs ont pris 4 heures pour ClusterRB et une demi-seconde pour FP-max *.
Line 2,889: Line 2,888:
 
de leurs biens auprès de soi-disant copyrighters. Un copyrighter peut tricher de temps en temps et fournir au propriétaire des descriptions presque identiques pour différents éléments. Dans cette étude, nous avons démontré comment nous pouvons utiliser FCA pour révéler et regrouper rapidement en ligne de tels doublons dans une véritable parfumerie en ligne. Nos résultats étaient également applicables à la détection de quasi-doublons dans les collections de documents de projets de R&D [221].
 
de leurs biens auprès de soi-disant copyrighters. Un copyrighter peut tricher de temps en temps et fournir au propriétaire des descriptions presque identiques pour différents éléments. Dans cette étude, nous avons démontré comment nous pouvons utiliser FCA pour révéler et regrouper rapidement en ligne de tels doublons dans une véritable parfumerie en ligne. Nos résultats étaient également applicables à la détection de quasi-doublons dans les collections de documents de projets de R&D [221].
  
6.8 FCA triadique pour les tâches IR dans les économies populaires
+
===6.8 FCA triadique pour les tâches IR dans les économies populaires===
  
 
Quatre de nos études d'exploration de données sur le triclustering (voir section 5.1 et [109,112,111]) les données folksonomiques sont devenues une gamme de tir depuis que le premier algorithme efficace basé sur la FCA pour extraire des données tiradiques a été proposé pour les communautés minières dans les sonomies folkloriques [45].
 
Quatre de nos études d'exploration de données sur le triclustering (voir section 5.1 et [109,112,111]) les données folksonomiques sont devenues une gamme de tir depuis que le premier algorithme efficace basé sur la FCA pour extraire des données tiradiques a été proposé pour les communautés minières dans les sonomies folkloriques [45].
Line 2,925: Line 2,924:
 
Dans cet article, les auteurs ont formulé des tâches particulières:
 
Dans cet article, les auteurs ont formulé des tâches particulières:
  
    Des documents susceptibles d'intéresser un utilisateur peuvent lui être proposés.
+
* Des documents susceptibles d'intéresser un utilisateur peuvent lui être proposés.
  
    D'autres balises associées peuvent être suggérées à un utilisateur. Ainsi, FolkRank tient également compte du comportement de marquage des autres utilisateurs et peut être utilisé pour les recommandations de marquage.
+
* D'autres balises associées peuvent être suggérées à un utilisateur. Ainsi, FolkRank tient également compte du comportement de marquage des autres utilisateurs et peut être utilisé pour les recommandations de marquage.
  
    D'autres utilisateurs qui travaillent sur des sujets connexes peuvent être explicités, ce qui facilite le transfert de connaissances et la formation de communautés d'utilisateurs.
+
* D'autres utilisateurs qui travaillent sur des sujets connexes peuvent être explicités, ce qui facilite le transfert de connaissances et la formation de communautés d'utilisateurs.
  
 
Plus tard, ils ont implémenté (pas seulement) toutes ces fonctionnalités dans les systèmes Bibsonomy [97].
 
Plus tard, ils ont implémenté (pas seulement) toutes ces fonctionnalités dans les systèmes Bibsonomy [97].
Line 2,937: Line 2,936:
 
Le défi de découverte 47 a résolu ce problème. L'année qui a suivi le problème difficile, 48 recommandations ont été formulées pour Bibsonomy et ont abouti à de nouveaux algorithmes fructueux [224].
 
Le défi de découverte 47 a résolu ce problème. L'année qui a suivi le problème difficile, 48 recommandations ont été formulées pour Bibsonomy et ont abouti à de nouveaux algorithmes fructueux [224].
  
6.9 Explorer les taxonomies des utilisateurs du site Web
+
===6.9 Explorer les taxonomies des utilisateurs du site Web===
  
 
En 2006, nous avons participé à l'analyse de l'audience des sites Web en collaboration avec la société SpyLog (maintenant OpenStat49) [225].
 
En 2006, nous avons participé à l'analyse de l'audience des sites Web en collaboration avec la société SpyLog (maintenant OpenStat49) [225].
Line 3,005: Line 3,004:
 
Fig. 27. Ensemble ordonné de 25 concepts avec la plus grande stabilité
 
Fig. 27. Ensemble ordonné de 25 concepts avec la plus grande stabilité
  
6.10 Modèles FCA pour le crowdsourcing
+
===6.10 Modèles FCA pour le crowdsourcing===
  
 
Le succès des technologies collaboratives modernes est marqué par l'apparition de nombreuses plates-formes innovantes pour organiser un brainstorming distribué ou effectuer ce que l'on appelle un «examen public». Il existe de nombreuses sociétés de crowdsourcing
 
Le succès des technologies collaboratives modernes est marqué par l'apparition de nombreuses plates-formes innovantes pour organiser un brainstorming distribué ou effectuer ce que l'on appelle un «examen public». Il existe de nombreuses sociétés de crowdsourcing
Line 3,045: Line 3,044:
 
Les applications de la FCA dans la modélisation ontologique et ses relations avec le Web sémantique méritent un traitement particulier. Cependant, nous mentionnons brièvement plusieurs approches intéressantes et présentons une technique interactive qui peut être utilisée pour le raffinement et la construction d'ontologies et de bases de connaissances.
 
Les applications de la FCA dans la modélisation ontologique et ses relations avec le Web sémantique méritent un traitement particulier. Cependant, nous mentionnons brièvement plusieurs approches intéressantes et présentons une technique interactive qui peut être utilisée pour le raffinement et la construction d'ontologies et de bases de connaissances.
  
    Exploration d'attributs comme méthode d'acquisition de connaissances d'experts [234]
+
* Exploration d'attributs comme méthode d'acquisition de connaissances d'experts [234]
  
    FCA dans la construction et l'affinage d'ontologies [235,79]
+
* FCA dans la construction et l'affinage d'ontologies [235,79]
  
7.1 Exploration des attributs
+
===7.1 Exploration des attributs===
  
 
L'exploration d'attributs est une procédure interactive d'acquisition de connaissances basée sur des implications et des contre-exemples [234] qui a été initialement appliquée pour l'acquisition de connaissances en mathématiques elle-même et qui reste un outil approprié à jour [236].
 
L'exploration d'attributs est une procédure interactive d'acquisition de connaissances basée sur des implications et des contre-exemples [234] qui a été initialement appliquée pour l'acquisition de connaissances en mathématiques elle-même et qui reste un outil approprié à jour [236].
Line 3,055: Line 3,054:
 
L'algorithme de base est le suivant:
 
L'algorithme de base est le suivant:
  
    Commencez avec n'importe quel ensemble d'objets (éventuellement vide).
+
* Commencez avec n'importe quel ensemble d'objets (éventuellement vide).
  
    Générez une implication valide dans le sous-contexte actuel.
+
* Générez une implication valide dans le sous-contexte actuel.
  
    Si l'implication n'est pas valide dans tout le contexte, fournissez un objet qui la viole (un contre-exemple).
+
* Si l'implication n'est pas valide dans tout le contexte, fournissez un objet qui la viole (un contre-exemple).
  
    Passez à l'implication suivante et ainsi de suite.
+
* Passez à l'implication suivante et ainsi de suite.
  
 
Une implémentation d'algorithme sophistiquée peut suivre la base de Duquenne-Guigues pour poser un nombre minimal de questions.
 
Une implémentation d'algorithme sophistiquée peut suivre la base de Duquenne-Guigues pour poser un nombre minimal de questions.
Line 3,087: Line 3,086:
 
Fig. 28. La taxonomie des moyens de transport comme exemple d'hérédité non arborescente (multiple)
 
Fig. 28. La taxonomie des moyens de transport comme exemple d'hérédité non arborescente (multiple)
  
    Étape 1. Une question: est-il vrai que lorsqu'un objet a l'attribut «Peut se déplacer sous l'eau», il a également l'attribut «Peut se déplacer par l'eau»?
+
* Étape 1. Une question: est-il vrai que lorsqu'un objet a l'attribut «Peut se déplacer sous l'eau», il a également l'attribut «Peut se déplacer par l'eau»?
  
    Étape 1. E Réponse: Oui, ça l'est. L'expert sait que c'est vrai pour les sous-marins et qu'il n'y a pas d'autres types de transport sous-marin.
+
* Étape 1. E Réponse: Oui, ça l'est. L'expert sait que c'est vrai pour les sous-marins et qu'il n'y a pas d'autres types de transport sous-marin.
  
    Étape 2. Une question: est-il vrai que, lorsqu'un objet possède les attributs «Peut se déplacer par l'air» et «Peut se déplacer par l'eau» a les attributs «Peut se déplacer par la surface» et «Peut se déplacer sous l'eau»?
+
* Étape 2. Une question: est-il vrai que, lorsqu'un objet possède les attributs «Peut se déplacer par l'air» et «Peut se déplacer par l'eau» a les attributs «Peut se déplacer par la surface» et «Peut se déplacer sous l'eau»?
  
    Étape 2. E Réponse: Non, ce n'est pas le cas. Il y a un contre-exemple, l'hydravion J =
+
* Étape 2. E Réponse: Non, ce n'est pas le cas. Il y a un contre-exemple, l'hydravion J =
  
 
air, eau.
 
air, eau.
  
    Étape 3. Une question: est-il vrai que, lorsqu'un objet a les attributs «Peut se déplacer par l'air», «Peut se déplacer par l'eau» «Peut se déplacer sous l'eau» a des attributs «Peut se déplacer par la surface»?
+
* Étape 3. Une question: est-il vrai que, lorsqu'un objet a les attributs «Peut se déplacer par l'air», «Peut se déplacer par l'eau» «Peut se déplacer sous l'eau» a des attributs «Peut se déplacer par la surface»?
  
    Étape 3. E Réponse: Oui, ça l'est. air, eau, sous-marin J =.
+
* Étape 3. E Réponse: Oui, ça l'est. air, eau, sous-marin J =.
  
    Étapes 4, 5, 6 Questions triviales.
+
* Étapes 4, 5, 6 Questions triviales.
  
 
Q
 
Q
Line 3,119: Line 3,118:
 
Q
 
Q
  
7.2 FCA dans la construction et le réaménagement d'ontologies
+
===7.2 FCA dans la construction et le réaménagement d'ontologies===
  
 
Souvent, la notion d'ontologie en informatique est introduite en tant qu'ensembles de concepts apparentés et la relation typique peut être «is-a», «has-a», «part-of» ou relation super / subconcept. Les réseaux de concepts pourraient être considérés comme des structures de type ontologique car ils présentent des concepts liés hiérarchiquement par ordre super / sous-concept (cf. ordre de subsomption dans la logique descriptive). Cependant, en raison de leur simplicité, les ontologies arborescentes semblent être plus populaires, ainsi dans le premier article de Cimiano et al. [79], la façon de transformer les réseaux conceptuels construits à partir de collections de texte en ontologies arborescentes était proposé.
 
Souvent, la notion d'ontologie en informatique est introduite en tant qu'ensembles de concepts apparentés et la relation typique peut être «is-a», «has-a», «part-of» ou relation super / subconcept. Les réseaux de concepts pourraient être considérés comme des structures de type ontologique car ils présentent des concepts liés hiérarchiquement par ordre super / sous-concept (cf. ordre de subsomption dans la logique descriptive). Cependant, en raison de leur simplicité, les ontologies arborescentes semblent être plus populaires, ainsi dans le premier article de Cimiano et al. [79], la façon de transformer les réseaux conceptuels construits à partir de collections de texte en ontologies arborescentes était proposé.

Latest revision as of 10:36, 29 June 2020


Introduction à l'analyse conceptuelle formelle et à ses applications dans la recherche d'informations et les domaines connexes

Dmitry I. Ignatov

École supérieure d'économie de l'Université nationale de recherche, Moscou dignatov@hse.ru

Traduction automatique de la présentation en anglais, ne prenant pas en compte les figures


Abstrait. Ce document est un didacticiel sur l'analyse de concept formelle (FCA) et ses applications. La FCA est une branche appliquée de la théorie du réseau, une discipline mathématique qui permet la formalisation de concepts en tant qu'unités de base de la pensée humaine et l'analyse des données sous la forme objet-attribut. Né au début des années 80, au cours des trois dernières décennies, il est devenu un outil populaire centré sur l'humain pour la représentation des connaissances et l'analyse des données avec de nombreuses applications. Étant donné que le didacticiel a été spécialement préparé pour RuS-SIR 2014, les sujets couverts par la FCA incluent la récupération d'informations en mettant l'accent sur les aspects de visualisation, l'apprentissage automatique, l'exploration de données et la découverte de connaissances, l'exploration de texte et plusieurs autres.

Mots-clés: analyse de concept formelle, réseaux conceptuels, récupération d'informations, apprentissage automatique, exploration de données, découverte de connaissances, exploration de texte, biclustering, clustering multimodal

Contents

1. Introduction

Selon [1], «la recherche d'informations (RI) consiste à trouver du matériel (généralement des documents) de nature non structurée (généralement du texte) qui satisfait un besoin d'informations provenant de grandes collections (généralement stockées sur des ordinateurs)». Dans le passé, seules les professions spécialisées telles que les bibliothécaires devaient récupérer régulièrement des informations. De nos jours, des quantités massives d'informations sont disponibles sur Internet et des centaines de millions de personnes utilisent quotidiennement des systèmes de recherche d'informations tels que des moteurs de recherche sur le Web ou par e-mail. L'analyse formelle du concept (FCA) a été introduite au début des années 1980 par Rudolf Wille en tant que théorie mathématique [2,3] et est devenue une technique populaire dans le domaine des IR. La FCA s'intéresse à la formalisation des concepts et de la pensée conceptuelle et a été appliquée dans de nombreuses disciplines telles que le génie logiciel,apprentissage automatique, découverte de connaissances et construction d'ontologies au cours des 20-25 dernières années. De manière informelle, FCA étudie comment les objets peuvent être regroupés hiérarchiquement avec leurs attributs communs.

Les contributions de base de ce tutoriel du point de vue IR sont basées sur nos enquêtes [4,5,6] et nos expériences dans les deux domaines, FCA et IR. Dans nos enquêtes, nous avons représenté visuellement la littérature sur la FCA et l'IR en utilisant également des réseaux conceptuels

comme plusieurs domaines connexes, dans lesquels les objets sont les articles scientifiques et les attributs sont les termes pertinents disponibles dans le titre, les mots-clés et le résumé des articles. Vous pouvez voir un exemple d'une telle visualisation dans la figure 1 pour les articles publiés entre 2003 et 2009. Nous avons développé un ensemble d'outils avec un composant FCA central que nous avons utilisé pour indexer les articles avec un thésaurus contenant des termes liés à la recherche FCA et pour générer les réseaux. . Le didacticiel contient également un aperçu partiel des articles sur l'utilisation de FCA dans la récupération d'informations en mettant l'accent sur la visualisation.

Fig. 1. Le diagramme en réseau représentant une collection de 702 articles sur FCA dont 103 articles sur FCA et IR (2003-2009).

En 2013, la Conférence européenne sur la recherche d'informations [7] a accueilli un atelier thématique que la FCA rencontre avec l'IR a consacré à deux questions principales:

  • Comment FCA peut-il prendre en charge les activités IR, y compris, mais sans s'y limiter, l'analyse des requêtes, la représentation des documents, la classification et le regroupement des textes, l'exploration des réseaux sociaux, l'accès aux données Web sémantiques et l'ingénierie ontologique?
  • Comment FCA peut-il être étendu pour couvrir un éventail plus large d'activités IR, y compris éventuellement de nouvelles tâches de récupération?

Claudio Carpineto a prononcé une conférence invitée à l'atelier - «FCA et IR: l'histoire jusqu'à présent». Les articles pertinents et les résultats qui y sont présentés sont également discutés dans le tutoriel.

Étant donné que les préparatifs du didacticiel ont été guidés par l'idée de présenter le contenu à un niveau solide et compréhensible accessible même aux nouveaux arrivants, il s'agit d'une combinaison équilibrée de fondements théoriques, de pratiques et d'applications pertinentes. Ainsi, nous fournissons une introduction à FCA, pratiquons les principaux outils pour FCA, discutons FCA dans l'apprentissage machine et l'exploration de données, FCA dans la récupération d'informations et l'exploration de texte, FCA dans la modélisation ontologique et d'autres applications sélectionnées. Bon nombre des exemples utilisés sont des études réelles menées par l'auteur du cours.

Le public cible est les étudiants en informatique, mathématiques et linguistique, les jeunes scientifiques, les professeurs d'université et les chercheurs qui souhaitent utiliser les modèles et les outils FCA dans leurs tâches IR et d'analyse de données.

Le cours comprend cinq parties. Chaque pièce est placée dans une section distincte et contient une courte liste de surbrillance pour faciliter la navigation dans le matériau. Une archive avec des fichiers supplémentaires pour des exercices et des exemples est disponible à la section 1. La section 2 contient une introduction à la FCA et aux notions connexes du treillis et de la théorie des ordres. Dans la section 3, nous décrivons les outils FCA sélectionnés et proposons des exercices.

La section 4 donne un aperçu des méthodes et applications basées sur FCA dans l'exploration de données et l'apprentissage automatique, et décrit un outil basé sur FCA pour l'apprentissage supervisé, QuDA (Qualitative Data Analysis). La section 5 présente la partie la plus pertinente du cours, la FCA en recherche d'information et exploration de texte. La section 6 détaillée traite de la FCA dans la modélisation ontologique et donne un exemple de technique d'exploration des attributs basée sur la FCA pour construire la taxonomie des moyens de transport. La section 7 conclut le document et décrit brièvement les perspectives et les limites des modèles et techniques basés sur le FCA.

2 Introduction à FCA

Même si de nombreuses disciplines peuvent être remontées à l'époque d'Aristote, des prolégomènes plus proches de la FCA peuvent être trouvés, par exemple, dans la Logique de Port Royal (1662) [8], une vieille logique conceptuelle philosophique, où un concept était traité comme une paire de son étendue et de son intention (pourtant sans appareil mathématique formel).

Faisant partie de la théorie du réseau, les réseaux conceptuels sont profondément enracinés dans les travaux de Dedekind, Birkgoff [9] (Connexions de Galois et «polarités»), et Ore [10] (Connexions de Galois), et, plus tard, sur Barbut & Monjardet [11] ( treillis de Galois, c'est-à-dire des réseaux de Galois).

En fait, la structure sous-jacente, la connexion Galois, a un fort impact dans l'analyse des données [12,13,14,15].

Dans cette section, nous reproduisons principalement les définitions de base du livre de Ganter & Wille sur l'analyse formelle de concepts [3]. Cependant, on peut trouver un bon matériel d'introduction, plus axé sur les commandes partielles et les treillis, dans le livre de Davey and Priestly [16]. Un lecteur orienté IR peut également trouver les livres suivants intéressants et utiles [15,17].

1 http: // bit-ly / RuSSIR2014FCAtut

Il y avait plusieurs bons tutoriels avec des notes dans le passé, par exemple, un basique [18] et plus théorique avec des aspects algorithmiques [19].

Nous renvoyons également les lecteurs à certains documents en ligne qui pourraient convenir à des fins d'autoformation 2,3,4.

Un bref résumé de la section:

  • Relations binaires, ordres partiels, réseaux, diagramme linéaire (Hasse).
  • Connexion Galois, Contexte formel, Concept formel, Réseau conceptuel.
  • Dessin en treillis concept. Algorithmes pour la génération de réseaux de concepts (na¨ıve, algorithme de Ganter, Close-by-One).
  • Dépendances des attributs: implications, dépendances fonctionnelles. Règles Armstrong. Bases d'implication (base de tige, base de générateur).
  • Contextes à valeurs multiples. Mise à l'échelle du concept.

2.1 Relations binaires, ordres partiels, réseaux, diagramme de Hasse

La notion d'ensemble est fondamentale en mathématiques. Dans ce qui suit, nous ne considérons que des ensembles d'objets finis.

Définition 1. Une relation binaire R entre deux ensembles A et B est un ensemble de toutes les paires (a, b) avec a ∈ A et b ∈ B., c'est-à-dire un sous-ensemble de leur produit cartésien A × B, l'ensemble de tous ces paires.

Parfois, il est pratique d'écrire aRb à la place (a, b) ∈ R pour plus de concision. Si

A = B alors R ⊆ A × A est appelé une relation binaire sur l'ensemble A.

Définition 2. Une relation binaire R sur un ensemble A est appelée relation d'ordre partiel (ou brièvement ordre partiel), si elle satisfait aux conditions suivantes pour tous les éléments a, b, c ∈ A:

1. aRa (réflexivité)

2. aRb et a ƒ = b = ⇒ pas aRb (antisymétrie)

3. aRb et bRc = ⇒ aRc (transitivité)

Nous utilisons le symbole ≤ pour l'ordre partiel, et dans le cas où a ≤ b et a ƒ = b nous écrivons a ≤ b. Nous lisons a ≤ b comme «a est moins égal à b». Un ensemble partiellement ordonné (ou poset) est une paire (P, ≤), où P est un ensemble et ≤ est un ordre partiel sur P.

Définition 3. Étant donné un poset (P, ≤), un élément a est appelé voisin inférieur de b, si a ≤ b et qu'il n'y a pas un tel c remplissant a ≤ c ≤ b. Dans ce cas, b est aussi un voisin supérieur de a, et nous écrivons a ≺ b.

2 http://www.kbs.uni-hannover.de/~jaeschke/teaching/2012w/fca/

3 http://www.upriss.org.uk/fca/fcaintro.html

4 http://ddll.inf.tu-dresden.de/web/Introduction_to_Formal_Concept_ Analysis_ (WS2014) / en

Chaque poset ordonné fini (P,) peut être représenté sous forme de diagramme linéaire (de nombreux auteurs l'appellent diagramme de Hasse). Les éléments de P sont représentés par de petits cercles dans le plan. Si ab, le cercle correspondant à a est représenté plus haut que le cercle correspondant à b, et les deux cercles sont reliés par un segment de ligne. On peut vérifier si certains ab s'il y a un chemin ascendant de b vers a dans le diagramme.

Exemple 1. Le poset P est donné par son tableau croisé d'incidence, où dans une cellule signifie que la paire correspondante d'éléments de ligne et de colonne x et y est liée comme suit x ≤ y.

Q

Le graphique de P.

Le diagramme linéaire de P.

Définition 4. Soit (P,) un poset et A un sous-ensemble de P. Une borne inférieure de A est un élément l de P avec l A pour tout a A. Une borne supérieure de A est définie duale. S'il y a un élément le plus grand dans l'ensemble de toutes les limites inférieures de A, il est appelé l'infimum de A et est désigné par inf A ou A. Dualuellement, s'il y a un plus petit élément dans l'ensemble de toutes les limites supérieures, il est appelé supremum et désigné par supA ou A.

Pour A = a, b on écrit xy pour inf A et xy pour supA. Infimum et supremum sont également appelés rencontrer et rejoindre.

Définition 5. Un poset L = (L, ≤) est un réseau, si pour deux éléments a et b dans

Pour chaque réseau L complet, il existe son plus grand élément, L, appelé l'unité

élément du réseau, noté 1L. Dualuellement, le plus petit élément 0L est appelé l'élément zéro.

Exemple 2. Sur la figure 2, il y a les diagrammes linéaires du poset P, qui n'est pas un réseau, et du réseau L. Il est intéressant de noter que P a ses éléments les plus grands et les plus petits, 1P et 0P; la paire de ses éléments, s et t, a son infumum, st = 0P, mais il n'y a pas de supremum pour lui. En fait, p, t n'a pas le plus petit élément dans l'ensemble de toutes ses bornes supérieures.

Q

1P 1L

q p

t s v w

0P s ∧ t 0L v ∧ w

Fig. 2. Les diagrammes linéaires de l'ordre, qui n'est pas un réseau (à gauche), et de l'ordre, qui est un réseau (à droite)

3 Galois Connection, Context Formal, Formal Concept, Concept Lattice

Définition 6. Soit maps: PQ et ψ: QP des cartes entre deux posets (P,) et (Q,). Une telle paire de cartes est appelée connexion galoisienne entre les ensembles ordonnés si:

1. p1 ≤ p2 ⇒ ϕp1 ≥ ϕp2

2. q1 ≤ q2 ⇒ ψq1 ≥ ψq2

3. p ≤ ψϕp ⇒ q ≤ ϕψq.

Exercice 1. Démontrez qu'une paire (ϕ, ψ) de cartes est une connexion de Galois si et seulement si p ≤ ψq ⇔ q ≤ ψp. Q

Exercice 2. Prouvez que pour chaque connexion Galois (ϕ, ψ)

ψ = ψϕψ et ϕ = ϕψϕ.

Q

Définition 7. Un contexte formel K = (tt, M, I) se compose de deux ensembles tt et M et d'une relation I entre tt et M. Les éléments de tt sont appelés les objets et les éléments de M sont appelés les attributs du contexte. La notation gIm ou (g, m) ∈ I signifie que l'objet g a l'attribut m.

Définition 8. Pour A ⊆ tt, soit

AJ: = {m ∈ M | (g, m) ∈ I pour tout g ∈ A}

et, pour B ⊆ M, soit

BJ: = {g ∈ tt | (g, m) ∈ I pour tout m ∈ B}.

Ces opérateurs sont appelés opérateurs de dérivation ou opérateurs de formation de concepts pour K = (tt, M, I).

Proposition 1. Soit (tt, M, I) un contexte formel, pour les sous-ensembles A, A1, A2 ⊆ tt

et B ⊆ M nous avons

1. A1 A2 siff AJ2 AJ1,

2. A AJJ,

3. A = AJJJ (d'où AJJJJ = AJJ), 4. (A1 ∪ A2) J = AJ1 ∩ AJ2,

5. A ⊆ BJ ⇔ B ⊆ AJ ⇔ A × B ⊆ I.

Des propriétés similaires s'appliquent aux sous-ensembles d'attributs.

Exercice 3. Démontrer les propriétés de l'opérateur (·) J à partir de la proposition 1. Q

Définition 9. Un opérateur de fermeture sur l'ensemble tt est un mappage ϕ: 2G 2G avec les propriétés suivantes:

1. ϕϕX = ϕX (idempotence)

2. X ⊆ ϕX (étendue)

3. X ⊆ Y ⇒ ϕX ⊆ ϕY (monotonie)

Pour un opérateur de fermeture ϕ l'ensemble ϕX est appelé fermeture de X. Un sous-ensemble X ⊆ tt est appelé fermé si ϕX = X.

Exercice 4. Soit (tt, M, I) un contexte, prouvons que les opérateurs

(·) JJ: 2G → 2G, (·) JJ: 2M → 2M

sont des opérateurs de fermeture. Q

Définition 10. Un concept formel d'un contexte formel K = (tt, M, I) est une paire (A, B) avec A tt, BM, AJ = B et BJ = A. Les ensembles A et B sont appelés l'étendue et l'intention du concept formel (A, B), respectivement. La relation sous-concept-superconcept est donnée par (A1, B1) ≤ (A2, B2) ssi A1 ⊆ A2 (B1 ⊆ B2).

Cette définition dit que chaque concept formel comporte deux parties, à savoir sa portée et son intention. Ceci suit une vieille tradition dans la logique de Port Royal (1662), et est conforme à la norme internationale ISO 704 qui formule la définition suivante: «Un concept est considéré comme une unité de pensée constituée de deux parties: son étendue et son intention.

Définition 11. L'ensemble de tous les concepts formels d'un contexte K avec la relation d'ordre I forme un réseau complet, appelé réseau conceptuel de K et noté B (K).

Exemple 3. Le contexte avec quatre figures géométriques et quatre attributs est ci-dessous.

Objets: Attributs:

1 - triangle équilatéral, a - a 3 sommets,

2 - triangle rectangle,

  • * * * * * * * 3 - rectangle,

4 - carré.

b - a 4 sommets, Q

c - a un angle direct,

d - équilatéral.

({1,4}, {d}) ({1,2}, {a})

({4}, {b, c, d})

(∅, M)

Fig. 3. Le diagramme linéaire du concept de réseau pour le contexte des figures géométriques

Définition 12. Pour tous les deux concepts formels (A1, B1) et (A2, B2) d'un certain contexte formel, leur plus grand sous-concept commun est défini comme suit:

(A1, B1) ∧ (A2, B2) = (A1 ∩ A2, (B1 ∪ B2) JJ).

Le superconcept le moins courant de (A1, B1) et (A2, B2) est donné comme

(A1, B1) ∨ (A2, B2) = ((A1 ∪ A2) JJ, B1 ∩ B2).

Nous disons supremum au lieu de «superconcept le moins commun», et au lieu de «plus grand sous-concept commun», nous utilisons le terme infimum.

(A1, B1) ∨ (A2, B2)

(A2, B2) (A1, B1)

(A1, B1) ∧ (A2, B2)

Fig. 4. Supremum et infimum de deux concepts

Il est possible de définir des opérations supremum et infumum pour un ensemble arbitraire de concepts d'un certain contexte. Cela se fait dans la première partie du théorème 1.

Deftnition 13. Un sous-ensemble X ⊆ L du réseau (L, ≤) est appelé supremum-dense

si un élément de réseau v ∈ L peut être représenté comme

v = {x ∈ X | x ≤ v}.

Doublement pour les sous-ensembles à densité minimale.

Le théorème de base de l'analyse formelle de concepts ci-dessous définit non seulement le maximum et l'infimum d'ensembles arbitraires de concepts; il répond également à la question de savoir si les réseaux conceptuels ont des propriétés spéciales. En fait, la réponse est «non» car chaque réseau conceptuel est (isomorphe à certains) réseau complet. C'est-à-dire que l'on peut composer un contexte formel avec des objets tt, des attributs M et une relation binaire I tt M tels que le réseau complet d'origine est isomorphe B (tt, M, I). Même si le théorème ne répond pas comment un tel contexte peut être construit, il décrit plutôt toutes les possibilités de le faire.

Théorème 1. Théorème de base de l'analyse conceptuelle formelle ([Wille 1982], [Gant, Wille 1996])

Le réseau concept B (tt, M, I) est un réseau complet. Pour des ensembles arbitraires de

les concepts

{(Aj, Bj) | j ∈ J} ⊆ B (tt, M, I)

leur infimum et leur supremum sont donnés de la manière suivante:

. (Aj, Bj) = (\ Aj, ([Bj) JJ),

. (Aj, Bj) = (([Aj) JJ, \ Bj).


Un réseau L complet est isomorphe à un réseau B (tt, M, I) ssi il y a des correspondances γ: tt → V et µ: M → V telles que γ (tt) est dense en supremum dans L, µ (M) est infimum-dense en L, et gIm ⇔ γg ≤ µm pour tout g ∈ tt et tout m ∈ M. En particulier, L est isomorphe à B (L, L, ≤).

Un lecteur intéressé peut se référer au livre de Ganter & Wille sur FCA [3] pour plus de détails et d'exemples.

3.1 Dessin de réseau conceptuel et algorithmes pour la génération de réseaux conceptuels

On peut obtenir l'ensemble des concepts d'un contexte particulier K simplement par définition, c'est-à-dire qu'il suffit d'énumérer tous les sous-ensembles d'objets A ⊆ tt (ou attribue B ⊆ M) et de leur appliquer des opérateurs de dérivation. Par exemple, pour le contexte de l'exemple 3 et un ensemble vide d'objets, A = ∅, on peut obtenir AJ = ∅J = {a, b, c, d} = B, puis en appliquant (·) J une deuxième fois BJ = ∅. Ainsi, le concept résultant est (A, B) = (∅, M).

Proposition 2. Tout concept formel d'un contexte (tt, M, I) a la forme (XJJ, XJ) pour un sous-ensemble X tt et la forme (YJ, Y JJ) pour un sous-ensemble Y M. Inversement, toutes ces paires d'ensembles sont des concepts formels.

On peut suivre l'algorithme naïf ci-dessous: 1. B (tt, M, I): = ∅

2. Pour chaque sous-ensemble X de tt, ajoutez (XJJ, XJ) à B (tt, M, I).

Exercice 5. 1. Démontrez la proposition 2. 2. Pour le contexte des figures géométriques de l'exemple 3, trouvez tous les concepts formels. Q

Comme le nombre total de concept formel est égal à 2 min (| G |, | M |) dans le pire des cas, cette approche naïve est assez inefficace même pour les petits contextes. Cependant, supposons que maintenant nous savons comment trouver des concepts et nous allons construire

le schéma de principe d'un réseau conceptuel.

1. Dessinez un cercle assez petit pour chaque concept formel de telle sorte qu'un cercle pour un concept soit toujours représenté plus haut que tous les cercles pour ses sous-concepts.

2. Reliez chaque cercle aux cercles de ses voisins inférieurs.

Pour étiqueter les concepts par noms d'attribut et d'objet sous une forme concise, nous avons besoin des notions de concepts d'objet et d'attribut.

Définition 14. Soit (tt, M, I) un contexte formel, alors pour chaque objet g ∈ tt il y a le concept d'objet ({g} JJ, {g} J) et pour chaque attribut m ∈ M le concept d'attribut est donné par ({m} J, {m} JJ).

Donc, si l'on a terminé un dessin de diagramme linéaire pour un réseau de concepts, il est possible d'étiqueter le diagramme avec des noms d'attributs: il faut attacher l'attribut m au cercle représentant le concept (m J, m JJ). De même pour l’étiquetage par nom d’objet: il faut attacher chaque objet g au cercle repré-

envoi du concept (g JJ, g J). Un exemple d'un tel étiquetage réduit est donné sur la figure 5.

d a

4 2

Fig. 5. Exemple d'étiquetage réduit pour le réseau de figures géométriques

L'algorithme de génération de concept naïf n'est pas efficace car il énumère tous les sous-ensembles de tt (ou M). Pour l'homogénéité, dans ce qui suit nous reproduisons les pseudo-codes des algorithmes de [20]. Il existe différents algorithmes qui calculent les fermetures pour seulement certains sous-ensembles de tt et utilisent un test efficace pour vérifier si le

le concept actuel est généré pour la première fois (test de canonicité). Ainsi, l'algorithme Next Closure de Ganter ne fait pas référence à la liste des concepts générés et utilise peu d'espace de stockage.

Étant donné que l'étendue d'un concept définit son intention d'une manière unique, pour obtenir l'ensemble de tous les concepts formels, il suffit de trouver des fermetures de sous-ensembles d'objets ou de sous-ensembles d'attributs.

Nous supposons qu'il existe un ordre linéaire (<) sur tt. L'algorithme commence par examiner l'ensemble composé de l'objet maximal par rapport à <(max (tt)) et se termine lorsque la fermeture générée canoniquement est égale à tt. Soit A un sous-ensemble de tt actuellement examiné. La génération d'AJJ est considérée comme canonique

si AJJ A ne contient pas g <max (A). Si la génération d'AJJ est canonique

(et AJJ n'est pas égal à tt), l'ensemble suivant à examiner est obtenu auprès d'AJJ comme suit:

AJJ ∪ {g} \ {h | h ∈ AJJ ∧ g <h}, où g = max ({h | h ∈ tt \ AJJ}).

Sinon, l'ensemble examiné à l'étape suivante est obtenu à partir de A d'une manière similaire, mais l'objet ajouté doit être inférieur (wrt <) à l'objet maximal dans A:

AJJ ∪ {g} \ {h | h ∈ A ∧ g <h}, où g = max ({h | h ∈ tt \ A ∧ h <max (A)}).

Le code pseudocode est donné dans l'algorithme 1 et le protocole de génération de

NEXTCLOSURE pour le contexte des figures géométriques est donné dans le tableau 1.

Algorithme 1 NextClosure

Entrée: K = (tt, M, I) est un contexte

Sortie: L est l'ensemble de concepts 1: L: = ∅, A: = ∅, g: = max (tt) 2: tandis que A ƒ = tt do

3: A: = AJJ ∪ {g} \ {h | h ∈ A ∧ g <h}

4: si {h | h ∈ A ∧ g ≤ h} = ∅ alors

5: L: = L ∪ {(AJJ, AJ)}

6: g: = g = max ({h | h ∈ tt \ AJJ}) 7: A: = A

8: sinon

9: g = max ({h | h ∈ tt \ A ∧ h <g}) 10: fin si

11: fin pendant

12: retour L

L'algorithme NextClosure produit l'ensemble de tous les concepts dans le temps O (tt 2 ML) et a un retard polynomial O (tt 2 M).

Nous fournissons une version récursive simple de CBO. L’algorithme génère des

cepts selon l'ordre lectique (lexicographique) sur les sous-ensembles de tt (concepts

Tableau 1. Protocole de génération de NextClosure pour le contexte des figures géométriques

g Un concept formel AJJ (A, B)

4 {4}

{3}

{3, 4}

{2}

{1}

{1, 4}

{1, 3}

{1, 2}

{1, 2, 4}

{1, 2, 3}

{1, 2, 3, 4} {4}

{3}

{3, 4}

{1, 2}

{1}

{1, 4}

{1, 2, 3}

{1, 2}

{1, 2, 3, 4}

{1, 2, 3}

{1, 2, 3, 4} ({4}, {2, 4})

({3}, {2, 3})

({3, 4}, {2})

génération non canonique ({1}, {1, 3, 4})

({1, 4}, {4})

génération non canonique ({1, 2}, {1, 3})

génération non canonique

({1, 2, 3}, {3})

({1, 2, 3, 4}, {})

3

4

2

1

4

3

2

4

3

4

dont les étendues sont lectiquement inférieures sont générées en premier). Par définition, A est lectiquement inférieur à B si AB, ou BA et min ((AB) (BA)) A. Notez que l'algorithme NEXTCLOSURE calcule les concepts dans un ordre lectique différent: A est lectiquement inférieur à B si min ((AB) (BA)) B. L'ordre dans lequel les concepts sont générés par CBO est bénéfique lorsque le diagramme linéaire est construit: la première génération du concept est toujours canonique, ce qui permet de trouver un concept dans l'arbre et de dessiner le diagramme approprié bords. L'ordre lectique de type NEXTCLO-SURE permet une recherche binaire, ce qui est utile lorsque le diagramme doit être généré après la génération de tous les concepts.

Algorithme 2 Fermer par un

Entrée: K = (tt, M, I) est un contexte

Sortie: L est l'ensemble de concepts 1: L: = ∅

2: pour tout g ∈ tt do

3: Processus ({g}, g, ({g} JJ, g)) 4: fin pour

5: retour L

La complexité temporelle de CLOSE BY ONE (CBO) est O (| tt | 2 | M || L |), et son retard polynomial est O (| tt | 3 | M |).

Le protocole de génération de CBO sous forme d'arbre est donné à la Fig. 6. Chaque ensemble fermé d'objets (étendue) peut être lu à partir de l'arbre en suivant le chemin de la racine au nœud correspondant. Crochet] signifie que le premier opérateur principal a été appliqué après l'ajout de l'objet suivant sur le plan lectrique g à l'ensemble A du nœud parent et du crochet) montre quel objet a été ajouté après l'application du deuxième opérateur principal, c'est-à-dire entre] et) on peut trouver

(A g) JJ (A g). Une génération non canonique peut être identifiée en vérifiant simplement s'il y a un objet entre] et) inférieur à g wrt <.

Processus de l'algorithme 3 (A, g, (C, D)) avec C = AJJ et D = AJ et ¡l'ordre lexical des noms d'objets

Entrée: K = (tt, M, I) est un contexte

Sortie: L est l'ensemble de concepts C = AJJ, D = AJ

1: si {h | h ∈ C \ A ∧ g <h} = ∅ alors

2: L: = L ∪ {(C, D)}

3: fin si

4: pour tout f ∈ {h | h ∈ tt \ A ∧ g <h} do

5: Z: = C ∪ {f}

6: Z: = D ∩ {f} J

7: X: = Y

8: Processus (Z, f, (X, Y)) 9: fin pour

On peut noter que la traversée de l'arbre de génération se fait de manière approfondie en profondeur.

1])

2])

3] 4)

4])


2])

4])

3] 4)

3] 4)

Fig. 6. L'arbre du protocole CbO pour le contexte des figures géométriques. Les générations non canoniques sont dessinées dans des boîtes.

Après le lancement des premiers algorithmes batch, l'inventaire FCA élargi comprend des algorithmes incrémentiels efficaces [21] et les versions distribuées de NextClosure et CbO pour MapReduce [22,23].

3.2 Contextes à valeurs multiples et mise à l'échelle des concepts

Définition 15. Un contexte à plusieurs valeurs (tt, M, W, I) se compose d'ensembles tt, M ​​et W et d'une relation ternaire I entre ces trois ensembles, c'est-à-dire I tt MW, pour laquelle il soutient que (g, m, w) I et (g, m, v) J'implique toujours w = v Le fait (g, m, w) I signifie «l'attribut m prend la valeur w pour l'objet g», simplement écrit comme m (g) = w.

Définition 16. Une échelle (conceptuelle) pour l'attribut m d'un contexte à plusieurs valeurs est un contexte (à une valeur) Sm = (ttm, Mm, Im) avec m (tt) = {m (g) | ∀g ∈

Tableau 2. Contexte à valeurs multiples des matières universitaires

G / M Sexe Âge Sujet Marque

1 M 19 Math 8

2 F 20 CS 9

3 F 19 Math 7

4 M 20 CS 10

5 F 21 Exploration de données 9

tt ttm. Les objets d'une échelle sont appelés valeurs d'échelle, les attributs sont appelés attributs d'échelle.

L'échelle nominale est définie par le contexte (Wm, Wm, =).

Ce type de mise à l'échelle convient à la représentation binaire d'attributs nominaux (catégoriels) comme la couleur. Pour le contexte des matières universitaires, les matières peuvent être mises à l'échelle par une mise à l'échelle nominale comme ci-dessous.

  1. NOM?

Math ×

CS ×

DM ×

Un cas particulier de mise à l'échelle nominale est la mise à l'échelle dite dichotomique, qui convient aux attributs avec deux valeurs mutuellement exclusives comme «oui» et «non». Dans notre exemple, l'attribut Gender peut être mis à l'échelle de cette manière.

M F

M ×

F ×

L'échelle ordinale est donnée par le contexte (Wm, Wm,) où désigne l'ordre classique des nombres réels. Pour notre exemple, les attributs age et mark peuvent être mis à l'échelle par ce type d'échelle.

L'échelle interordinale est donnée par (Wm, Wm,) (Wm, Wm,) où dénote l'apposition de deux contextes.

Ce type d'échelle peut être utilisé comme alternative à la mise à l'échelle ordinale comme dans l'exemple ci-dessous.

≤ 7 ≤ 8 ≤ 9 ≤ 10 ≥ 7 ≥ 8 ≥ 9 ≥ 10

7 × × × × ×

8 × × × × ×

9 × × × × ×

10 × × × × ×

Dans certains domaines, par exemple en psychologie ou en sociologie, il existe une mise à l'échelle biordinale (bipolaire) similaire, qui est une bonne représentation d'attributs avec des valeurs dites polaires «d'accord», «plutôt d'accord», «en désaccord» et «plutôt en désaccord».

Il existe un type spécial d'échelle, l'échelle contranominale, ce qui est rare dans les données réelles, mais a une signification théorique importante. Son contexte est donné par la relation d'inégalité, c'est-à-dire (1,..., N, 1,..., N, =), et l'exemple pour n = 4 est donné ci-dessous.

ƒ = 1 2 3 4

1 × × ×

2 × × ×

3 × × ×

4 × × ×

En fait, ce type de contextes donne naissance à 2n concepts formels et peut être utilisé à des fins de test.

Le contexte mis à l'échelle (ou simple) qui en résulte pour notre exemple de matières universitaires est ci-dessous. Notez que l'attribut Mark est mis à l'échelle par une échelle interordinale.

M F ≤ 19 ≤ 20 ≤ 21 Math CS CS ≤ 7 ≤ 8 ≤ 9 ≤ 10 ≥ 7 ≥ 8 ≥ 9 ≥ 10

1 × × × × × × × × × × ×

2 × × × × × × × × × ×

3 × × × × × × × × × × ×

4 × × × × × × × × × ×

5 × × × × × × × ×

3.3 Dépendances des attributs

Définition 17. Implication A B, où A, B M est en contexte (tt, M, I) si AJ BJ, c'est-à-dire que chaque objet ayant tous les attributs de A a également tous les attributs de B.

Exemple 4. Pour le contexte des figures géométriques, on peut vérifier que l'implication suivante est vraie: abc d, bc, cd b. Notez que par souci de concision, nous avons omis les accolades et les virgules entre les éléments d'un ensemble d'attributs.

Exercice 6. Trouvez trois autres implications pour le contexte des figures géométriques. Q

Les implications satisfont aux règles d'Armstrong ou aux axiomes d'inférence [24,25]:

(réflexivité), X → Y (augmentation),

X → X X ∪ Z → Y

X → Y, Y ∪ Z → WX ∪ Z → W

(pseudotransitivité).

Un axiome d'inférence est une règle qui stipule que si certaines implications sont valides dans le contexte, alors certaines autres implications sont valides.

Exemple 5. Vérifions que les premier et deuxième axiomes d'Armstrong se remplissent pour implication sur les attributs.

Puisque XJ ⊆ XJ, il est toujours vrai que X → X.

Pour la deuxième règle, nous avons XJ ⊆ Y J. En appliquant la propriété 4 de la proposition 1, nous avons: (X ∪ Z) J = XJ ∩ ZJ. Puisque XJ ∩ ZJ ⊆ XJ, nous prouvons que XJ ∩ ZJ ⊆ Y J. Cela implique X ∪ Z → Y .Q

Exercice 7. 1. Prouvez en appliquant les règles Armstrong que A1 → B1 et A2 → B2 impliquent A1 A2 B1 B2. 2. Vérifiez le troisième axiome en utilisant la définition d'implication. Q

Définition 18. Une couverture d'implication est un sous-ensemble d'implications dont toutes les autres implications peuvent être dérivées au moyen des règles Armstrong.

Une base d'implication est une couverture d'implication minimale (par inclusion).

Définition 19. Un sous-ensemble d'attributs D ⊆ M est un générateur d'un sous-ensemble fermé d'attributs B ⊆ M, BJJ = B si D ⊆ B, DJJ = B = BJJ.

Un sous-ensemble D ⊆ M est un générateur minimal si pour tout E ⊂ D on a

EJJ ƒ = DJJ = BJJ.

Le générateur D ⊆ M est appelé non trivial si D ƒ = DJJ = BJJ.

Notons l'ensemble de tous les générateurs minimaux non triviaux de B par nmingen (B).

Le couvercle d'implication du générateur se présente comme suit:

{F → (F JJ \ F) | F ⊆ M, F ∈ nmingen (F JJ)}.

Exemple 6. Pour le contexte des figures géométriques, on peut vérifier que b est un générateur non trivial minimal pour bc, L'ensemble ab est un générateur non trivial minimal pour abcd, mais abc, abd et acd sont ses générateurs non triviaux. Q

Exercice 8. Pour le contexte des figures géométriques, trouvez tous les générateurs minimaux et obtenez sa couverture d'implication de générateur. Q

Définition 20. La base de Duquenne-Guigues est une base d'implication où chaque implication est une pseudo-intention [26].

Un sous-ensemble d'attributs P ⊆ M est appelé pseudo-intention si P ƒ = P JJ et pour toute pseudo-intention Q telle que Q ⊂ P on a QJJ ⊂ P.

La base de Duquenne-Guigues se présente comme suit:

{P → (P JJ \ P) | P est une pseudo-intention}.

La base de Duquenne-Guigues est une base d'implication minimale (cardinalité minimale).

Tableau 3. Recherche de pseudo-éléments pour le contexte des figures géométriques

B BJ BJJ B est une pseudo-intention?

un 1234

12

34

234

14

2

1

34

4

4

4

∅ ∅

a Non, ça ne l'est pas.

Non ce n'est pas.

b bc Oui, ça l'est.

c c Non, ce n'est pas le cas.

d d Non, ce n'est pas le cas.

ab abcd Non, ce n'est pas le cas.

ac ac Non, ce n'est pas le cas.

ad ad Non, ce n'est pas le cas.

bc bc Non, ce n'est pas le cas.

bd bcd Non, ce n'est pas le cas.

cd bcd Oui, ça l'est.

abc abcd Oui, ça l'est.

abd abcd Non, ce n'est pas le cas.

acd abcd Non, ce n'est pas le cas.

bcd bcd Non, ce n'est pas le cas.

abcd abcd Non, ce n'est pas le cas.

Exemple 7. Trouvons toutes les pseudo-intentions pour le contexte des figures géométriques. Nous construisons une table (Tableau 3) avec B et BJ; il est clair que tous les ensembles fermés ne sont pas des pseudo-intentions selon la définition. Puisque nous devons vérifier le confinement d'une pseudo-intention dans les pseudo-intentions générées de manière récursive, nous devons commencer par le plus petit ensemble possible, c'est-à-dire.

Ainsi, b est le premier ensemble non fermé de notre tableau et la deuxième partie de la définition de pseudo-intention satisfait trivialement - il n'y a pas d'autre pseudo-intention contenue dans

{b}. Donc, l'ensemble des pseudo-intentions est {b, cd, abc}. Q

Exercice 9. Notez la base de Duquenne-Guigues pour le contexte des figures géométriques. En utilisant les règles d'Armstrong et la base de Duquenne-Guigues obtenue, déduisez les implications restantes du contexte d'origine. Q

Pour un algorithme efficace récent de recherche de la base de Duquenne-Guigues, voir [27].

Implications et dépendances fonctionnelles Les dépendances de données sont un moyen d'atteindre deux objectifs principaux des bases de données: atténuer la redondance des données et améliorer la fiabilité des données [25]. Ces dépendances sont principalement utilisées pour la normalisation des données, c'est-à-dire leur décomposition correcte en tableaux (relations) interdépendants. La définition de la dépendance fonctionnelle [25] en termes de FCA est la suivante:

Définition 21. X Y est une dépendance fonctionnelle dans un contexte complet à plusieurs valeurs (tt, M, W, I) si les conditions suivantes s'appliquent à chaque paire d'objets g, h tt:

(∀m ∈ X m (g) = m (h)) ⇒ (∀n ∈ Y n (g) = n (h)).

Exemple 8. Pour l'exemple donné dans le tableau 2, les dépendances fonctionnelles suivantes sont valables: Âge → Sujet, Sujet → Âge, Mark → ttender.Q

Les deux premières dépendances fonctionnelles peuvent avoir un sens puisque les étudiants de la même année peuvent étudier les mêmes matières. Cependant, le dernier dit que le genre est fonctionnellement dépendant de Mark et ressemble à une pure coïncidence en raison du petit ensemble de données.

La réduction des dépendances fonctionnelles aux implications:

Proposition 3. Pour un contexte à plusieurs valeurs (tt, M, W, I), on définit le contexte KN: = (P2 (tt), M, IN), où P2 (tt) est l'ensemble de toutes les paires de différents les objets de tt et IN sont définis par

{g, h} IN m: ⇔ m (g) = m (h).

Alors un ensemble Y ⊆ M est fonctionnellement dépendant de l'ensemble X ⊆ M si et seulement si l'implication X → Y est vraie dans le contexte KN.

Exemple 9. Construisons le contexte KN pour le contexte à plusieurs valeurs des figures géométriques.

Sexe Sujet Âge Marque

{1,2}

{1,3} × ×

{1,4} ×

{1,5}

{2,3} ×

{2,4} × ×

{2,5} × ×

{3,4}

{3,5} ×

{4,5}

On peut vérifier que les implications suivantes sont valables: Age Subject, Subject Age, Mark ttender, qui sont les dépendances fonctionnelles que nous avons ainsi dans l'exemple 8. Q

Une réduction inverse est également possible.

Proposition 4. Pour un contexte K = (tt, M, I) on peut construire un contexte KW à plusieurs valeurs tel qu'une implication XY soit vraie si et seulement si Y dépend fonctionnellement de X dans KW.

Exemple 10. Pour réaliser la réduction, on peut construire le contexte à plusieurs valeurs correspondant de la manière suivante:

1. Remplacez tous les «» par des 0. 2. Dans chaque ligne, remplacez les cellules vides par le numéro de ligne à partir de 1. 3. Ajoutez une nouvelle ligne remplie de 0.

a B c d

1 0 1 1 0

2 0 2 0 2

3 3 0 0 3

4 4 0 0 0

5 0 0 0 0

Q

Exercice 10. Vérifiez les dépendances fonctionnelles de l'exemple précédent coïncident avec les implications du contexte des figures géométriques. Q

Un tutoriel plus détaillé sur la FCA et les dépendances fonctionnelles est donné dans [28].

4 Outils et pratiques FCA

Dans cette section, nous fournissons un bref résumé des logiciels prêts à l'emploi qui prennent en charge les fonctionnalités de base de Formal Concept Analysis.

  • Logiciels pour FCA: Concept Explorer, Lattice Miner, ToscanaJ, Galicia, FCART etc.
  • Des exercices.

Explorateur de concept. ConExp 5 est probablement l'un des outils FCA les plus conviviaux avec des fonctionnalités de base; il a été développé en Java par S. Yevtushenko

sous la supervision du professeur T. Taran au début des années 2000 [29]. Plus tard, il a été amélioré à plusieurs reprises, en particulier du point de vue du dessin sur réseau [30].

Maintenant, la fonctionnalité présente les fonctionnalités suivantes:

  • Édition de contexte (les formats séparés par des tabulations et csv des fichiers d'entrée sont également pris en charge);
  • Dessin de diagrammes de lignes (permettant leur importation sous forme de clichés d'image et même de fichiers texte avec la position des nœuds, les bords et les noms d'attributs, mais les formats vectoriels ne sont pas pris en charge);
  • Trouver la base d'implications Duquenne-Guigues;
  • Trouver la base de règles d'association valides dans un contexte formel;
  • Exécution de l'exploration d'attributs.

Il est important de noter que le diagramme résultant n'est pas statique et que l'on peut effectuer une analyse exploratoire de manière interactive en sélectionnant des nœuds intéressants, en les déplaçant, etc. ConExp s'affiche. Voir plus de détails dans la Fig. [31].

Il y a une tentative de réincarner ConExp 6 par des outils logiciels ouverts modernes.

5 http://conexp.sourceforge.net/

6 https://github.com/fcatools/conexp-ng/wiki

Fig. 7. Le diagramme linéaire du réseau conceptuel pour l'échelle interordinale des notes des élèves dessinée par ConExp.

ToscanaJ. Le projet ToscanaJ7 est le résultat de la collaboration entre deux groupes de l'Université technique de Darmstadt et de l'Université du Queensland,

qui a été déclaré comme «donner à la communauté FCA une plateforme de travail» [32] et «la création d'un outil professionnel, issu d'un environnement de recherche et toujours porteur de recherche» [33].

Ce projet ouvert a une longue histoire avec plusieurs prototypes [34] et fait maintenant partie d'un cadre général pour le traitement conceptuel des connaissances, Tockit8. En conséquence, il est développé en Java, prend en charge différents types de connexion à la base de données via un pont JDBC-ODBC et contient un moteur de base de données intégré [33]. Outre ConExp, il propose un travail avec des contextes à valeurs multiples, conceptuel

mise à l'échelle et diagrammes à lignes imbriquées.

Sur la figure 8, on peut voir le diagramme en ligne imbriqué pour deux échelles du contexte à valeurs multiples des matières universitaires, à savoir pour deux attributs, le genre et le sujet. Grâce aux fonctions d'impression PDF, il est possible d'imprimer des diagrammes de lignes sous forme graphique vectorielle.

Galice. Galicia9 était «conçu comme une plate-forme logicielle intégrée comprenant des composants pour les opérations clés sur les réseaux qui pourraient être nécessaires dans la pratique.

applications techniques ou dans des études plus théoriques ». Ainsi, en plus des fonctionnalités de base de ConExp, il propose un travail avec des contextes à valeurs multiples

7 http://toscanaj.sourceforge.net/

8 http://www.tockit.org/

9 http://www.iro.umontreal.ca/~galicia/

Fig. 8. Le diagramme linéaire imbriqué pour les deux sous-contextes à un attribut du contexte des matières universitaires. Le diagramme extérieur est pour l'attribut Genre et le diagramme intérieur est pour le sujet.

et la mise à l'échelle conceptuelle, les réseaux d'icebergs (bien connus dans la communauté de Data Mining), les hiérarchies de Galois et les familles de contextes relationnels, qui sont populaires en génie logiciel [35]. Le logiciel est ouvert et sa mise en œuvre en Java est multiplateforme visant à «l'adaptabilité, l'extensibilité et la réutilisabilité».

Il est possible de naviguer dans les diagrammes en treillis de manière interactive; les diagrammes résultants contiennent des nœuds numérotés, ce qui est différent de la manière traditionnelle de dessiner des diagrammes de lignes. Une autre caractéristique unique de la Galice est le dessin en treillis 3D. Le diagramme du contexte des matières universitaires après une mise à l'échelle nominale de tous ses attributs obtenus en Galice est illustré à la Fig. 9. La Galice prend en charge les formats graphiques vectoriels, SVG et PDF. Les auteurs du programme ont accordé une grande attention aux aspects algorithmiques et y ont incorporé des algorithmes par lots et incrémentaux. Diverses bases d'implications et de règles d'association peuvent être générées par l'outil. Les diagrammes à lignes imbriquées figurent dans la liste des tâches.

Lattice Miner. Il s'agit d'une autre tentative d'établir la fonctionnalité FCA de base et plusieurs fonctionnalités spécifiques à la communauté FCA 10 [36].

L'objectif initial de l'outil était «de se concentrer sur les mécanismes de visualisation pour la représentation des réseaux de concepts, y compris les diagrammes à lignes imbriquées» 11. Ainsi, sa caractéristique intéressante est les diagrammes à lignes imbriquées à plusieurs niveaux, qui peuvent aider

pour explorer des réseaux relativement grands.

10 http://sourceforge.net/projects/lattice-miner/

11 https://en.wikipedia.org/wiki/Lattice_Miner

Fig. 9. Diagramme linéaire du réseau conceptuel pour le contexte des matières universitaires dessiné par la Galice.

Après plus d'une décennie de développement, les logiciels basés sur FCA ayant des caractéristiques différentes ont produit de nombreux formats différents nécessitant ainsi une interopérabilité. À cette fin, par analogie avec Rosetta Stone, FcaStone 12 a été proposé. Il prend en charge la conversion entre les formats de fichiers FCA couramment utilisés (cxt, cex, csc, slf, bin.xml et csx) et les fichiers de valeurs séparées par des virgules (csv) ainsi que la conversion.

concept de treillis dans des formats de graphique (point, gxl, gml, etc. pour une utilisation par des éditeurs de graphiques tels que yEd, jgraph, etc.) ou dans des formats graphiques vectoriels (fig, svg, etc. pour une utilisation par des éditeurs de graphiques vectoriels tels que Xfig , Dia, Inkscape, etc.). Il peut également être incorporé dans un script de page Web pour générer des réseaux et des diagrammes de lignes en ligne. Un autre exemple d'un système porté sur le Web avec des fonctionnalités de base

y compris l'exploration d'attribut est OpenFCA13.

FCART. De nombreux outils différents ont été créés et certains projets ne se développent plus mais le logiciel est toujours disponible; un lecteur intéressé peut consulter la page Web d'Uta Priss pour trouver des dizaines d'outils14. Cependant, de nouveaux défis tels que la manipulation de grands ensembles de données hétérogènes (grandes collections de textes, réseaux sociaux et médias, etc.) arrivent et la communauté, qui a mis beaucoup d'efforts dans

12 http://fcastone.sourceforge.net/

13 https://code.google.com/p/openfca/

14 http://www.fcahome.org.uk/fcasoftware.html

le développement de logiciels véritablement multiplateformes et ouverts nécessite une nouvelle vague d'outils qui adopte des technologies et des formats modernes.

Inspiré par l'application réussie des technologies basées sur le FCA dans le domaine de l'extraction de texte pour le domaine de la criminologie [37], au sein du Laboratoire pour les systèmes intelligents et l'analyse structurelle, un outil nommé Formal Concept Analysis Research Toolbox (FCART) est en train de se développer.

FCART suit une méthodologie de [38] pour formaliser le processus d'analyse de données itérative piloté par l'ontologie et pour mettre en œuvre plusieurs principes de base:

1. Processus itératif d'analyse des données utilisant des requêtes basées sur l'ontologie et des artefacts interactifs tels que le réseau conceptuel, les clusters, etc.

2. Séparation des processus d'interrogation des données (à partir de diverses sources de données), des données

prétraitement (via des instantanés locaux immuables), analyse des données (dans des visualiseurs interactifs d'artefacts analytiques immuables) et présentation des résultats (dans un éditeur de rapport).

3. Extensibilité à trois niveaux: personnalisation des paramètres pour les composants d'accès aux données,

constructeurs de requêtes, solveurs et visualiseurs; écrire des scripts ou des macros; développement de composants (compléments).

4. Définition explicite des artefacts analytiques et de leurs types, qui permet aux

intégrité des données de session et liens des artefacts pour les utilisateurs finaux.

5. Disponibilité d'outils intégrés d'estimation des performances.

6. Documentation intégrée pour les outils logiciels et les méthodes d'analyse des données.

À l'origine, il s'agissait d'un autre «environnement intégré pour les ingénieurs du savoir et des données basé sur la FCA avec un ensemble d'outils de recherche basés sur l'analyse formelle du concept» [39,40], avec en plus du travail avec des données non structurées (y compris des textes avec diverses métadonnées) et les structures de motifs [41]. Dans sa version actuelle distribuée, FCART se compose des parties suivantes:

1. AuthServer pour l'authentification et l'autorisation.

2. Stockage intermédiaire de données (IDS) pour le stockage et le prétraitement de grands ensembles de données.

3. Client lourd pour le traitement interactif des données et la visualisation dans une interface utilisateur graphique multi-documents intégrée.

4. Solveurs basés sur le Web pour la mise en œuvre de tations.

Le flux de travail est illustré à la Fig.10.

Les principales questions sont les suivantes: si le produit n'a que des avantages technologiques ou s'il a vraiment une méthodologie fructueuse? Peut-il devenir ouvert en plus de son extensibilité? Peut-il enfin gérer de gros volumes de données hétérogènes de manière appropriée pour un analyste FCART? Les réponses à ces questions posées semblent être des étapes difficiles à venir.

CryptoLatt. Cet outil15 a été développé pour aider les étudiants et les chercheurs des domaines voisins (par exemple, l'exploration de données) à reconnaître les cryptomorphismes dans les problèmes basés sur des réseaux, c'est-à-dire à se rendre compte qu'un problème particulier dans un domaine est «isomor-

phic »à un autre en termes de théorie du réseau [42]. Ainsi, l'un des plus connus

15 http://www.cs.unic.ac.cy/florent/software.htm

Structures de motif

Clusters

Autres artefacts

Fig. 10. Flux de travail FCART

des cryptomorphismes dans la communauté FCA sont établis entre un réseau et une relation binaire, également connu sous le nom de théorème de base de FCA. Notez que même un contexte formel particulier, son réseau conceptuel et son ensemble d'implications représentent les mêmes informations sur l'ensemble de données sous-jacent mais d'une manière différente.

Exercice 11. Entraînez-vous avec Concept Explorer:

1. Saisir le contexte des figures géométriques, construire son diagramme de réseau conceptuel et trouver la base de Duquenne-Guigues. Vérifiez si la base obtenue coïncide avec la base trouvée précédemment. Jouez avec différentes dispositions et d'autres options de dessin comme l'étiquetage ou la taille des nœuds.

2. Trouvez de vrais ensembles de données où les objets sont décrits par des attributs nominaux et sélectionnez-en environ 10 objets et 10 attributs. Préparez le contexte correspondant, construisez le diagramme de réseau et trouvez sa base d'implication. Essayez d'interpréter les concepts et les dépendances trouvés. Q

Exercice 12. Entraînez-vous avec ToscanaJ:

1. Utilisez l'outil Elba de la dernière version de ToscanaJ pour créer deux contextes à l'échelle pour deux attributs quelconques du contexte des matières universitaires. Enregistrez les contextes. Ensuite, téléchargez-les dans ToscanaJ et dessinez leur diagramme de ligne imbriqué. Le résultat doit être similaire à la figure 8. Q

Exercice 13. Entraînez-vous avec la Galice:

1. Effectuez les tâches de l'exercice 11. 2. Composez le contexte des matières universitaires. Faites-le évoluer via les algorithmes Multi-FCA Multi-FCA interactif et créez le diargame de lattes. Le résultat doit être identique à la figure 9. Q

5 FCA en exploration de données et apprentissage automatique

  • Règles d'exploitation et d'association d'éléments fréquents: la FCA l'a fait encore plus tôt [43,44]
  • Groupement multimodal (biclustering et triclustering) [45,46,47]
  • FCA dans la classification: méthode JSM, espaces de version 16 et arbres de décision [48]
  • Structures de modèle pour les données avec des descriptions complexes [49,50]
  • Factorisation de la matrice booléenne basée sur le FCA [51]
  • Étude de cas sur l'exploration de données éducatives [52]
  • Exercices avec la méthode JSM dans QuDA (Qualitative Data Analysis): résolution d'une tâche de classification [53]

5.1 Règles d'exploitation et d'association d'éléments fréquents

La découverte des connaissances dans les bases de données (KDD) est introduite comme l'extraction non triviale d'informations valides, implicites, potentiellement utiles et finalement compréhensibles dans les grandes bases de données [54]. L'exploration de données est une étape principale de KDD et, à son tour, les règles d'association et l'extraction fréquente d'éléments sont parmi les techniques clés de

16 non couverts ici

Exploration de données. Le problème initial de l'exploitation des règles d'association est l'analyse du panier de consommation. Au début des années 90, étant donné que le niveau actuel des technologies permettait de stocker un grand nombre de transactions d'articles achetés, les entreprises ont commencé leurs tentatives d'utiliser ces données pour faciliter leurs décisions commerciales typiques concernant «quoi mettre en vente, comment concevoir coupons, comment placer des marchandises sur des étagères afin de maximiser le profit »[55]. Ainsi, tout d'abord, ce problème d'analyse du panier de consommation a été formalisé en [55] comme une tâche consistant à trouver ensemble des articles fréquemment achetés sous forme de règles «si un client achète des articles A, il achète également des articles B». L'un des premiers algorithmes plutôt efficaces de cette période a été proposé dans [43], à savoir Apriori. Dès le début, ces règles sont tolérantes à un certain nombre d'exceptions,ils n'étaient pas stricts en tant qu'implications en FCA. Cependant, plusieurs années auparavant, en [44], Michael Luxenburger a introduit des implications partielles motivées par un énoncé de problème plus général, «une généralisation de la théorie des implications entre les attributs et les implications partielles» car «dans l'analyse des données, l'utilisateur n'est pas seulement intéressé par ( mondiales), mais aussi dans les «implications à quelques exceptions près» ». L'auteur a proposé un traitement théorique du problème en termes d'analyse conceptuelle formelle et a été guidé par l'idée de caractériser «des ensembles d'implications partielles qui découlent de données réelles» et «une possibilité d'une« exploration »des implications partielles par un ordinateur". En outre, il a proposé une base minimale d'implications partielles connue également sous le nom de règles d'association de base de Luxenburger.plusieurs années auparavant, dans [44], Michael Luxenburger a introduit des implications partielles motivées par un énoncé de problème plus général, «une généralisation de la théorie des implications entre les attributs et les implications partielles» car «dans l'analyse des données, l'utilisateur n'est pas seulement intéressé par (global) mais aussi dans les «implications à quelques exceptions près» ». L'auteur a proposé un traitement théorique du problème en termes d'analyse conceptuelle formelle et a été guidé par l'idée de caractériser des «ensembles d'implications partielles qui découlent de données réelles» et «une possibilité d'une« exploration »des implications partielles par un ordinateur". En outre, il a proposé une base minimale d'implications partielles connue également sous le nom de règles d'association de base de Luxenburger.plusieurs années auparavant, dans [44], Michael Luxenburger a introduit des implications partielles motivées par un énoncé de problème plus général, «une généralisation de la théorie des implications entre les attributs et les implications partielles» car «dans l'analyse des données, l'utilisateur n'est pas seulement intéressé par (global) mais aussi dans les «implications à quelques exceptions près» ». L'auteur a proposé un traitement théorique du problème en termes d'analyse conceptuelle formelle et a été guidé par l'idée de caractériser des «ensembles d'implications partielles qui découlent de données réelles» et «une possibilité d'une« exploration »des implications partielles par un ordinateur". En outre, il a proposé une base minimale d'implications partielles connue également sous le nom de règles d'association de base de Luxenburger.Michael Luxenburger a introduit des implications partielles motivées par un énoncé de problème plus général, «une généralisation de la théorie des implications entre les attributs et les implications partielles» car «dans l'analyse des données, l'utilisateur n'est pas seulement intéressé par les implications (globales), mais aussi par« les implications avec un quelques exceptions »». L'auteur a proposé un traitement théorique du problème en termes d'analyse conceptuelle formelle et a été guidé par l'idée de caractériser «des ensembles d'implications partielles qui découlent de données réelles» et «une possibilité d'une« exploration »des implications partielles par un ordinateur". En outre, il a proposé une base minimale d'implications partielles connue également sous le nom de règles d'association de base de Luxenburger.Michael Luxenburger a introduit des implications partielles motivées par un énoncé de problème plus général, «une généralisation de la théorie des implications entre les attributs et les implications partielles» car «dans l'analyse des données, l'utilisateur n'est pas seulement intéressé par les implications (globales), mais aussi par« les implications avec un quelques exceptions »». L'auteur a proposé un traitement théorique du problème en termes d'analyse conceptuelle formelle et a été guidé par l'idée de caractériser des «ensembles d'implications partielles qui découlent de données réelles» et «une possibilité d'une« exploration »des implications partielles par un ordinateur". En outre, il a proposé une base minimale d'implications partielles connue également sous le nom de règles d'association de base de Luxenburger.«Une généralisation de la théorie des implications entre les attributs et les implications partielles» puisque «dans l'analyse des données, l'utilisateur n'est pas seulement intéressé par les implications (globales), mais aussi par les« implications à quelques exceptions près »». L'auteur a proposé un traitement théorique du problème en termes d'analyse conceptuelle formelle et a été guidé par l'idée de caractériser des «ensembles d'implications partielles qui découlent de données réelles» et «une possibilité d'une« exploration »des implications partielles par un ordinateur". En outre, il a proposé une base minimale d'implications partielles connue également sous le nom de règles d'association de base de Luxenburger.«Une généralisation de la théorie des implications entre les attributs et les implications partielles» puisque «dans l'analyse des données, l'utilisateur n'est pas seulement intéressé par les implications (globales), mais aussi par les« implications à quelques exceptions près »». L'auteur a proposé un traitement théorique du problème en termes d'analyse conceptuelle formelle et a été guidé par l'idée de caractériser «des ensembles d'implications partielles qui découlent de données réelles» et «une possibilité d'une« exploration »des implications partielles par un ordinateur". En outre, il a proposé une base minimale d'implications partielles connue également sous le nom de règles d'association de Luxenburger.L'auteur a proposé un traitement théorique du problème en termes d'analyse conceptuelle formelle et a été guidé par l'idée de caractériser «des ensembles d'implications partielles qui découlent de données réelles» et «une possibilité d'une« exploration »des implications partielles par un ordinateur". En outre, il a proposé une base minimale d'implications partielles connue également sous le nom de règles d'association de base de Luxenburger.L'auteur a proposé un traitement théorique du problème en termes d'analyse conceptuelle formelle et a été guidé par l'idée de caractériser des «ensembles d'implications partielles qui découlent de données réelles» et «une possibilité d'une« exploration »des implications partielles par un ordinateur". En outre, il a proposé une base minimale d'implications partielles connue également sous le nom de règles d'association de base de Luxenburger.

Définition 22. Soit K: = (tt, M, I) un contexte, où tt est un ensemble d'objets, M est un ensemble d'attributs (éléments), I ⊆ tt × M Une règle d'association du contexte K est un expression A → B, où A, B ⊆ M et (généralement) A ∩ B = ∅.

Définition 23. Prise en charge (relative) d'une règle d'association A → B définie comme

supp (A B) = | (A ∪ B) J | .

| tt |

La valeur de supp (A B) montre quelle partie de tt contient A B. Souvent, le support peut être donné en%.

Définition 24. Confiance (relative) d'une règle d'association A → B définie comme

conf (A B) = | (A ∪ B) J | .

| AJ |

Cette valeur conf (A → B) montre quelle partie des objets qui possèdent A contient également A ∪ B. Souvent, la confiance peut être donnée en%.

Exemple 11. Une table de transactions objet-attribut.

Gâteaux à la bière Croustilles de Mu¨sli au lait

c1 × ×

c2 × × ×

c3 × × × ×

c4 × × × ×

c5 × × × ×

  • supp ({bière, frites}) = 3/5
  • supp ({Gâteaux, Mu¨sli} → {Lait}) = | ({Gâteaux, Mu¨sli} ∪ {Lait}) t | = | {C2, C5} | =

02-mai

| G | 5

  • conf ({Gâteaux, Mu¨sli} → {Lait}) = | ({Gâteaux, Mu¨sli} ∪ {Lait}) t | = | {c2, c5} | =

1 | {Gâteaux, Mu¨sli} t |

Q

| {c2, c5} |

La tâche principale de l'exploration des règles d'association est formulée comme suit: Trouver toutes les règles d'association d'un contexte, où le support et la confiance des règles sont supérieurs aux seuils prédéfinis, confiance min et support min, notés respectivement min conf et min supp, respectivement [55]

Proposition 5. (Règles d'association et implications)

Soit K un contexte, alors ses règles d'association sous condition min supp = 0% et min conf = 100% sont des implications du même contexte.

Parfois, une règle d'association peut s'écrire A - → c B, où c et s sont

confiance et soutien de la règle donnée.

Deux étapes principales de l'exploration des règles d'association sont données ci-dessous:

1. Trouver des ensembles d'attributs fréquents (ensembles d'éléments fréquents), c'est-à-dire des ensembles d'attributs (éléments) qui ont un support supérieur à min supp.

2. Création de règles d'association basées sur des jeux d'éléments fréquents trouvés.

La première étape est la plus chère, la seconde est plutôt banale.

L'algorithme bien connu pour l'exploration fréquente d'éléments est qu'Apriori [43] utilise la propriété antimonotonie pour faciliter l'énumération des ensembles d'éléments.

Propriété 1. (Propriété antimonotonie) Pour A, B M et A B supp (B) supp (A).

Cette propriété implique les faits suivants:

  • Le plus grand ensemble, le plus petit support dont il dispose ou son support reste le même;
  • La prise en charge d'un ensemble d'éléments n'est pas supérieure à une prise en charge minimale de l'un de ses sous-ensembles;
  • Un ensemble d'éléments de taille n est fréquent si et seulement si tous ses (n 1) sous-ensembles sont fréquents.

L'algorithme Apriori trouve tous les ensembles d'éléments fréquents.

Il s'agit de vérifier de manière itérative l'ensemble de tous les ensembles d'éléments d'une manière de niveau. À chaque itération, un niveau est considéré, c'est-à-dire qu'un sous-ensemble d'items candidats Ci est composé en collectant les itemsets fréquents découverts lors de l'itération précédente (procédure AprioriGen). Ensuite, les supports de tous les ensembles d'éléments candidats sont comptés et les rares sont rejetés.

Algorithme 4 Apriori (Contexte, min supp)

Input: Context, min supp est un support minimal

Sortie: tous les itemsets fréquents IF

1: C1 ← 1 jeu d'éléments 2: i ← 1

3: tandis que Ci ƒ = ∅ do

4: SupportCount (Ci)

5: Fi ← {f ∈ Ci | f. Support ≥ min supp}

6: {Fi est un ensemble d'i-itemsets fréquents}

7: Ci + 1 ← Aprioritten (Fi)

8: {Ci est un ensemble de candidats (i + 1)} 9: i ++

10: fin pendant

11: SI ← Fi

12: retour IF

Pour les ensembles d'éléments fréquents de taille i, la procédure AprioriGen recherche les ensembles (i + 1) et ne renvoie que l'ensemble des candidats potentiellement fréquents.

Algorithme 5 AprioriGen (Fi)

Entrée: Fi est un ensemble d'i-itemsets fréquents

Sortie: Ci + 1 est un ensemble de candidats (i + 1) -itemsets 1: insérer dans Ci + 1 {union}

2: sélectionnez p [1], p [2],. . . , p [i], q [i]

3: à partir de Fi.p, Fi.q

4: où p [1] = q [1],. . . , p [i - 1] = q [i - 1], p [i] 0, le plus grand nombre de biclusters OA est égal à | I |, tous les biclusters OA peuvent être générés dans le temps O (| I | · | tt | · | M |).

Calcul de l'algorithme 6 OA-bicluster

Entrée: K = (tt, M, I) est un contexte formel, ρmin est une valeur seuil de densité de densité bicluster

Sortie: B = {(Ak, Bk) | (Ak, Bk) est un bicluster} 1: B ← ∅

2: si ρmin = 0 alors

3: pour tous (m, g) je fais

4: B.Add (mJ, gJ)

5: fin pour

6: sinon

7: pour tous (m, g) je fais

8: si ρ (mJ, gJ) ρmin alors

9: B.Add (mJ, gJ)

10: fin si

11: fin pour

12: fin si

13: B.RemoveDuplicates ()

14: retour B

L'algorithme 6 est une implémentation assez simple par définition, qui prend le contexte formel initial et le seuil de densité minimale comme paramètres et calcule les biclusters pour chaque paire (objet, attribut) dans la relation I. Cependant, dans ses dernières implémentations, nous utilisons efficacement le hachage pour l'élimination des doublons. Dans nos expériences sur les données de publicité sur le Web, l'algorithme produit 100 fois moins de modèles que le nombre de concepts formels. En général, dans le pire des cas, ces

les valeurs sont 2min (| G |, | M |) vs | I |. La complexité temporelle de notre algorithme est polinomiale (O (| I || tt || M |)) vs exponentielle dans le pire des cas pour Bi-Max (O (| I || tt || L | log | L |)) ou CbO (O (| tt | 2 | M || L |)), où | L | est un certain nombre de concepts générés qui est exponentiel dans le pire des cas (| L | = 2min (| G |, | M |)).

Triadic FCA et triclustering Comme nous l'avons mentionné, il existe des sources de données telles que les folksonomies, par exemple, un site de bookmarking pour la littérature scientifique.

Bibsonomy de température 18 [97]; la structure sous-jacente comprend des triplets (utilisateur, étiquette, signet) comme celui de la figure 14.

Fig. 14. Un exemple de relation Bibsonomy pour trois articles, cinq auteurs et cinq balises.

Par conséquent, il peut être utile d'étendre le biclustering et l'analyse de concept formelle pour traiter les relations entre plus de deux ensembles de données. Quelques tentatives dans ce sens ont été publiées dans la littérature. Par exemple, Zaki et al. [98] ont proposé l'algorithme Tricluster pour extraire les biclusters étendus par dimension temporelle aux données d'expression génique à valeur réelle. Une méthode de triclustering a été conçue en [99] pour extraire des données d'expression génique en utilisant des fonctions de boîte noire et des paramètres provenant du domaine. Dans le cadre de l'analyse formelle du concept, les articles théoriques [100, 101] ont introduit l'analyse dite conceptuelle triadique formelle. Dans [102], des concepts formels triadiques s'appliquent à l'analyse de petits ensembles de données dans un domaine psychologique. L'article [45] a proposé une méthode plutôt évolutive TRIAS pour l'extraction de triconceptes fréquents dans les Folksonomies. Simultanément,une méthode moins efficace sur l'extraction de cubes fermés dans les relations ternaires a été proposée par Ji et al. [103]. Il existe plusieurs algorithmes efficaces récents pour extraire des ensembles ternaires fermés (triconcepts) et des algorithmes encore plus généraux que TRIAS. Ainsi, Data-Peeler [104] est capable d'exploiter des concepts formels n-aire et ses mines descendantes n-sets tolérants aux pannes [105]; ce dernier a été comparé à l'algorithme DCE pour l'extraction tolérante aux fautes de n-sets de [106]. L'article [107] généralise l'extraction de relations n-aires au cadre multi-relationnel dans les bases de données en utilisant la notion de fermeture algébrique.Data-Peeler [104] est capable d'extraire des concepts formels n-aire et ses mines descendantes n-sets tolérants aux pannes [105]; ce dernier a été comparé à l'algorithme DCE pour l'extraction tolérante aux fautes de n-sets de [106]. L'article [107] généralise l'extraction de relations n-aires au cadre multi-relationnel dans les bases de données en utilisant la notion de fermeture algébrique.Data-Peeler [104] est capable d'extraire des concepts formels n-aire et ses mines descendantes n-sets tolérants aux pannes [105]; ce dernier a été comparé à l'algorithme DCE pour l'extraction tolérante aux fautes de n-sets de [106]. L'article [107] généralise l'extraction de relations n-aires au cadre multi-relationnel dans les bases de données en utilisant la notion de fermeture algébrique.

Dans un cadre triadique, en plus de l'ensemble d'objets, tt et l'ensemble d'attributs, M, nous avons B, un ensemble de conditions. Soit K = (tt, M, B, I) un contexte triadique, où tt, M ​​et B sont des ensembles et I est une relation ternaire: I ⊆ tt × M × B.

18 bibsonomy.org

les concepts triadiques d'un contexte triadique (tt, M, B, Y tt MB) sont exactement les 3-tuples maximaux (A1, A2, A3) dans 2G 2M 2B avec A1 A2 A3 Y par rapport à l'inclusion d'ensemble par composants [100,101 ]. La notion de concepts n-adiques peut être introduite de manière similaire au cas triadique [108].

Exemple 13. Pour l'exemple de bibsonomy, l'un des concepts triadiques est ({Poelmans, Elzinga}, {Domestic V iolence}, {paper3})

(voir les bords en pointillés sur le graphique de la figure 14). Cela signifie que les utilisateurs Poelmans et Elzinga ont marqué le papier 3 par la balise «Violence domestique». Q

Guidés par l'idée de trouver des triconcepts évolutifs et tolérants au bruit, nous avons examiné le paradigme du triclustering en général pour des données binaires triadiques, c'est-à-dire pour les tricontextes en tant que jeux de données d'entrée.

Supposons que X, Y et Z sont des sous-ensembles de tt, M ​​et B respectivement.

Définition 30. Supposons que K = (tt, M, B, I) est un contexte triadique et Z tt, YM, Z B. Un triple T = (X, Y, Z) est appelé un tricluster OAC. Traditionnellement, ses composants sont appelés respectivement étendue (tricluster), intention (tricluster) et modus (tricluster).

La densité d'un tricluster T = (X, Y, Z) est définie comme la fraction de tous les triplets de I dans X × Y × Z:

ρ (T): = | I ∩ (X × Y × Z) | .

| X || Y || Z |

Définition 31. Le tricluster T est appelé dense si sa densité n'est pas inférieure à un seuil prédéfini, c'est-à-dire ρ (T) ≥ ρmin.

La collection de tous les triclusters pour un tricontexte K donné est désignée par.

Puisque nous traitons tous les cuboïdes possibles dans le produit cartésien tt MB, il est évident que le nombre de tous les triclusters OAC, est égal à 2 | G | · | M | · | B |. Cependant, tous ne sont pas censés être denses, en particulier pour les données réelles qui sont souvent assez clairsemées. Ainsi, nous avons proposé deux définitions possibles du tricluster OAC, qui nous donnent un moyen efficace de trouver dans le temps polynomial un nombre

nombre de triclusters (denses) non supérieur au nombre I de triplets dans les données initiales.

Dans [109], nous avons comparé un ensemble de techniques de triclustering proposées dans les perspectives d'analyse conceptuelle formelle et / ou d'analyse bicluster: OAC-BOx [46], TRIBOx [110], SPECTRIC [47] et un récent algorithme OAC-PRIME. Ce nouvel algorithme, OAC-PRIME, surmonte les inconvénients de calcul et de fond des précédents algorithmes de type concept formel. Dans notre approche spectrale (algorithme SpecTric), nous nous appuyons sur une extension de la reformulation bien connue d'un problème de partitionnement de graphe bipartite à la partition spectrale d'un graphe (voir, par exemple [78]). À des fins de comparaison, nous avons proposé de nouveaux développements dans les composants suivants du cadre de l'expérience:

1. Critères d'évaluation: densité moyenne, couverture, diversité et nombre de triclusters, temps de calcul et tolérance au bruit des algorithmes.

2. Ensembles de données de référence: nous utilisons des ensembles de données triadiques à partir de données Internet accessibles au public ainsi que des ensembles de données synthétiques avec divers modèles de bruit.

Un travail précédent a été réalisé en [111].

En conséquence, nous n'avons pas défini de méthodes de gain absolues, mais le choix multicritères permet à un expert de décider lesquels des critères sont les plus importants dans un cas spécifique et de faire un choix. Ainsi, nos expériences montrent que nos algorithmes Tri-box et OAC-prime peuvent être des alternatives raisonnables aux concepts formels triadiques et conduire à des solutions Pareto-efficaces. En fait, TriBox est meilleure en ce qui concerne la tolérance au bruit et le nombre de clusters, OAC-prime est le meilleur en termes d'évolutivité vers de grands ensembles de données du monde réel. Dans le document [112], une version efficace d'OAC-prime en ligne a été proposée.

Dans nos expériences, nous avons utilisé un contexte des 250 meilleurs films populaires de www.imdb.com, les objets sont des titres de films, les attributs sont des balises, tandis que les conditions sont des genres. Le triclustering OAC Prime a montré des résultats plutôt bons étant l'un des algorithmes les plus rapides en comparaison.

Exemple 14. Des exemples de triclusters Prime OAC avec leur indication de densité pour le contexte IMDB sont donnés ci-dessous:

1. 36%, {The Shawshank Redemption (1994), Cool Hand Luke (1967), American History X (1998), A Clockwork Orange (1971), The Green Mile (1999)},

{Prison, meurtre, ami, Shawshank, banquier}, {Crime, drame}

2. 56, 67%, {The Godfather: Part II (1974), The Usual Suspects (1995)}, {Cuba, New York, Business, 1920s, 1950s}, {Crime, Drama, Thriller}

3. 60%, {Toy Story (1995), Toy Story 2 (1999)}, {Jalousie, Jouet, Spaceman, Little Boy, Fight}, {Fantaisie, Comédie, Animation, Famille, Aventure}

Q

5.2 FCA en Classiftcation

En fait, l'Analyse Formelle de Concept a aidé à repenser algébriquement plusieurs modèles et méthodes en Machine Learning tels que les espaces de version [113], l'apprentissage à partir d'exemples positifs et négatifs [74,48], et les arbres de décision [48]. Il a également été montré que le réseau conceptuel est un espace de recherche parfait pour l'apprentissage d'arbres de décision globalement optimaux [114]. Déjà au début des années 90, des techniques et des applications d'apprentissage automatique supervisées et non supervisées basées sur l'analyse formelle de concepts ont été introduites dans la communauté de l'apprentissage automatique. Par exemple, dans les sites liés au ML, des résultats ont été rapportés sur le concept de clustering basé sur un réseau dans le système GA-LOIS qui convenait à la recherche d'informations via la navigation [115,116]. [117] ont effectué une comparaison de sept algorithmes de classification basés sur FCA. [118] et

[119] proposent indépendamment d'utiliser FCA pour concevoir une architecture de réseau neuronal. Dans [120,121] FCA a été utilisé comme technique de prétraitement des données pour transformer

l'espace d'attribut pour améliorer les résultats de l'induction de l'arbre de décision. Notez que FCA aide à effectuer la sélection des caractéristiques via une mise à l'échelle conceptuelle et a des relations assez évidentes avec la théorie des ensembles bruts, un outil populaire pour la sélection des caractéristiques dans la classification [122]. [123] ont proposé Navigala, une approche basée sur la navigation pour la classification supervisée, et l'ont appliquée à la reconnaissance des symboles bruyants. Des approches basées sur un réseau ont également été utilisées avec succès pour la classification de données avec des descriptions complexes telles que des graphiques ou des arbres [75,124]. De plus, dans [125] (chapitre 4, «Apprentissage conceptuel»), la FCA est suggérée comme un cadre d'apprentissage alternatif.

Méthode JSM de génération d'hypothèses La méthode JSM proposée par Viktor K. Finn à la fin des années 1970 a été proposée comme tentative de décrire l'induction sous une forme purement déductive et donc de donner une justification au moins partielle de l'induction [126]. La méthode est nommée pour rendre hommage au philosophe anglais John Stuart Mill, qui a proposé plusieurs schémas de raisonnement inductif au XIXe siècle. Par exemple, sa méthode d'accord est formulée comme suit: «Si deux ou plusieurs cas du phénomène faisant l'objet de l'enquête n'ont qu'une seule circonstance en commun, [...] c'est la cause (ou l'effet) du phénomène donné.»

La méthode a prouvé sa capacité à permettre l'apprentissage à partir d'exemples positifs et négatifs dans divers domaines [127], par exemple en sciences de la vie [74].

Pour le public de RuSSIR, l'exemple de l'application de la méthode JSM en paléographie peut être particulièrement intéressant [128]: JSM a été utilisé pour dater des documents d'écorce de bouleau des 10-16 siècles de la république de Novgorod. Il y avait cinq types d'attributs: les caractéristiques des lettres individuelles, les caractéristiques communes à plusieurs lettres, l'écriture manuscrite, les caractéristiques du langage (morphologie, syntaxe et erreurs typiques), le style (format des lettres, formules d'adressage et leurs mots clés).

Même si la méthode JSM a été formulée dans un cadre logique mathématique, plus tard l'équivalence entre les hypothèses JSM et les concepts formels a été reconnue [60].

La définition suivante d'une hypothèse («pas d'hypothèse de contre-exemple») en termes de FCA a été donnée dans [129].

Soit K = (tt, M, I) un contexte. Il existe un attribut cible w ∈ / M,

  • exemples positifs, c'est-à-dire ensemble tt + ⊆ tt d'objets connus pour avoir w,
  • exemples négatifs, c'est-à-dire ensemble tt− ⊆ tt d'objets connus pour ne pas avoir w,
  • des exemples indéterminés, c'est-à-dire définir ttτ tt des objets pour lesquels

sait s'ils ont l'attribut cible ou non.

Il existe trois sous-contextes de K = (tt, M, I), les deux premiers sont utilisés pour l'échantillon d'apprentissage: Kε: = (ttε, M, Iε), ε ∈ {-, +, τ} avec les opérateurs de dérivation respectifs ( ·) +, (·) - et (·) τ.

Définition 32. Une hypothèse positive H ⊆ M est une intention de K + non contenue dans l'intention g− de tout exemple négatif g tt−: ​​g tt− H g−. De manière équivalente,

H ++ = H, HJ ⊆ tt + ∪ ttτ.

Les hypothèses négatives sont définies de manière similaire. Une intention de K + contenue dans l'intention d'un exemple négatif est appelée généralisation falsiftée (+).

Exemple 15. Dans le tableau 4, il existe un contexte à plusieurs valeurs représentant les données de notation du crédit.

tt + = {1, 2, 3, 4}, tt− = {5, 6, 7} et ttτ = {8, 9, 10}. L'attribut cible prend les valeurs + et - signifiant respectivement «client à faible risque» et «à haut risque».

Tableau 4. Contexte de classification à plusieurs valeurs pour la notation du crédit

G / M Sexe Âge Éducation Cible de salaire

1 M jeune plus haut haut +

2 F milieu spécial haut +

3 F moyenne supérieure moyenne +

4 M vieux plus haut haut +

5

6

7 M

FF jeune

moyen-âge supérieur

secondaire spécial faible

moyenne moyenne -

-

-

8 F jeune spécial haut τ

9 F ancienne moyenne supérieure τ

10 M moyenne spéciale moyenne τ

Pour appliquer la méthode JSM en termes FCA, nous devons mettre à l'échelle les données données. On peut utiliser l'échelle nominale comme ci-dessous.

M F Y Mi O HE Sp Se HS A L w w¯

g1 × × × × ×

g2 × × × × ×

g3 × × × × ×

g4 × × × × ×

g5 × × × × ×

g6 × × × × ×

g7 × × × × ×

Ensuite, nous devons trouver des hypothèses positives et négatives non falsifiées. Si la figure 15, il y a deux réseaux d'exemples positifs et négatifs pour le contexte d'entrée, respectivement.

Les nœuds ombrés correspondent à des hypothèses maximales non falsifiées, c'est-à-dire qu'ils n'ont pas de voisins supérieurs étant des hypothèses non falsifiées.

Pour K +, l'hypothèse {HE} est falsifiée puisque l'objet g5 fournit un contre-exemple, c'est-à-dire {HE} ⊆ g5− = {M, Y, HE, L}.

Pour K− l'hypothèse {A, F} est falsifiée car il y a un contre-exemple positif,

à savoir {A, F} ⊆ g = {F, M, HE, A} .Q

Les exemples indéterminés gτ de ttτ sont classés comme suit:

UN F

L, HE, Y, M

O

g5

g7

HS

SE, Mi, Sp

g6

Fig. 15. Les diagrammes linéaires du réseau d'hypothèses positives (à gauche) et du réseau d'hypothèses négatives (à droite).

  • Si gτ contient une hypothèse positive mais pas d'hypothèse négative, alors gτ est classifté

positivement (présence de l'attribut cible w prévue).

  • Si gτ contient une hypothèse négative, mais pas d'hypothèse positive, alors gτ classifted

négativement (absence d'attribut cible w prévue).

  • Si gτ contient à la fois des hypothèses négatives et positives, ou si gτ ne

τ τ

une hypothèse, la classification des objets est contradictoire ou indéfinie

terminées, respectivement.

Il est clair que pour effectuer une classification, il suffit de n'avoir que des hypothèses minimales (wrt ⊆), négatives et positives.

Exercice 19. Pour le contexte de notation de crédit, classifiez tous les exemples indéterminés.

Q

Il existe un lien étroit entre les hypothèses et les implications.

Proposition 14. Une hypothèse positive h correspond à une implication h →

{w} dans le contexte K + = (tt +, M ∪ {w}, I + ∪ tt + × {w}).

Une hypothèse négative h correspond à une implication h → {w¯} dans le contexte

K− = (tt−, M ∪ {w¯}, I− ∪ tt− × {w¯}).

Les hypothèses sont des implications dont les prémisses sont fermées (en K + ou en K−).

Une étude détaillée mais rétrospective sur la méthode JSM (dans la formulation basée sur FCA et originale) et ses applications peut être trouvée dans [14]. Une autre extension de la méthode JSM aux données triadiques avec attribut cible dans une formulation à base de FCA peut être trouvée dans [130,131]; là, l'extension triadique de la méthode JSM a utilisé un algorithme de type CbO pour la classification dans les données Bibsonomy.

Cependant, nous avons vu que les données originales doivent souvent être mises à l'échelle, mais, par exemple, il n'est pas évident de savoir quoi faire en cas d'apprentissage avec des graphiques étiquetés. Appeler

quelques problèmes de ce type, nous mentionnerions les problèmes de relation structure-activité pour les produits chimiques donnés par les graphes moléculaires et l'apprentissage de la sémantique à partir de représentations textuelles basées sur des graphiques (XML, arbre syntaxique). Motivé par la recherche d'extensions possibles de machines FCA originales pour analyser des données avec une structure complexe, Ganter et Kuznetsov ont proposé des structures dites de modèle [132].

5.3 Structures de modèle pour les données avec des descriptions complexes

Les définitions de base des structures de motif ont été proposées dans [132].

Soit tt un ensemble d'objets et D un ensemble de toutes les descriptions d'objets possibles. Soit un opérateur de similitude. Il permet de travailler avec des objets qui ont des attributs non binaires comme dans le cadre FCA traditionnel, mais ceux qui ont des descriptions complexes comme des intervalles [73], des séquences [133] ou des graphiques (moléculaires) [75]. ensuite

(D, H) est un semi-réseau de rencontre de descriptions d'objets. La cartographie δ: tt → D assigne à un objet g la description d ∈ (D, H).

Un triple (tt, (D, H), δ) est une structure de motif. Deux opérateurs (·) Q définissent la connexion de Galois entre (2G, ⊆) et (D, H):

AQ = δ (g) pour A ⊆ tt (1)

g∈A

dQ = {g ∈ tt | d ± δ (g)} pour d ∈ (D, H), où (2)

d ± δ (g) ⇐⇒ d H δ (g) = d.

Pour un ensemble d'objets Un opérateur 1 renvoie la description commune (motif) de tous les objets de A. Pour une description, l'opérateur d 2 renvoie l'ensemble de tous les objets qui contiennent d.

Une paire (A, d) telle que A ⊆ tt et d ∈Q (D, H) est appelée concept de motif

de la structure du motif (tt, (D, H), δ) ssi A = d et dQ = A. Dans ce cas, A

est appelé une étendue de motif et d est appelé une intention de motif d'un concept de motif

(Un d). Les concepts de régularité sont partiellement ordonnés par (A1, d1) ≤ (A2, d2) ⇐⇒ A1 ⊆ A2 (d2 d1). L'ensemble de tous les concepts de modèle forme un réseau complet appelé réseau de concept de modèle.

Intervalles comme modèles. Il est évident que l'opérateur de similarité sur les intervalles doit remplir la condition suivante: deux intervalles doivent appartenir à un intervalle qui les contient. Que ce nouvel intervalle soit minimal, celui qui contient deux intervalles d'origine. Soit [a1, b1] et [a2, b2] deux intervalles tels que a1, b1, a2, b2 ∈ R,

a1 ≤ b1 et a2 ≤ b2, alors leur similitude est définie comme suit:

[a1, b1] H [a2, b2] = [min (a1, a2), max (b1, b2)].

Par conséquent

[a1, b1] ± [a2, b2] ⇐⇒ [a1, b1] H [a2, b2] = [a1, b1]

⇐⇒ min (a1, a2), max (b1, b2) = [a1, b1]

⇐⇒ a1 ≤ a2 et b1 ≥ b2 ⇐⇒ [a1, b1] ⊇ [a2, b2]

Notez que a ∈ R peut être représenté par [a, a].

Vecteurs d'intervalle en tant que motifs. Appelons vecteurs p-adiques d'intervalles comme vecteurs d'intervalles. Dans ce cas, pour deux vecteurs d'intervalle de même dimension e = ([ai, bi]) i∈ [1, p] et f = [ci, di] i∈ [1, p] nous définissons l'opération de similarité via l'intersection de les composantes correspondantes des vecteurs d'intervalle, à savoir:

e H f = ([ai, bi]) i∈ [1, p] H ([ci, di]) i∈ [1, p] ⇐⇒ e H f = ([ai, bi] H [ci, di ]) i∈ [1, p]

Notez que les vecteurs d'intervalle sont également partiellement ordonnés:

e ± f ⇐⇒ ([ai, bi]) i∈ [1, p] ± ([ci, di]) i∈ [1, p] ⇐⇒ [ai, bi] ± [ci, di] pour tout i ∈ [1, p].

Exemple 16. Prenons comme exemple le tableau suivant des classements des films:

Tableau 5. Tarifs des films

L'artiste fantôme Casablanca Mamma Mia! Dogma Die Hard Leon

Utilisateur1 4 4 5 0 0 0 0

Utilisateur2 5 5 3 4 3 0 0

Utilisateur3 0 0 0 4 4 0 0

Utilisateur4 0 0 0 5 4 5 3

Utilisateur5 0 0 0 0 0 5 5

Utilisateur 6 0 0 0 0 0 4 4

Chaque utilisateur de ce tableau peut être décrit par vecteur d'intervalles de notation. Par exemple, δ (u1) = [4, 4], [4, 4], [5, 5], [0, 0], [0, 0], [0, 0], [0, 0]. Si un nouvel utilisateur aime le film Leon, un système de recommandation de films répondrait à qui d'autre aimerait

ce film en appliquant l'opérateur 2: [4, 5] Q = {u5, u6}. De plus, le système

tem récupérerait les films que les utilisateurs 5 et 6 aimaient, en supposant que

ils ont des goûts similaires avec u. Ainsi, l'opérateur 1 donne d = u5, u6 Q = [0, 0], [0, 0], [0, 0], [0, 0], [0, 0], [4, 5], [ 4, 5], suggérant que Die Hard mérite d'être surveillé pour l'utilisateur cible u.

Évidemment, le concept de modèle (u5, u6, d) décrit un petit groupe d'utilisateurs partageant les mêmes idées et leurs préférences partagées sont stockées dans le vecteur d (cf. bicluster). Q

Compte tenu de la pression constante des demandes de l'industrie pour les outils Big Data, plusieurs façons de les adapter à ce contexte ont été proposées dans [50,134]; ainsi, pour les structures de motif dans le cadre de la classification, la combinaison de l'évaluation paresseuse avec des approximations de projection des données initiales, la randomisation et la parallélisation, entraîne une réduction de la complexité algorithmique au polynôme de faible degré. Ces observations permettent d'appliquer des structures de motifs dans l'exploration de texte et l'apprentissage à partir de grandes collections de texte [135]. Implémentations de Pattern de base

Les algorithmes de structures sont disponibles dans FCART. Q

Exercice 20. 1. Composez un petit programme, par exemple en Python, qui énumère tous les concepts de modèle de l'exemple de recommandation de film directement par définition ou adaptez CbO à cette fin. 2. S'il n'y a aucune possibilité d'effectuer 1., considérez la sous-table des quatre premiers utilisateurs et les quatre premiers films du film

exemple de recommandation. Trouvez tous les concepts de motif par la définition. Construisez le diagramme de ligne du réseau de concept de modèle. Q

Cependant, Pattern Structures n'est pas la seule tentative pour adapter FCA à des données avec une description plus complexe que booléenne. Ainsi, au cours des dernières années, les recherches sur l'extension de la théorie de la FCA pour faire face aux informations imprécises et incomplètes ont fait des progrès significatifs. Le modèle sous-jacent est un réseau dit de concepts flous; il existe plusieurs définitions d'un tel réseau, mais l'hypothèse de base est généralement qu'un objet peut posséder des attributs dans une certaine mesure [136]. Par exemple, dans les études sociologiques, la représentation par âge requiert une attention particulière: une personne adolescente ne peut pas être traitée comme une adulte vraiment le premier jour lorsque son âge dépasse un seuil de 18 ans (de plus, pour des raisons formelles, cet âge peut différer selon les pays). Cependant, c'est généralement le cas lorsque nous traitons de la mise à l'échelle nominale;même une mise à l'échelle ordinale peut entraîner une perte d'informations en raison du niveau de granularité choisi. Donc, nous avons besoin d'une mesure flexible d'être à la fois un adulte et un adolescent et ce pourrait être un degré compris dans l'intervalle [0,1] pour chacun de ces attributs. Une autre façon de caractériser cette imprécision ou rugosité peut être faite en termes d'ensembles approximatifs [137]. Un lecteur intéressé est invité à suivre une enquête sur Fuzzy et Rough FCA dans [138]. La correspondance entre Pattern Structures et Fuzzy FCA peut être trouvée dans [139].Un lecteur intéressé est invité à suivre une enquête sur Fuzzy et Rough FCA dans [138]. La correspondance entre Pattern Structures et Fuzzy FCA peut être trouvée dans [139].Un lecteur intéressé est invité à suivre une enquête sur Fuzzy et Rough FCA dans [138]. La correspondance entre Pattern Structures et Fuzzy FCA peut être trouvée dans [139].

5.4 Factorisation de la matrice booléenne basée sur FCA

Les techniques de factorisation matricielle (MF) figurent dans l'inventaire typique de l'apprentissage automatique ([125], chapitre Caractéristiques), de l'exploration de données ([63], chapitre Réduction de la dimensionnalité) et de la recherche d'informations ([1], chapitre Décompositions matricielles et indexation sémantique latente) . Ainsi, la MF utilisée pour la réduction de dimensionnalité et l'extraction de caractéristiques, et, par exemple, dans le filtrage collaboratif, les techniques MF recommandées sont désormais considérées comme des normes de l'industrie [140].

Parmi les types de MF les plus populaires, nous devons certainement mentionner la décomposition en valeurs singulières (SVD) [141] et ses diverses modifications telles que l'analyse sémantique probabiliste latente (PLSA) [142] et SVD ++ [143]. Cependant, plusieurs techniques de factorisation existantes, par exemple la factorisation matricielle non négative (NMF) [144] et la factorisation matricielle booléenne (BMF) [51], semblent être moins étudiées dans le contexte de l'analyse moderne des données et de la recherche d'informations.

La factorisation de la matrice booléenne (BMF) est une décomposition de la matrice d'origine I 0, 1 n × m, où Iij 0, 1, en un produit de matrice booléenne PQ de matrices binaires P 0, 1 n × k et Q 0, 1 k × m pour le plus petit nombre possible de

k. Définissons le produit de la matrice booléenne comme suit:

k

(P ◦ Q) ij = Pil · Qlj, (3)

l = 1

où dénote la disjonction, et · la conjonction.

La matrice I peut être considérée comme une matrice de relations binaires entre l'ensemble X de

objets (utilisateurs) et un ensemble Y d'attributs (éléments que les utilisateurs ont évalués). Nous supposons que xIy ssi l'utilisateur x a évalué l'objet y. Le triple (X, Y, I) forme clairement un contexte formel.

Considérons un ensemble F ⊆ B (X, Y, I), un sous-ensemble de tous les concepts formels de contexte (X, Y, I), et introduisons les matrices PF et QF:

(P) = 1, i ∈ Al,

0, i ∈ / Al,

(Q) = 1, j ∈ Bl,,

0, j ∈ / Bl.

où (Al, Bl) est un concept formel de F.

On peut considérer la décomposition de la matrice I en produit matriciel binaire

PF et QF comme décrit ci-dessus. Les théorèmes suivants sont démontrés dans [51]:

Théorème 2. (Universalité des concepts formels comme facteurs). Pour chaque moi il y a

F ⊆ B (X, Y, I), telle que I = PF ◦ QF.

Théorème 3. (Optimalité des concepts formels comme facteurs). Soit I = P ◦ Q pour les matrices binaires n × k et k × m P et Q. Il existe alors un ensemble F ⊆ B (X, Y, I) de concepts formels de I tels que | F | ≤ k et pour n × | F | et | F | × m matrices binaires PF et QF nous avons I = PF ◦ QF.

Exemple 17. Transformez la matrice de notations décrite ci-dessus par seuillage (geq3), en une matrice booléenne, comme suit:

1 1 1 0 0 0 0

1 1 1 1 1 0 0

0 0 0 1 1 1 1

0 0 0 0 0 1 1

0 0 0 0 0 1 1

La décomposition de la matrice I en produit booléen de I = AF BF est la suivante:

1 1 1 0 0 0 0

1 1 1 1 1 0 0

 1 0 0 

 

 1 1 1 0 0 0 0 

0 0 0 1 1 0 0 0 1 0

 = ◦ 0 0 0 1 1 0 0.

Même ce petit exemple montre que l'algorithme a identifié trois facteurs qui réduisent considérablement la dimensionnalité des données. Q

Il existe plusieurs algorithmes pour trouver PF et QF en calculant des concepts formels basés sur ces théorèmes [51]. Ainsi, l'algorithme approximatif (Al-

gorithme 2 de [51]) évite le calcul de tous les concepts formels possibles et fonctionne donc beaucoup plus rapidement que l'approche directe par la génération de tous les concepts. Sa complexité de temps d'exécution dans le pire des cas donne O (k tt M 3), où k est le nombre de facteurs trouvés, tt est le nombre d'objets, M est le nombre d'attributs.

En ce qui concerne les applications, dans [120,121], le BMF à base de FCA a été utilisé comme technique d'extraction de caractéristiques pour améliorer les résultats de la classification. Un autre exemple est étroitement lié à l'IR; ainsi, dans [145,94], BMF a démontré des résultats comparables au filtrage collaboratif basé sur SVD en termes de MAE et de mesures de rappel de précision. D'autres extensions du BMF aux données triadiques et n-aires ont été proposées dans [146]

et [147], respectivement (le dernier n'est pas basé sur FCA)

5.5 Étude de cas: processus d'admission à l'université HSE

dans cette étude de cas, nous reproduisons les résultats de notre article à partir de [52]. En supposant une confusion probable du système éducatif russe, nous devons dire quelques mots sur l'École supérieure d'économie de l'Université nationale de recherche19 et son processus d'admission.

Aujourd'hui, le HSE est reconnu comme une université de premier plan dans les domaines de l'économie, de la gestion, de la sociologie, de l'informatique commerciale, des politiques publiques et des sciences politiques parmi les universités russes. Récemment, un certain nombre de programmes de licence offerts par HSE a été augmenté. En 2010, HSE a proposé 20 programmes de licence. Nous considérons uniquement les programmes de licence dans notre enquête.

Afin d'obtenir un diplôme de l'école et d'entrer dans une université ou un collège, chaque étudiant russe doit réussir un examen d'État unifié (transcription russe: EGE), similaire aux tests américains SAT-ACT ou UK A-Level. Lors de l'admission en 2010 à l'U-HSE, les participants ont pu envoyer leurs candidatures à trois programmes simultanément. Certains décrocheurs (entrants majeurs des programmes de licence HSE) ont choisi un seul programme, certains en ont choisi deux ou trois. Les participants ont ensuite dû choisir un seul programme pour étudier parmi les candidatures retenues.

19 http://www.hse.ru/en/

Nous avons utilisé des données représentant l'admission au HSE en 2010. Il s'agit d'informations sur 7516 entrants. Nous avons utilisé principalement des informations sur les programmes (jusqu'à trois) auxquels les candidats postulent20. Exactement 3308 participants ont postulé avec succès au moins à un programme, mais seulement 1504 deviennent étudiants. Parallèlement à ces données, nous avons également utilisé les données de l'enquête auprès des entrants (76% de l'ensemble de l'assemblage).

Plus loin dans l'article, nous avons principalement utilisé les données du programme de mathématiques appliquées et d'informatique pour démontrer certains résultats. Le nombre total de candidatures au programme de mathématiques appliquées et d'informatique était de 843, dont 398 ont réussi, mais seulement 72 d'entre elles ont été réellement acceptées dans le programme. Cela peut sembler déroutant, seulement 72 étudiants potentiels sur 398 ont décidé de s'inscrire, mais comme le processus d'admission a été mis en place en deux étapes, et à chaque étape, seuls 72 participants étaient éligibles pour participer au programme, certains d'entre eux ont décidé de programme ou université différent. En conséquence, le nombre de candidats dont les candidatures ont été acceptées est tombé à 398. Cette situation est typique de tous les programmes de licence au HSE.

FCA requiert des données d'attribut d'objet. Dans notre cas, les objets sont des entrants et les programmes auxquels ils s'appliquent sont des attributs. Ensemble, ils sont traités comme un contexte. Une série de contextes ont été construits. A savoir, nous avons construit un contexte pour chaque programme où les objets étaient des candidats entrant dans ce programme et les attributs étaient d'autres programmes auxquels ils s'appliquaient. Nous avons construit un contexte séparé pour chaque programme car il est inutile de considérer tous les programmes à la fois car les programmes sont de tailles très différentes et le réseau résultant ne représenterait que le plus grand d'entre eux.

De même, nous avons construit un contexte pour chaque programme où les objets étaient des participants et les attributs étaient des programmes auxquels les candidats ont réussi à postuler ainsi que les programmes auxquels les candidats ont décidé de s'inscrire, y compris ceux d'autres universités.

Ces contextes ont ensuite été utilisés pour construire des réseaux conceptuels. Étant donné que les réseaux résultants avaient une structure trop compliquée à interpréter, nous avons filtré les concepts par leur taille d'étendue (la taille d'étendue est le nombre d'objets, dans notre cas, c'est le nombre d'entrants), donc les concepts restants n'expriment que certains des modèles les plus courants dans les décisions des participants.

À quels programmes les candidats s'inscrivent-ils souvent simultanément? En essayant de répondre à cette question pour chaque programme, nous avons construit des diagrammes21 similaires à la figure 16. De tels diagrammes nous aident à révéler des modèles communs dans les choix des participants. Les applications typiques de FCA impliquent la construction de réseaux de concepts formels discutés précédemment, mais

ici, nous filtrons les concepts par taille d'étendue pour éviter la complexité causée par le bruit dans les données. Ainsi l'ordre sur les concepts restants n'est plus un réseau, c'est un ordre partiel. La signification des étiquettes sur le diagramme est évidente. Une étiquette au-dessus d'un nœud est un programme, une étiquette au-dessous d'un nœud est un pourcentage d'entrants en mathématiques appliquées

20 HSE est une université d'État, donc la plupart des places étudiantes sont financées par le gouvernement. Dans cet article, nous ne considérons que de tels endroits.

21 Comme toute autre technique d'exploration de données, FCA implique une utilisation intensive des logiciels. Tous les diagrammes mentionnés dans cet article ont été produits avec meud ( https: // github . Com / jupp / meud-wx).

Mathématiques

Mathématiques appliquées et informatique

100

Statistiques

Sociologie

10 Génie logiciel

Économie

70 Informatique commerciale

4

5 30

1

La gestion

2

Logistique

4

1

Administration publique Économie mondiale 1

1

2

19

1

1 2

Fig. 16. Autres programmes que les candidats au programme de mathématiques appliquées et d'informatique ont également appliqués.

et programme informatique qui a également postulé à des programmes connectés à un nœud par le haut. Par exemple, le nœud le plus à gauche et le plus bas du diagramme signifie que cinq pour cent des entrants en mathématiques appliquées s'appliquent également aux mathématiques et au génie logiciel. Ensuite, si nous regardons les nœuds au-dessus du nœud actuel, nous pouvons remarquer que dix pour cent des candidats en mathématiques appliquées et en informatique s'appliquent également au programme de mathématiques, et 70 pour cent également au génie logiciel.

Essayons maintenant d'interpréter certaines connaissances déployées par le diagramme de la figure 16. 70% des participants qui se sont appliqués aux mathématiques appliquées et à l'informatique s'appliquent également au génie logiciel. Le même diagramme pour le génie logiciel indique que 80 pour cent des candidats en génie logiciel s'appliquent également aux mathématiques appliquées et à l'informatique. Comment expliquer ce fait? Tout d'abord, cela s'explique facilement par le fait que ces deux programmes nécessitent de passer les mêmes examens. Il n'y a donc pas eu d'obstacles supplémentaires à appliquer simultanément aux deux programmes. Une autre explication possible est qu'il est difficile pour les participants de distinguer ces deux programmes et qu'une application réussie à l'un d'eux serait un résultat satisfaisant.

En analysant les diagrammes des applications d'autres programmes, nous avons constaté que l'équivalence des examens requis est probablement la raison la plus importante pour postuler à plus d'un programme.

Choix «efficace» des participants. Si un participant a appliqué avec succès à plus d'un programme de baccalauréat, il ou elle doit sélectionner un programme pour étudier. Contrairement au cas précédent, les participants doivent sélectionner exactement un programme qui nous donne des informations plus précises sur les préférences des participants. Pour cette raison, nous définissons cette situation comme un choix efficace, efficace dans le sens de plus expressif sur les véritables préférences des entrants.

La figure 17 présente le choix efficace des participants au programme de mathématiques appliquées et d'informatique. La signification des étiquettes de diagramme est presque la même que sur la Fig. 16. Les programmes sans signe plus (+) sont des applications réussies, les programmes avec le signe plus précédent sont des programmes choisis pour être étudiés par les participants.

Mathématiques appliquées et informatique

3

Fig. 17. Choix «efficace» des participants au programme de mathématiques appliquées et d'informatique.

L'étiquette «- Autre -» signifie que le candidat a annulé sa candidature préférant une autre université ou ne pas étudier cette année.

Avec le diagramme de la Fig. 16 1, ce diagramme nous fournit des connaissances plus précises sur les préférences des participants au programme de mathématiques appliquées et d'informatique. Plus des deux tiers des candidats qui ont réussi à postuler au programme de mathématiques appliquées préfèrent néanmoins étudier dans une autre université. Alors que seulement 18% des candidats retenus deviennent ensuite des étudiants du programme de mathématiques appliquées et d'informatique. Exactement 5 pour cent préfèrent étudier le génie logiciel et 5 pour cent des participants qui choisissent les mathématiques appliquées et l'informatique ont également appliqué avec succès au génie logiciel. Il peut être interprété comme l'égalité des préférences des entrants concernant ces deux programmes. Aditionellement,5% préfèrent l'informatique commerciale et seulement 2% des participants qui préfèrent les mathématiques appliquées et l'informatique appliquent également avec succès à l'informatique commerciale, par conséquent, dans la paire Informatique de gestion et Mathématiques appliquées et informatique, ce dernier est moins préférable pour les participants.

Ici, nous devons noter que la somme des nœuds pour cent avec des étiquettes contenant le signe plus et le nœud «- Autre -» doit être égale à 100%, mais ici ce n'est pas le cas car nous avons exclu certains nœuds lors du filtrage.

Nous avons construit des diagrammes de choix «efficaces» pour chaque programme. L'analyse de ces diagrammes nous aide à reconnaître certaines relations entre les programmes en termes de préférences des entrants. Par exemple, dans la plupart des cas, certains programmes sont plutôt des sauvegardes que les préférences réelles des participants. Certains programmes sont proches les uns des autres par sujet d'étude, ces relations sont également exprimées par des diagrammes. À l'aide de données d'enquête formalisées, nous avons trouvé certains facteurs possibles du choix des participants parmi certains programmes particuliers. Ces connaissances peuvent aider notre université à

comprendre l'attitude des candidats à l'égard de ses programmes de premier cycle et ainsi corriger leur structure et leur positionnement.

Un autre cas d'exploration de données éducatives comprend l'analyse des résultats des élèves au cours des deux années suivantes pour le même groupe au moyen de données de notation [148].

5.6 Exercices d'apprentissage automatique avec la méthode JSM dans QuDA

QuDA a été développé au début des années 2000 comme «un environnement logiciel pour ceux qui veulent apprendre le Data Mining en faisant» au groupe Intellectics de l'Université technique de technologie de Darmstadt [149,150,53]. Il comprend diverses techniques, telles que l'exploration de règles d'association, les arbres de décision et l'apprentissage basé sur des règles, le raisonnement JSM (y compris divers schémas de raisonnement [151]), l'apprentissage bayésien et la découverte intéressante de sous-groupes. Il fournit également à l'expérimentateur des outils d'estimation d'erreur et de sélection de modèle ainsi que plusieurs utilitaires de prétraitement et de post-traitement, y compris des outils de nettoyage des données, des diagrammes linéaires, la visualisation des distributions d'attributs et un navigateur de règles pratique, etc. Il était principalement destiné à soutenir les scientifiques et des activités d'enseignement dans le domaine de l'apprentissage automatique et de l'exploration de données. cependant,puisque QuDA possède une architecture ouverte et prend en charge les formats de données les plus courants ainsi que la

(PMML) 22, il peut être facilement intégré dans un cercle de Data Mining fonctionnel. À l'origine, c'était un acronyme pour «analyse qualitative des données». Maintenant, puisque QuDA comprend enfin de nombreuses méthodes quantitatives intégrées à partir de WEKA23, ce nom est un backronym 24 car il a perdu sa signification d'origine.

Exercice 21. Télécharger QuDa 25. Reportez-vous au manuel de QuDa [149] pour plus de détails et préparez le contexte de notation de crédit au format csv pour l'ouverture dans le QuDA en-

environnement. Effectuez une mise à l'échelle nominale des attributs et appliquez le classificateur JSM avec la configuration de base. Comparez les règles obtenues avec les hypothèses obtenues manuellement. Q

Exercice 22. Pour le jeu de données du zoo disponible avec QuDa (ou tout autre jeu de données qui convient pour la classification à partir du référentiel UCI ML26), effectuez une mise à l'échelle nominale et une comparaison de la classification JSM avec toutes les méthodes disponibles 1) en divisant les données en 80:20 tester la taille de l'échantillon ration 2) par 10 fois la validation croisée. Comparez les courbes d'apprentissage et les matrices de confusion. Identifiez tous les

exemples par la méthode JSM. Modifiez le type de mise à l'échelle pour l'attribut «nombre de segments». Répétez la comparaison et vérifiez quelles méthodes ont amélioré leur qualité de classification. Q

22 http://www.dmg.org/

23 http://www.cs.waikato.ac.nz/ml/weka/

24 http://en.wikipedia.org/wiki/Backronym

25 http://sourceforge.net/projects/quda/ ; sa compilation alternative pour RuSSIR 2014 est disponible sur http: // bit-ly / QuDA4RuSSIR2014

26 http://archive.ics.uci.edu/ml/datasets.html

6 FCA en recherche d'information et exploration de texte

Les modèles basés sur un réseau et le FCA lui-même ne sont pas des directions dominantes de l'IR moderne; ils ont attiré de nombreux chercheurs en raison de leur interprétabilité et de leur caractère humain, mais leur complexité intrinsèque est un sérieux défi pour les faire travailler à l'échelle du Web.

Ainsi, à partir des premiers travaux sur la recherche d'informations, il est connu que l'utilisation d'un réseau comme espace de recherche nécessite le traitement d'un nombre énorme de sous-ensembles de documents: 10310 100 pour une collection d'un million de documents [152]. À cette époque, il était plutôt naturel dans le domaine de la classification des bibliothèques de considérer les documents et leurs catégories, qui peuvent former des demandes comme une combinaison de simples éléments logiques.

opérations comme AND, NOT et OR [153]. Ainsi, Mooers a considéré les transformations T: PL, où P est l'espace de tous les descripteurs de documents possibles et L est l'espace de tous les sous-ensembles de documents possibles [152]. Ainsi, T récupère le plus grand ensemble de documents de L selon une requête (prescription) de P.

À cette époque, en Russie soviétique, l'Institut soviétique d'information scientifique et technique (VINITI) a été organisé pour faciliter l'échange d'informations et répondre aux besoins scientifiques croissants en matière de catalogage et de traitement des publications scientifiques. Vers le milieu des années 1960, Yulii A. Shreider, l'un des principaux chercheurs de VINITI, a examiné le problème de la classification automatique des documents et de leur récupération au moyen d'un modèle comportant un triple (M, L, f), où M est un ensemble de documents, L est un ensemble d'attributs et f: M 2L mappe chaque document

à un ensemble d'attributs de L [154]. Là, la similitude de deux documents a été définie par le non-vide de l'intersection de leurs descriptions f (d1) f (d2). Dans ce document, Shreider a mentionné la pertinence des réseaux pour les problèmes de classification et de récupération des documents, où il a également cité les travaux de Soergel [155] sur cette question.

Ainsi, ces deux mappings introduits, T et f ressemblent fortement aux opérateurs principaux conventionnels dans FCA pour le contexte des documents et de leurs attributs (mots-clés, termes, descripteurs) avec une relation de «confinement de terme de document». Au milieu des années 80, Godin et al. [156] ont proposé un modèle de récupération sur réseau pour la navigation dans la base de données, où les objets (documents, par exemple les programmes de cours) étaient décrits par des mots clés associés. Le réseau résultant (en fait, concept) utilisé pour la navigation par modification de requête en utilisant sa relation généralité / spécificité.

Dans les années 90, plusieurs modèles et systèmes IR basés sur FCA sont apparus, les critiques peuvent être trouvées [157,158]. Ainsi, dans [157], Carpineto et Romano ont classé les principaux problèmes IR qui peuvent être résolus par les moyens FCA en examinant leurs propres études d'ici 2005. Uta Priss a décrit un état actuel de FCA pour le domaine IR [158] d'ici 2004 Récemment, une enquête sur les systèmes et les méthodes basés sur le FCA pour la RI, y compris les opportunités potentielles, a été présentée à l'atelier de la FCA pour la RI à l'ECIR 2013 [159], et nos collègues, Codocedo et Napoli, en s'inspirant, résument les derniers travaux sur le sujet dans une enquête à venir.

Ci-dessous, nous présentons brièvement notre propre étude sur l'application de méthodes IR basées sur FCA pour décrire l'état de l'art dans le domaine FCA pour IR. Les autres sujets sont

répartis parmi les exemples les plus représentatifs de tâches et de systèmes IR basés sur FCA, y compris le résumé de l'expérience de l'auteur.

  • Textes scientifiques de Text Mining: une enquête sur les applications IR basées sur FCA [37]
  • Moteurs de méta-recherche basés sur FCA (FOOCa, SearchSleuth, Credo, etc.) [83,15]
  • Visualisation IR basée sur FCA [15] et navigation (ImageSleuth, Camelis [160])
  • FCA en criminologie: fouille de textes de rapports de police [37]
  • Approche basée sur la FCA pour la publicité de mots clés dans la recherche sur le Web [96]
  • Systèmes de recommandation basés sur FCA [145]
  • FCA triadique pour les tâches infrarouges dans les folksonomies [161]
  • Approche basée sur FCA pour la détection de quasi-doublons de documents [162,81]
  • Explorer les taxonomies des utilisateurs de sites Web [163]
  • Modèles basés sur des concepts dans les plateformes Crowdsourced: un système de recommandation de personnes, d'antagonistes et d'idées partageant les mêmes idées [164]

6.1 Articles Scientiftc de Text Mining: une enquête sur les applications IR basées sur FCA

Dans [4], nous avons représenté visuellement la littérature sur la FCA et l'IR à l'aide de concepts concepts, dans lesquels les objets sont les articles scientifiques et les attributs sont les termes pertinents disponibles dans le titre, les mots-clés et l'abrégé des articles. Nous avons développé un outil IR avec un composant FCA central que nous utilisons pour indexer les articles avec un thésaurus contenant des termes liés à la recherche FCA et pour générer les réseaux. Cela nous a aidés à faire un zoom avant et à donner un aperçu complet de 103 articles publiés entre 2003 et 2009 sur l'utilisation de la FCA dans la recherche d'informations.

navigation sur les services Web des logiciels d'exploration de données FCA Information Retrieval

Papier1 × × × ×

Papier2 × × ×

Papier3 × × ×

Papier 4 × × ×

Papier5 × × ×

Nous avons développé un environnement de navigation de connaissances CORDIET pour soutenir notre processus d'analyse de la littérature. L'un des éléments centraux de notre environnement d'analyse de texte est le thésaurus contenant la collection de termes décrivant les différents sujets de recherche. Le thésaurus initial a été construit sur la base de connaissances antérieures d'experts et a été progressivement amélioré en analysant les lacunes du concept

et anomalies dans les réseaux résultants. Le thésaurus en couches contient plusieurs niveaux d'abstraction. Le premier et le plus fin niveau de granularité contient les termes de recherche dont la plupart sont regroupés en fonction de leur signification sémantique pour former les groupes de termes au deuxième niveau de granularité. Les articles téléchargés à partir du Web ont été convertis en texte brut et le résumé, le titre et les mots clés

ont été extraits. L'outil open source Lucene27 a été utilisé pour indexer les parties extraites des articles à l'aide du thésaurus. Le résultat a été un tableau croisé décrivant

les relations entre les articles et les termes groupes ou sujets de recherche du thésaurus. Cette table croisée a été utilisée comme base pour générer les réseaux.

Les sources scientifiques les plus pertinentes utilisées dans la recherche d'études primaires contiennent les travaux publiés dans les revues, conférences et ateliers dont la qualité est reconnue au sein de la communauté de recherche. Ces sources sont: IEEE Computer Society, ACM Digital Library, Sciencedi- rect, Springerlink, EBSCOhost, Google Scholar, Référentiels de conférences: ICFCA, ICCS et CLA. D'autres sources importantes telles que DBLP ou CiteSeer n'ont pas été explicitement incluses car elles ont été indexées par certaines des sources mentionnées (par exemple Google Scholar). Dans les sources sélectionnées, nous avons utilisé divers termes de recherche, notamment «Analyse conceptuelle formelle», «FCA», «réseaux conceptuels», «Recherche d'informations». Pour identifier les principales catégories de l'étude de la littérature, nous avons également pris en compte le nombre de citations des articles de la FCA chez CiteseerX.La récupération efficace des informations pertinentes est favorisée par la représentation FCA qui rend transparente la structure logique inhérente aux informations. Le FCA peut être utilisé à des fins multiples dans l'IR [15,158]. Tout d'abord, FCA fournit un langage élégant pour la modélisation infrarouge et est un instrument intéressant pour la navigation et la récupération automatique dans les collections de documents. Deuxièmement, FCA peut également prendre en charge le raffinement, le classement et l'enrichissement des requêtes par des ressources externes. Étant donné qu'un treillis à terme de document structure les informations disponibles sous forme de groupes de documents associés partiellement ordonnés, les treillis peuvent être utilisés pour faire des suggestions d'agrandissement de requête dans les cas où trop peu de documents sont récupérés et pour l'affinement de requête dans les cas où trop de documents sont récupérés. Troisième,les réseaux peuvent être utilisés pour l'interrogation et la navigation prenant en charge la rétroaction de pertinence. Une requête initiale correspond à un nœud de départ dans un réseau à terme de document. Les utilisateurs peuvent ensuite accéder aux nœuds associés. De plus, les requêtes sont utilisées pour «élaguer» un réseau de termes de document pour aider les utilisateurs à concentrer leur recherche (Carpineto et al. 1996b). À de nombreuses fins, certaines fonctionnalités supplémentaires sont nécessaires, telles que le traitement rapide de grandes collections de documents, ce qui permet des opérations de correspondance plus flexibles, une récupération classée et des réponses contextuelles aux requêtes des utilisateurs. Le passécertaines fonctionnalités supplémentaires sont nécessaires, telles que le traitement rapide de grandes collections de documents, permettant des opérations de correspondance plus flexibles, permettant une récupération classée et donnent des réponses contextuelles aux requêtes des utilisateurs. Le passécertaines fonctionnalités supplémentaires sont nécessaires, telles que le traitement rapide de grandes collections de documents, ce qui permet des opérations de correspondance plus flexibles, une récupération classée et des réponses contextuelles aux requêtes des utilisateurs. Le passé

années, de nombreux chercheurs de la FCA ont également consacré

86% des articles sur l'ACF et la recherche d'informations sont couverts par les thèmes de recherche de la Fig. 6.1. De plus, dans notre étude, nous avons intuitivement introduit le processus de transformation des référentiels de données en représentations FCA navigables et en effectuant des opérations d'extension et de raffinement des requêtes. Ensuite, nous avons considéré 28% des articles sur l'utilisation de FCA pour la représentation et la navigation dans les collections de documents image, service, web, etc. Définition et traitement de requêtes complexes

27 https://lucene.apache.org/core/

Fig. 18. Réseau contenant 103 articles sur l'utilisation de FCA en IR

a couvert 6% des articles et a également été décrit. L'examen des articles sur les réponses contextuelles (6% des articles) et le classement des résultats des requêtes (6% des articles) ont conclu l'étude de cas.

Représentation des connaissances et navigation avec FCA Dans 28% des 103 articles sélectionnés, FCA est utilisé pour la navigation et la navigation dans les collections de documents. Dans plus de la moitié de ces articles (18% du nombre total d'articles), une combinaison de navigation et d'interrogation basée sur les réseaux FCA est proposée. L'annotation des documents et la recherche de descripteurs de documents optimaux jouent un rôle important dans la recherche efficace d'informations (9% des articles). Toutes les approches basées sur la FCA pour la récupération d'informations et la navigation dans de grands référentiels de données sont basées sur le même modèle sous-jacent. Nous avons d'abord l'ensemble D contenant des objets tels que des pages Web, des services Web, des images ou d'autres éléments disponibles numériquement. L'ensemble A d'attributs peut être composé de termes, de balises, de descriptions, etc.Ces attributs peuvent être liés à certains objets grâce à une relation IDA qui indique les termes, balises, etc. peuvent être utilisés pour décrire les éléments de données en D. Ce triple (D, A, I) est un contexte formel à partir duquel le concept de réseau peut être créé.

L'amélioration des résultats des requêtes avec les moteurs de recherche FCA est de plus en plus utilisée par, entre autres, les internautes qui ont un besoin d'information. L'intention d'un concept correspond à une requête et l'étendue contient les résultats de la recherche. Une requête q comporte un ensemble de termes T et le système renvoie la réponse en évaluant

T J. Lors de l'évaluation d'une requête q, le système se place sur le concept (TJ, T JJ) qui devient le concept actuel c. Par exemple, sur la figure 19, l'intention du concept actuel Bc = {t1, t2, t3, t4, t5} et l'étendue du concept actuel Ac = d8, d9, où t représente le terme et d représente le mot . Puisqu'une requête fournie par un utilisateur ne fait qu'approcher le besoin d'un utilisateur, de nombreuses techniques ont été

développé pour développer et affiner les termes de requête et les résultats de recherche. L'optimisation des requêtes est le processus de recherche de la requête qui correspond le mieux aux besoins d'informations de l'utilisateur. Les améliorations apportées aux requêtes peuvent aider l'utilisateur à exprimer plus clairement son besoin initial. Le raffinement de la requête peut être effectué en allant vers un voisin inférieur du concept actuel dans le réseau en ajoutant un nouveau terme aux éléments de la requête. Dans un reftnement de requête conjonctive minimale, l'utilisateur peut naviguer par exemple

à un sous-concept ((Bc ∪ {t}) J, (Bc ∪ {t}) JJ) en ajoutant le terme t.

((Ac ∪ {d}) JJ, (Ac ∪ {d}) J)

({d8, d9}, {t1, t2, t3, t4, t5})

((Bc ∪ {t}) J, (Bc ∪ {t}) JJ)

Fig. 19. Modification de la requête dans un réseau conceptuel: une vue en œil de poisson

L'agrandissement de la requête, c'est-à-dire la récupération de pages Web pertinentes supplémentaires, peut être effectué en naviguant vers un voisin supérieur du concept actuel dans le réseau en supprimant un terme des éléments de requête. L'utilisateur peut naviguer par exemple vers un superconcept ((Bc d) JJ, (Bc d) J) en ajoutant le document d. La combinaison des opérations d'affinage et d'élargissement ultérieures peut être considérée comme une navigation

à travers l'espace de requête. En règle générale, la navigation et l'interrogation sont deux processus complètement distincts, et la combinaison des deux entraîne une méthode plus flexible et conviviale. Ces sujets sont étudiés dans 8% des articles IR. Voir l'étude complète sur le raffinement des requêtes dans [165].

Classement basé sur un réseau conceptuel. 6% des articles IR de notre étude sont consacrés au classement des réseaux de concepts.

Ci-dessous, nous expliquons le concept de classement basé sur le réseau (CLR) proposé dans [166] et comparé avec les classements basés sur le clustering hiérarchique (HCR) et le meilleur premier appariement (BFR). Les expériences avec deux collections de référence publiques ont montré que le CLR surpassait les deux méthodes compétitives lorsque les documents classés ne correspondaient pas à la requête et étaient comparables au BMF et meilleurs que le HCR dans les autres cas.

Soit (D, T, I) un contexte de document, où D est l'ensemble des documents,

T est l'ensemble de leurs termes, et I ⊆ D × T. Considérez l'ensemble ordonné de

tous les concepts (L (D, T, I),> ≺) avec la relation de voisin le plus proche> ≺, c.-à-d. pour c1, c2 ∈ L (D, T, I), c1> ≺ c2 ssi c1> c2 ou c1 ≺ c2. La distance entre les concepts c1 et c2 est alors définie comme le plus petit nombre naturel n comme suit:

∃ci1,. . . , cin ∈ L (D, T, I) tel que c1 = ci0> ≺ ci1. . . > ≺ cin = c2.

Pour chaque requête q et d1, d2 D, d1 est classé supérieur à d2 si la distance entre (dJ1J, dJ1) et (qJJ, qJ) est inférieure à la distance entre (dJ2J, dJ2) et (qJJ, qJ). Cela signifie que nous avons besoin de moins de transformations de requête pour obtenir q à partir de d1 que pour le faire à partir de d2.

Comme l’auteur du CLR l’a admis dans [15], le CLR est sensible à l’ajout de

documents dans la collection de recherche. Une analyse plus approfondie de l'utilisation de la similitude basée sur le voisinage du concept pour les besoins en RI est donnée dans [84].

Exemple 18. Sur la figure 20, nous fournissons un exemple de classement basé sur un réseau conceptuel pour le contexte précédent des articles et de leurs termes. La requête sous-jacente est la conjonction de deux termes: «navigation, FCA». Le concept de requête est le suivant:

({p1, p4}, {navigation, FCA, logiciel}).

Le classement résultant donne p4 <p1 <p2 <p3 = p5. Un lecteur curieux peut admettre que les concepts avec les mêmes rangs se trouvent dans des cercles concentriques autour du concept de requête à la même distance. De toute évidence, pour les concepts de la même

cercle, nous avons besoin de leur classement ultérieur, par exemple par le meilleur classement via le produit scalaire du document et les profils de requête en fonction de la fréquence des termes.

services Web

FCA

2

Logiciel

1

3 IR

3

exploitation minière

2

navigation

0 p4

p5 3

p3 3

2 p2

1 p1

2

Fig. 20. Classement basé sur un réseau conceptuel pour la requête «navigation, FCA»; les valeurs de distance sont données à l'intérieur des cercles correspondants.

Q

Un lecteur intéressé peut trouver les autres sections de notre enquête:

  • Récupération Web et e-mail (partiellement couvert dans la section 6.2);
  • Récupération d'images, de logiciels et de bases de connaissances (partiellement couvert dans la section 6.3);
  • Définition et traitement de requêtes complexes avec FCA;
  • Connaissance du domaine dans les résultats de recherche: réponses contextuelles et classement.

6.2 Visualisation IR basée sur FCA et moteurs de méta-recherche

Depuis le début des années 2000, de nombreux développeurs IR indépendants ont proposé ce que l'on appelle des moteurs de méta-recherche, également appelés moteurs de regroupement des résultats de recherche. Pour n'en nommer que quelques-uns, deux projets sont encore vivants Carrots228 et Nigma.ru29. Voir le résumé de l'enquête sur la recherche en cluster sur le Web par Carpineto et al. dans [167].

FCA a été utilisé comme base pour de nombreux systèmes de navigation de connaissances sur le Web développés au cours des dernières années. En particulier, ses capacités de visualisation compréhensibles semblent intéresser le public de RuSSIR. Les résultats renvoyés par les moteurs de recherche Web pour une requête donnée sont généralement formatés sous la forme d'une liste d'URL accompagnée d'un titre de document et d'un extrait de code, c'est-à-dire un bref résumé du document. Plusieurs systèmes basés sur FCA ont été développés pour analyser et explorer ces résultats de recherche. CREDO [168], FooCA [83] et SearchSleuth [169,170] construisent un contexte pour chaque requête individuelle qui contient le résultat de la requête en tant qu'objets et les termes trouvés dans le titre et le résumé de chaque résultat en tant qu'attributs.

Le système CREDO30 construit ensuite un réseau d'icebergs qui est représenté comme un arbre et peut être exploré de manière interactive par l'utilisateur.

FooCA31 montre l'intégralité du contexte formel à l'utilisateur et offre une grande flexibilité dans l'exploration de ce tableau à l'aide du classement des attributs, en sélectionnant le

nombre d'objets et d'attributs, application de la suppression de la racine et des mots vides, etc.

SearchSleuth n'affiche pas l'intégralité du réseau mais se concentre sur le concept de recherche, c'est-à-dire le concept dérivé des termes de la requête. L'utilisateur peut facilement naviguer vers ses voisins et frères et sœurs supérieurs et inférieurs. Nauer et al. [171] proposent également d'utiliser FCA pour l'analyse itérative et interactive des résultats de recherche sur le Web. L'utilisateur peut indiquer quels concepts sont pertinents et lesquels ne le sont pas pour la tâche de récupération. Sur la base de ces informations, le concept de réseau est

namiquement modifié. Leurs recherches ont abouti au système CreChainDo32. Kim et al. [172] a présenté le système de navigation de documents basé sur FCA KAnavigator

pour les petites communautés Web dans des domaines spécialisés. Les documents pertinents peuvent être annotés avec des mots clés par les utilisateurs. Kim et al. [173] ont étendu la fonctionnalité de recherche en combinant la navigation sur réseau avec des échelles conceptuelles pour réduire la complexité de la visualisation. Cigarran et al. [174] présentent le système IR JBrainDead qui combine la recherche en texte libre avec FCA pour organiser les résultats

28 http://search.carrot2.org/

29 http://www.nigma.ru/

30 http://credo.fub.it/

31 http://www.bjoern-koester.de/

32 http://orpailleur.loria.fr/index.php/CreChainDo

Fig. 21. Exemple d'interface de recherche Web de CREDO

Fig. 22. Un exemple de l'interface de recherche Web de FooCA. Il traite les résultats des requêtes de recherche vers Yahoo ou Google et les organise dans le tableau croisé interactif.

Fig. 23. Un exemple de l'interface Web de SearchSleuth. Il traite les résultats des requêtes de recherche vers Yahoo. Le passage à des catégories plus générales (plus spécifiques) se fait en cliquant sur

  • terme (+ terme).

d'une requête. Cole et al. [175] discutent d'un outil de découverte de documents nommé Conceptual Email Manager (CEM) qui est basé sur FCA. Le programme permet aux utilisateurs de parcourir les e-mails à l'aide d'un réseau visuel. Le document explique également comment les ontologies conceptuelles peuvent prendre en charge les systèmes traditionnels de récupération de documents et faciliter la découverte des connaissances dans les collections de documents. Le développement de ce logiciel est basé sur des recherches antérieures sur la récupération d'informations à partir de textes semi-structurés ([176,177]). S'appuyant sur ces travaux, le logiciel Mail-Sleuth (Eklund et al. [178]) peut être utilisé pour extraire de grandes archives de courrier électronique. Eklund et al. [179] utiliser FCA pour afficher, rechercher et parcourir le contenu de l'aide dans un système d'aide.Stojanovic [180] présente une méthode basée sur FCA pour affiner la requête qui fournit à un utilisateur les requêtes qui sont "proches" de la requête donnée. Leur approche pour la navigation dans l'espace des requêtes a été validée dans le cadre de la recherche de résumés médicaux. Stojanovic [180] présente le système SMART pour la navigation dans un catalogue de produits en ligne. Les produits de la base de données sont décrits par des éléments d'une ontologie et visualisés avec un treillis, dans lequel les utilisateurs peuvent naviguer d'un cluster d'attributs de produit très général contenant beaucoup de produits à des clusters très spécifiques qui semblent en contenir quelques-uns, mais pour l'utilisateur des produits très pertinents. Spyratos et al. [181] décrivent une approche pour l'optimisation des requêtes qui intègre la navigation et l'interrogation dans un seul processus. Le réseau FCA sert à la navigation et les attributs à la formulation des requêtes. Le Grand et al.[182] présentent une méthode IR basée sur FCA en conjonction avec la sémantique pour fournir des réponses contextuelles aux requêtes Web. Un réseau global est construit à partir de pages Web touristiques. Ensuite, les utilisateurs formulent leur requête et les concepts les mieux adaptés sont retournés, les utilisateurs peuvent ensuite naviguer dans le réseau en généralisant ou en affinant leur requête. Eklund et al. [183] ​​présentent AnnotationSleuth pour étendre une interface de recherche et de navigation standard afin de présenter un quartier conceptuel centré sur un concept formel dérivé de balises de conservation dans un système de gestion de musée. Cigarran et al. [184] se concentrent sur la sélection automatique des phrases nominales comme descripteurs de documents pour construire un système IR basé sur FCA. La sélection automatique d'attributs est importante lors de l'utilisation de FCA dans un cadre de récupération de documents en texte libre. Les attributs optimaux que les descripteurs de documents devraient produire plus petits,réseaux de concept plus clairs et plus navigables avec de meilleures fonctionnalités de clustering. Recio-Garcia et al. [185] utilisent FCA pour effectuer des annotations sémantiques de pages Web avec des ontologies de domaine. Les techniques de correspondance de similarité du raisonnement basé sur les cas peuvent être appliquées pour récupérer ces pages annotées en tant que cas. Liu et al. [186] utiliser FCA pour optimiser un moteur de recherche d'actualités personnel afin d'aider les utilisateurs à obtenir rapidement le contenu d'actualités dont ils ont besoin. La technique proposée combine la construction de l'arrière-plan de l'utilisateur à l'aide de FCA, l'optimisation des mots clés de requête en fonction de l'arrière-plan de l'utilisateur et une nouvelle stratégie de mise en page des résultats de recherche basée sur un «arbre conceptuel». Lungley et al. [187] utilisent la rétroaction implicite des utilisateurs pour adapter le modèle de domaine sous-jacent d'un système de recherche intranet.FCA est utilisé comme interface interactive pour identifier les termes de raffinement des requêtes qui aident à obtenir de meilleures descriptions de documents et des réseaux plus navigables.

6.3 Récupération et navigation d'images basées sur FCA

Visualisation IR basée sur FCA [15] et navigation (ImageSleuth, Camelis [160])

Ahmad et al. [188] construisent des réseaux de concepts à partir de descriptions associées à des images pour rechercher et récupérer des images pertinentes dans une base de données. Dans le projet ImageSleuth [189], FCA a également été utilisé pour le regroupement et la navigation dans des collections d'images annotées. Le diagramme de réseau n'est pas directement montré à l'utilisateur. Seule l'étendue du concept actuel contenant des vignettes, l'intention contenant des descriptions d'images et une liste de voisins supérieurs et inférieurs est montrée. Dans Ducrou [190], l'auteur a construit un espace d'informations à partir de la boutique en ligne Amazon.com et a utilisé FCA pour découvrir des DVD conceptuellement similaires et explorer leur voisinage conceptuel. Le système s'appelait DVD-Sleuth. Amato et al. [191] partir d'une image initiale donnée par l'utilisateur et utiliser un concept de réseau pour récupérer des images similaires.Les attributs de ce réseau sont des facettes, c'est-à-dire un critère de similitude d'image basé par exemple sur la texture, la couleur ou la forme. Les valeurs dans le contexte indiquent pour chaque facette la similitude d'une image dans la base de données par rapport à l'image initiale fournie par l'utilisateur. En interrogeant, l'utilisateur peut accéder à n'importe quel cluster du réseau en spécifiant les critères que le cluster recherché doit satisfaire. En naviguant à partir de n'importe quel cluster, l'utilisateur peut se déplacer vers un cluster voisin, exploitant ainsi l'ordre entre les clusters.l'utilisateur peut accéder à n'importe quel cluster du réseau en spécifiant les critères que le cluster recherché doit satisfaire. En naviguant à partir de n'importe quel cluster, l'utilisateur peut se déplacer vers un cluster voisin, exploitant ainsi l'ordre entre les clusters.l'utilisateur peut accéder à n'importe quel cluster du réseau en spécifiant les critères que le cluster recherché doit satisfaire. En naviguant à partir de n'importe quel cluster, l'utilisateur peut se déplacer vers un cluster voisin, exploitant ainsi l'ordre entre les clusters.

Dans [160] Ferre et al. a proposé d'utiliser les systèmes d'information logiques (LIS) pour naviguer dans les collections de photos33. En fait, LIS, de la même manière que Pattern Structures, exploite des descriptions d'objets partiellement ordonnées mais exprimées sous forme de formules logiques.

  • emplacement: Nizhniy Novgorod ± Russie
  • date: date = 18 août 2014 ± date en août 2014 .. juil 2015
  • événement: l'événement est «école d'été RuSSIR» ± l'événement contient «école d'été»

En outre, il a été étendu pour le travail avec les collections de documents [192]. Comme Camelis utilise la navigation sur réseau et la recherche par formules, il surmonte les inconvénients actuels de la navigation arborescente imposés par les restrictions actuelles des systèmes de fichiers.

Récemment, les études précédentes d'Eklund et al. [84] dans l'organisation de la navigation à travers des collections d'images annotées dans les musées virtuels a abouti à une application iPad qui permet aux utilisateurs d'explorer une collection d'art via des voies sémantiquement liées qui sont générées à l'aide de Formal Concept Analysis34. En fait, la navigation dans cette application est organisée en montrant le contexte et les relations entre

objets dans une collection de musée.

6.4 FCA en criminologie: fouille de textes de rapports de police

Dans [37], nous avons proposé une méthodologie de découverte des connaissances itérative et centrée sur l'homme basée sur la FCA. L'approche proposée reconnaît le rôle important du

33 Camelis, http://www.irisa.fr/LIS/ferre/camelis/

34 «Un lieu pour l'art», https://itunes.apple.com/au/app/a-place-for-art/ id638054832? Mt = 8

expert du domaine dans l'exploitation minière d'applications d'entreprise réelles et utilise des connaissances spécifiques du domaine, y compris l'intelligence humaine et les contraintes spécifiques au domaine. Notre approche a été validée empiriquement à la police d'Amsterdam-Amstelland pour identifier les suspects et les victimes de la traite des êtres humains dans 266.157 rapports d'activités suspectes. Sur la base des directives des procureurs généraux des Pays-Bas, nous avons d'abord défini plusieurs indicateurs d'alerte précoce qui ont été utilisés pour indexer les rapports de police.

Exemple 19. Il s'agit d'un exemple de rapport de police où certains mots indicateurs sont mis en évidence et utilisés pour sa représentation contextuelle.

Rapport 1:

Dans la nuit du 23 mars 2008, nous avons arrêté une voiture avec une plaque d'immatriculation bulgare pour

inspection de routine des véhicules automobiles. C'était une Mercedes GLK avec plaque d'immatriculation BL XXX. La voiture tournait en rond

dans une zone de prostitution. Sur le siège arrière de la voiture, nous avons remarqué deux jeunes filles bien habillées. Nous avons demandé leurs papiers d'identité mais ils ne parlaient ni anglais ni néerlandais. Le conducteur de la voiture était en possession de ses papiers et nous a dit qu'ils étaient en vacances dans le

Pays-Bas pendant deux semaines, etc.

Q

Notre méthode basée sur le FCA se compose de quatre principaux types d’analyse qui sont

effectué comme suit:

1. Exploration conceptuelle du problème de la prostitution forcée d'Amsterdam: Dans Poelmans et al. [193], cette approche basée sur la FCA pour détecter automatiquement la violence domestique dans les rapports de police textuels non structurés est décrite en détail.

2. Identification des suspects potentiels: les réseaux conceptuels permettent de détecter des liens potentiellement intéressants entre des observations indépendantes faites par différents policiers.

3. Profilage visuel des suspects: certaines méthodes basées sur le FCA telles que l'analyse de concept temporelle (TCA) ont été développées pour représenter et analyser visuellement les données avec une dimension temporelle [194]. Des réseaux de concepts temporels ont été utilisés dans Elzinga et al. [195] pour créer des profils visuels de sujets terroristes potentiellement intéressants. Elzinga et al. [196] ont utilisé TCA en combinaison avec des diagrammes à lignes imbriquées pour analyser les conversations de clavardage des pédophiles.

4. Exploration des structures sociales: les réseaux de concepts peuvent aider à exposer des personnes intéressantes liées les unes aux autres, les réseaux criminels, le rôle de certains suspects.

pects dans ces réseaux, etc. Avec les policiers, nous avons discuté et comparé diverses méthodes de visualisation des réseaux criminels basées sur la FCA.

Dans nos enquêtes, nous avons également utilisé le modèle développé par Bullens et Van Horn [197] pour identifier les loverboys qui obligent généralement les filles de nationalité néerlandaise à se prostituer. Les Loverboys utilisent leur histoire d'amour avec une femme pour la forcer à travailler dans la prostitution. Forcer les filles et les femmes à se prostituer par le biais d'une approche loverboy est considéré comme un type particulier de traite des êtres humains aux Pays-Bas (article 250a du code pénal). Ce modèle est une ressource utilisée par la police d'Amsterdam-Amstelland lors des formations de policiers sur ce sujet. Une approche loverboy typique se compose de trois phases principales qui donnent lieu à des indicateurs correspondants:

1. Activités préparatoires au recrutement des filles.

2. La forcer à se prostituer.

3. Maintenir la fille dans la prostitution par dépendance émotionnelle ou isolement social.

Le proxénète tentera également de protéger son organisation.

Dans notre ensemble de données, il y avait trois rapports disponibles sur la fille H. Les rapports sur cette fille nous ont conduits à la découverte du suspect loverboy B. Le premier rapport (26 novembre 2008) contient la notification de la police par un organisme d'aide à la jeunesse. à Alkmaar sur la fille H. Ils rapportent un tatouage suspect sur son poignet contenant le nom B. Ce B fait référence à son petit ami qui porte le même prénom, a 30 ans et est d'origine surinamienne. Le deuxième rapport a été rédigé par un policier qui travaille dans le quartier rouge et connaît de nombreuses femmes travaillant dans des bordels ou derrière les fenêtres. Au cours d'une patrouille, il a vu H travailler comme prostituée, a eu une conversation avec elle et a remarqué qu'il était suspect qu'il figure dans le rapport. Le prochain rapport contient quatre faits suspects enregistrés par l'agent. Première,une histoire incroyable pour laquelle elle travaille comme prostituée: un pari entre petites amies si quelqu'un oserait travailler comme prostituée. Deuxièmement, les tatouages ​​dont un tatouage est mentionné dans le premier rapport (B) et un nouveau sur son ventre. Troisièmement, les blessures, elle a des égratignures au bras (peut-être à cause d'une bagarre) et des brûlures à la jambe.

Selon la victime, elle a laissé tomber un fer chaud sur sa jambe et a eu un accident avec un ensemble gourmet. Quatrièmement, l’observation de faire de longues journées de travail. Le troisième document (21 décembre 2008) montrait une observation de la victime marchant avec le suspect possible. Dans ce document, l'officier de police rapporte qu'il a vu la victime et un homme s'approcher l'un de l'autre. Le policier connaît l'homme et sait qu'il est actif dans le monde de la prostitution. Lorsque l'homme a vu l'agent, il a immédiatement pris une certaine distance avec la victime. Dès qu'ils ont dépassé l'officier, ils marchent tout près et dans une rue bien connue où les prostituées travaillent derrière les fenêtres. Le prénom de la personne est B, le même nom qui est tatoué sur le poignet de la victime,et la description de la personne est à peu près la même que celle décrite par l'organisation d'aide à la jeunesse. Ces informations indiquent que l'homme est l'amant potentiel de la victime. Ensemble, les trois rapports donnent à penser que B est un amant et que H en est la victime. La prochaine étape consiste à enquêter sur B. Nous avons besoin de sérieux

des indications que B est vraiment impliqué dans la prostitution forcée. Douze rapports d'observation ont été trouvés pour B et le réseau résultant est illustré à la figure 24.

Fig. 24. Diagramme linéaire pour le contexte de rapport du suspect loverboy B

L'enquête sur ces rapports montre qu'il visite fréquemment le quartier rouge et entretient de solides relations avec d'autres proxénètes. L'un de ces proxénètes est le suspect d'un autre cas d'amantboy. Des six observations où B a été vu dans le quartier rouge, quatre sont liées à la violence, y compris l'observation de blessures suspectes à Hs. Les autres observations liées à la violence sont des situations de combats avec des clients qui ne veulent pas partir ou payer. Ces observations liées à la violence sont liées aux proxénètes qui veulent protéger leurs prostituées des clients et des gangs concurrents. Aux Pays-Bas, la prostitution est légale, chaque prostituée a le droit de demander à la police de la protéger. Les observations de violence du suspect ont renforcé la suspicion que B était le proxénète de H. De plus,nous avons trouvé une autre fille R qui était également une victime potentielle de lui. Ces indications ont été suffisantes pour créer un rapport de synthèse et envoyer une demande d'utilisation de nouvelles techniques d'enquête au procureur.

À l'aide de réseaux conceptuels, nous avons révélé de nombreux suspects de traite d'êtres humains et de loverboy inconnus. Une enquête indépendante de la police a permis de confirmer leur implication dans des activités illégales, ce qui a entraîné des arrestations effectives. Cette approche a été intégrée aux pratiques opérationnelles de maintien de l'ordre et est maintenant utilisée avec succès au quotidien pour faire face à la quantité croissante d'informations non structurées.

Il existe d'autres études basées sur la FCA en criminologie, par exemple, la modélisation et l'analyse des activités terroristes [198] et les développements des politiques d'accès en réseau pour les systèmes d'information [199 200].

6.5 Approche basée sur FCA pour la publicité de mots clés dans la recherche sur le Web

La publicité en ligne par correspondance de mots clés est le pain et le beurre des sociétés de recherche Web modernes comme Google et Yandex. Pour notre expérimentation, nous avons utilisé les données de US Overture [201] (maintenant, une partie de Yahoo), qui ont d'abord été transformées sous la forme de contexte standard. Nous considérons le contexte suivant: KF T = (F, T, IF T), où F est l'ensemble des agences de publicité (entreprises), T est l'ensemble des termes ou expressions publicitaires, f IF T t signifie que l'entreprise f ∈ F a acheté le terme publicitaire t ∈ T.

Dans le contexte | F | = 2000, | T | = 3000, | IF T | = 92345.

Les données sont généralement rares, donc le nombre d'attributs par objet est limité comme suit: 13 gJ 947. Pour les objets par attribut, nous avons

18 mJ 159. Dans ce contexte, nous avons calculé les concepts formels de la forme

(annonceurs, enchères) qui représentent des secteurs du marché. Concepts formels de ce formulaire

peut en outre être utilisé pour la recommandation aux entreprises sur le marché, qui n'ont pas acheté les offres contenues dans l'intention du concept.

Cela peut également être représenté comme des règles d'association sous la forme «Si un annonceur a acheté l'enchère a, alors cet annonceur peut acheter le terme b» Voir [202] pour l'utilisation des règles d'association dans les systèmes de recommandation.

Pour faire des recommandations, nous avons utilisé les étapes suivantes:

1. Algorithme D-miner pour détecter les grands secteurs du marché comme concepts et notre algorithme de biclustering;

2. Système Coron pour construire des règles d'association;

3. Construction de métarules d'association par analyse morphologique;

4. Construction de métarules d'association à l'aide d'ontologies (catalogues thématiques).

Détection de grands secteurs du marché avec D-miner et OA-biclustering. L'algorithme D-miner [203] construit l'ensemble de concepts satisfaisant des contraintes données sur les tailles d'étendues et d'intentions (c'est-à-dire l'intersection d'icebergs et d'icebergs doubles). D-miner prend en entrée un contexte et deux paramètres: étendue admissible minimale et

l'intention taille et délivre une «bande» du réseau de concepts: tous les concepts satisfaisant aux contraintes données par les valeurs des paramètres (| intention | ≥ m et | étendue | ≥ n, où m, n ∈ N, voir tableau 6).

Exemple 20. Nous fournissons des exemples de deux intentions de concepts formels pour le cas

| L | = 53, où | L | est un certain nombre de concepts formels obtenus par D-miner.

Marché hôtelier.

{angeles hotel los, atlanta hotel, baltimore hotel, dallas hotel, denver hotel, hotel chicago, diego hotel san, francisco hotel san, hotel houston, hotel miami, hotel new or- leans, hotel new york, hotel orlando, hotel philadelphia, hôtel seattle, hôtel vancouver}

Marché de médicaments de perte de poids.

Tableau 6. Résultats du mineur D.

Étendue minimale

taille Intention minimale

taille Nombre de

les concepts

0 0 8 950 740

10 10 3 030 335

15 10 759 963

15 15 150 983

15 20 14 226

20 15 661

20 16 53

20 20 0

adipex acheter, adipex en ligne, commande adipex, prescription adipex, acheter didrex, acheter ionamine, achat ionamine, acheter phentermine, didrex en ligne, ionamine en ligne, commande ionamine, commande en ligne phentermine, phentermine en ligne, commander phéniquement, ordonnance phentermine, achat de phentermine} Q

En appliquant l'algorithme de biclustering à nos données, nous avons obtenu 87 biclusters OA (ρ = 0,85), ce qui est beaucoup moins que le nombre de concepts trouvés par D-miner. Une interprétation experte de ces biclusters implique que chaque marché décrit par des concepts formels trouvés par D-miner (où chaque marché peut être représenté par plusieurs concepts formels) correspond à un bicluster parmi ces 87. Le nombre de concepts formels générés par D-miner devient réalisable pour l'interprétation humaine s'il n'y a pas plus de 20 entreprises et environ 15 termes. Pour ces seuils, D-miner n'a pu trouver que de grands marchés et ignoré d'importants marchés de taille moyenne. Pour nos données, ces marchés ignorés étaient, par exemple, les marchés de voitures et de fleurs, qui ont été trouvés en utilisant une approche de biclustering.

Exemple 21. Marché aux fleurs O-bicluster.

({24, 130, 170, 260, 344, 415, 530, 614, 616, 867, 926, 1017, 1153, 1160, 1220, 1361,

1410, 1538, 1756, 1893}, {'fleur d'anniversaire', 'fleur d'arrangement', 'fleur d'anniversaire',

'bouquet de fleurs', 'acheter fleur', 'acheter fleur en ligne', 'livraison fleur', 'fleur fraîche', 'cadeau fleur', 'ligne fleur', 'fleur en ligne', 'commande de fleur en ligne', 'fleur en ligne envoyer "," boutique en ligne de fleurs "," fleur rose "," fleur envoyer "," magasin de fleurs "," sympathie de fleurs "," rose rouge "}), avec

ρ ≈ 0,84 Q

Recommandations basées sur les règles d'association. En utilisant le système de Coron (voir [204]), nous construisons la base informative des règles d'association [205].

Exemple 22. Voici quelques exemples de règles d'association:

  • {évitamine} → {cvitamine}, supp = 31 [1,55%] et conf = 0,86;
  • {remise de diplôme} → {cadeau d'anniversaire}, supp = 41 [2,05%] et conf = 0,82.

Q

La valeur supp = 31 de la première règle signifie que 31 entreprises ont acheté des phrases «vitamine e» et «vitamine c». La valeur conf = 0,861 signifie que 86,1% des entreprises qui ont acheté l'expression «vitamine e» ont également acheté l'expression «vitamine c». Pour faire des recommandations pour chaque entreprise particulière, on peut utiliser une approche proposée dans [202]. Pour l'entreprise f, nous trouvons toutes les règles d'association, dont l'antécédent contient toutes les phrases achetées par l'entreprise, puis nous construisons l'ensemble Tu de phrases publicitaires uniques non achetées par l'entreprise f auparavant. Ensuite, nous ordonnons ces phrases en diminuant la confiance dans les règles où les phrases se produisent dans les conséquences. Si l'achat d'une phrase est prédit par

plusieurs règles, nous prenons la plus grande confiance.

Métarules basées sur la morphologie Chaque attribut de notre contexte est soit un mot, soit une phrase. De toute évidence, les expressions synonymes sont liées aux mêmes secteurs du marché. Les sociétés d'annonceurs ont généralement des catalogues thématiques composés d'experts, mais en raison du grand nombre de termes publicitaires, la composition manuelle des catalogues est une tâche difficile. Nous proposons ici une approche morphologique pour détecter des termes similaires.

Soit t une phrase publicitaire composée de plusieurs mots (ici on ne tient pas compte de la séquence de mots): t = w1, w2,. . . , wn. Une tige est la racine ou les racines d'un mot, ainsi que tous les affixes de dérivation auxquels sont ajoutés des afflexions flexionnelles [206]. La tige du mot wi est notée si = tige (wi) et l'ensemble des tiges des mots de l'expression t est noté tige (t) = tige (wi), où wi t.

je

Considérons le contexte formel KT S = (T, S, IT S), où T est l'ensemble de toutes les phrases

et S est l'ensemble de toutes les tiges de phrases de T, c'est-à-dire S = tige (ti). Alors c'est

je

indique que l'ensemble des tiges de la phrase t contient s.

Dans ce contexte, nous construisons des règles de la forme t sIT S pour tout t T, où (.) Its désigne l'opérateur principal dans le contexte KT S. Ensuite, les métarules basées sur la morphologie du contexte KT S (nous l'appelons une métarule, car elle n'est pas basée sur des données expérimentales, mais sur des connaissances implicites résidant dans le langage naturel

IT S

constructions) correspond à t −− → s, une règle d'association du contexte

KF T = (F, T, IF T). Si les valeurs de support et de confiance de cette règle dans le contexte KF T ne dépassent pas certains seuils, alors les règles d'association construites à partir du contexte KF T sont considérées comme peu intéressantes.

Exemple 23. Un exemple de contexte d'entrée pour des règles d'association morphologiques.

Q

Des métarules des formes suivantes semblent également raisonnables. Tout d'abord, on peut

rechercher des règles de la forme t −− → S sIT S, c'est-à-dire des règles dont la conséquence

je

contenir tous les termes contenant au moins un mot dont la racine est commune à un mot

dans le terme antérieur. De toute évidence, la construction de règles de ce type peut entraîner la fusion de phrases liées à différents secteurs du marché, par exemple «black jack» et

manteau noir. Deuxièmement, nous avons considéré des règles de la forme t −F− → T (S s) IT S, c'est-à-dire des règles

je

je

avec le conséquent avec l'ensemble de tiges étant le même que l'ensemble de tiges

Tableau 7. Un exemple de jouet de contexte KFT pour le marché des «appels longue distance».

appel \ ferme

appels longue distance

appels longue distance

transporteur plan long distance

distance longue pas cher

longue distance

f1 f2 f3 f4 f5 x

X

X

xx xx

X

xx

x x

xxx

Tableau 8. Un exemple de jouet de contexte KTS pour le marché des «appels longue distance».

phrase \ support d'appel de tige pas cher plan long distanc

distance d'appel longue x x x

distance d'appel longue x x x

plan long distance d'appel x x x x

distance porteuse longue x x x

distance pas cher longue x x x

de l'antécédent. Troisièmement, nous proposons également d'examiner les métarules de la forme

IT S IT S

t −− → t, où t ⊆ t. Ce sont des règles avec pour conséquence des ensembles de

tiges qui contiennent l'ensemble des tiges de l'antécédent.

Exemple 24. Un exemple de métarules.

  • t −F− → T

IT S

je

vacances de dernière minute voyages de dernière minute

supp = 19 conf = 0,90

  • t −F− → T

S sIT S

je

commande par correspondance phentermine adipex en ligne,. . . ,

achat de phentermine, vente de phentermine

supp = 19 conf = 0,95

  • t −F− → T (S s) IT S

je

je

longue distance appel téléphonique longue distance téléphone,. . . ,

tarif longue distance, service téléphonique longue distance

supp = 37 conf = 0,88

IT S IT S

  • t −− → t, t ⊆ t

{jet d'encre} → {encre}, supp = 14 conf = 0,7

Q

Validation expérimentale Pour la validation des règles d'association et des métarules, nous avons utilisé une version adaptée de la validation croisée. L'ensemble d'entraînement a été divisé au hasard en 10 parties, dont 9 ont été prises comme ensemble d'apprentissage et la partie restante a été utilisée comme ensemble d'essai. La confiance des règles moyenne sur l'ensemble de test est presque la même que la valeur minimale de conf pour l'ensemble d'apprentissage, c'est-à-dire (0,9 0,87) /0,9 0,03. Notez que l'utilisation de la morphologie est complètement automatisée et permet de trouver des métarules très plausibles sans données sur les achats. Les règles avec un support et une confiance faibles peuvent être testées par rapport à des systèmes de recommandation tels que Google AdWords, qui utilise la fréquence des requêtes de synonymes. Ainsi, 90% des recommandations (mots) pour les règles ontologiques (voir [96]) étaient contenues dans le

liste des synonymes produits par AdWords.

6.6 Systèmes de recommandation basés sur FCA

Motivés par des applications prospectives de la factorisation de la matrice booléenne (BMF) dans le contexte des systèmes de recommandation (RS), nous avons proposé une approche basée sur FCA qui suit la stratégie basée sur l'utilisateur k-plus proches voisins [94]. Une autre approche similaire à MF est le biclustering, qui a également été appliqué avec succès dans le domaine du système de recommandation [207,96]. Comme nous l'avons mentionné, le FCA peut également être utilisé comme technique de biclustering et il existe plusieurs exemples de ses applications dans le domaine des systèmes de recommandation [90,92]. Une approche sans paramètre qui exploite un voisinage du concept d'objet pour un utilisateur particulier a également prouvé son efficacité [208].

Ci-dessous, nous discutons de nos études récentes dans l'application de BMF pour RS. Dans le domaine des systèmes de recommandation, le contexte est toute information auxiliaire concernant les utilisateurs (comme le sexe, l'âge, la profession, le lieu de vie) et / ou des éléments (comme le genre d'un film, d'un livre ou de la musique), qui montre non seulement la marque d'un utilisateur donné à un élément mais décrit explicitement ou implicitement les circonstances d'une telle évaluation (par exemple, y compris le temps et le lieu) [209].

Du point de vue de la représentation, une information auxiliaire peut être décrite par une relation binaire, qui montre qu'un utilisateur ou un élément possède une certaine paire attribut-valeur.

En conséquence, on peut obtenir une matrice de blocs:

I = R Cuser,

Citem O

où R est une matrice utilitaire des évaluations des utilisateurs sur les éléments, Cuser représente les informations contextuelles des utilisateurs, Citem contient une iformation contextuelle des éléments et O est une matrice remplie de zéro.

Exemple 25. Un exemple d'une matrice de notation enrichie par des informations auxiliaires sur les fonctionnalités utilisateur et les fonctionnalités article.

Q

Exemple 26. Dans le cas d'une échelle de notation plus complexe, les notes peuvent être réduites à une échelle binaire (par exemple, «j'aime / n'aime pas») par seuillage binaire ou par une échelle basée sur FCA.

Tableau 9. Ajout d'informations auxiliaires

Films Genre Âge

Courageux

Coeur Termi-

nator Gladi-

ator Slum-

chien Million- aire Hot

Dieu de la neige-

père M F 0-20 21-45 46+

Anna 5 5 5 2 + +

Vladimir 5 5 3 5 + +

Katja 4 4 5 4 + +

Mikhail 3 5 5 5 + +

Nikolay 2 5 4 + +

Olga 5 3 4 5 + +

Petr 5 4 5 4 + +

Drame + + + + +

Action + + + +

Comédie + +

Tableau 10. Matrice d'utilité booléenne dérivée enrichie d'informations auxiliaires

m1 m2 m3 m4 m5 m6 f1 f2 f3 f4 f5

u1 1 0 1 1 0 0 0 1 1 0 0

u2 1 0 1 1 0 0 1 0 0 1 0

u3 1 0 1 1 0 1 0 1 0 1 0

u4 1 0 1 1 0 0 1 0 0 1 0

u5 0 0 0 0 1 1 1 0 0 0 1

u6 1 0 1 1 0 0 0 1 1 0 0

u7 1 0 0 1 1 1 1 0 0 0 1

g1 1 0 1 1 1 1 0 0 0 0 0

g2 0 1 1 0 1 1 0 0 0 0 0

g3 1 0 0 1 0 0 0 0 0 0 0

Q

Une fois qu'une matrice de notes est factorisée, nous devons apprendre à calculer les recommandations pour les utilisateurs et à évaluer si une méthode particulière gère bien cette tâche.

Compte tenu des matrices factorisées, un algorithme déjà bien connu basé sur la similitude des utilisateurs peut être appliqué, où pour trouver k voisins les plus proches, nous utilisons non pas la matrice d'origine des évaluations R Rm × n, mais la matrice I Rm × f, où m est un nombre d'utilisateurs, et f est un certain nombre de facteurs. Après la sélection de k utilisateurs, qui sont les plus similaires à un utilisateur donné, en fonction des facteurs qui leur sont propres, il est possible, sur la base de formules de filtrage collaboratif, de calculer les notes prospectives pour un utilisateur donné.

Après la génération de recommandations, les performances du système de recommandation peuvent être estimées par des mesures telles que l'erreur absolue moyenne (MAE), la précision et le rappel.

Les systèmes de recommandation collaboratifs essaient de prédire l'utilité (dans notre cas, les évaluations) des articles pour un utilisateur particulier en fonction des articles précédemment évalués par d'autres utilisateurs.

Les algorithmes basés sur la mémoire font des prédictions de notation basées sur la collection entière des éléments précédemment évalués par les utilisateurs. Autrement dit, la valeur de la note inconnue ru, m pour un utilisateur u et l'élément m est généralement calculée comme un agrégat des notes de certains autres utilisateurs (généralement, les k les plus similaires) pour le même élément m:

ru, m = aggru˜∈U˜ ru˜, m,

où es-tu

désigne un ensemble de k utilisateurs qui sont les plus similaires à l'utilisateur u, qui

ont évalué l'article m. Par exemple, la fonction aggr peut avoir la forme suivante [209]:

ru, m =

sim (u˜, u) · ru˜, m,

u˜∈U˜

sim (u, u˜)

u˜∈U˜

La mesure de similitude entre les utilisateurs u et u˜, sim (u˜, u), est essentiellement une mesure de distance inverse et est utilisée comme poids, c'est-à-dire que plus les utilisateurs c et u˜ sont similaires, plus le poids ru˜, m portera dans la prédiction de ru˜, m.

La similitude entre deux utilisateurs est basée sur leur évaluation des éléments que les deux utilisateurs ont notés. Il existe plusieurs approches populaires: corrélation de Pearson, similitudes basées sur le cosinus et basées sur Hamming.

Nous utilisons principalement les similitudes à base de cosinus et à base de Hamming normalisées.

Pour appliquer cette approche dans le cas de l'algorithme de recommandation BMF basé sur FCA, nous considérons simplement les matrices de facteur utilisateur obtenues après factorisation des données initiales comme entrée.

Exemple 27. Pour la matrice d'entrée du tableau 10, on peut trouver les facteurs de couverture suivants:

({u1, u3, u6, u7, g1, g2}, {m1, m4}), ({u2, u4}, {m2, m3, m6, f1, f4}),

({u5, u7}, {m5, m6, f1, f5}), ({u1, u6}, {m1, m3, m4, f2, f3}),

({u5, u7, g1, g3}, {m5, m6}), ({u2, u3, u4}, {m3, m6, f4}),

({u2, u4, g3}, {m2, m3, m6}), ({u1, u3, u6, g1}, {m1, m3, m4}), ({u1, u3, u6}, {m1, m3, m4, f2}).

La décomposition correspondante est ci-dessous:

1 0 0 1 0 0 0 1 1

0 1 0 0 0 1 1 0 0

1 0 0 0 0 1 0 1 1

0 1 0 0 0 1 1 0 0

0 0 1 0 1 0 0 0 0

1 0 0 1 0 0 0 0 0 0 0

0 1 1 0 0 1 1 0 0 1 0

0 0 0 0 1 1 1 0 0 0 1

1 0 1 1 0 0 0 1 1 0 0

1 0 1 0 1 0 0 0 0

1 0 0 0 1 0 0 1 0

0 0 0 0 1 0 1 0 0

1 0 0 0 0 0 0 0 0

Q

0 0 1 0 0 1 0 0 0 1 0

0 1 1 0 0 1 0 0 0 0 0

1 0 1 1 0 0 0 0 0 0 0

1 0 1 1 0 0 0 1 0 0 0

Cependant, dans ce cas, dans les vecteurs de profils utilisateur obtenus, la plupart des composants obtiennent des zéros, et ainsi nous perdons des informations de similitude.

Pour lisser les effets de perte, nous avons proposé la projection pondérée suivante:

I · Q

Σ Iuv · Qfv

P˜uf =

u ·

|| Qf ·

F ·

|| 1

= v∈V,

Qfv

v∈V

où P˜uf indique si le facteur f couvre l'utilisateur u, Iu · est un vecteur binaire décrivant le profil de l'utilisateur u, Qf · est un vecteur binaire d'éléments appartenant au facteur f (la ligne correspondante de Q dans l'équation de décomposition (3)) . Les coordonnées du

le vecteur de projection obtenu se situe entre [0; 1].

Exemple 28. Pour le tableau 9, la projection pondérée est la suivante:

 1 1 0 1 0 1 1 

0 1 2 5 2 1 1 3 4

 1 3 1 4 1 1 1 


 5 4 5 2 

 0 1 1

1 1 1 1 

 0 2

2 5 2 4

P = 1 1 0 1 0 1 1.

 

 1 2 1 1 1 1 1 

 1 5 5 1 3 2 

2 1 2 2 3

 2 1 1 2 1 1 1 

5 3 2

Q

L'approche proposée et les approches comparées ont été implémentées en C ++ 35

et évalué sur l'ensemble de données MovieLens-100k. Cet ensemble de données comprend 100000 évaluations

en échelle à cinq étoiles, 1682 films, informations contextuelles sur les films (19 genres),

943 utilisateurs (chaque utilisateur a évalué au moins 20 films) et des informations démographiques

35 https://github.com/MaratAkhmatnurov/BMFCARS

utilisateurs (sexe, âge, profession, zip (ignoré)). Les utilisateurs ont été répartis en sept groupes d'âge: moins de 18 ans, 18-25 ans, 26-35 ans, 36-45 ans, 45-49 ans, 50-55 ans, 56+.

Les notes cinq étoiles sont converties en échelle binaire selon la règle suivante:

Iij

= 1, Rij> 3,

0, sinon

L'ensemble de données à l'échelle est divisé en deux ensembles selon le schéma de validation croisée bimodale [210]: l'ensemble d'apprentissage et l'ensemble de test avec un rapport 80:20, et 20% des évaluations de l'ensemble de test sont masqués.

0,4 1

0,35 0,8

0,3 0,6

0,25 0,4

0,2

0 20 40 60 80100

Nombre de voisins

0,2

0 20 40 60 80100

Nombre de voisins

0,4 0,4

0,3 0,3

0,2 0,2

0,1 0,1

0

0 20 40 60 80100

Nombre de voisins

0

0 20 40 60 80100

Nombre de voisins

Fig. 25. Différentes approches de la factorisation matricielle

Nous avons découvert que le MAE de notre approche basée sur le BMF est significativement inférieur au MAE de l'approche basée sur le SVD pour presque le même nombre de facteurs au niveau de couverture fixe du BMF et au niveau p du SVD. La précision de l'approche basée sur BMF est légèrement inférieure lorsque le nombre de voisins est d'environ deux douzaines et comparable pour la partie restante de la plage observée. Le rappel est plus faible, ce qui se traduit par une mesure F plus faible. Elle peut s'expliquer par la nature différente des facteurs dans ces modèles de factorisation. La projection pondérée proposée atténue la perte d'informations de la projection booléenne d'origine, ce qui entraîne un gain de qualité substantiel. Nous avons également révélé que la présence d'informations auxiliaires entraîne une légère augmentation de la qualité (environ 1 à 2%) en termes de MAE, de rappel et de précision.

Dans notre étude précédente, avec le schéma original basé sur le BMF (la pondération n'est pas utilisée), nous avons obtenu des résultats comparables en termes de MAE et de précision et de rappel [94,145].

6.7 Approche basée sur FCA pour la détection de quasi-doublons de documents

Depuis l'aube des moteurs de recherche sur le Web, le problème de trouver des documents presque en double dans les résultats de recherche sur le Web est crucial pour fournir aux utilisateurs des documents pertinents [211,212,213].

Ci-dessous, nous décrivons brièvement nos études sur la détection de quasi-doublons [81] dans le cadre d'un concours «Mathématiques Internet» organisé par Yandex et ROMIP (Rusian Information Retrieval Evaluation Seminar) en 2004-2005: notre projet «Optimisation de la recherche de quasi-doublons sur le Web: images et similitude »a été

a sélectionné, comme les 33 autres projets, sur 252 candidatures 36.

En tant que données expérimentales, la collection ROMIP de documents Web du domaine narod.ru37 a été fournie; il se compose de 52 fichiers de taille générale 4,04 Go. Ces fichiers contenaient 530 000 pages Web du domaine narod.ru. Chaque document de la collection a une taille supérieure ou égale à 10 mots. Pour les expériences, la collection a été divisée en plusieurs parties composées de trois à 24 fichiers (de 5% à

50% pour cent de toute la collection). Comme référence d'évaluation pour le rappel et le calcul de précision, nous utilisons la liste des paires en double fournie par Yandex; les paires en double ont été identifiées pour toutes les paires de documents via Perl String :: Similarité avec un seuil de similitude de 85%.

Pour composer des images de documents, nous avons suivi une approche populaire du bardeau [212]. Pour chaque texte, le programme bardeau avec deux paramètres (longueur et décalage) génère des sous-séquences contiguës de longueur de taille telles que la distance entre les débuts de deux sous-chaînes suivantes soit décalée. L'ensemble de séquences ainsi obtenu est haché afin que chaque séquence reçoive son propre code de hachage. Dans l'ensemble de codes de hachage qui correspond au document, un sous-ensemble de taille fixe (donné par paramètre) est choisi au moyen de permutations aléatoires décrites dans [212,214,215]. La probabilité du fait que des éléments minimaux dans les permutations sur les ensembles de codes de hachage des bardeaux des documents A et B (ces ensembles sont désignés par FA et FB, respectivement) coïncident, est égale à la mesure de similitude de ces documents sim (A, B):

sim (A, B) = P [min {π (FA

)} = min {π (FB

)] = | FA ∩ FB | .

| FA ∪ FB |

De plus, nous avons utilisé FCA pour définir un groupe de documents presque en double.

Soit KDF = (D, F, IDF) un contexte de documents, où D est un ensemble de documents, F est un ensemble de codes de hachage (empreintes digitales), et I montre qu'un document d a un attribut f chaque fois que dIf.

Pour un sous-ensemble de documents AD, AJ décrivent leur similitude en termes d'empreintes digitales communes, et l'ensemble fermé AJJ est un groupe de documents similaires.

36 https://academy.yandex.ru/events/imat/grant2005/

37 http://romip.ru/en/collections/narod.html

Pour trouver tous les clusters presque dupliqués, nous devons énumérer toutes les intentions du contexte KF D = (F, D, IFD) de sorte que leur ensemble commun d'empreintes digitales dépasse un seuil défini par l'utilisateur.

En fait, à cette fin, nous devons utiliser uniquement des ensembles de documents fréquents. Un ensemble de documents AD est appelé k-fréquent si AJ> k, où k est un paramètre.

Le logiciel de mise en œuvre du programme pour les expériences de représentation syntaxique comprend les unités qui effectuent les opérations suivantes:

1. Analyseur XML (fourni par Yandex): il analyse les collections XML de documents Web

2. Suppression du balisage html des documents

3. Génération de bardeaux avec des paramètres donnés longueur de bardeau, offset

4. Bardeaux de hachage

5. Composition de l'image du document en sélectionnant des sous-ensembles (de codes de hachage) de shin- gles au moyen des méthodes n éléments minimaux dans une permutation et éléments minimaux dans n permutations.

6. Composition du tableau inversé la liste des identifiants des documents bardeaux préparant ainsi les données au format des programmes de calcul des ensembles fermés.

7. Calcul de grappes de documents k similaires avec l'algorithme FPmax *: la sortie se compose de chaînes, où les premiers éléments sont des noms (ids) de documents et le dernier élément est le nombre de bardeaux communs pour ces documents.

8. Comparaison des résultats avec la liste existante de doublons (dans nos expériences avec la collection ROMIP de documents Web, nous avons été fournis par une liste pré-calculée de paires en double).

Cette unité génère cinq valeurs: 1) le nombre de paires en double dans la collection ROMIP, 2) le nombre de paires en double pour notre réalisation, 3) le nombre de paires en double uniques dans la collection ROMIP, 4) le nombre de paires en double uniques dans nos résultats, 5) le nombre de paires communes pour la collection ROMIP et nos résultats.

À l'étape 7, nous avons utilisé un leader de l'efficacité temporelle, l'algorithme FPmax * [216], issu du concours organisé en série d'ateliers sur les mises en œuvre minières fréquentes (FIMI) 38.

Résultats expérimentaux Dans nos expériences, nous avons utilisé Cluto 39, un progiciel pour regrouper des ensembles de données de grande dimension, y compris ceux provenant de la recherche d'informations

domaine, à des fins de comparaison. Nous avons choisi l'algorithme de bissection répétée qui utilise la fonction de similitude cosinus avec un partitionnement à 10 voies (ClusterRB), qui est principalement évolutif selon son auteur [217]. Le nombre de clusters était un paramètre, les documents étaient donnés par des ensembles d'attributs, des empreintes digitales dans notre cas. L'algorithme génère un ensemble de clusters disjoints. Algorithmes du référentiel FIMI

38 http://fimi.ua.ac.be/

39 http://glaros.dtc.umn.edu/gkhome/views/cluto

peut traiter de très grands ensembles de données, cependant, pour comparer avec Cluto (ce qui prend beaucoup plus de temps comme nous le montrons ci-dessous), nous avons pris la collection narod.1.xml qui contient 6941 documents.

Les paramètres de bardeaux utilisés dans les expériences étaient les suivants: le nombre de mots dans les bardeaux était de 10 et 20, le décalage était toujours pris à 1 (ce qui signifie que le jeu initial de bardeaux contenait toutes les séquences de mots contiguës possibles d'une longueur donnée). Les tailles des images des documents résultantes ont été prises dans l'intervalle de 100 à 200 bardeaux. En tant que seuils de fréquence définissant des ensembles fermés fréquents (c'est-à-dire le nombre de bardeaux communs dans les images de document d'une grappe), nous avons étudié expérimentalement différentes valeurs par intervalles, où la valeur maximale est égale au nombre de bardeaux dans l'image du document. Par exemple, l'intervalle [85, 100] pour les images de document avec 100 bardeaux, l'intervalle [135, 150] pour les images de document de taille 150, etc. Evidemment, en choisissant la valeur maximale d'un intervalle,nous obtenons des clusters où les images de documents coïncident complètement.

Pour les paramètres prenant des valeurs dans ces intervalles, nous avons étudié la relation entre les grappes résultantes de doublons et la collection ROMIP de doublons, qui se compose de paires de documents Web qui sont considérés comme proches de doublons. La similitude de chaque paire de documents de cette liste est basée sur la mesure de modification de distance, deux documents ont été considérés comme des doublons par les auteurs de ce banc d'essai si la valeur de la mesure de modification de distance dépasse le seuil de 0,85. Comme nous le montrons ci-dessous, cette définition d'un doublon est sujette à des erreurs, mais la création d'un banc d'essai par duplication de marquage manuelle dans une grande collection de documents Web est difficilement réalisable. Malheureusement, les listes standard de quasi-doublons manquaient à cette époque, même pour les corpus standard tels que TREC ou la collection Reuters [218]. Pour valider leurs méthodes,les chercheurs créent des listes ad hoc de doublons à l'aide de documents légèrement transformés provenant de collections standard. Maintenant, la situation est nettement meilleure, voir, par exemple, la série d'ateliers sur l'analyse du plagiat, l'identification des auteurs,

et détection de quasi-duplication (PAN) 40.

Dans notre étude pour chacune de ces paires, nous avons trouvé une intention qui contient les deux éléments de la paire, et vice versa, pour chaque groupe de documents très similaires (c'est-à-dire pour chaque ensemble fermé de documents correspondant avec plus de k unités de description communes) nous prenons chaque paire de documents dans le cluster et recherchons la paire correspondante dans la collection ROMIP. En conséquence, nous obtenons le nombre de paires de doublons proches trouvées par notre méthode et celles de la collection ROMIP, et le nombre de paires uniques de doublons HSE (paires de documents se produisant dans un groupe de «documents très similaires» et ne se produisant pas dans la collection ROMIP). Les résultats de nos expériences ont montré que la collection de doublons ROMIP, considérée comme une référence, est loin d'être parfaite. Première,nous avons détecté un grand nombre de fausses paires en double dans cette collection en raison d'un cadrage similaire des documents. Par exemple, les pages contenant les informations suivantes dans le tableau 11 sur les personnalités historiques 1 et 2 ont été déclarées proches des doublons.

40 http://www.uni-weimar.de/medien/webis/events/pan-15/pan15-web/ plagiarism-detection.html

Tableau 11. Informations sur les personnalités historiques

Cependant, ces pages, ainsi que de nombreuses autres paires de faux doublons analogues dans la collection ROMIP, n'appartiennent pas à des grappes basées sur des concepts (fréquence maximale maximale) générées dans notre approche.

Deuxièmement, dans notre étude, nous avons également recherché de faux clusters en double dans la collection ROMIP, causés par la fermeture transitive de la relation binaire «X est un doublon de Y» (comme dans la définition typique d'un cluster de documents dans [215]). Comme la relation de similitude n'est généralement pas transitive, les grappes formées par la fermeture transitive de la relation peuvent contenir des documents absolument différents. Notez que si les clusters sont définis via des ensembles d'éléments fréquents maximaux (sous-ensembles d'attributs), il ne peut pas y avoir d'effets comme celui-ci, car les documents de ces clusters partagent nécessairement de grands ensembles d'éléments (sous-ensembles communs d'attributs).

Nous avons analysé environ 10000 paires de documents en double et trouvé quatre clusters de doublons faux assez gros d'environ 50 à 60 documents chacun. D'autres études sur cette collection voir dans [219].

Nous résumons brièvement les résultats expérimentaux ci-dessous:

  • FPmax * (mesure F = 0,61 et temps écoulé 0,6 seconde), ClusterRB (mesure F = 0,63 et temps écoulé 4 heures);
  • Pour FPMax *, le nombre de grappes de documents uniques est de 566, pour ClusterRB 4227;
  • Le nombre total de clusters pour FPmax * est de 903 contre 5000 pour Cluto 903;
  • Le nombre de clusters NDD pour FPmax * est de 337 contre 773 Cluto.

Les graphiques et les tableaux montrent que pour 5000 grappes, la sortie de ClusterRB a presque la même valeur de mesure F (0,63) que FPmax * pour le seuil 150 (F1 = 0,61). Cependant, les calculs ont pris 4 heures pour ClusterRB et une demi-seconde pour FP-max *.

Nous avons poursuivi nos développements de cette époque et développé une interface graphique et un générateur de documents en double (pour une collection de texte fournie) à des fins de test [220]. L'archive de ces projets est disponible gratuitement sur Bitbucket41.

Plus tard, nous avons proposé un prototype de système de détection presque en double pour

propriétaires de magasins. C'est une situation typique pour cette entreprise en ligne d'acheter une description

41 https://bitbucket.org/dimanomachine/nearduplicatesarch

Tableau 12. Comparaison des clusters obtenus en termes de paires de documents presque en double

Le nombre de doublons ROMIP: 2997

Le nombre de NDD trouvé par FPmax *: 2722

Le nombre de NDD trouvés par Cluto: 2897

Le nombre de paires NND uniques de ROMIP: 1155

Le nombre de paires NDD uniques trouvées par FPmax *: 1001

Le nombre de paires NDD uniques trouvées par Cluto: 1055

Le nombre de paires NDD communes pour FPmax * et ROMIP: 1721 Le nombre de paires NDD communes pour Cluto et ROMIP: 1842

de leurs biens auprès de soi-disant copyrighters. Un copyrighter peut tricher de temps en temps et fournir au propriétaire des descriptions presque identiques pour différents éléments. Dans cette étude, nous avons démontré comment nous pouvons utiliser FCA pour révéler et regrouper rapidement en ligne de tels doublons dans une véritable parfumerie en ligne. Nos résultats étaient également applicables à la détection de quasi-doublons dans les collections de documents de projets de R&D [221].

6.8 FCA triadique pour les tâches IR dans les économies populaires

Quatre de nos études d'exploration de données sur le triclustering (voir section 5.1 et [109,112,111]) les données folksonomiques sont devenues une gamme de tir depuis que le premier algorithme efficace basé sur la FCA pour extraire des données tiradiques a été proposé pour les communautés minières dans les sonomies folkloriques [45].

Mais c'est un domaine riche avec des systèmes de partage de ressources interactifs comme Bibsonomy42, CiteULike43, Flickr44 et Delicious45 qui nécessitent une fonctionnalité IR à part entière, y compris la récupération, le classement et les recommandations. Par exemple, Bibsonomy est un système de gestion de bookmarking social et de publication. Une part

de DBLP46 [222] qui recueille, stocke uniquement les données bibliographiques et fournit la publication et la recherche d'auteur, Bibsonomy permet de créer ses propres listes de signets bibliographiques, d'utiliser des balises et des interactions sociales.

Comme nous l'avons mentionné dans la section 5.1, la structure de Folksonomie sous-jacente est un tricontexte formel K = (U, T, R, Y) avec U étant un ensemble d'utilisateurs, T un ensemble de balises et R un ensemble de ressources, où YUTR se rapporte entités de ces trois ensembles. Parfois, une relation sous-étiquette / supertag spécifique à l'utilisateur est également incluse dans la définition, c'est-à-dire UTT.

Nous discutons brièvement des principales tâches IR que donnent les données folksonomiques.

Tout d'abord, nous devons dire que le PageRank traditionnel ne peut pas être directement appliqué aux folksonomies. Les auteurs de l'article [161] ont modifié le PageRank

42 http://www.bibsonomy.org/

43 http://www.citeulike.org/

44 https://www.flickr.com/

45 https://delicious.com/

46 http://dblp.uni-trier.de/

algorithme pour les données folksonomiques en considérant les données triadiques d'entrée comme un graphe tripartite non rectifié. Les poids pour chaque type d'arête ont été attribués en fonction des occurrences de la troisième entité, par exemple une arête u, t étant pondérée avec r R: (u, t, r) Y, le nombre d'occurrences des balises associées.

Formellement, la condition de répartition du poids se présente comme suit:

w ← αw + βAw + γp, où

A est la version stochastique en ligne de l'adjacence du graphe, p est un vecteur de préférence, α, β, γ [0, 1] sont des paramètres initiaux avec α + β + γ = 1. Ainsi, α régule la vitesse de convergence, tandis que la proportion entre β et γ contrôle l'influence du vecteur de préférence.

Cependant, les premiers résultats sur les données Delicious étaient plutôt décourageants même avec une combinaison de classeurs terme-fréquence, le classement résultant était similaire (mais pas identique) aux poids de bord initiaux. Il en est résulté le propre algorithme de classement FolkRank des auteurs, qui prend en compte la différence dans les classements résultants avec et sans vecteur de préférence [161].

Dans cet article, les auteurs ont formulé des tâches particulières:

  • Des documents susceptibles d'intéresser un utilisateur peuvent lui être proposés.
  • D'autres balises associées peuvent être suggérées à un utilisateur. Ainsi, FolkRank tient également compte du comportement de marquage des autres utilisateurs et peut être utilisé pour les recommandations de marquage.
  • D'autres utilisateurs qui travaillent sur des sujets connexes peuvent être explicités, ce qui facilite le transfert de connaissances et la formation de communautés d'utilisateurs.

Plus tard, ils ont implémenté (pas seulement) toutes ces fonctionnalités dans les systèmes Bibsonomy [97].

De plus, au cours de ces études, ils ont admis que les journaux de requête de recherche forment naturellement des données folksonomiques (utilisateurs, requêtes, ressources), où les ressources sont celles sur lesquelles un utilisateur a cliqué après avoir effectué une requête [223]. On pouvait s'y attendre, ils ont donné une logonomie de nom à cette nouvelle structure de données. Lorsque Bibsonomy en était aux premiers stades, il a été confronté à un problème d'abus de spam et en 2008 ECML PKDD

Le défi de découverte 47 a résolu ce problème. L'année qui a suivi le problème difficile, 48 recommandations ont été formulées pour Bibsonomy et ont abouti à de nouveaux algorithmes fructueux [224].

6.9 Explorer les taxonomies des utilisateurs du site Web

En 2006, nous avons participé à l'analyse de l'audience des sites Web en collaboration avec la société SpyLog (maintenant OpenStat49) [225].

Les propriétaires d'un site Web sont souvent intéressés à analyser des groupes d'utilisateurs de

leur site. Les informations sur ces groupes peuvent aider à optimiser la structure et

47 http://www.kde.cs.uni-kassel.de/ws/rsdc08/

48 http://www.kde.cs.uni-kassel.de/ws/dc09/

49 https://www.openstat.com/

Fig. 26. Un exemple d'interface Bibsonomy

contenu du site. Par exemple, l'interaction avec les membres de chaque groupe peut être organisée d'une manière spéciale. Dans l'étude réalisée, nous avons utilisé une approche basée sur des concepts formels pour construire des taxonomies de groupes d'utilisateurs du Web.

Pour nos expériences, nous avons choisi quatre sites Web cibles: le site de l'École supérieure d'économie de l'Université d'État, une boutique en ligne d'équipements ménagers, le site d'une grande banque et le site d'une boutique en ligne de voitures (les noms des les trois derniers sites ne peuvent être divulgués en raison d'accords juridiques).

Les utilisateurs de ces sites sont décrits par des attributs qui correspondent à d'autres sites, soit externes (à partir de trois groupes de sites: finance, médias, éducation) ou internes (pages Web du site). Plus précisément, les données «externes» initiales sont constituées d'enregistrements d'utilisateurs contenant chacun l'ID utilisateur, l'heure à laquelle l'utilisateur est entré pour la première fois sur ce site, l'heure de sa dernière visite et le nombre total de sessions au cours de la période considérée. Un enregistrement utilisateur «interne», d'autre part, est simplement une liste de pages du site Web cible visité par un utilisateur particulier.

Par taxonomies «externes» et «internes», nous entendons des (parties de) réseaux de concepts pour des contextes avec des attributs «externes» ou «internes». Par exemple, le contexte externe a la forme Ke = (U, Se, Ie), où U est l'ensemble de tous les utilisateurs du site cible, Se est l'ensemble de tous les sites d'un échantillon (sans inclure celui cible), la relation d'incidence Ie est donnée par toutes les paires (u, s): u ∈ U, s ∈ Se,

de sorte que l'utilisateur u a visité le site s. De façon analogue, le contexte interne est de la forme

Ki = (U, Si, Ii), où Si est l'ensemble de toutes les propres pages du site cible.

Un concept de ce contexte est une paire (A, B) telle que A est un groupe d'utilisateurs qui ont visité ensemble tous les autres sites de B.

Comme nous l'avons mentionné, l'un des sites Web cibles était le site de notre université50.

Nous avons reçu des données «externes» avec les champs suivants pour chaque paire utilisateur-site:

(identifiant utilisateur, heure de la première visite, heure de la dernière visite, nombre total de sessions au cours de la période). Les données «internes» ont presque le même format avec une page d'URL de champ supplémentaire, qui correspond à une page visitée particulière du site cible.

Les informations fournies ont été recueillies auprès d'environ 10 000 sites du segment russe d'Internet (domaine .ru). Décrivant les utilisateurs en termes de sites visités, nous avons dû nous attaquer au problème de dimensionnalité, car les réseaux de concept résultants peuvent être très importants (exponentiels dans le pire des cas en termes d'objets ou d'attributs). Pour réduire la taille des données d'entrée, nous avons utilisé les techniques suivantes.

Pour chaque utilisateur, nous avons sélectionné uniquement les sites qui ont été visités plus d'un certain nombre de fois au cours de la période d'observation. Cela nous a donné des informations sur les intérêts permanents d'utilisateurs particuliers. Chaque site Web cible a été considéré en termes de sites de trois groupes: sites de journaux, sites financiers et sites éducatifs.

Cependant, même pour une réduction importante de la taille d'entrée, les réseaux conceptuels peuvent être très importants. Par exemple, un contexte de taille 4125 225 a donné naissance à un réseau avec 57329 concepts.

Pour choisir des groupes d'utilisateurs intéressants, nous avons utilisé l'indice de stabilité d'un concept défini dans [226,227] et considéré dans [88] (sous une forme légèrement différente) comme un outil pour construire des taxonomies. D'une part, l'indice de stabilité montre l'indépendance d'une intention sur des objets particuliers de l'étendue (qui peuvent apparaître ou ne pas apparaître dans le contexte en fonction de facteurs aléatoires). D'un autre côté, l'indice de stabilité d'un concept montre à quel point l'étendue d'un concept diffère d'étendues plus petites similaires (si cette différence est très petite, il est douteux que cette étendue se réfère à une «catégorie stable»). Pour une motivation détaillée des indices de stabilité, voir [226,227,88].

Définition 33. Soit K = (tt, M, I) un contexte formel et (A, B) un concept formel de K. L'indice de stabilité σ de (A, B) est défini comme suit:

σ (A, B) = | {C ⊆ A | CJ = B} | .

2 | A |

Évidemment, 0 σ (A, B) 1.

L'indice de stabilité d'un concept indique à quel point l'intention du concept dépend d'objets particuliers de l'étendue. Une intention stable (avec indice de stabilité

50 www.hse.ru

proche de 1) est probablement «réel» même si la description de certains objets est «bruyante». En application à nos données, l'indice de stabilité montre à quel point nous sommes susceptibles d'observer un groupe d'intérêts commun si nous ignorons plusieurs utilisateurs. En plus d'être résistant au bruit, un groupe stable ne s'effondre pas (par exemple, fusionne avec un groupe différent, divisé en plusieurs sous-groupes indépendants) lorsque quelques membres du groupe cessent de fréquenter les sites cibles.

Dans nos expériences, nous avons utilisé ConceptExplorer pour calculer et visualiser les réseaux et leurs parties.

Nous avons comparé les résultats de la prise des concepts les plus stables (avec un indice de stabilité dépassant un seuil) avec la prise d'un réseau «iceberg». Les résultats semblent corrélés, mais néanmoins sensiblement différents. L'ensemble des extensions stables contenait des groupes d'utilisateurs très importants mais pas importants.

Dans les figures 12, 27, nous présentons des parties d'un réseau conceptuel pour le site Web HSE décrit par des attributs «externes» qui étaient considérés comme des journaux électroniques russes visités par les utilisateurs de www.hse.ru pendant un mois (septembre 2006) plus plus de 20 fois. La figure 12 présente un iceberg avec 25 concepts ayant la plus grande étendue. Beaucoup de concepts correspondent à des journaux qui sont au milieu du spectre politique, lus «par tout le monde» et donc, peu intéressants pour caractériser les groupes sociaux.

La figure 27 présente un ensemble ordonné de 25 concepts ayant le plus grand indice de stabilité. Par rapport à l'iceberg, cette partie du concept de réseau contient plusieurs groupes importants sur le plan sociologique tels que les lecteurs de «ExpressGazeta» («presse jaune»), Cosmopolitan, Expert (enquêtes analytiques professionnelles élevées), etc.

Fig. 27. Ensemble ordonné de 25 concepts avec la plus grande stabilité

6.10 Modèles FCA pour le crowdsourcing

Le succès des technologies collaboratives modernes est marqué par l'apparition de nombreuses plates-formes innovantes pour organiser un brainstorming distribué ou effectuer ce que l'on appelle un «examen public». Il existe de nombreuses sociétés de crowdsourcing

aux États-Unis (Spigit 51, BrightIdea 52, InnoCentive 53 etc.) et en Europe (Imaginatik 54). Il existe également la plate-forme Kaggle 55 qui est la plus avantageuse pour les praticiens des données et les entreprises qui souhaitent sélectionner les meilleures solutions pour

leurs problèmes d'exploration de données. En 2011, des entreprises russes ont également lancé des activités dans ce domaine. Les deux exemples les plus représentatifs de ces compa-

nies sont Witology 56 et Wikivote 57. Plusieurs projets panrusses ont déjà été achevés avec succès (par exemple, Sberbank-2158, National Entrepreneurial Initiative 59 etc.). Le cœur de ces systèmes de crowdsourcing est un réseau socio-sémantique [228,229], dont les données nécessitent de nouvelles approches à analyser. Avant nous

essayé de tenir compte de la FCA comme base méthodologique pour l'analyse des données générées par de tels systèmes collaboratifs [164].

En règle générale, lorsqu'ils participent à un projet, les utilisateurs de ces plateformes de crowdsourcing [230] discutent et résolvent un problème commun, proposent leurs idées et évaluent leurs idées les uns des autres en tant qu'experts. Enfin, à la suite de la discussion et du classement des utilisateurs et de leurs idées, nous obtenons les meilleures idées et utilisateurs (leurs générateurs). Pour une meilleure compréhension du comportement des utilisateurs, le développement de critères de classement adéquats et la réalisation d'analyses dynamiques et statistiques complexes, des moyens spéciaux sont nécessaires. Les méthodes traditionnelles de clustering, de détection de communauté et d'exploration de texte doivent être adaptées, voire entièrement repensées. Plus tôt, nous avons décrit les modèles de données utilisées dans les projets de crowdsourcing en termes de FCA. En outre, nous avons présenté le système d'analyse de données de plateforme collaborative CrowDM (Crowd Data Mining),son architecture et ses méthodes sous-jacentes aux étapes clés de l'analyse des données [164].

Les principes de travail de ces plates-formes sont différents de ceux des boutiques en ligne ou des sites Web spécialisés de recommandation de musique / films. Les projets de crowdsourcing se composent de plusieurs étapes et les résultats de chaque étape dépendent sensiblement des résultats de l'étape précédente. C'est pourquoi les modèles existants des systèmes recommandeurs doivent être adaptés correctement. Dans le document d'accompagnement [231] ou dans ses prédécesseurs plus courts [232,233], nous présentons de nouvelles méthodes pour faire des recommandations basées sur FCA et OA-biclustering (voir Section 5.1): Les méthodes originales de recommandation d'idées (pour la phase de vote), comme- recommandation de personnes d'esprit (pour la collaboration) et recommandation d'antagonistes (pour la génération de contre-idées

51 http://spigit.com/

52 http://www.brightidea.com/

53 http://www.innocentive.com/

54 http://www.imaginatik.com/

55 http://www.kaggle.com

56 http://witology.com/

57 http://www.wikivote.ru/

58 http://sberbank21.ru/

59 http://witology.com/en/clients_n_projects/3693/

étape). Le dernier type de recommandation est très important pour stimuler l'activité de l'utilisateur sur la plateforme Witology pendant la phase de génération de contre-idées.

7 FCA en modélisation ontologique et exploration d'attributs

Les applications de la FCA dans la modélisation ontologique et ses relations avec le Web sémantique méritent un traitement particulier. Cependant, nous mentionnons brièvement plusieurs approches intéressantes et présentons une technique interactive qui peut être utilisée pour le raffinement et la construction d'ontologies et de bases de connaissances.

  • Exploration d'attributs comme méthode d'acquisition de connaissances d'experts [234]
  • FCA dans la construction et l'affinage d'ontologies [235,79]

7.1 Exploration des attributs

L'exploration d'attributs est une procédure interactive d'acquisition de connaissances basée sur des implications et des contre-exemples [234] qui a été initialement appliquée pour l'acquisition de connaissances en mathématiques elle-même et qui reste un outil approprié à jour [236].

L'algorithme de base est le suivant:

  • Commencez avec n'importe quel ensemble d'objets (éventuellement vide).
  • Générez une implication valide dans le sous-contexte actuel.
  • Si l'implication n'est pas valide dans tout le contexte, fournissez un objet qui la viole (un contre-exemple).
  • Passez à l'implication suivante et ainsi de suite.

Une implémentation d'algorithme sophistiquée peut suivre la base de Duquenne-Guigues pour poser un nombre minimal de questions.

Exemple 29. Exploration d'attributs pour le contexte des moyens de transport.

Si tous les types de moyens de transport possibles sont énumérés en fonction de leurs attributs (surface, air, eau, sous-marin)?

À cette fin, nous commençons l'exploration des attributs en composant le contexte formel correspondant.

air de surface eau sous l'eau

avion ×

voiture amphibie × ×

catamaran ×

voiture × ×

sous-marin × ×

Les principales étapes de l'exploration des attributs, en tant que dialogue entre le système A et l'expert E pour le contexte de transport, sont les suivantes:

Fig. 28. La taxonomie des moyens de transport comme exemple d'hérédité non arborescente (multiple)

  • Étape 1. Une question: est-il vrai que lorsqu'un objet a l'attribut «Peut se déplacer sous l'eau», il a également l'attribut «Peut se déplacer par l'eau»?
  • Étape 1. E Réponse: Oui, ça l'est. L'expert sait que c'est vrai pour les sous-marins et qu'il n'y a pas d'autres types de transport sous-marin.
  • Étape 2. Une question: est-il vrai que, lorsqu'un objet possède les attributs «Peut se déplacer par l'air» et «Peut se déplacer par l'eau» a les attributs «Peut se déplacer par la surface» et «Peut se déplacer sous l'eau»?
  • Étape 2. E Réponse: Non, ce n'est pas le cas. Il y a un contre-exemple, l'hydravion J =

air, eau.

  • Étape 3. Une question: est-il vrai que, lorsqu'un objet a les attributs «Peut se déplacer par l'air», «Peut se déplacer par l'eau» «Peut se déplacer sous l'eau» a des attributs «Peut se déplacer par la surface»?
  • Étape 3. E Réponse: Oui, ça l'est. air, eau, sous-marin J =.
  • Étapes 4, 5, 6 Questions triviales.

Q

Le réseau conceptuel résultant peut être considéré comme une taxonomie non arborescente des moyens de transport car il permet un héritage multiple dans la hiérarchie conceptuelle. Si l'expert suppose que non seulement les objets mais aussi les attributs sont manqués, l'exploration des objets peut se faire de manière similaire, par exemple par la même procédure sur le contexte transposé.

Exercice 23. 1. Comparez les réseaux conceptuels de l'exemple précédent avant de commencer et après la fin de l'exploration des attributs. Quels sont les nouveaux concepts que nous avons obtenus? Comment peut-on / les interpréter? 2. Exploration d'attribut de performance avec ConceptExplorer pour un contexte légèrement modifié de [237]

Asie UE Européenne G7 Méditerranée

France × × × ×

Turquie × × ×

Allemagne × × ×

Q

7.2 FCA dans la construction et le réaménagement d'ontologies

Souvent, la notion d'ontologie en informatique est introduite en tant qu'ensembles de concepts apparentés et la relation typique peut être «is-a», «has-a», «part-of» ou relation super / subconcept. Les réseaux de concepts pourraient être considérés comme des structures de type ontologique car ils présentent des concepts liés hiérarchiquement par ordre super / sous-concept (cf. ordre de subsomption dans la logique descriptive). Cependant, en raison de leur simplicité, les ontologies arborescentes semblent être plus populaires, ainsi dans le premier article de Cimiano et al. [79], la façon de transformer les réseaux conceptuels construits à partir de collections de texte en ontologies arborescentes était proposé.

Exercice 24. Construire un réseau conceptuel à partir du contexte de termes extraits de textes (à gauche). Trouvez la transformation qui a abouti à l'ontologie arborescente des termes sur le côté droit.

réservable

joignable

Q

louable

conduite roulable

Un autre exemple où FCA peut aider est la fusion d'ontologies: les auteurs de [235] ont testé avec succès leur approche de fusion basée sur FCA sur deux collections de textes du domaine touristique.

Il existe également un lien étroit entre la logique de description, les ontologies et l'analyse de concept formelle [237].

Ainsi OntoComP60 [238] est un plugin Prot´eg´e61 4 pour la complétion des ontologies OWL. Il permet à l'utilisateur de vérifier si une ontologie OWL contient «toutes les informations pertinentes» sur le domaine d'application et d'étendre l'ontologie

autrement sinon. Il pose aux utilisateurs des questions telles que "les instances des classes C1 et C2 sont-elles également des instances de la classe C3?". Si l'utilisateur répond positivement, alors un nouvel axiome du domaine d'application (qui ne découle pas de l'ontologie) a été découvert, et cet axiome doit être ajouté à l'ontologie. Si l'utilisateur fournit un contre-exemple à cette question, c'est-à-dire un objet qui est une instance de C1, C2 et non C3. Lorsque toutes ces questions (sur les classes initialement données) ont été répondues, l'ontologie est censée être complète.

De toute évidence, cette approche qui a été introduite à l'origine dans [239] pour compléter les bases de connaissances de la logique de description utilise l'exploration d'attributs.

Il semble que l'exploration des attributs soit une technique fructueuse pour la construction et le raffinement d'ontologies. Deux autres exemples, Rudolph [240] a proposé son extension pour l'exploration des relations dans la modélisation ontologique pour la spécification des connaissances et récemment en combinaison avec des techniques d'apprentissage automatique, l'exploration d'attributs a été utilisée pour le raffinement de l'ontologie [241]. Vous avez probablement vu dans l'exercice23, que l'exploration des attributs peut être difficile à cause d'une vérification laborieuse des faits. Cependant, pour aider les utilisateurs potentiels, dans [242], les auteurs ont associé

ration avec la recherche d'informations sur le Web, notamment en posant des questions appropriées aux moteurs de recherche62.

8 Conclusion

À la fin de la conférence invitée à l'atelier «FCA meets IR» 2013, le professeur Carpineto a résumé les forces et les limites de la FCA pour les IR. Il semble évident que l'IR s'appuiera de plus en plus sur des connaissances contextuelles et des données structurées et que le FCA peut améliorer à la fois le prétraitement des requêtes et le post-traitement des requêtes des systèmes IR modernes. Parmi les technologies mentionnées qui pourraient bénéficier de la FCA figurent l'expansion des requêtes, la diversification de la recherche sur le Web, la recherche d'informations basées sur l'ontologie, l'interrogation et la navigation dans RDF (il y a un progrès à ce jour [243]), et bien d'autres. cependant,la communauté doit s'efforcer (par des avancées théoriques et l'ingénierie système) de déployer un outil complet basé sur FCA pour la recherche d'informations et de l'intégrer à la recherche et à l'indexation existantes en tenant compte à la fois des problèmes de complexité intrinsèque et du problème de la génération de bonnes fonctionnalités.

Même dans un didacticiel complet, il n'est pas possible de couvrir tous les modèles et toutes les applications de l'Analyse Formelle de Concept. Par exemple, les réseaux conceptuels et leurs applications dans les sciences sociales, y compris l'analyse des réseaux sociaux, méritent un traitement spécial. Les étapes de mise à la terre ont été effectuées par Vincent Duquenne [85], Linton Freeman [86] et leurs collaborateurs (voir également [89] pour notre étude sur le SCN). Un autre domaine vaste et intéressant est le génie logiciel [244,245].

60 http://code.google.com/p/ontocomp/

61 http://www.co-ode.org/downloads/protege-x/

62 https://github.com/rjoberon/web-attribute-exploration

Pour ces deux sujets et bien d'autres, nous renvoyons également les lecteurs aux enquêtes récentes [5,6].

Dans l'ensemble, nous espérons que ce matériel d'introduction avec de nombreux exemples et exercices aidera le lecteur non seulement à comprendre les bases de la théorie, mais aussi à disposer de cette riche variété d'outils et de vitrines pour utiliser FCA dans la pratique.

Remerciements. L'auteur tient à remercier tous les collègues qui ont rendu ce didacticiel possible: Jaume Baixeries, Pavel Braslavsky, Peter Becker, Radim Belohlavek, Aliaksandr Birukou, Jean-Francois Boulicaut, Claudio Carpineto, Florent Domenach, Fritjhof Dau, Vincent Duquenne, Bernhard Ganter, Katja Hofmann, Robert Jaeshke, Evgenia Revne (Il'ina), Nikolay Karpov, Mehdy Kaytoue, Sergei Kuznetsov, Rokia Missaoui, Elena Nenova, Engelbert Mephu Nguifo, Alexei Neznanov, Lhouari Nourin, Bjoern Koester, Natalia Konstantinova, Amedeo Sergei Obiedkov, Jonas Poelmans, Nikita Romashkin, Paolo Rosso, Sébastien Rudolph, Alexander Tuzhilin, Pavel Serdyukov, Baris Serkaya, Dominik Slezak, Marcin Szchuka et, enfin et surtout, les courageux auditeurs.L'auteur voudrait également commémorer Ilya Segalovich qui a inspiré l'enthousiasme de l'auteur dans les études de recherche d'informations, en donnant des explications personnelles sur les techniques de détection presque identiques en 2005, en particulier.

Un remerciement spécial doit être adressé à ma grand-mère, Vera, qui m'a hébergée dans un endroit paisible de la campagne, Prechistoe, au cours des deux dernières semaines des derniers préparatifs.

L'auteur a été partiellement soutenu par la Fondation russe pour la recherche de base. Subventions no. 13-07-00504 et 14-01-93960 et préparé le tutoriel dans le cadre du projet «Exploration de données basée sur des ontologies appliquées et des réseaux de descriptions fermées» soutenu par le programme de recherche fondamentale de la National Research University Higher School of Economics.

Références

1. Manning, CD, Raghavan, P., Schütze, H .: Introduction à la recherche d'informations. Cambridge University Press (2008)

2. Wille, R .: Théorie de la restructuration du réseau: une approche basée sur des hiérarchies de

concepts. In Rival, I., éd .: Ensembles ordonnés. Volume 83 de la série des instituts d'études avancées de l'OTAN. Springer Pays-Bas (1982) 445–470

3. Ganter, B., Wille, R .: Analyse conceptuelle formelle: fondements mathématiques. 1er

edn. Springer-Verlag New York, Inc., Secaucus, NJ, États-Unis (1999)

4. Poelmans, J., Ignatov, DI, Viaene, S., Dedene, G., Kuznetsov, SO: Text mining scientific papers: A survey on fca-based information retrieval research. Dans Perner, P., éd.: ICDM. Volume 7377 des notes de cours en informatique., Springer (2012) 273-287

5. Poelmans, J., Kuznetsov, SO, Ignatov, DI, Dedene, G .: Analyse formelle du concept

in knowledge processing: A survey on models and techniques. Expert Syst. Appl.

40 (16) (2013) 6601–6623

6. Poelmans, J., Ignatov, DI, Kuznetsov, SO, Dedene, G .: Analyse conceptuelle formelle du traitement des connaissances: enquête sur les applications. Expert Syst. Appl. 40 (16) (2013) 6538–6560

7. Serdyukov, P., Braslavski, P., Kuznetsov, SO, Kamps, J., Ru¨ger, SM, Agichtein, E., Segalovich, I., Yilmaz, E., éd.: Advances in Information Retrieval - 35e Conférence européenne sur la recherche infrarouge, ECIR 2013, Moscou, Russie, 24-27 mars 2013. Actes. Dans Serdyukov, P., Braslavski, P., Kuznetsov, SO, Kamps, J., Ru¨ger, SM, Agichtein, E., Segalovich, I., Yilmaz, E., éd.: ECIR. Volume 7814 des notes de cours en informatique., Springer (2013)

8. Arnauld, A., Nicole, P .: La logique ou l'art de penser, traduit par Jill V. Buroker. Cambridge University Press, (1996)

9. Birkhoff, G.: Lattice Theory (troisième éd.). Providence, RI: Amer. Math.Soc. (1967)

10. Ore, O .: Connexions Galois. Trans. Amer. Math. Soc. 55 (3) (1944) 494-513

11. Barbut, M., Monjardet, B .: Ordre et classification. Hachette, Paris (1970)

12. Duquenne, V.: Structures latticiennes dans l'analyse des données. Informatique théorique

217 (2) (1999) 407 - 436 ORDAL'96.

13. Wolski, M .: Connexions Galois et analyse des données. Fundam. Informer. 60 (1-4) (2004) 401–415

14. Kuznetsov, SO: Connexions galoisiennes dans l'analyse des données: contributions de l'ère soviétique et de la recherche russe moderne. Dans: Analyse conceptuelle formelle, fondements et applications. (2005) 196-225

15. Carpineto, C., Romano, G .: Analyse de données conceptuelles - théorie et applications. Wiley (2005)

16. Davey, BA, Priestley, HA: Introduction aux réseaux et à l'ordre. 2e édition edn. Cambridge University Press (2002)

17. Dominich, S .: L'algèbre moderne de la recherche d'information. 1 éd. Springer Publishing Company, Incorporated (2008)

18. Wolff, KE: Un premier cours en analyse de concept formelle. comment comprendre les diagrammes de lignes. Dans Faulbaum, F., éd.: Dans: Faulbaum, F. (éd.). Volume 4 de SoftStat'93. Progrès des logiciels statistiques. (1993) 429-438

19. Belohlavek, R .: Introduction à l'analyse conceptuelle formelle. Université Palacky, Olomouc. (2008)

20. Kuznetsov, SO, Obiedkov, SA: Comparaison des performances d'algorithmes pour la génération de réseaux conceptuels. J. Exp. Théor. Artif. Intell. 14 (2-3) (2002) 189-216

21. Kourie, DG, Obiedkov, SA, Watson, BW, van der Merwe, D .: Un algorithme incrémental pour construire un réseau d'intersections définies. Sci. Comput. Programme. 74 (3) (2009) 128–142

22. Krajca, P., Vychodil, V.: Algorithme distribué pour calculer des concepts formels en utilisant un cadre de réduction de carte. Dans: N. Adams et al. (Eds.): IDA 2009. Volume LNCS 5772. (2009) 333–344

23. Xu, B., de Frein, R., Robson, E., Foghlu, MO: Algorithmes d'analyse de concept formels distribués basés sur un cadre itératif mapreduce. Dans Domenach, F., Ignatov, D., Poelmans, J., éd.: ICFCA 2012. Volume LNAI 7278. (2012) 292-308

24. Armstrong, W.: Structures de dépendance des relations entre les bases de données. Traitement de l'information (74) (1974) 580–583

25. Maier, D .: The Theory of Relational Databases. Presse informatique (1983)

26. Guigues, JL, Duquenne, V.: Familles importantes d'implications informatives représentant un tableau de donnes binaires. Mathmatiques et Sciences Humaines 95 (1) (1986) 5–18 En français.

27. Bazhanov, K., Obiedkov, SA: Optimisations dans le calcul de la base d'implications de Duquenne-Guigues. Ann. Math. Artif. Intell. 70 (1-2) (2014) 5-24

28. Baixeries, J., Kaytoue, M., Napoli, A.: Caractérisation des dépendances de base de données avec FCA et structures de modèle. Dans: Analysis of Images, Social Networks and Texts - Third International Conference, AIST 2014, Iekaterinburg, Russia, 10-12 avril 2014, Revised Selected Papers. (2014) 3-14

29. Yevtushenko, SA: Système d'analyse de données «concept explorer». (en russe). Dans: Actes de la 7e conférence nationale sur l'intelligence artificielle KII-2000. (2000) 127–134

30. Yevtushenko, S .: Calcul et visualisation de réseaux conceptuels. Thèse de doctorat, TU Darmstadt, Fachbereich Informatik (2004)

31. Yevtushenko, SA: Concept Explorer. La notice. (12 septembre 2006)

32. Becker, P .: Analyse numérique dans les systèmes conceptuels avec toscanaj. Dans: Concept Lattices, Second International Conference on Formal Concept Analysis, ICFCA 2004, Sydney, Australie, 23-26 février 2004, Proceedings. (2004) 96-103

33. Becker, P., Correia, JH: La suite toscanaj pour la mise en œuvre de systèmes d'information conceptuels. Dans: Analyse conceptuelle formelle, fondements et applications. (2005) 324–348

34. Vogt, F., Wille, R .: TOSCANA - un outil graphique pour l'analyse et l'exploration des données. Dans: Graph Drawing, DIMACS International Workshop, GD '94, Princeton, New Jersey, USA, 10-12 octobre 1994, Proceedings. (1994) 226-233

35. Valtchev, P., Grosser, D., Roume, C., Hacene, MR: Galicia: a open platform for lattices. Dans: A. de Moor B. Ganter, éditeur, Using Conceptual Structures: Contributions to 11th Intl. Conférence sur les structures conceptuelles. (2003) 241–254

36. Lahcen, B., Kwuida., L .: Mineur en treillis: Un outil pour la construction et l'exploration de treillis conceptuels. Dans: Actes complémentaires de la Conférence internationale sur l'analyse formelle des concepts (ICFCA'10). (2010)

37. Poelmans, J., Elzinga, P., Ignatov, DI, Kuznetsov, SO: Découverte semi-automatisée des connaissances: identification et profilage de la traite des êtres humains. Int. J. Systèmes généraux 41 (8) (2012) 774–804

38. Poelmans, J., Elzinga, P., Neznanov, A., Viaene, S., Kuznetsov, S., Ignatov, D., Dedene, G .: Concept relation découverte et technologie permettant l'innovation (cordiet). Dans: Actes du 1er atelier international sur la découverte de concepts dans les données non structurées. Volume 757 des actes de l'atelier CEUR. (2011)

39. Neznanov, A., Ilvovsky, D., Kuznetsov, SO: Fcart: Un nouveau système basé sur fca pour l'analyse des données et la découverte des connaissances. Dans: Contributions à la 11e Conférence internationale sur l'analyse formelle de concepts, TU Dresden (2013) 31–44

40. Neznanov, A., Parinov, A .: Session d'analyste FCA et outils d'accès aux données dans FCART. Dans: Artificial Intelligence: Methodology, Systems, and Applications - 16th International Conference, AIMSA 2014, Varna, Bulgarie, 11-13 septembre 2014. Procédures. (2014) 214-221

41. Buzmakov, A., Neznanov, A .: Calcul pratique avec des structures de modèle dans un environnement FCART. Dans: Actes de l'atelier international "Que peut faire la FCA pour l'intelligence artificielle?" (FCA4AI à l'IJCAI 2013), Pékin, Chine, 5 août 2013. (2013) 49-56

42. Domenach, F .: CryptoLat - un logiciel pédagogique sur les cryptomorphismes du réseau et les propriétés du réseau. Dans: Actes de la dixième Conférence internationale sur les réseaux de concepts et leurs applications, La Rochelle, France, 15-18 octobre 2013. (2013) 93-103

43. Agrawal, R., Srikant, R .: Algorithmes rapides pour extraire les règles d'association dans les grandes bases de données. In Bocca, JB, Jarke, M., Zaniolo, C., éd.: VLDB, Morgan Kaufmann (1994) 487–499

44. Luxenburger, M .: Implications partielles dans un contexte. Math´ematiques, Informatique et Sciences Humaines 29 (113) (1991) 35–55

45. Jaschke, R., Hotho, A., Schmitz, C., Ganter, B., Stumme, G .: Trias – un algorithme

pour l'extraction des tri-réseaux d'icebergs. Dans: Actes de la sixième conférence internationale sur l'exploration de données. ICDM '06, Washington, DC, États-Unis, IEEE Computer Society (2006) 907–911

46. ​​Ignatov, DI, Kuznetsov, SO, Magizov, RA, Zhukov, LE: From triconcepts

aux triclusters. [246] 257–264

47. Ignatov, DI, Kuznetsov, SO, Poelmans, J., Zhukov, LE: Les triconcepts peuvent-ils devenir des triclusters? Journal international des systèmes généraux 42 (6) (2013) 572–593

48. Kuznetsov, SO: Apprentissage automatique et analyse de concept formelle. [247] 287–312

49. Ganter, B., Grigoriev, PA, Kuznetsov, SO, Samokhin, MV: Exploration de données basée sur un concept avec des graphiques étiquetés à l'échelle. In Wolff, KE, Pfeiffer, HD, Delugach, HS, éd.: ICCS. Volume 3127 des notes de cours en informatique., Springer (2004) 94-108

50. Kuznetsov, SO: Adapter les structures de modèles à la découverte de connaissances dans les mégadonnées.

Dans Cellier, P., Distel, F., Ganter, B., éd.: ICFCA. Volume 7880 des notes de cours en informatique., Springer (2013) 254–266

51. Belohl´avek, R., Vychodil, V .: Découverte de facteurs optimaux dans les données binaires via un

nouvelle méthode de décomposition matricielle. J. Comput. Syst. Sci. 76 (1) (2010) 3-20

52. Romashkin, N., Ignatov, DI, Kolotova, E .: Comment les candidats à l'université choisissent-ils leur département? extraction du processus d'admission à l'université avec les taxonomies FCA. Dans: Actes de la 4e Conférence internationale sur l'exploration de données sur l'éducation, Eindhoven, Pays-Bas, 6-8 juillet 2011. (2011) 229-234

53. Grigoriev, PA, Yevtushenko, SA: Quda: Application d’une analyse de concept formelle dans un

environnement d'exploration de données. [247] 386–393

54. Han, J., Kamber., M .: Exploration de données: concepts et techniques. Morgan Kaufmann (2000)

55. Agrawal, R., Imielin´ski, T., Swami, A .: Règles d'association minière entre des ensembles de

éléments dans de grandes bases de données. Dans: ACM SIGMOD Record. Volume 22 (2)., ACM (1993) 207-216

56. Pasquier, N., Bastide, Y., Taouil, R., Lakhal, L .: Exploitation minière efficace de l'association

règles utilisant des réseaux d'éléments fermés. Inf. Syst. 24 (1) (1999) 25–46

57. Zaki, MJ, Hsiao, CJ: Charme: Un algorithme efficace pour l'exploration de règles d'association fermée. Rapport technique, Informatique, Rensselaer Polytechnic Institute (1999)

58. Stumme, G.: Découverte de connaissances conceptuelles avec des réseaux de concepts fréquents.

Rapport technique FB4 - préimpression 2043, TU Darmstadt (1999)

59. Stumme, G., Taouil, R., Bastide, Y., Pasquier, N., Lakhal, L .: Calcul des réseaux de concepts d'icebergs avec T. Data Knowl. Eng. 42 (2) (2002) 189-222

60. Kuznetsov, S .: Aspects mathématiques de l'analyse de concept. Journal of Mathematical

Science 80 (2) (1996) 1654-1698

61. Lakhal, L., Stumme, G .: Exploitation efficace des règles d'association basées sur une analyse de concept formelle. Dans: Analyse conceptuelle formelle, fondements et applications. (2005) 180–195

62. Agrawal, R., Christoforaki, M., Gollapudi, S., Kannan, A., Kenthapadi, K.,

Swaminathan, A .: Extraction de vidéos du Web pour des manuels électroniques. Dans: Formal Concept Analysis - 12th International Conference, ICFCA 2014, Cluj-Napoca, Romania, 10-13 juin 2014. Actes. (2014) 219-234

63. Zaki, MJ, Wagner Meira, J .: Exploration et analyse de données: concepts fondamentaux

et algorithmes. Cambridge University Press (mai 2014)

64. Zaki, MJ: Spade: Un algorithme efficace pour extraire des séquences fréquentes. Apprentissage automatique 42 (2001) 31–60

65. Vander Wal, T.: Monnayage et définition de la folksonomie. (2007) http://vanderwal.net/folksonomy.html (consulté le 12.03.2012).

66. Mirkin, B .: Classification mathématique et regroupement. Kluwer, Dordrecht (1996)

67. Madeira, SC, Oliveira, AL: Algorithmes de biclustering pour l'analyse de données biologiques: une enquête. IEEE / ACM Trans. Comput. Biologie Bioinform. 1 (1) (2004) 24–45

68. Eren, K., Deveci, M., Kktun, O., atalyrek, .V.: Une analyse comparative des algorithmes de biclusage pour les données d'expression génique. Briefings en bioinformatique (2012)

69. Besson, J., Robardet, C., Boulicaut, JF, Rome, S .: Exploration conceptuelle basée sur les contraintes et son application à l'analyse de données de puces à ADN. Intell. Données Anal. 9 (1) (2005) 59–82

70. Barkow, S., Bleuler, S., Prelic, A., Zimmermann, P., Zitzler, E .: Bicat: une boîte à outils d'analyse biclusante. Bioinformatique 22 (10) (2006) 1282–1283

71. Tarca, AL, Carey, VJ, wen Chen, X., Romero, R., Drˇaghici, S .: L'apprentissage automatique et ses applications à la biologie. PLoS Comput Biol 3 (6) (juin 2007) e116

72. Hanczar, B., Nadif, M .: Bagging for biclustering: Application to microarray data. Dans: Apprentissage automatique et découverte des connaissances dans les bases de données. Volume 6321 de LNCS. Springer (2010) 490–505

73. Kaytoue, M., Kuznetsov, SO, Napoli, A., Duplessis, S .: Exploitation minière des données d'expression génique avec des structures de modèle dans l'analyse de concept formelle. Inf. Sci. 181 (10) (2011) 1989-2001

74. Blinova, VG, Dobrynine, DA, Finn, VK, Kuznetsov, SO, Pankratova, ES: Analyse toxicologique au moyen de la méthode jsm. Bioinformatique 19 (10) (2003) 1201–1207

75. Kuznetsov, S., Samokhin, M .: Apprendre des ensembles fermés de graphiques étiquetés pour des applications chimiques. Dans: ILP 2005. Volume 3625 de LNCS (LNAI)., Springer (2005) 190-208

76. DiMaggio, PA, Subramani, A., Judson, RS, Floudas, CA: Un nouveau cadre pour prédire les toxicités in vivo à partir de données in vitro en utilisant des méthodes optimales pour la réorganisation de la matrice dense et clairsemée et la régression logistique. Sciences toxicologiques 118 (1) (2010) 251–265

77. Asses, Y., Buzmakov, A., Bourquard, T., Kuznetsov, SO, Napoli, A .: Une approche de classification hybride basée sur l'AFC et les modèles émergents - une application pour la classification des inhibiteurs biologiques. Dans: Actes du 9th Int. Conf. sur les treillis conceptuels et leurs applications. (2012) 211-222

78. Dhillon, IS: Co-regroupement de documents et de mots à l'aide de la partition de graphe spectral bipartite. Dans: Actes de la septième conférence internationale ACM SIGKDD sur la découverte des connaissances et l'exploration de données. KDD '01, New York, NY, USA, ACM (2001) 269-274

79. Cimiano, P., Hotho, A., Staab, S .: apprentissage des hiérarchies de concepts à partir de corpus de texte à l'aide d'une analyse de concept formelle. J. Artif. Intell. Res. (JAIR) 24 (2005) 305–339

80. Banerjee, A., Dhillon, IS, Ghosh, J., Merugu, S., Modha, DS: une approche d'entropie maximale généralisée pour le regroupement de Bregman et l'approximation de matrice. Journal of Machine Learning Research 8 (2007) 1919–1986

81. Ignatov, DI, Kuznetsov, SO: Exploration fréquente d'éléments pour le regroupement à proximité de documents Web en double. [248] 185–200

82. Carpineto, C., Michini, C., Nicolussi, R .: Un concept basé sur un réseau en treillis pour la classification de texte SVM. Dans: ICFCA 2009. Volume LNAI 5548., Springer (2009) 237–250

83. Koester, B .: Récupération de connaissances conceptuelles avec fooca: Amélioration des résultats des moteurs de recherche Web avec des contextes et des hiérarchies de concepts. In Perner, P., ed.: Conférence industrielle sur l'exploration de données. Volume 4065 des notes de cours en informatique., Springer (2006) 176-190

84. Eklund, PW, Ducrou, J., Dau, F .: similitude de concept et catégories apparentées

récupération d'informations à l'aide d'une analyse conceptuelle formelle. Int. J. General Systems 41 (8) (2012) 826–846

85. Duquenne, V.: Analyse du réseau et représentation des associations de personnes handicapées.

Réseaux sociaux 18 (3) (1996) 217-230

86. Freeman, LC: Cliques, réseaux galoisiens et structure des groupes sociaux humains. Réseaux sociaux 18 (1996) 173–187

87. Latapy, M., Magnien, C., Vecchio, ND: Notions de base pour l'analyse des grands

réseaux à deux modes. Réseaux sociaux 30 (1) (2008) 31–48

88. Roth, C., Obiedkov, SA, Kourie, DG: Sur la représentation succincte des taxonomies communautaires du savoir avec analyse formelle du concept. Int. J. Trouvé. Com- put. Sci. 19 (2) (2008) 383–404

89. Gnatyshak, D., Ignatov, DI, Semenov, A., Poelmans, J .: Gaining insight in social

réseaux avec biclustering et triclustering. Dans: BIR. Volume 128 des notes de cours en traitement de l'information commerciale., Springer (2012) 162–171

90. du Boucher-Ryan, P., Bridge, DG: collaboration recommandant l'utilisation formelle

Analyse de concept. Syst. Basé sur la connaissance 19 (5) (2006) 309–315

91. Symeonidis, P., Nanopoulos, A., Papadopoulos, AN, Manolopoulos, Y .: Filtrage collaboratif des biclusters les plus proches basé sur des valeurs constantes et cohérentes. Inf. Retr. 11 (1) (2008) 51–75

92. Ignatov, DI, Kuznetsov, SO: Recommandations conceptuelles pour Internet

Publicité. Dans Belohlavek, R., Kuznetsov, SO, éd.: Proc. CLA 2008. Volume Vol. 433 de CEUR WS., Université Palack, Olomouc, 2008 (2008) 157–166

93. Nanopoulos, A., Rafailidis, D., Symeonidis, P., Manolopoulos, Y .: Musicbox:

Recommandation musicale personnalisée basée sur une analyse cubique des tags sociaux. Transactions de l'IEEE sur le traitement audio, vocal et linguistique 18 (2) (2010) 407–412

94. Ignatov, DI, Nenova, E., Konstantinova, N., Konstantinov, AV: matrice booléenne

Factorisation pour le filtrage collaboratif: une approche basée sur FCA. Dans: Intelligence artificielle: méthodologie, systèmes et applications. Volume 8722 de LNCS. Springer (2014) 47-58

95. Ignatov, DI: Modèles mathématiques, algorithmes et outils logiciels de Biclus-

basé sur des ensembles fermés. Thèse de doctorat, École supérieure d'économie de l'Université nationale de recherche (2010)

96. Ignatov, DI, Kuznetsov, SO, Poelmans, J .: Concept de biclustering basé sur le concept

publicité nette. Dans: Ateliers ICDM, IEEE Computer Society (2012) 123–130

97. Benz, D., Hotho, A., Jaschke, R., Krause, B., Mitzlaff, F., Schmitz, C., Stumme, G .: The social bookmark and publication management system bibsonomy - A platform for evaluating et démontrer la recherche sur le Web 2.0. VLDB J. 19 (6) (2010) 849–875

98. Zhao, L., Zaki, MJ: Tricluster: un algorithme efficace pour extraire des grappes cohérentes dans des données de microréseaux 3D. In O¨ zcan, F., éd.: Conférence SIGMOD, ACM (2005)

694–705

99. Li, A., Tuck, D .: Un algorithme de tri-clustering efficace combinant les données d'expression avec les informations de régulation des gènes. Régulation des gènes et biologie des systèmes 3 (2009) 49–64

100. Wille, R .: Le théorème de base de l'analyse conceptuelle triadique. Ordonnance 12 (1995)

149–158

101. Lehmann, F., Wille, R .: Une approche triadique de l'analyse conceptuelle formelle. Dans: Actes de la troisième Conférence internationale sur les structures conceptuelles: applications, mise en œuvre et théorie, Londres, Royaume-Uni, Springer-Verlag (1995) 32–43

102. Krolak-Schwerdt, S., Orlik, P., Ganter, B.: Tripat: un modèle pour l'analyse de données binaires à trois modes. Dans Bock, HH, Lenski, W., Richter, M., éd.: Information Systems and Data Analysis. Études en classification, analyse de données et organisation des connaissances. Springer Berlin Heidelberg (1994) 298-307

103. Ji, L., Tan, KL, Tung, AKH: Extraction fréquente de cubes fermés dans des ensembles de données 3D. Dans: Actes de la 32e conférence internationale sur les très grandes bases de données. VLDB '06, Dotation VLDB (2006) 811–822

104. Cerf, L., Besson, J., Robardet, C., Boulicaut, JF: Les modèles fermés rencontrent des relations n-aires. ACM Trans. Knowl. Découvrir. Donnée 3 (mars 2009) 3: 1–3: 36

105. Cerf, L., Besson, J., Nguyen, KN, Boulicaut, JF: Modèles fermés et tolérants au bruit dans les relations n-aires. Données min. Knowl. Découvrir. 26 (3) (2013) 574–619

106. Georgii, E., Tsuda, K., Sch¨olkopf, B: énumération d'ensemble à plusieurs voies en ténors de poids. Apprentissage automatique 82 (2) (2011) 123-155

107. Spyropoulou, E., De Bie, T., Boley, M.: Exploration de patrons intéressante dans les données multi-relationnelles. Exploration de données et découverte des connaissances 28 (3) (2014) 808–849

108. Voutsadakis, G .: Analyse de concept polyadique. Ordonnance 19 (3) (2002) 295-304

109. Ignatov, D., Gnatyshak, D., Kuznetsov, S., Mirkin, B .: Analyse conceptuelle formelle triadique et triclustering: recherche de modèles optimaux. Apprentissage automatique (2015) 1–32

110. Mirkin, B., Kramarenko, AV: Boîtes approximatives de bicluster et de tricluster dans l'analyse des données binaires. [246] 248–256

111. Gnatyshak, D., Ignatov, DI, Kuznetsov, SO: De la fca triadique au triclustering: comparaison expérimentale de certains algorithmes de triclustering. [249] 249–260

112. Gnatyshak, DV, Ignatov, DI, Kuznetsov, SO, Nourine, L .: Une approche triclusante en un seul passage: y a-t-il de la place pour le Big Data? Dans: CLA 2014. (2014)

113. Ganter, B., Kuznetsov, SO: Hypothèses et espaces de versions. In de Moor, A., Lex, W., Ganter, B., éd.: ICCS. Volume 2746 des notes de cours en informatique., Springer (2003) 83–95

114. Belohl´avek, R., Baets, BD, Outrata, J., Vychodil, V .: Induire des arbres de décision via des réseaux de concepts. Int. J. General Systems 38 (4) (2009) 455–467

115. Carpineto, C., Romano, G .: Galois: Une approche d'ordre théorique de la classification conceptuelle. Dans: Proceeding of ICML93, Amherst. (1993) 33–40

116. Carpineto, C., Romano, G .: Un système de clustering conceptuel en treillis et son application à la recherche par navigation. Machine Learning Vol. 24 (1996) 95-122

117. Fu, H., Fu, H., Njiwoua, P., Nguifo, EM: A Comparative Study of FCA-Based Supervised Classification Algorithms. Dans: 2nd Int. Conf. on Formal Concept Analysy, ICFCA 2004, Sydney, Australie, 23-26 février 2004, Proceedings. (2004) 313-320

118. Rudolph, S .: Utilisation de FCA pour coder des opérateurs de fermeture dans des réseaux de neurones. Dans: 15e Conférence internationale sur les structures conceptuelles, ICCS 2007, Sheffield, Royaume-Uni, 22-27 juillet 2007, Actes. (2007) 321-332

119. Tsopz´e, N., Nguifo, EM, Tindo, G .: CLANN: concept de réseau neuronal artificiel basé sur un réseau pour une classification supervisée. Dans: Actes du 5e Int. Conf. sur les treillis conceptuels et leurs applications, CLA 2007. (2007)

120. Outrata, J .: Analyse factorielle booléenne pour le prétraitement des données dans l'apprentissage automatique. In: The Ninth International Conference on Machine Learning and Applications, ICMLA 2010, Washington, DC, États-Unis, 12-14 décembre 2010. (2010) 899–902

121. Belohl´avek, R., Outrata, J., Trnecka, M .: Impact de la factorisation booléenne comme méthodes de prétraitement pour la classification des données booléennes. Ann. Math. Artif. Intell. 72 (1-2) (2014) 3–22

122. Ganter, B., Kuznetsov, SO: Échelle grossissant comme sélection de caractéristiques. Dans: Actes de la 6e Conférence internationale sur l'analyse formelle des concepts. ICFCA'08, Berlin, Heidelberg, Springer-Verlag (2008) 217-228

123. Visani, M., Bertet, K., Ogier, J .: Navigala: un classificateur de symboles original basé sur la navigation à travers un réseau de Galois. IJPRAI 25 (4) (2011) 449–473

124. Zaki, MJ, Aggarwal, CC: Xrules: un algorithme efficace pour la classification structurelle des données XML. Apprentissage automatique 62 (1-2) (2006) 137-170

125. Flach, P .: Apprentissage automatique: l'art et la science des algorithmes qui donnent un sens aux données. Cambridge University Press, New York, NY, États-Unis (2012)

126. Finn, V.: Sur la formalisation orientée machine du raisonnement plausible dans le style f.bacon-jsmill. Semiotika i Informatika (20) (1983) 35-101 (en russe).

127. Kuznetsov, S .: Jsm-method as a machine learning. Méthode. Itogi Nauki i Tekhniki, ser. Informatika (15) (1991) 17-53 (en russe).

128. Gusakova, S .: Paléographie avec méthode jsm. Rapport technique, VINITI (2001)

129. Ganter, B., Kuznetsov, S .: Formaliser des hypothèses avec des concepts. Dans Ganter, B., Mineau, G., éd.: Structures conceptuelles: questions logiques, linguistiques et informatiques. Volume 1867 de notes de cours en informatique. Springer Berlin Heidelberg (2000) 342–356

130. Zhuk, R., Ignatov, DI, Konstantinova, N .: Concept d'apprentissage à partir de données triadiques. Dans: Actes de la deuxième conférence internationale sur les technologies de l'information et la gestion quantitative, ITQM 2014, École supérieure d'économie de l'Université nationale de recherche (HSE), Moscou, Russie, du 3 au 5 juin 2014. (2014) 928–938

131. Ignatov, DI, Zhuk, R., Konstantinova, N .: Apprendre des hypothèses à partir de données triadiques marquées. In: 2014 IEEE / WIC / ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT), Varsovie, Pologne, 11-14 août 2014 - Volume I. (2014) 474–480

132. Ganter, B., Kuznetsov, SO: Structures de motifs et leurs projections. Dans: Concep- tual Structures: Broadening the Base, 9th International Conference on Conceptual Structures, ICCS 2001, Stanford, CA, USA, 30 juillet-3 août 2001, Actes. (2001) 129–142

133. Buzmakov, A., Egho, E., Jay, N., Kuznetsov, SO, Napoli, A., Ra¨ıssi, C .: Sur les projections de structures séquentielles (avec une application sur les trajectoires de soins). [249] 199-208

134. Kuznetsov, SO: Découverte évolutive de connaissances dans des données complexes avec des structures de modèle. Dans: Pattern Recognition and Machine Intelligence - 5th International Conference, PReMI 2013, Kolkata, Inde, 10-14 décembre 2013. Actes. (2013) 30–39

135. Strok, F., Galitsky, B., Ilvovsky, D., Kuznetsov, S .: Projection de structure de modèle pour l'apprentissage des structures du discours. Dans Agre, G., Hitzler, P., Krisnadhi, A., Kuznetsov, S., éd.: Intelligence artificielle: Méthodologie, systèmes et applications. Volume 8722 des notes de cours en informatique. Springer International Publishing (2014) 254-260

136. Belohl´avek, R .: Qu'est-ce qu'un réseau de concept flou? II. [246] 19-26

137. Kent, RE: Analyse conceptuelle approximative: synthèse d'ensembles approximatifs et analyse conceptuelle formelle. Fundam. Informer. 27 (2/3) (1996) 169–181

138. Poelmans, J., Ignatov, DI, Kuznetsov, SO, Dedene, G .: Analyse de concept formelle floue et approximative: une enquête. Int. J. General Systems 43 (2) (2014) 105–134

139. Pankratieva, VV, Kuznetsov, SO: Relations entre les concepts proto-flous, les concepts flous générés de façon précise et les structures de motifs d'intervalles. Fundam. Informer. 115 (4) (2012) 265-277

140. Koren, Y., Bell, R., Volinsky, C .: Techniques de factorisation matricielle pour les systèmes de recommandation. Ordinateur 42 (8) (2009) 30–37

141. Elden, L .: Méthodes matricielles en exploration de données et reconnaissance de formes. Société de mathématiques industrielles et appliquées (2007)

142. Hofmann, T.: Apprentissage non supervisé par analyse sémantique latente probabiliste. Apprentissage automatique 42 (1-2) (2001) 177–196

143. Koren, Y .: La factorisation rencontre le quartier: un modèle de filtrage collaboratif multiforme. Dans: Actes de la 14e conférence internationale ACM SIGKDD sur la découverte des connaissances et l'exploration de données. KDD '08, New York, NY, USA, ACM (2008) 426–434

144. Lin, CJ: Méthodes de gradient projetées pour la factorisation matricielle non négative. Neu- ral Comput. 19 (10) (octobre 2007) 2756–2779

145. Nenova, E., Ignatov, DI, Konstantinov, AV: une factorisation de la matrice booléenne basée sur fca pour le filtrage collaboratif. Dans: International Workshop FCA meets IR at ECIR 2013. Volume Vol. 977, Actes de l'atelier CEUR. (2013) 57–73

146. Belohl´avek, R., Glodeanu, C., Vychodil, V.: Factorisation optimale des données binaires à trois voies à l'aide de concepts triadiques. Ordonnance 30 (2) (2013) 437–454

147. Miettinen, P .: factorisation du tenseur booléen. In Cook, D., Pei, J., Wang, W., Za¨ıane, O., Wu, X., eds .: ICDM 2011, 11th IEEE International Conference on Data Mining, Vancouver, Canada, IEEE Computer Society, CPS (2011) 447–456

148. Ignatov, DI, Mamedova, S., Romashkin, N., Shamshurin, I .: Que peuvent dire des groupes fermés d'élèves et leurs notes? Dans: Actes de la 4e Conférence internationale sur l'exploration de données sur l'éducation, Eindhoven, Pays-Bas, 6-8 juillet 2011. (2011) 223-228

149. Grigoriev, P., Yevtushenko, S., Grieser, G .: QuDA, a Data Miners Discovery Environment. Rapport technique AIDA-03-06, Technische Universit¨at Darmstadt (2003)

150. Grigoriev, PA, Yevtushenko, SA: Éléments d'un environnement de découverte agile. Dans: Discovery Science, 6th International Conference, DS 2003, Sapporo, Japon, 17-19 octobre 2003, compte rendu. (2003) 311-319

151. Grigoriev, P., Kuznetsov, S., Obiedkov, S., Yevtushenko, S .: Sur une version de la méthode de différence de l'usine. Dans: Proc. ECAI 2002 Workshop on Concept Lattices in Data Mining, Lyon. (2002) 26–31

152. Mooers, CN: Une théorie mathématique des symboles du langage dans la récupération. Dans: Proc. Int. Conf. Information scientifique, Washington DC (1958)

153. Fairthorne, RA: Les modèles de récupération. American Documentation 7 (2) (1956) 65–70

154. Shreider, Y .: Modèle mathématique de la théorie de la classification. VINITI, Moscou, (1968) 1–36 (en russe).

155. Soergel, D .: Analyse mathématique des systèmes de documentation. Inf. Stor. Retr. (3) (1967) 129-173

156. Godin, R., Saunders, E., Gecsei, J .: Modèle de réseau d'espaces de données consultables. Inf. Sci. 40 (2) (1986) 89-116

157. Carpineto, C., Romano, G .: Utilisation de réseaux conceptuels pour la recherche et l'extraction de texte. Dans: Analyse conceptuelle formelle, fondements et applications. (2005) 161-179

158. Priss, U .: Analyse conceptuelle formelle en science de l'information. ARIST 40 (1) (2006) 521–543

159. Valverde-Albacete, FJ, Pelaez-Moreno, C .: Systèmes vs méthodes: une analyse des avantages de l'analyse conceptuelle formelle pour la recherche d'informations? Dans: Proc. de l'Int. Atelier sur la FCA pour l'IR à l'ECIR 2013, HSE, Moscou. (2013)

160. Ferr, S .: Camelis: Organiser et parcourir une collection de photos personnelles avec un système d'information logique. Dans Eklund, PW, Diatta, J., Liquiere, M., éd.: CLA. Volume 331 of CEUR Workshop Proceedings., CEUR-WS.org (2007)

161. Hotho, A., Jaschke, R., Schmitz, C., Stumme, G .: Recherche d'informations dans les sonomies folkloriques: recherche et classement. Dans Sure, Y., Domingue, J., éd.: ESWC. Volume 4011 des notes de cours en informatique., Springer (2006) 411–426

162. Ignatov, DI, Konstantinov, AV, Chubis, Y .: Détection de quasi-doublons pour les propriétaires de boutiques en ligne: une approche basée sur fca. [7] 722–725

163. Kuznetsov, SO, Ignatov, DI: Concept de stabilité pour la construction de taxonomies d'utilisateurs de sites Web. dans Proc. Analyse des réseaux sociaux et structures conceptuelles: explorer les opportunités, S. Obiedkov, C. Roth (éd.), Clermont-Ferrand (France), 16 février 2007 (2007)

164. Ignatov, DI, Kaminskaya, AY, Bezzubtseva, AA, Konstantinov, AV, Poemans, J .: Modèles basés sur Fca et prototype de système d'analyse de données pour les plateformes de crowdsourcing. [250] 173–192

165. Carpineto, C., Romano, G .: Une étude de l'expansion automatique des requêtes dans la recherche d'informations. ACM Comput. Surv. 44 (1) (2012) 1

166. Carpineto, C., Romano, G .: Classement par ordre théorique. JASIS 51 (7) (2000) 587– 601

167. Carpineto, C., Osinski, S., Romano, G., Weiss, D .: Une étude des moteurs de clustering Web. ACM Comput. Surv. 41 (3) (2009)

168. Carpineto, C., Romano, G .: Exploiter le potentiel des réseaux de concepts pour la recherche d'informations avec CREDO. J. UCS 10 (8) (2004) 985-1013

169. Ducrou, J., Eklund, PW: Searchsleuth: Le voisinage conceptuel d'une requête Web. Dans: Actes de la cinquième conférence internationale sur les réseaux de concepts et leurs applications, CLA 2007, Montpellier, France, 24-26 octobre 2007. (2007)

170. Dau, F., Ducrou, J., Eklund, PW: similitude de concept et catégories connexes dans searchsleuth. Dans: Structures conceptuelles: Visualisation et raisonnement des connaissances, 16e Conférence internationale sur les structures conceptuelles, ICCS 2008, Toulouse, France, 7-11 juillet 2008, Actes. (2008) 255-268

171. Nauer, E., Toussaint, Y .: Crechaindo: un système itératif et interactif de recherche d'informations sur le Web basé sur des réseaux. Int. J. General Systems 38 (4) (2009) 363–378

172. Kim, M., Compton, P .: Gestion évolutive des documents et récupération de domaines spécialisés sur le Web. Int. J. Hum.-Comput. Goujon. 60 (2) (2004) 201– 241

173. Kim, M., Compton, P .: Un mécanisme de navigation hybride utilisant des échelles conceptuelles. Dans: Advances in Knowledge Acquisition and Management, Pacific Rim Knowledge Acquisition Workshop, PKAW 2006, Guilin, Chine, 7-8 août 2006, Revised Selected Papers. (2006) 132–143

174. Cigarr´an, JM, Gonzalo, J., Pen˜as, A., Verdejo, F .: Parcourir les résultats de la recherche via une analyse de concept formelle: sélection automatique des attributs. [247] 74–87

175. Cole, RJ, Eklund, PW, Stumme, G.: Récupération de documents pour la recherche et la découverte de courriels à l'aide d'une analyse de concept formelle. Intelligence artificielle appliquée 17 (3) (2003) 257–280

176. Cole, RJ, Eklund, PW: Parcourir des textes Web semi-structurés à l'aide d'une analyse de concept formelle. Dans: Structures conceptuelles: élargir la base, 9th International

Conférence sur les structures conceptuelles, ICCS 2001, Stanford, CA, USA, 30 juillet-3 août 2001, Actes. (2001) 319-332

177. Eklund, PW, Cole, RJ: une représentation des connaissances pour le filtrage de l'information à l'aide d'une analyse conceptuelle formelle. Électron. Trans. Artif. Intell. 4 (C) (2000) 51–61

178. Eklund, PW, Ducrou, J., Brawn, P .: Réseaux conceptuels pour la visualisation de l'information: les novices peuvent-ils lire les schémas linéaires? [247] 57–73

179. Eklund, PW, Wormuth, B .: Restructuration des systèmes d'aide à l'aide de l'analyse conceptuelle formelle. Dans: Formal Concept Analysis, Third International Conference, ICFCA 2005, Lens, France, 14-18 février 2005, Proceedings. (2005) 129–144

180. Stojanovic, N.: Sur le raffinement de la requête dans la recherche d'information basée sur l'ontologie. Inf. Syst. 30 (7) (2005) 543–563

181. Spyratos, N., Meghini, C .: Réglage des requêtes basé sur les préférences par raffinement / agrandissement dans un contexte formel. Dans: Foundations of Information and Knowl- edge Systems, 4th International Symposium, FoIKS 2006, Budapest, Hongrie, 14-17 février 2006, Actes. (2006) 278-293

182. Grand, BL, Aufaure, M., Soto, M .: Recherche d'informations sémantiques et conceptuelles sensibles au contexte. In: Advanced Internet Based Systems and Applications, Second International Conference on Signal-Image Technology and Internet-Based Systems, SITIS 2006, Hammamet, Tunisie, 17-21 décembre 2006, Revised Select Papers. (2006) 247–258

183. Eklund, PW, Ducrou, J .: Navigation et annotation avec analyse conceptuelle formelle. Dans: Knowledge Acquisition: Approaches, Algorithms and Applications, Pacific Rim Knowledge Acquisition Workshop, PKAW 2008, Hanoi, Vietnam, 15-16 décembre 2008, Revised Selected Papers. (2008) 118-121

184. Cigarr´an, JM, Pen˜as, A., Gonzalo, J., Verdejo, F .: Sélection automatique de phrases nominales comme descripteurs de documents dans un système de recherche d'informations basé sur fca. Dans: Formal Concept Analysis, Third International Conference, ICFCA 2005, Lens, France, 14-18 février 2005, Proceedings. (2005) 49–63

185. Recio-Garc´ıa, JA, Gomez-Mart´ın, MA, D´ıaz-Agudo, B., Gonz´alez-Calero, PA: amélioration de l'annotation dans le Web sémantique et création de cas dans le CBR textuel. Dans: Advances in Case-Based Reasoning, 8th European Conference, ECCBR 2006, Fethiye, Turquie, 4-7 septembre 2006, Proceedings. (2006) 226-240

186. Liu, M., Shao, M., Zhang, W., Wu, C .: Méthode de réduction des réseaux conceptuels basée sur la théorie des ensembles bruts et son application. Ordinateurs et mathématiques avec applications 53 (9) (2007) 1390–1410

187. Lungley, D., Kruschwitz, U .: Connaissance du domaine maintenue automatiquement: premiers résultats. Dans: Advances in Information Retrieval, 31th European Conference on IR Research, ECIR 2009, Toulouse, France, 6-9 avril 2009. Actes. (2009) 739–743

188. Ahmad, I., Jang, T .: Récupération d'images textuelles à l'ancienne à l'aide de FCA. Dans: ICIP (3). (2003) 33–36

189. Ducrou, J., Vormbrock, B., Eklund, PW: navigation et recherche basées sur Fca dans une collection d'images. Dans: Structures conceptuelles: inspiration et application, 14e Conférence internationale sur les structures conceptuelles, ICCS 2006, Aalborg, Danemark, 16-21 juillet 2006, Actes. (2006) 203-214

190. Ducrou, J .: Dvdsleuth: étude de cas en analyse de concept formelle appliquée pour la navigation dans les catalogues Web. Dans: Structures conceptuelles: Architectures de connaissances pour des applications intelligentes, 15e Conférence internationale sur les structures conceptuelles, ICCS 2007, Sheffield, Royaume-Uni, 22-27 juillet 2007, Actes. (2007) 496-500

191. Amato, G., Meghini, C .: Récupération d'images à base de contenu à facettes. In: 19e atelier international sur les applications de bases de données et de systèmes experts (DEXA 2008), 1-5 septembre 2008, Turin, Italie. (2008) 402–406

192. Ferr´e, S .: Camelis: un système d'information logique pour organiser et parcourir une collection de documents. Int. J. General Systems 38 (4) (2009) 379–403

193. Poelmans, J., Elzinga, P., Viaene, S., Dedene, G .: Analyse formelle des concepts de violence domestique. Expert Syst. Appl. 38 (4) (2011) 3116–3130

194. Wolff, KE: États, transitions et traces de vie dans l'analyse de concept temporel. Dans: Analyse conceptuelle formelle, fondements et applications. (2005) 127–148

195. Elzinga, P., Poelmans, J., Viaene, S., Dedene, G., Morsing, S .: Évaluation de la menace terroriste avec analyse formelle du concept. Dans: IEEE International Conference on Intelligence and Security Informatics, ISI 2010, Vancouver, BC, Canada, 23-26 mai 2010, Proceedings. (2010) 77–82

196. Elzinga, P., Wolff, KE, Poelmans, J .: Analyse des conversations de chat des pédophiles avec des systèmes sémantiques relationnels temporels. In: 2012 European Intelligence and Security Informatics Conference, EISIC 2012, Odense, Danemark, 22-24 août 2012. (2012) 242–249

197. Bullens, R., Van Horn, J .: Daad uit liefde: Gedwongen prostitutie van jonge meisjes. Justitiele Verkenningen 26 (6) (2000) 25–41

198. Koester, B., Schmidt, S .: Supériorité de l'information via une analyse de concept formelle. Dans Argamon, S., Howard, N., éd.: Computational Methods for Counterterrorism. Springer Berlin Heidelberg (2009) 143-171

199. Obiedkov, SA, Kourie, DG, Eloff, JHP: Création de modèles de contrôle d'accès avec exploration d'attributs. Ordinateurs et sécurité 28 (1-2) (2009) 2–7

200. Dau, F., Knechtel, M .: Conception de politique d'accès prise en charge par les méthodes FCA. [248] 141–154

201. Zhukov, LE: Regroupement spectral de grands ensembles de données d'annonceurs. Rapport technique, Overture R&D (avril 2004)

202. Sarwar, BM, Karypis, G., Konstan, JA, Riedl, J .: Analyse des algorithmes de recommandation pour le commerce électronique. Dans: Conférence ACM sur le commerce électronique. (2000) 158-167

203. Besson, J., Robardet, C., Boulicaut, JF, Rome, S .: Exploitation minière à deux ensembles basée sur les contraintes pour la découverte de modèles biologiquement pertinents dans les données de microréseaux. Journal Intelligent Data Analysis 9 (1) (2005) 59–82

204. Szathmary, L., Napoli, A .: CORON: A Framework for Levelwise Itemset Mining Algorithms. Dans: Suppl. Proc. ICFCA '05, Lens, France. (Février 2005) 110–113

205. Szathmary, L., Napoli, A., Kuznetsov, SO: ZART: A Multifunctional Itemset Mining Algorithm. Dans: Proc. du 5e Intl. Conf. sur les réseaux de concepts et leurs applications (CLA '07), Montpellier, France (oct. 2007) 26–37

206. Crystal, D .: Un dictionnaire de linguistique et de phonétique. troisième éd. Oxford: Blackwell Publishers (1991)

207. Symeonidis, P., Ruxanda, MM, Nanopoulos, A., Manolopoulos, Y .: Analyse sémantique ternaire des balises sociales pour une recommandation musicale personnalisée. In Bello, JP, Chew, E., Turnbull, D., éd.: ISMIR. (2008) 219-224

208. Alqadah, F., Reddy, C., Hu, J., Alqadah, H .: Méthode de filtrage collaboratif basé sur le voisinage de biclustering pour les systèmes de recommandation top-n. Systèmes de connaissances et d'information (2014) 1–17

209. Adomavicius, G., Tuzhilin, A .: Vers la prochaine génération de systèmes de recommandation: une étude de l'état de l'art et des extensions possibles. IEEE Trans. sur Knowl. et Data Eng. 17 (6) (juin 2005) 734–749

210. Ignatov, DI, Poelmans, J., Dedene, G., Viaene, S .: Une nouvelle technique de validation croisée pour évaluer la qualité des systèmes de recommandation. Dans Kundu, M., Mitra, S., Mazumdar, D., Pal, S., éd.: Perception and Machine Intelligence. Volume 7143 des notes de cours en informatique. Springer Berlin Heidelberg (2012) 195-202

211. Brin, S., Davis, J., Garc´ıa-Molina, H .: Mécanismes de détection de copie pour les documents numériques. SIGMOD Rec. 24 (2) (mai 1995) 398–409

212. Broder, AZ, Glassman, SC, Manasse, MS, Zweig, G.: Groupement syntaxique du Web. Réseaux informatiques 29 (8-13) (1997) 1157–1166

213. Ilyinsky, S., Kuzmin, M., Melkov, A., Segalovich, I .: Une méthode efficace pour détecter les doublons de documents Web à l'aide d'un index inversé. Dans: Proc. 11th Int. Conférence World Wide Web (WWW'2002), Honolulu, Hawaii, USA, 7-11 mai 2002, ACM (2002)

214. Broder, AZ, Charikar, M., Frieze, AM, Mitzenmacher, M .: Permutations indépendantes min-sage (résumé étendu). Dans: Actes du trentième symposium annuel de l'ACM sur la théorie de l'informatique, Dallas, Texas, États-Unis, 23-26 mai 1998. (1998) 327–336

215. Broder, AZ: Identification et filtrage des documents presque en double. Dans: Combinato- rial Pattern Matching, 11th Symposium annuel, CPM 2000, Montréal, Canada, 21-23 juin 2000, Actes. (2000) 1–10

216. Grahne, G., Zhu, J .: Utiliser efficacement les arbres de préfixe dans l'extraction de jeux d'articles fréquents. Dans: FIMI '03, Frequent Itemset Mining Implementation, Actes de l'atelier ICDM 2003 sur Frequent Itemset Mining Implementation, 19 décembre 2003, Melbourne, Florida, USA. (2003)

217. Karypis, G.: Cluto. une boîte à outils de clustering. Rapport technique: 2-017 MN 55455, Université du Minnesota, Département d'informatique Minneapolis (28 novembre 2003)

218. Potthast, M., Stein, B.: Nouveaux problèmes de détection de quasi-doublons. Dans: Analyse des données, apprentissage automatique et applications - Actes de la 31e conférence annuelle de la Gesellschaft fu¨r Klassifikation eV, Albert-Ludwigs-Universit¨at Freiburg, 7-9 mars 2007. (2007) 601–609

219. Zelenkov, YG, Segalovich, IV: Analyse comparative des méthodes de détection presque en double des documents Web. Dans: Proc. 9e Conférence scientifique panrusse sur les bibliothèques numériques: méthodes et technologies avancées, collections numériques, Pereslavl-Zalessky. (2007) 166-174 (en russe).

220. Ignatov, DI, Janosi-Rancz, KT, Kuznetzov, SO: Vers un cadre de détection de quasi-doublons dans les collections de documents basé sur des ensembles fermés d'attributs. Acta Universitatis Sapientiae. Informatica 1 (2) (2009) 215-233

221. Ignatov, D., Kuznetsov, S., Lopatnikova, V., Selitskiy, I.: Développement et approche d'un système de détection presque en double pour les collections de documents de RD. Informatique de gestion (4) (2008) 21-28 (en russe).

222. Ley, M .: DBLP - quelques leçons apprises. PVLDB 2 (2) (2009) 1493-1500

223. Benz, D., Hotho, A., Jaschke, R., Krause, B., Stumme, G .: Journaux de requête en tant que sonomies populaires. Datenbank-Spektrum 10 (1) (2010) 15-24

224. Doerfel, S., Jaschke, R .: Une analyse des procédures d'évaluation des recommandateurs d'étiquettes. In: Seventh ACM Conference on Recommender Systems, RecSys '13, Hong Kong, Chine, 12-16 octobre 2013. (2013) 343–346

225. Kuznetsov, SO, Ignatov, DI: Concept de stabilité pour la construction de taxonomies d'utilisateurs de sites Web. Dans: Proc. Analyse des réseaux sociaux et structures conceptuelles: explorer les opportunités, S. Obiedkov, C. Roth (éd.), Clermont-Ferrand (France), 16 février 2007. (2007) 19-24

226. Kuznetsov, S .: Stabilité en tant qu'estimation du degré de justification des hypothèses dérivées sur la base de la similitude opérationnelle. Nauchn. Tekh. Inf., Ser.2 (Automat. Document. Math. Linguist.) (12) (1990) 21–29

227. Kuznetsov, SO: Sur la stabilité d'un concept formel. Ann. Math. Artif. Intell.

49 (1-4) (2007) 101-115

228. Roth, C., Cointet, JP: Coévolution sociale et sémantique dans les réseaux de connaissances. Réseaux sociaux 32 (2010) 16-29

229. Yavorsky, R .: défis de recherche des réseaux socio-sémantiques dynamiques. Dans Ignatov, D., Poelmans, J., Kuznetsov, S., éd.: CEUR Workshop Proceedings Vol- 757, CDUD'11 - Concept Discovery in Unstructured Data. (2011) 119-122

230. Howe, J .: La montée du crowdsourcing. Filaire (2006)

231. Ignatov, DI, Mikhailova, M., (Kaminskaya), AYZ, Malioukov, A .: Recommandation d'idées et d'antagonistes pour la witologie des plateformes de crowdsourcing. Dans: Proc. of 8th RuSSIR, Springer (2014) (ce volume).

232. Ignatov, DI, Kaminskaya, AY, Konstantinova, N., Malyukov, A., Poelmans, J .: Modèles de recommandation basés sur Fca et analyse des données pour la witologie des plateformes de crowdsourcing. Dans: Graph-Based Representation and Reasoning - 21st International Conference on Conceptual Structures, ICCS 2014, Ia¸si, Romania, 27-30 juillet 2014, Proceedings. (2014) 287-292

233. Ignatov, DI, Kaminskaya, AY, Konstantinova, N., Konstantinov, AV: Système de recommandation pour la witologie des plateformes de crowdsourcing. In: 2014 IEEE / WIC / ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT), Varsovie, Pologne, 11-14 août 2014 - Volume II. (2014) 327-335

234. Ganter, B .: Exploration d'attributs avec connaissances de base. Informatique théorique 217 (2) (1999) 215 - 233 ORDAL'96.

235. Stumme, G., Maedche, A .: Fca-merge: Fusion ascendante des ontologies. Dans Nebel, B., éd.: IJCAI, Morgan Kaufmann (2001) 225-234

236. Revenko, A., Kuznetsov, SO: Exploration des attributs des propriétés des fonctions sur les ensembles. Fundam. Informer. 115 (4) (2012) 377–394

237. Sertkaya, B .: Une enquête sur la façon dont les ontologies de logique de description bénéficient de la FCA. Dans: Actes de la 7e Conférence internationale sur les réseaux de concepts et leurs applications, Séville, Espagne, 19-21 octobre 2010. (2010) 2–21

238. Sertkaya, B .: Ontocomp: Un plugin de protection pour compléter les ontologies OWL. Dans: The Semantic Web: Research and Applications, 6th European Semantic Web Conference, ESWC 2009, Heraklion, Crete, Greece, 31 mai-4 juin 2009, Proceedings. (2009) 898–902

239. Baader, F., Ganter, B., Sertkaya, B., Sattler, U .: Compléter les bases de connaissances sur la logique de description à l'aide d'une analyse de concept formelle. Dans: IJCAI 2007, Actes de la 20e Conférence conjointe internationale sur l'intelligence artificielle, Hyderabad, Inde, 6-12 janvier 2007. (2007) 230-235

240. Rudolph, S .: Exploration relationnelle: combinant logiques de description et analyse de concept formelle pour la spécification des connaissances. Thèse de doctorat, Université de technologie de Dresde (2006)

241. Potoniec, J., Rudolph, S., Lawrynowicz, A .: Vers la combinaison de l'apprentissage automatique avec l'exploration d'attributs pour le raffinement de l'ontologie. Dans: Actes des ISWC 2014 Posters & Demonstrations Track a track within the 13th International Webantic Conference, ISWC 2014, Riva del Garda, Italie, 21 octobre 2014. (2014) 229–232

242. J¨aschke, R., Rudolph, S .: Exploration des attributs sur le Web. In Cellier, P., Distel, F., Ganter, B., éd.: Contributions à la 11e Conférence internationale sur l'analyse formelle des concepts, Technische Universitt Dresden (mai 2013) 19–34

243. Codocedo, V., Lykourentzou, I., Napoli, A.: Une approche sémantique de la recherche d'information basée sur un réseau conceptuel. Ann. Math. Artif. Intell. 72 (1-2) (2014) 169-195

244. Tilley, T., Cole, R., Becker, P., Eklund, PW: Une enquête sur le soutien formel de l'analyse conceptuelle pour les activités de génie logiciel. Dans: Analyse conceptuelle formelle, fondements et applications. (2005) 250-271

245. Ar´evalo, G., Desnos, N., Huchard, M., Urtado, C., Vauttier, S .: Classification formelle des services basée sur l'analyse de concept pour construire dynamiquement des répertoires de composants logiciels efficaces. Int. J. General Systems 38 (4) (2009) 427–453

246. Kuznetsov, SO, Slezak, D., Hepting, DH, Mirkin, B., éd.: Rough Sets, Fuzzy Sets, Data Mining and Granular Computing - 13th International Conference, RSFDGrC 2011, Moscou, Russie, 25-27 juin , 2011. Actes. Dans Kuznetsov, SO, Slezak, D., Hepting, DH, Mirkin, B., éd.: RSFDGrC. Volume 6743 des notes de cours en informatique., Springer (2011)

247. Eklund, PW, éd.: Concept Lattices, deuxième conférence internationale sur l'analyse formelle des concepts, ICFCA 2004, Sydney, Australie, 23-26 février 2004, Actes. In Eklund, PW, éd.: ICFCA. Volume 2961 des notes de cours en informatique., Springer (2004)

248. Rudolph, S., Dau, F., Kuznetsov, SO, éd.: Conceptual Structures: Leveraging Semantic Technologies, 17e Conférence internationale sur les structures conceptuelles, ICCS 2009, Moscou, Russie, 26-31 juillet 2009. Actes. Dans Rudolph, S., Dau, F., Kuznetsov, SO, éd.: ICCS. Volume 5662 des notes de cours en informatique., Springer (2009)

249. Ojeda-Aciego, M., Outrata, J., éd.: Actes de la dixième Conférence internationale sur les réseaux conceptuels et leurs applications, La Rochelle, France, 15-18 octobre 2013. Dans Ojeda-Aciego, M ., Outrata, J., éd.: CLA. Volume 1062 of CEUR Workshop Proceedings., CEUR-WS.org (2013)

250. Pfeiffer, HD, Ignatov, DI, Poelmans, J., Gadiraju, N., eds .: Conceptual Structures for STEM Research and Education, 20e Conférence internationale sur les structures conceptuelles, ICCS 2013, Mumbai, Inde, janvier 10-12, 2013. Délibérations. Volume 7735 des notes de cours en informatique., Springer (2013)