next up previous
suivant: Discussion monter: Rehaussement de la classification précédent: Construction d'une base de

Sous-sections

Classification textuelle, visuelle et fusion

Nous venons de construire une base de référence pour notre corpus d'images, nous allons maintenant tester un système de classification automatique travaillant avec les indices visuels et/ou les indices textuels.

Pour cela, calculons d'abord le taux d'erreur du système pour une classification aléatoire. A partir de la formule 16, de la colonne 2 du tableau 3 et en considérant que nous avons pris 50% des images dans chaque classe pour notre base de test, nous obtenons 91.6%. Donc si nous obtenons un taux d'erreur proche de 91.6%, alors il n'y pas de correspondance entre les indices visuels et textuels.

Nous allons d'abord tester notre méthode en effectuant une classification supervisée à partir des indices textuels. Puis, nous testerons plusieurs classifications à partir des indices visuels toujours par référence aux classes textuelles. Enfin, nous fusionnerons les deux systèmes et analyserons les résultats.


Classification textuelle

Une première expérience consiste à tester la base de référence obtenue par CAH. Chaque classe $C_k$ de $B_{Ex}$ est représentée par un vecteur moyen textuel $\vec{C_k^t}^*$ normalisé obtenu en faisant la somme des vecteurs textuels des images qu'elle contient. La classe textuelle d'une image $d_{T}$ de $B_{Test}$ de vecteur textuel normalisé $\vec{d_T^t}^*$ est calculée par :
\begin{displaymath}
C^t(d_T)=\mathrm{argmin}_{k\in\{1,2,\dots,c\}}DKL(\vec{d_T^t}^*,\vec{C_k^t}^*).
\end{displaymath} (23)

Nous faisons alors deux tests : le premier en étendant les vecteurs textuels à l'aide du thésaurus comme expliqué à la section 4.1, le deuxième en utilisant des vecteurs non-étendus. Le tableau 4 donne les taux d'erreurs obtenus.

Tableau 4: Comparaison des taux d'erreurs textuelles (en %)
Textuelle Textuelle
avec thésaurus sans thésaurus
1.17 13.72


Nous remarquons que lorsque les vecteurs sont étendus, les résultats donnent un taux d'erreurs très faible. La description des images et la procédure de classification utilisées sont efficaces. Si maintenant, nous nous plaçons dans le cas d'informations manquantes en n'étendant pas les vecteurs avec l'information du thésaurus, on observe une variation du taux d'erreurs non-négligeable que nous allons essayer de diminuer à l'aide des indices visuels.


Classification visuelle

Une deuxième expérience consiste à faire des classifications supervisées des images à partir des indices visuels seuls, mais toujours en référence aux classes textuelles. Pour cela, nous allons tester l'influence de certains paramètres. Un grand nombre de combinaisons possibles a été expérimenté pour choisir les meilleurs distances visuelles, nous présentons celles qui donnent les meilleurs résultats.

On note DKL$_A(r_i,r_j)$ la distance DKL entre la région $r_i$ de l'image $d_T$ de $B_{Test}$ et la région $r_j$ de l'image $d_E$ de $B_{Ex}$ pour l'attribut $A$.

Distance par région

Nous commençons par calculer la distance entre les régions d'intérêts de niveaux égaux. La table 5 montre les résultats.


Tableau: Influence du choix de la région d'intérêt sur le Taux d'Erreur(T.E. en %) pour les différents attributs de l'image
  DKL$(r1,r1)$ DKL$(r2,r2)$ DKL$(r3,r3)$ DKL$(r4,r4)$ DKL$(g,g)$
T.E. Rouge 81.17 79.21 81.17 82.35 73.33
T.E. Vert 83.13 78.03 86.66 80.78 78.43
T.E. Bleu 82.35 80.39 83.92 84.70 74.50
T.E. Luminance 80.39 81.17 81.56 83.52 76.40
T.E. Direction 79.60 81.56 80.00 84.31 85.49


On remarque que, en général, les distances sur les indices globaux sont meilleurs, sauf pour la direction où la région 1 donne de meilleurs résultats. En effet, la région 1 est celle qui contient le plus de contours, elle est donc la plus significative. Pour l'attribut vert, le bon résultat obtenu pour la région 2 s'explique par un artefact du aux données (une classe contenant plus de vert que les autres). Cet artefact pourra avoir des répercussions par la suite dont le lecteur ne tiendra pas compte. L'hypothèse de départ supposant que les régions locales les plus descriptives sont celles qui contiennent le plus de contour est vérifiée, car les régions 1 et 2 ont les plus faibles taux d'erreur.

Distances par fusion précoce des indices visuels

Pour un attribut $A$ donné, chaque image possède 5 histogrammes (r1, r2, r3, r4 et g(r5)). Pour une image $d_T$ de $B_{Test}$ et pour une image $d_E$ de $B_{Ex}$, il existe donc $5\times5$ distances entre régions de l'image possibles. Si l'on considère seulement les $L \in [1,5]$ régions d'intérêt, il existe $L\times L$ distances entre régions de l'image possibles (si $L=2$, $L^2=4$ et on ne considère que les distances DKL$_A(r1,r1)$, DKL$_A(r1,r2)$,DKL$_A(r2,r1)$ et DKL$_A(r2,r2)$). Nous allons définir une distance entre les indices visuels de deux images qui prenne en compte les meilleurs scores parmi ces distances. Pour les besoins du calcul de ces distances, on note $\mathrm{moymin_K}$ la fonction :

\begin{displaymath}
\mathrm{moymin_K}:\{\alpha_1,\alpha_2,\dots,\alpha_M\}\to (\alpha_{min1}+\alpha_{min2}+\dots+\alpha_{minK})/K
\end{displaymath} (24)

qui fait la moyenne arithmétique des $K$ premières valeurs minimales.

Pour calculer la distance visuelle entre une image $d_{T}$ de $B_{Test}$ et une image $d_{E}$ de $B_{Ex}$, on calcule les $L^2$ distances possibles entre 2 images et nous calculons la moyenne des $N$ plus petites valeurs ($N \in [1,L^2]$), on obtient la distance  :


\begin{displaymath}
\gamma_A(d_T,d_E)=\mathrm{moymin_N}(\{DKL_A(i,j);\forall i,j\in L\}).
\end{displaymath} (25)

Maintenant, si on considère la distance entre une image $d_T$ de $B_{Test}$ et la classe $C_k$, on calcule les distances entre $d_T$ et les images $d_{E_k}$ de $C_k$ et on garde les $I$ minimums dont nous calculons la moyenne pour obtenir la distance entre l'image $d_T$ et la classe $C_k$ :

\begin{displaymath}
\delta_A(d_T,C_k)=\mathrm{moymin_I}(\{\gamma_A(d_T,d_{E_k});\forall d_{E_k} \in C_k\})
\end{displaymath} (26)

$d_{E_k}$ est un élément de la classe $C_k$ de la base d'exemples et $I \in [1, \mathrm{card(C_k)}]$ est le nombre de valeurs minimales prises parmi les $\mathrm{card(C_k)}$ distances entre $d_T$ et les éléments de la classe $C_k$ possibles.

La classe visuelle de $d_{T}$ pour l'attribut $A$ est obtenue par :

\begin{displaymath}
C_A^v(d_T)=\mathrm{argmin}_{k\in\{1,2,\dots,c\}}\delta_A(d_T,C_k).
\end{displaymath} (27)

Cette méthode permet de rejeter les distances trop importantes ($d_T$ très différente de $d_E$) qui pénaliseraient trop le système et permet de garder les meilleures distances qui donnent plus de probabilité d'être dans la bonne classe.

Résultats de la fusion précoce visuelle

Les tableaux 6, 7 et 8 donnent les taux d'erreur obtenus par cette méthode dite de « fusion précoce » des indices visuels en faisant varier les paramètres $N$, $I$ et $L$.


Tableau: Taux d'Erreur(T.E. en %) pour différentes valeurs de $N$ et pour les différents attributs par fusion précoce des indices visuels $(I=4, L=5)$
N 1 2 3 4 5 6 7 8
T.E. Rouge 71.76 72.54 72.54 73.72 76.47 77.64 77.64 76.07
T.E. Vert 76.07 77.64 77.64 76.86 76.86 76.47 78.82 78.82
T.E. Bleu 77.64 77.25 79.60 80,00 79.60 81.56 81.96 81.96
T.E. Luminance 77.64 79.21 77.64 77.64 79.21 79.21 78.82 78.03
T.E. Direction 83.52 80.39 80.39 80,00 79.21 78.82 78.43 76.86



Tableau: Taux d'Erreur(T.E. en %) pour différentes valeurs de $I$, et pour les valeurs de $N$ pour lesquels le taux d'erreur est le plus faible par fusion précoce des indices visuels des différents attributs $(L=5)$
I 1 2 3 4
T.E. Rouge 75.68 74.50 71.76 71.76
T.E. Vert 79.60 78.03 76.86 76.07
T.E. Bleu 78.03 77.64 78.03 77.25
T.E. Luminance 79.21 78.03 76.07 77.64
T.E. Direction 84.70 78.03 76.86 76.86



Tableau: Taux d'Erreur(T.E. en %) pour différentes valeurs de $L$, et pour les valeurs de $N$ pour lesquels le taux d'erreur est le plus faible par fusion précoce des indices visuels des différents attributs $(I=4)$
L 1 2 3 4 4+g  
Dimension $L^2$ 1 4 9 16 25  
T.E. Rouge 81.17 78.82 76.07 76.07 71.76  
T.E. Vert 83.13 78.82 75.68 79.60 76.07  
T.E. Bleu 82.35 80.00 79.60 81.56 77.25  
T.E. Luminance 80.39 79.60 78.03 77.64 77.64  
T.E. Direction 79.60 78.03 76.07 76.47 76.86  


Le tableau 6 donne l'influence du paramètre $N$ pour les valeurs de $I$ et $L$ donnant les meilleurs résulats. On remarque que le paramètre $N$ a peu d'influence pour les attributs Rouge, Vert, Bleu et Luminance. Par contre, pour la direction, on observe une réelle amélioration du T.E. quand on prend $N$ grand. Le tableau 7 montre qu'il vaut mieux regarder si l'image test est similaire à plusieurs images d'une même classe qu'à une seule. Enfin, dans le tableau 8, on remarque que la région d'intérêt 1 seul n'est pas suffisante($L=1$) et que la région d'intérêt numéro 4 n'apporte finalement que peu d'informations, car les T.E. pour $L=4$ sont moins bons que pour $L=3$. Et on remarque aussi que, pour $L=5$(4+g), les indices globaux apportent une nette amélioration du T.E., sauf dans le cas de la direction, ce qui était prévisible.

Si on compare ces résultats à ceux du tableau 5, on remarque une baisse de l'ordre de 5% à 10% du taux d'erreur sur les indices locaux, et une amélioration d'environs 2% sur les globaux. Donc notre méthode de fusion précoce apporte un gain non-négligeable. Cependant, elle a une mauvaise compléxité et nécessite un temps de calculs assez important.

Fusion tardive visuo-textuelle

Nous allons maintenant fusionner les indices textuels et visuels afin d'améliorer les résultats obtenus pour la classification textuelle.

Pour chaque image $d_T$ et pour chaque classe $C_k$, on calcule la distance textuelle $DKL(\vec{d_T}^*,\vec{C_k}^*)$ comme expliqué à la section 5.1. Puis, on la normalise et on la complète à 1 pour estimer la probabilité d'appartenance $P^t_{d_T}(C_k)$ de l'image $d_T$ à la classe $C_k$ par rapport aux indices textuels :

\begin{displaymath}
P^t_{d_T}(C_k)=1-\frac{DKL(\vec{d_T}^*,\vec{C_k}^*)}{\sum_{k}DKL(\vec{d_T}^*,\vec{C_k}^*)}.
\end{displaymath} (28)

De même, on estime la probabilité d'appartenance $P^v_{d_T}(C_k)$ de l'image $d_T$ à la classe $C_k$ par rapport à l'attribut visuel A :
\begin{displaymath}
P^v_{d_T}(C_k\vert A)=1-\frac{\delta_A(d_T,C_k)}{\sum_{k}\delta_A(d_T,C_k)}.
\end{displaymath} (29)

On numérote de 1 à 5 les attributs visuels et on donne le numéro 6 à l'indice textuel. La probabilité d'appartenance $P^{v\vee t}_{d_T}(C_k)$ de l'image $d_T$ à la classe $C_k$ par fusion tardive des indices textuels et visuels est :
\begin{displaymath}
P^{v\vee t}_{d_T}(C_k)=\sum_{j=1}^{5}P^v_{d_T}(C_k\vert A_j) \times \omega'(A_j) + P^t_{d_T}(C_k) \times \omega'(A_6)
\end{displaymath} (30)

$\omega'(A_j)=\frac{\omega(A_j)^p}{\sum_{i=1}^{6}\omega(A_i)^p}$, $\omega(A_j)=\frac{1-TE(j)}{\sum^6_{i=1}1-TE(i)}$, $TE(j)$ est le taux d'erreur obtenu pour l'attribut $A_j$. Le paramètre $p$ est déterminé de manière empirique.

La classe d'appartenance de chaque image $d_T$ de $B_{Test}$ est alors celle qui maximise cette probabilité (c'est le critère classique du « Maximum a Posteriori » (MAP)).

\begin{displaymath}
C^{v\vee t}(d_t)=\mathrm{argmax}_{k\in\{1,2,\dots,c\}}P^{v\vee t}_{d_T}(C_k)
\end{displaymath} (31)

La figure 7 décrit les résultats obtenus pour la fusion de la classification textuelle sans thésaurus (T.E. 13.72%) et de plusieurs classifications visuelles. Le premier résultat (T+Vis[Locaux]) est obtenu à partir des meilleures classifications par fusion précoce des locaux ($L\in[1,4]$) uniquement. Le deuxième (T+Vis[Globaux]) considère les classifications sur les indices globaux uniquement. Le troisième (T+Vis[Locaux+Globaux]) utilise les meilleurs paramètres de fusion précoce des indices locaux et globaux ($L \in [1,5]$). Le dernier (T+Vis[Dir+Globaux]) prend en compte les globaux pour les attributs rouge, vert, bleu et luminance, et la direction locale calculée par DKL(r1,r1). Sur cette figure, on remarque que les locaux accélèrent le gain de classification par rapport à $p$, montrant donc que les poids $\omega(A_j)$ sont mieux adaptés que ceux des méthodes globales. On remarque aussi que les quatres méthodes tendent pour $p=4$ vers le même résultat. Le tableau 9 donne le gain final que l'on peut espérer du rehaussement de la classification textuelle par la classifiation visuelle. Pour $p$ grand ($p>8$), toutes les méthodes convergent vers le T.E. textuel.

Figure: Influence de $p$ sur le Taux d'Erreur(T.E. en %) pour la fusion tardive des probabilités textuelles (T) et visuelles (Vis) de différents indices visuels
\includegraphics[width=12.5cm,height=10cm]{tollari_images/fusion_tardivebis.eps}


Tableau: Résultat final du rehaussement de la classification textuelle par la classification visuelle par fusion tardive (en %)
Textuelle Fusion Gain  
sans thésaurus textuelle/visuelle    
13.72 6.27 +54.3  



next up previous
suivant: Discussion monter: Rehaussement de la classification précédent: Construction d'une base de
Tollari Sabrina 2003-06-10