next up previous
suivant: Construction d'une base de monter: Rehaussement de la classification précédent: Classification

Sous-sections

Présentation du corpus et mode opératoire

Le corpus est constitué de 665 photos de presse, mises à disposition par la société Editing dans le cadre du projet RNTL Muse[BLM02]. Les photos sont indexées textuellement par les documentalistes de cette société à partir des mots extraits d'un thésaurus structuré hiérarchiquement et stocké sous la forme d'un fichier XML. Les sujets dont elles traitent sont divers et variés, les tableaux 3 page [*] et 1 page [*] donnent un aperçu des mots présents dans le thésaurus et de leur répartition dans les images.


Tableau: Résumé chiffré sur le corpus d'images et le thésaurus hiérarchique
Nombre de mots Profondeur maximale Profondeur moyenne  
dans le thésaurus du thésaurus du thésaurus  
1208 6 3.2  
Nombre d'images Nombre total de mots Nombre total de mots différents  
dans le corpus dans les images dans les images  
665 2005 193/1208  


A partir de ce corpus, nous allons extraire les indices textuels des fiches, puis les indices visuelles des images. Nous établirons ensuite une méthode permettant d'étudier la cohérence entre les deux.

Extraction des indices textuels

Les indices textuels associés aux images sont stockés dans des fiches XML qui suivent le schéma MPEG-7[MSS02]. Voici un exemple de fiches MPEG-7 très simplifié contenant les mot-clés $T\acute{e}l\acute{e}phonie$ et $Radio$.
<?xml version="1.0" encoding="UTF-8"?>
<mpeg7:Mpeg7 xmlns:xsi="http://www.w3.org/1999/XMLSchema-instance" 
             xmlns:mpeg7="http://www.mpeg7.org/2001/MPEG-7_Schema">
  <mpeg7:DescriptionMetadata>
    <mpeg7:LastUpdate>2002-10-2</mpeg7:LastUpdate>
    <mpeg7:PrivateIdentifier>BAR9501001C-1</mpeg7:PrivateIdentifier>
    <mpeg7:CreationTime>2002-10-2</mpeg7:CreationTime>
  </mpeg7:DescriptionMetadata>
  <mpeg7:ContentDescription xsi:type="ContentEntityType">
     <mpeg7:Creation>
       <mpeg7:Title>Développement du téléphone portable</mpeg7:Title>
       <mpeg7:KeywordAnnotation>
         <mpeg7:Keyword>Téléphonie</mpeg7:Keyword>
         <mpeg7:Keyword>Radio</mpeg7:Keyword>
       </mpeg7:KeywordAnnotation>
     </mpeg7:Creation>
  </mpeg7:ContentDescription>
  <mpeg7:ContentDescription xsi:type="ViewDescriptionType">
    <mpeg7:Image>
      <mpeg7:MediaUri>BAR9501001C-1.jpg</mpeg7:MediaUri>
    </mpeg7:Image>
  </mpeg7:ContentDescription>
</mpeg7:Mpeg7>
Pour extraire les indices textuels des fiches XML et pour extraire les mots du thésaurus, nous avons utilisé le package java org.w3c.dom qui permet de traduire un fichier XML en un `arbre informatique'.

Extraction des indices visuels

Il existe de multiples façons d'extraire des indices visuels, nous avons mis en oeuvre, en collaboration avec Hervé Glotin, une méthode qui permet des calculs simples et rapides.

Nos indices visuels sont composés de 5 attributs :

Ces attributs visuels sont extraits pour les images complètes (région globale, notée $g$). De plus, nous avons testé une méthode originale d'extraction de sous-images d'intérêt pour lesquelles nous calculons aussi les attributs visuels.

Figure 1: Indices visuels sous la forme d'histogrammes. Photo @Editing.
\includegraphics[]{tollari_images/ex_histo.eps}

Pour chaque image, 4 sous-images sont détectées automatiquement. L'algorithme de détection commence par extraire les contours de l'image par la méthode de Canny comme précédemment. Puis, il fait la sommation de ces contours par région de dimension fixée. Nous avons choisi comme dimension une surface d'un quart de la surface de l'image globale. Ensuite, on extrait la région qui contient le plus de contours et on la soustrait de la matrice des contours. Enfin, la détection d'une nouvelle région d'intérêt est relancée sur la nouvelle matrice des contours. La figure 2 montre la détection automatique de 2 premières régions d'intérêts(ROI). On numérote ces régions de $r_1$ à $r_4$ selon leur ordre de détection.

L'intérêt de l'étude des histogrammes de couleurs de sous-images est de classer ensemble des images qui sont grossièrement différentes, mais qui possèdent des caractéristiques communes. Par exemple, détecter les images contenant un visage grâce à la couleur de la peau, sans être bruitée par le fond de l'image.

Figure: Sélection des 2 premières régions locales d'intérêts(ROI) d'une image par détection des contours par la méthode de Canny et par maximisation des sommes des contours par région. Photo ©Editing.
\includegraphics[width=13.5cm,height=8cm]{tollari_images/exemple_roi_2.eps}

Au final, les indices visuels associés à l'image se présentent sous la forme de vecteurs de flottants (les histogrammes) qui permettent des calculs simples et rapides entre deux régions de l'image par simple mesure de similarité au sens DKL (section 1.3.2) des vecteurs. On peut se demander si faire des mesures de similarité entre l'histogramme d'une région d'intérêt et l'histogramme d'une image a un sens, mais les vecteurs sont normalisés et une sous-image n'est rien d'autre qu'une image.

Mode opératoire du système visuo-textuel

Nous allons construire un système de classification visuo-textuelle afin d'améliorer des recherches d'images posées avec peu de mot-clés, que nous rehausserons grâce à leur contenu visuel. Ainsi, à chaque image, on associe des descripteurs (ou indices) textuels et visuels. Puis, on les classe par classification ascendante hiérarchique afin d'obtenir un classement par rapport aux indices textuels seulement. La construction de la base de référence $B_{Ref}$ est expliquée à la section 4.

Ensuite, on sépare la base obtenue en deux parties : une base d'exemples classés (sous-base de référence)$B_{Ex}$ et une base de test $B_{Test}$. Pour cela, on choisit aléatoirement 50% des images de chaque classe de $B_{Ref}$ pour constituer $B_{Test}$, les autres images constituant la sous-base de référence $B_{Ex}$. On connaît la classe des images de $B_{Ex}$, et on cherche à retrouver la classe de chaque image de $B_{Test}$ par simple similarité au sens DKL avec les images de la base $B_{Ex}$. Pour évaluer, la performance de cette classification, on regarde alors le nombre d'images de $B_{Test}$ qui sont bien classées. Les figures 3 et 4 résument la méthode.

Figure 4: Classification d'une image de la base de test $d_T$ par recherche de la distance minimale entre l'image et chacune des classes
\begin{figure}\begin{center}
\unitlength=1cm
\fbox{
\begin{picture}(14.5,3.8)
\p...
...eq C_e$, alors erreur de classification }
\end{picture}}\end{center}\end{figure}

En dernier lieu, nous estimons la probabilité d'appartenance d'une image à une classe à partir de l'information textuelle, visuelle ou par fusion des deux.


next up previous
suivant: Construction d'une base de monter: Rehaussement de la classification précédent: Classification
Tollari Sabrina 2003-06-10