Tout sur le Net Bienvenue au Soutien du Net!
Le Sitemap
Les Balises

les balises selon les types de Sitemaps (bref aperçu)
Les Balises XML Classique (Définitions)
XML - Classique
Balise   Description
 <urlset>
 </urlset>
obligatoire Encadre le fichier et référence le standard de protocole actuel.
 <url>
 </url>
obligatoire Balise parent de chaque entrée d´URL. Les autres balises sont des enfants de cette balise.
 <loc>
 </loc>
obligatoire URL de la page. Cette URL doit commencer par l´intitulé du protocole (http, par exemple) et se terminer par une barre oblique si votre serveur Web l´exige. L´URL ne doit pas comporter plus de 2 048 caractères.
 <lastmod>
 </lastmod>
facultatif Date de la dernière modification du fichier. Cette date doit être au format date et d´heure W3C. Celui-ci vous permet d´omettre l´heure, si vous le souhaitez, et de n´utiliser que le format AAAA-MM-JJ.

Notez que cette balise n´est pas la même que l´en-tête "If-Modified-Since" renvoyée par le serveur. En outre, les moteurs de recherche peuvent utiliser de façon différente les informations provenant des deux sources.
 <changefreq>
 </changefreq>
facultatif Fréquence probable de modification de la page. Cette valeur fournit aux moteurs de recherche une information générale et ne reflète pas nécessairement la fréquence effective d´exploration de la page. Les valeurs acceptées sont les suivantes:
  • always (toujours)
  • hourly (horaire)
  • daily (journalier)
  • weekly (hébdomadaire)
  • monthly (mensuel)
  • yearly (annuel)
  • never (jamais)
La valeur "always" (toujours) doit être utilisée pour décrire les documents qui changent à chaque accès. La valeur "never" (jamais) doit être utilisée pour décrire les URL archivées.

Notez que la valeur de cette balise est considérée comme une indication, et non comme une commande. Même si les robots d´exploration des moteurs de recherche peuvent tenir compte de cette information, ils ne l´appliquent pas nécessairement de façon stricte. Ainsi, ils peuvent explorer des pages dont la fréquence de modification est "hourly" (horaire) moins fréquemment que cela ou, à l´inverse, explorer des pages dont la fréquence de modification est "yearly" (annuelle) plus fréquemment. Les robots peuvent explorer régulièrement les pages associées à la fréquence de modification "never" (jamais), de façon à traiter les modifications non prévues apportées à ces pages.
 <priority>
 </priority>
facultatif Priorité de cette URL par rapport aux autres URL de votre site. Les valeurs acceptées sont comprises entre 0,0 et 1,0. Cette valeur n´a aucune incidence sur la comparaison de vos pages avec celles d´autres sites. Elle permet uniquement de signaler aux moteurs de recherche les pages que vous jugez les plus importantes pour les robots d´exploration.

La priorité par défaut d´une page est égale à 0,5.

Notez que la priorité attribuée à une page n´aura vraisemblablement aucune incidence sur le positionnement de vos URL dans les pages de résultats du moteur de recherche. Les moteurs de recherche peuvent utiliser cette information pour hiérarchiser les URL d´un même site lors de leur sélection. Cette balise vous permet donc d´augmenter la probabilité que vos pages les plus importantes figurent dans l´index de recherche.

En outre, notez que l´attribution d´une priorité élevée à toutes les URL de votre site ne vous sera probablement d´aucune utilité. En effet, cette priorité relative n´est utilisée que pour hiérarchiser les URL de votre site lors de leur sélection.
pour les images
 <image:image>
 </image:image>
obligatoire Regroupe toutes les informations associées à une image. Chaque tag URL (<loc> tag) peut inclure jusqu´à 1000 tags
 <image:loc>
 </image:loc>
obligatoire L´URL du fichier image.
 <image:caption>
 </image:caption>
facultatif La déscription de l´image.
 <image:geo_location>
 </image:geo_location>
facultatif La déscription géographique de l´image.
 <image:title>
 </image:title>
facultatif Le titre de l´image.
 <image:license>
 </image:license>
facultatif L´URL de la page expliquant les droits auxquels l´image est soumise.
Source: O´Reilly

Les Balises Indexed (Définitions)
XML - Classique
Balise   Description
 <sitemapindex>
 </sitemapindex>
obligatoire Encadre le fichier et référence le standard de protocole actuel.
 <sitemap>
 </sitemap>
obligatoire Balise parent de chaque entrée d´URL. Les autres balises sont des enfants de cette balise.
 <loc>
 </loc>
obligatoire URL du sitemap. Cette URL doit commencer par l´intitulé du protocole (http, par exemple). L´URL ne doit pas comporter plus de 2 048 caractères.
 <lastmod>
 <lastmod>
facultatif Date de la dernière modification du fichier. Cette date doit être au format date et d´heure W3C. Celui-ci vous permet d´omettre l´heure, si vous le souhaitez, et de n´utiliser que le format AAAA-MM-JJ.
Source: O´Reilly

Les Balises RSS (Définitions)
ROR - RSS
Balise   Description
 <rss>
 </rss>
obligatoire Encadre le fichier et référence le standard de protocole actuel.
 <channel>
 </channel>
obligatoire Balise parent du Flux RSS. Les autres balises sont des enfants de cette balise.
 <title>
 </title>
obligatoire Contient le titre soit du flux lui-même.
 <link>
 <link>
obligatoire contient le lien du site.
 <item>
 <item>
obligatoire Contient la ou les pages contenues dans le flux.
Les Balises de "<item>"
 <title>
 </title>
obligatoire Contient le titre de la page.
 <link>
 <link>
obligatoire contient le lien dde la page concernée.
 <description>
 <description>
facultatif Contient le descriptif de la page. Il est de bon sens d´y mettre le contenu de la balise META "description" de la page respective, si elle existe.
 <ror:type>
 <ror:type>
facultatif représente le type de la page par rapport au site concerné
 <ror:keywords>
 <ror:keywords>
facultatif Contient le(s) mot(s) clé de la page. Il est de bon sens d´y mettre le contenu de la balise META "keywords" de la page respective, si elle existe.
 <ror:updated>
 <ror:updated>
facultatif Date de la dernière modification du fichier. Cette date doit être au format date et d´heure W3C. Celui-ci vous permet d´omettre l´heure, si vous le souhaitez, et de n´utiliser que le format AAAA-MM-JJ.
Pour ne pas exploser le cadre de cette page nous nous limiterons à ces quelques définitions. Pour toutes informations suplémentaires visitez rssboard.org.
Source: RSSBOARD

Les Balises HTML (Définitions)
HTML
Vu que dans le cas d´un Sitemap HTML il ne s´agit pas d´un fichier XML mais du pure et simple HTML, il n´est pas nécessaire d´en expliquer plus. Ci suivant un fichier sitemap.html typique:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xml:lang="fr" lang="fr" xmlns="http://www.w3.org/1999/xhtml">
<body>
<a href="http://www.exemple.com/index.html" title="Site exemple.com">
Page d´acceuil du site exemple.com
</a>
<a href="http://www.exemple.com/boutique.html" title="Boutique du site exemple.com">
La Boutique
</a>
<a href="http://www.exemple.com/catalogue.html" title="Catalogue du site exemple.com">
Notre Catalogue
</a>
</body>
</html>
Source: NetSoutien.com

Les Balises Texte (Définitions)
Texte
Le Sitemap Texte est celui qui n´a absolument vraiment rien à voir avec les précédents. Il est ni de l´HTML ou de l´XML.
La raison d´être du fichier sitemap.txt est soit d´avoir un contrôle pour le webmestre du site sur quelles pages sont présentes sur le site, ou bien il peut être soumis au moteur de recherches Yahoo! qui lui pourra interpréter ce fichier en temps que sitemap.
Le protocole du sitemap Texte est inexistant, si ce n´est de créer un fichier texte avec votre éditeur de texte préférré (Word et Wordpad sont à éviter) et de saisir les URLs concernées, ce faisant il n´y aura qu´une seule URL par ligne.
Ci suivant un fichier sitemap.txt typique:
http://www.exemple.com/index.html
http://www.exemple.com/boutique.html
http://www.exemple.com/catalogue.html
Source: NetSoutien.com