Le référencement Baïdu requiert une attention toute particulière de la part des webmasters . Pour tirer profit au maximum sur vos sites web sur Baïdu, il convient de comprendre les éléments clé du processus d’indexation pour le référencement par le moteur de recherche chinois.

Comprendre l’indexation sur Baïdu

Contrairement à Google, le moteur de recherche Baïdu possède des robots d’indexation spécifiques à une fonction de crawl :

User-agent Fonction
Baiduspider Contenus textuels
Baiduspider-image Contenus images
Baiduspider-video Contenus vidéos
Baiduspider-news Baidu actualité
Baiduspider-favo Baidu bookmark

Voir aussi : documentation officielle sur les bots d’indexation Baidu (en Anglais).

Les bots Baïdu n’indexent qu’un nombre restreint de pages, généralement la page d’accueil et les pages principales du site, mais pas les pages rofondes.

Vérifier l’état d’indexation sur Baïdu

Pour mesurer l’indexation d’un site sur Baïdu deux méthodes coexistent :

– L’Opérateur « site: »

La commande traditionnelle « site: » Baïdu ne fourni qu’une estimation du nombre de pages indexées sur le domaine entier ou sur un sous-domaine. Cette commande est volontairement bridée aux 300 premiers résultats indexés.

– Baidu Zhanzhang (webmaster tools Baïdu)

Baidu Zhanzhang permet de déclarer un sitemap XML, sur le même modèle que le webmaster tool Google, pour connaître précisément le nombre de pages indexées du site soumis.  Cette fonctionnalité est réservée aux sites de plus de 100 pages.

Débuter l’indexation sur Baïdu

Baïdu propose une page pour la soumission manuelle d’un site internet récent ou non-référencé : http://zhanzhang.baidu.com/sitesubmit/index.

Assurer l’indexation sur Baïdu

– Robots.txt

Baïdu utilise les standards du fichier robots.txt et gère à ce titre les commandes générales :

  • « User-agent: » pour s’adresser à un bot d’indexation.
  • « Disallow: » pour l’exclusion d’un répertoire ou d’une page.
  • « Allow: » pour l’autorisation à l’indexation d’un sous-répertoire/ page dans un répertoire exclu.
  • Wildcards : « * » (astérisque, pour remplacer une séquence de caractères) et « $ » (dollar, pour spécifier la fin d’une chaîne de caractères).

La prise en compte d’une mise à jour du robots.txt sur Baïdu peut varier de plusieurs semaines à plusieurs mois: en fonction de la taille du site, de son activité et de l’emplacement de son serveur.

Voir aussi : documentation officielle Baidu concernant le robots.txt (en Anglais)

– Sitemap XML

Baïdu permet de soumettre un sitemap XML pour optimiser l’indexation de vos sites internet. Chaque sitemap XML peut contenir jusqu’à 50.000 URLs ou peser jusqu’à 10Mo (hors compression). Si nécessaire, un index de sitemap peut également être prévu et le tout compressé au format Gzip.

La syntaxe exigée par Baidu est également la même que sur les moteurs de recherche tel que Google, Bing ou Yandex :

<?xml version="1.0" encoding="utf-8"?>
<urlset>
<url>
<loc>http://www.example.com/page1.html</loc>
<lastmod>2011-03-01</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
<?xml version="1.0" encoding="utf-8"?>
<sitemapindex>
<sitemap>
<loc>http://www.example.com/1.xml<loc>
<lastmod>2010-01-01</lastmod>
</sitemap>
</sitemapindex>

– Protocole HTTPS

Le protocole sécurisé HTTPS ne pose pas de problème pour l’indexation sur Baïdu.

– Contenus textuels

Si plusieurs dizaines d’ethnies cohabitent en Chine, une seule langue est officiellement reconnue : le Mandarin – avec cependant des nuances à l’écrit selon les régions (caractères simplifiés Vs caractères traditionnels).

Toutefois, l’index principal de Baidu ne listant que des résultats en Mandarin simplifié, on privilégiera donc ce format là.

– URLs

Contrairement au contenus rédigés en sinogrammes, la réécriture des URLs est à privilégier au format pinyin (retranscription romanisée des sinogrammes) pour éviter tout problème d’encodage/ décodage lié à l’utilisation des caractères chinois, source potentielle de blocage à l’indexation.

– Maillage interne

L’incapacité des bots Baidu à crawler les pages profondes requiert un bon maillage interne, dans lequel les pages naturellement moins fournies en liens internes sont redensifiées depuis le menu de navigation, le footer ou un plan de site par exemple.

– Hébergement

Firewall et censure obligent, les sites hébergés à l’étranger sont moins crawlés et encourent à tout moment une perte totale d’indexation.

Sans solution miracle contre ce mal, il est préférable de prévoir un hébergement en Chine continentale.

Et dans un prochain billet, quelques astuces SEO pour maximiser l’indexation des pages profondes…