Introduction à la SEO (optimisation de pages Web)

I. Problématique▲

Faire connaître son site Web n'est plus suffisant. Il faut aujourd'hui se focaliser sur chaque thème abordé par un site, chacune des pages ayant son propre contexte.
Le référencement est une bataille de tous les instants dans laquelle ceux qui font attention aux moindres détails prennent de l'avance sur ceux qui laissent leur site vivre sa vie et sur ceux qui, au contraire, s'en occupent de trop.
Il ne s'agit pas de simplement remplir les balises META de chaque page HTML. Il s'agit de techniques bien plus avancées, plus subtiles, qui sont même parfois hors de notre contrôle.

I-A. Présentation▲

À l'origine, il y avait des sites. Ils restaient isolés et n'étaient pas prévus pour le grand public.
Ensuite, les besoins de notoriété se sont fait sentir. C'est ainsi que sont arrivés les annuaires et les moteurs de recherche.

Il me semble fondamental de situer le contexte avant de rentrer dans le vif du sujet.

I-B. Historique▲

Avant 1993, il était difficile de trouver du contenu. Le concept de « spider » n'existait pas (du moins, pas en tant que programme automatisé permettant de construire des index aussi complets que ceux qui existent aujourd'hui). Chacun conservait une liste de ses sites favoris et l'échangeait avec les autres internautes. Ce comportement n'a d'ailleurs pas totalement disparu.
Grâce à ce système basé sur la confiance, chacun pouvait se reposer en ce qu'un site affirmait contenir au moyen de la fameuse balise META.

En 1995 sont apparus deux majeurs du référencement que nous connaissons encore aujourd'hui : Yahoo! (Yet Another Hierarchical Officious Oracle, « encore un oracle officieux et hiérarchique ») et AltaVista (« vue de haut », dont les créateurs travaillent maintenant pour Google). Yahoo! organisait les sites selon des thématiques hiérarchisées, tandis qu'AltaVista préférait prendre une approche de recherche.
À cette époque, le référencement était fondé sur les informations que chaque webmestre pouvait renseigner dans ses propres pages (balise META). Le propriétaire avait donc un contrôle total, permettant de donner des indications arbitraires. C'est un héritage de l'ère précédente. Les webmestres commencèrent ainsi à donner de fausses informations de manière à attirer davantage de visiteurs.

Google est arrivé en 1998 avec une nouvelle méthode de référencement : le PageRank, fondé principalement sur les backlinks. L'idée était de trouver un moyen qui permette de déterminer la popularité d'une page Web et qui soit le critère principal pour classer les résultats d'une recherche.
Le résultat est explosif, le succès fulgurant. Aujourd'hui, Google est incontestablement le moteur de recherche le plus utilisé, mais dont les prédécesseurs ne se laissent pas abattre.
En 2001, Google atteint une popularité sans précédent, juste après que les moteurs de recherche abandonnent les balises META comme critères (cet abandon a lieu au début du siècle).

En 2004 sont lancés les deux concurrents majeurs actuels de Google Search : Yahoo! Search et MSN Search (Microsoft).

I-C. Comprendre les moteurs de recherche▲

Le référencement est constitué de trois étapes :

Web crawling (« parcours du Web ») ;
Indexing (« mise à l'index du contenu ») ;
Searching (« recherche »).

Je vous propose, afin de parfaitement comprendre comment fonctionne un spider (la première étape), de faire le nôtre. N'ayons pas peur, ce n'est pas très complexe.
Notre robot se contentera de lire une page Web et d'en donner la liste des images, du contenu et des liens ; il suivra quelques-uns de ces liens afin de nous donner des statistiques sur les pages liées, et ce sur quelques niveaux. Un véritable spider devra aller bien plus loin (reproduire cette opération à l'infini), mais nous ne disposons pas d'une puissance de calcul phénoménale…

Télécharger le script (écrit en PHP) : [ ./fichiers/spider.zip ] ou [ https://g-rossolini.developpez.com/tutoriels/seo/fichiers/spider.zip ]

Je ne mets pas ce script en démonstration, car il est très gourmand en bande passante.

Cet exemple a plusieurs objectifs : d'une part, vous démontrer que le spider ne peut pas analyser autre chose que du texte (adieu les images et les animations en Flash) ; d'autre part, vous sensibiliser aux éléments qui ont de l'importance dans une page (attributs « alt » des images et « title » des liens, par exemple : je les ai mis en gras quand ils sont disponibles).

L'étape de mise à l'index comprend une analyse complète du contenu, des liens, du code, etc. C'est ici que l'algorithme entre en jeu et que la plus grosse partie des calculs sont effectués.

La recherche est une étape relativement simple : il s'agit simplement de trouver (dans l'index) les pages qui correspondent aux termes recherchés, puis de les classer.

I-D. Les techniques▲

Chapeau blanc (« white hat »)▲

Ce sont les méthodes honnêtes.
Il s'agit des méthodes de SEO permettant simplement de suivre les conseils des moteurs de recherche. Cela vise simplement à construire des sites au contenu utile et correctement mis en valeur.

Exemples :

Sélectionner les mots clefs avec grand soin ;
Ne pas trop diversifier les thèmes traités par un même site Web ;
Utiliser du code HTML correct ;
etc.

Je ne souhaite pas donner davantage de détails ici puisque cela fera l'objet de divers tutoriels séparés.

Chapeau noir (« black hat »)▲

Ce sont les méthodes manipulatrices de résultats. Je vous les déconseille, car elles ne sont pas pérennes ; de plus, elles sont éthiquement incorrectes.
Il s'agit des méthodes permettant de manipuler les résultats de moteurs de recherche en utilisant des failles dans les algorithmes des moteurs. Ces techniques peuvent fonctionner, mais les moteurs de recherche les combattent activement, ce qui laisse penser qu'elles deviennent inefficaces (voire pénalisantes) avec le temps.

En février 2006, Google supprimait de son index les sites de BMW Allemagne et de Ricoh Allemagne pour avoir utilisé ces techniques. Les sites en question ont évidemment remédié à la situation dans des délais très brefs.

Exemples :

Spamdexing : parvenir à tromper l'algorithme du moteur de recherche pour que le site reçoive davantage d'audience qu'il le mérite ;
Cloaking : fournir au moteur de recherche une version différente du site par rapport à ce que voient les visiteurs ;
Link farms : construire un réseau de sites qui s'échangent des liens, de manière à augmenter leur quantité de backlinks ;
etc.

Je ne souhaite pas donner davantage de détails ici puisque je n'adhère pas à ces techniques.

I-E. Principes généraux▲

Pour optimiser ses pages Web, il suffit d'être le plus honnête possible.

Voici quelques éléments :

construisez des pages au contenu conséquent : ayez du volume sans pour autant faire dans la longueur ;
organisez votre contenu : structure du site, arborescence ;
rédigez correctement : orthographe, grammaire, etc. ;
mettez en forme : titre, gras, italique, etc. ;
pensez à mettre une balise <h1></h1> dans chaque page, à renseigner la balise <title></title>…

Vous remarquez le point central : le contenu. Tout s'applique à mettre en valeur le contenu de votre page. Pourquoi ? Simplement parce que c'est ce que le visiteur cherche dans le moteur de recherche. Il veut une réponse à une question, donc du contenu. C'est à cela qu'il faut penser quand vous optimisez : sélectionnez les mots clefs que le visiteur devra pouvoir trouver dans vos pages et brodez à partir de cela. Vos liens doivent contenir un texte d'ancrage faisant référence à ces mots ou à des synonymes ; les mots eux-mêmes doivent être situés à des endroits stratégiques (titres, en début de page, mis en forme, etc.)…

Copyright © 2006 Guillaume Rossolini. Aucune reproduction, même partielle, ne peut être faite de ce site ni de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu'à trois ans de prison et jusqu'à 300 000 € de dommages et intérêts.