High-Tech

Twitter interdit désormais l’indexation sur toutes ses pages (MàJ)

Twitter a modifié les règles fournies aux robots d’indexation, pour ne plus autoriser aucune indexation de ses pages. Même celles qui ne comportent pas de messages de ses utilisateurs.


Mise à jour : l’indexation est toujours permise hors du sous-domaine www, via le fichier http://twitter.com/robots.txt. Soit c’est un oubli de la part de Twitter, soit le réseau social privilégie le référencement hors www.

Ceux qui voudront indexer Twitter pour réaliser leur propre moteur de recherche ou pour conserver des archives automatisées devront obligatoirement signer un contrat avec Twitter pour avoir accès à son API, comme l’a fait Google. Le réseau social a en effet modifié son fichier robots.txt qui fixe les règles que les robots d’indexation sont censées suivre, et elles sont désormais simplissimes. Plus aucun robot n’est autorisé à crawler dans les pages de Twitter, que ce soit pour accéder aux messages publiés par les utilisateurs, ou même pour indexer des pages relativement statiques comme le règlement du site, les pages d’aide, le blog officiel, les documentations des API, etc.

Aucune loi n’impose de respecter les règles décrites dans le fichier robots.txt, mais il s’agit d’une convention partagée par l’ensemble des grands moteurs de recherche, et globalement suivie par la plupart des agents d’indexation. Par ailleurs le fichier sitemap.xml, qui donnait aux moteurs de recherche et autres robots d’indexation une cartographie du site pour faciliter leurs travaux de référencement, est désormais vide. 

Nous reproduisons ci-dessous le robots.txt tel qu’il apparaissait jusqu’à cette mise à jour radicale :

#Google Search Engine Robot
User-agent: Googlebot
Allow: /?_escaped_fragment_

Allow: /*?lang=
Allow: /hashtag/*?src=
Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

Disallow: /account/not_my_account

#Yahoo! Search Engine Robot
User-Agent: Slurp
Allow: /?_escaped_fragment_

Allow: /*?lang=
Allow: /hashtag/*?src=
Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

Disallow: /account/not_my_account

#Yandex Search Engine Robot
User-agent: Yandex
Allow: /?_escaped_fragment_

Allow: /*?lang=
Allow: /hashtag/*?src=
Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

Disallow: /account/not_my_account

#Microsoft Search Engine Robot
User-Agent: msnbot
Allow: /?_escaped_fragment_

Allow: /*?lang=
Allow: /hashtag/*?src=
Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

Disallow: /account/not_my_account

# Every bot that might possibly read and respect this file.
User-agent: *
Allow: /*?lang=
Allow: /hashtag/*?src=
Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

Disallow: /account/not_my_account

Disallow: /oauth
Disallow: /1/oauth

Disallow: /i/streams
Disallow: /i/hello

# Wait 1 second between successive requests. See ONBOARD-2698 for details.
Crawl-delay: 1

# Independent of user agent. Links in the sitemap are full URLs using https:// and need to match
# the protocol of the sitemap.
Sitemap: https://twitter.com/sitemap.xml

Veuillez remplir les champs obligatoires.
Signaler un contenu



A propos de l'auteur

Sébastien T.

Passionné depuis toujours par l'informatique et les jeux vidéos, je transforme ma passion en expertise. J'utilise quotidiennement les outils et systèmes Microsoft. Je ne délaisse pas mon côté ouvert, notamment via l'utilisation des OS Debian.

Ajouter un commentaire

Cliquez ici pour poster un commentaire