Accueil » Twitter interdit désormais l’indexation sur toutes ses pages (MàJ)
High-Tech

Twitter interdit désormais l’indexation sur toutes ses pages (MàJ)

Twitter a modifié les règles fournies aux robots d’indexation, pour ne plus autoriser aucune indexation de ses pages. Même celles qui ne comportent pas de messages de ses utilisateurs.


Mise à jour : l’indexation est toujours permise hors du sous-domaine www, via le fichier http://twitter.com/robots.txt. Soit c’est un oubli de la part de Twitter, soit le réseau social privilégie le référencement hors www.

Ceux qui voudront indexer Twitter pour réaliser leur propre moteur de recherche ou pour conserver des archives automatisées devront obligatoirement signer un contrat avec Twitter pour avoir accès à son API, comme l’a fait Google. Le réseau social a en effet modifié son fichier robots.txt qui fixe les règles que les robots d’indexation sont censées suivre, et elles sont désormais simplissimes. Plus aucun robot n’est autorisé à crawler dans les pages de Twitter, que ce soit pour accéder aux messages publiés par les utilisateurs, ou même pour indexer des pages relativement statiques comme le règlement du site, les pages d’aide, le blog officiel, les documentations des API, etc.

Aucune loi n’impose de respecter les règles décrites dans le fichier robots.txt, mais il s’agit d’une convention partagée par l’ensemble des grands moteurs de recherche, et globalement suivie par la plupart des agents d’indexation. Par ailleurs le fichier sitemap.xml, qui donnait aux moteurs de recherche et autres robots d’indexation une cartographie du site pour faciliter leurs travaux de référencement, est désormais vide. 

Nous reproduisons ci-dessous le robots.txt tel qu’il apparaissait jusqu’à cette mise à jour radicale :

#Google Search Engine Robot
User-agent: Googlebot
Allow: /?_escaped_fragment_

Allow: /*?lang=
Allow: /hashtag/*?src=
Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

Disallow: /account/not_my_account

#Yahoo! Search Engine Robot
User-Agent: Slurp
Allow: /?_escaped_fragment_

Allow: /*?lang=
Allow: /hashtag/*?src=
Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

Disallow: /account/not_my_account

#Yandex Search Engine Robot
User-agent: Yandex
Allow: /?_escaped_fragment_

Allow: /*?lang=
Allow: /hashtag/*?src=
Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

Disallow: /account/not_my_account

#Microsoft Search Engine Robot
User-Agent: msnbot
Allow: /?_escaped_fragment_

Allow: /*?lang=
Allow: /hashtag/*?src=
Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

Disallow: /account/not_my_account

# Every bot that might possibly read and respect this file.
User-agent: *
Allow: /*?lang=
Allow: /hashtag/*?src=
Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

Disallow: /account/not_my_account

Disallow: /oauth
Disallow: /1/oauth

Disallow: /i/streams
Disallow: /i/hello

# Wait 1 second between successive requests. See ONBOARD-2698 for details.
Crawl-delay: 1

# Independent of user agent. Links in the sitemap are full URLs using https:// and need to match
# the protocol of the sitemap.
Sitemap: https://twitter.com/sitemap.xml

Si vous avez trouvé une erreur d’orthographe, veuillez nous en aviser en sélectionnant le mots et en appuyant sur Ctrl+Enter.

A propos de l'auteur

Sébastien

Passionné depuis toujours par l'informatique et les jeux vidéos, je transforme ma passion en expertise. J'utilise quotidiennement les outils et systèmes Microsoft. Je ne délaisse pas mon côté ouvert, notamment via l'utilisation des OS Debian et Archlinux.

Ajouter un commentaire

Cliquez ici pour poster un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Ce site est hébergé avec ❤ par

Ikoula

Suivez nous sur les réseaux sociaux !

FR | GeekParadizeHub ➜ Communauté Multigaming

3 User(s) Online Join Server
  • ScreaX21
  • SLXW
  • Zento

✉️ Abonnez-vous à notre newsletter

Recevez par email toute l'actualité High-Tech chaque matin
Abonnez-vous à notre newsletter et rejoignez les 1300 autres abonnés.

2 - Entrer votre adresse email :

Vous affirmez avoir pris connaissance de notre Politique de confidentialité. Vous pouvez vous désinscrire à tout moment à l'aide des liens de désinscription ou en nous contactant via le formulaire de contact

Tester votre débit

Acheter moins cher avec i-Comparateur

Rapport de faute d’orthographe

Le texte suivant sera envoyé à nos rédacteurs :