Wikipedia
Un article dans Wikipédia explique qu'en cliquant sur le premier wikilien d'un article, et en répétant cette action sur chacun des articles visités, le parcours aboutit à l'article philosophie. J'ai testé cette affirmation.
Le fait est documenté sur Wikipedia en anglais (Getting to Philosphy) depuis mai 2008. Cet article se trouve également sur Wikipedia France (Se rendre à l'article philosophie).
Les règles sont les suivantes :
Au 26 mai 2011, 94,52% des articles de wikipedia anglais mènent à philosophie.
J'ai commencé par télécharger le contenu de Wikipédia France (dump du 25/07/2013).
Le dump contient deux fichiers :
La première étape consiste à identifier le premier lien de chaque article. Les liens sont en général identifiés par des doubles crochets,
par exemple [[Page 1]]
. Le traitement est assez compliqué, car il y a de nombreux cas particuliers à prendre en compte (modèles, liens rouges, liens vers des images fichiers, redirection, ...).
La seconde étape consiste à calculer le cycle correspondant à chaque article. J'utilise pour cela l'algorithme du lièvre et de la tortue.
Au total, le traitement prend environ 1h30 sur mon MacBook.
Au 25 juillet 2013, 85,3% des pages de Wikipédia France mènent vers Philosophie.
Voici les principaux cycles identifiés :
Nombre | % | Cycle final |
---|---|---|
2 040 794 | 85,3% | Philosophie - Théorie de l'activité - Conscience - Philosophie |
99 658 | 4,2% | Bâtiment (construction) - Immeuble - Bâtiment (construction) |
36 530 | 1,5% | Besoin - Désir - Besoin |
34 887 | 1,5% | Entreprise - Client - Fournisseur - Entreprise |
34 398 | 1,4% | Caractère (typographie) - Lettre (écriture) - Caractère (typographie) |
17 473 | 0,7% | Pas de cycle (on arrive à une page sans successeur) |
10 236 | 0,4% | Atome - Corps simple - Élément chimique - Atome |
9 027 | 0,4% | Renaissance - Renaissance italienne - Renaissance (période historique) - Renaissance |
7 678 | 0,3% | Cyclisme -> Cyclisme urbain -> Cyclisme |
Le code correspondant à cet article est disponible sur Github.