Dans la série "tu te poses trop de questions"

L'autre nuit, je me suis demandé comme ça : « Tiens, il y a combien de A dans l'Internet ? »

La réponse simple c'est que dans le mot Internet il y a 0 fois la lettre A. Je sais, j'ai recompté deux fois. Par contre il y a un I et deux E.

La réponse moins simple c'est que l'Internet est relativement grand, et donc ça va pas être évident de compter tous les A à la main. Simplifions un peu en nous restreignant au web tel qu'il est vu par les moteurs de recherche. J'ai effectué quelques recherches avec Google, Bing et Baidu.

Quelques constats


Les différent moteurs ne donnent pas les mêmes valeurs. Ça, on pouvait s'en douter. Mais en l’occurrence il s'en faut de plusieurs ordres de grandeur ! Google estime qu'il y a 25 270 000 000 A. Bing 120 000 000 et Baidu 100 000 000. Ouaip, Bing et Baidu font genre 200 fois moins que Google. Quand même.

Second constat : si nous nous intéressons aux suites de A, du type AA, AAA, AAAA, AAAAA etc. leur nombre décroit assez régulièrement (quel que soit le moteur de recherche). Pas trop de surprise ici, on s'attend vaguement à une loi de puissance (ou peut-être bien une loi de Zipf, merci Antoine pour le commentaire !)

Ça laisse quand même ouverte la question de la méthode de comptage. Je m'expleek : lorsqu'une page web contient AA, est-ce que ça compte aussi pour deux A ? Pire, quand une page conteint AAA, est-ce que ça compte aussi pour un AA (celui de gauche), un autre AA (celui de droite) et trois A ? Et ben ça, je ne sais pas et je n'ai pas encore réfléchi dans ma tête à une expérience qui permettrait de le déterminer.

Je n'ai pas réfléchi parce que je suis une feignasse ; et aussi parce que je suis tombé sur quelque chose d'hyper accaparant. Regardez plutôt :

Log du nombre de pages en fonction de la longueur des séquences (de A)

Trop de AAAAAAAAAAA !


Eh oui, il y a beaucoup beaucoup beaucoup beaucoup trop de séquences de AAAAAAAAAAA (11 A). Il y en a presque autant que des séquences de AAA (3 A). ça le fait sur Google mais uniquement pour la voyelle A. J'ai vérifié pour d'autres voyelles : ça décroit normalement (sauf quelques vagues irrégularités pour E, mais pas significatives en comparaison).

Alors évidement la question c'est kesskisspass ? Y-a-t'il vraiment une bonne raison pour que le motif AAAAAAAAAAA apparaisse aussi souvent ? Ou alors est-ce juste un artefact de l'algorithme d'estimation de Google ? Auquel cas, pourquoi ça le fait pas sur les autres voyelles ?

Log du nombre de page en fonction de la longueur des séquences
pour diverses voyelle (je sais plus trop dans quel ordre, mais le A est en bleu ciel dans le font)

Sur Bing, rien de spécial, tout décroit normalement en fonction de la longueur des séquences. Sur Baidu, on constate également un artefact, mais cette fois pour la séquence AAAAAA (6 A). On observe d'ailleurs le même genre d'artefact pour E (mais par pour I O U).

Comment expleeker ça ?


Alors j'ai bien quelques pistes, mais pas encore d'explication certaine :
À l'intuition, je pense vraiment que c'est un artefact des algos d'approx. Intéressant à creuser. Comment en faire la preuve ? En tout cas, avec Google Trends, on n'observe pas de valeur aberrante. Les A, AA, AAA, etc. suivent bien sagement une loi en puissance.
Autre possibilité : AAAAAAAAAAA est un terme très répandu qui signifie « je suis en train de tomber du haut d'un immeuble ». Sur Baidu AAAAAA serait un terme à peu près équivalent, du genre « je suis en train de tomber de la muraille de Chine. » Comme la muraille de chine est moins haute qu'un immeuble, il faut moins de A.
Autre hypothèse : on observe bien des artefacts, mais ils dépendent de l'observateur (par exemple de la longueur typeek de ses recherches). Un autre observateur pourrait alors trouver des irrégularités différentes, par exemple 13 A ou 8 A, etc. Facile à tester ça, depuis un autre accès (mais là tout de suite j'ai la flemme).

Conclusions (partielles)


Ben pas grand-chose vu que les expés sont pas terminées. Mais en gros : c'est une manière de plus de montrer qu'il-n'y-a-pas-de-vérité-sur-Internet.

Peut-être aussi qu'il n'y a pas de petites questions : cette histoire de séquence irrégulière provient nécessairement d'une cause (aaahhh, la cause et la nécessité) liée au fonctionnement de chaque moteur de recherche. Intéressant pour le reverse ça :)

Bon, je vous tiens au courant quand ça avance.

2 commentaires:

Anonyme a dit…

Tu me fais penser à la loi de Zipf, sujet passionnant s'il en est. Elle a un nom trop badass cette loi en plus. Zipf ! Je suis surpris que tu ne l'aies pas citée.

Antoine.

Metallurgeek a dit…

En fait j'avais hésité... parce que je confond un peu les lois de puissance et les lois de Zipf (jamais été au point avec les lois;)
Du coup j'ai rectifié dans l'article. Merci !