Dans la série "tu te poses trop de questions"

L'autre nuit, je me suis demandé comme ça : « Tiens, il y a combien de A dans l'Internet ? »

La réponse simple c'est que dans le mot Internet il y a 0 fois la lettre A. Je sais, j'ai recompté deux fois. Par contre il y a un I et deux E.

La réponse moins simple c'est que l'Internet est relativement grand, et donc ça va pas être évident de compter tous les A à la main. Simplifions un peu en nous restreignant au web tel qu'il est vu par les moteurs de recherche. J'ai effectué quelques recherches avec Google, Bing et Baidu.

Quelques constats


Les différent moteurs ne donnent pas les mêmes valeurs. Ça, on pouvait s'en douter. Mais en l’occurrence il s'en faut de plusieurs ordres de grandeur ! Google estime qu'il y a 25 270 000 000 A. Bing 120 000 000 et Baidu 100 000 000. Ouaip, Bing et Baidu font genre 200 fois moins que Google. Quand même.

Second constat : si nous nous intéressons aux suites de A, du type AA, AAA, AAAA, AAAAA etc. leur nombre décroit assez régulièrement (quel que soit le moteur de recherche). Pas trop de surprise ici, on s'attend vaguement à une loi de puissance (ou peut-être bien une loi de Zipf, merci Antoine pour le commentaire !)

Ça laisse quand même ouverte la question de la méthode de comptage. Je m'expleek : lorsqu'une page web contient AA, est-ce que ça compte aussi pour deux A ? Pire, quand une page conteint AAA, est-ce que ça compte aussi pour un AA (celui de gauche), un autre AA (celui de droite) et trois A ? Et ben ça, je ne sais pas et je n'ai pas encore réfléchi dans ma tête à une expérience qui permettrait de le déterminer.

Je n'ai pas réfléchi parce que je suis une feignasse ; et aussi parce que je suis tombé sur quelque chose d'hyper accaparant. Regardez plutôt :

Log du nombre de pages en fonction de la longueur des séquences (de A)

Trop de AAAAAAAAAAA !


Eh oui, il y a beaucoup beaucoup beaucoup beaucoup trop de séquences de AAAAAAAAAAA (11 A). Il y en a presque autant que des séquences de AAA (3 A). ça le fait sur Google mais uniquement pour la voyelle A. J'ai vérifié pour d'autres voyelles : ça décroit normalement (sauf quelques vagues irrégularités pour E, mais pas significatives en comparaison).

Alors évidement la question c'est kesskisspass ? Y-a-t'il vraiment une bonne raison pour que le motif AAAAAAAAAAA apparaisse aussi souvent ? Ou alors est-ce juste un artefact de l'algorithme d'estimation de Google ? Auquel cas, pourquoi ça le fait pas sur les autres voyelles ?

Log du nombre de page en fonction de la longueur des séquences
pour diverses voyelle (je sais plus trop dans quel ordre, mais le A est en bleu ciel dans le font)

Sur Bing, rien de spécial, tout décroit normalement en fonction de la longueur des séquences. Sur Baidu, on constate également un artefact, mais cette fois pour la séquence AAAAAA (6 A). On observe d'ailleurs le même genre d'artefact pour E (mais par pour I O U).

Comment expleeker ça ?


Alors j'ai bien quelques pistes, mais pas encore d'explication certaine :
À l'intuition, je pense vraiment que c'est un artefact des algos d'approx. Intéressant à creuser. Comment en faire la preuve ? En tout cas, avec Google Trends, on n'observe pas de valeur aberrante. Les A, AA, AAA, etc. suivent bien sagement une loi en puissance.
Autre possibilité : AAAAAAAAAAA est un terme très répandu qui signifie « je suis en train de tomber du haut d'un immeuble ». Sur Baidu AAAAAA serait un terme à peu près équivalent, du genre « je suis en train de tomber de la muraille de Chine. » Comme la muraille de chine est moins haute qu'un immeuble, il faut moins de A.
Autre hypothèse : on observe bien des artefacts, mais ils dépendent de l'observateur (par exemple de la longueur typeek de ses recherches). Un autre observateur pourrait alors trouver des irrégularités différentes, par exemple 13 A ou 8 A, etc. Facile à tester ça, depuis un autre accès (mais là tout de suite j'ai la flemme).

Conclusions (partielles)


Ben pas grand-chose vu que les expés sont pas terminées. Mais en gros : c'est une manière de plus de montrer qu'il-n'y-a-pas-de-vérité-sur-Internet.

Peut-être aussi qu'il n'y a pas de petites questions : cette histoire de séquence irrégulière provient nécessairement d'une cause (aaahhh, la cause et la nécessité) liée au fonctionnement de chaque moteur de recherche. Intéressant pour le reverse ça :)

Bon, je vous tiens au courant quand ça avance.

Djiin au Thabor


Tu veux écouter Djiin(*) ?
C'est le 21 juin au Thabor

Tu veux pas les écouter ?
Ben t'y va quand même,
wohlaut'eh c'est quoi ces manières


(*) Z'avez vu, j'ai bien recompté les "ii" et le "n"
n.b. : j'ai piqué la photo sur FB, si ça gène côté copyright vous dites, j'en met une autre.

Trois en un !


Sans aller jusqu'à économiser du kérosène(*)
si on pouvait simplement nous lâcher la grappe avec la pub sur les plages.
Ils arrivent à polluer le silence, l'air et la vue. Trois en un !
En plus, en mode naturiste, j'ai l'impression de me faire mater de haut.

φιλοσοφία

"C'est pas un truc d'intello la philosophie, c'est pas de la masturbation intellectuelle.
C'est un sport de combat. C'est la meilleure façon de pas se laisser manipuler."
-- 
Philippe Vilain, Pas son genre

2017


Défendre ses droits, est-ce défendre ses intérêts ?
La raison peut-elle rendre raison de tout ?
Peut-on se libérer de sa culture ?
Suffit-il d’observer pour connaître ?
Tout ce que j’ai le droit de faire est-il juste ?
Une oeuvre d’art est-elle nécessairement belle ?



Philodendron

2016


Nos convictions morales sont-elles fondées sur l’expérience ?
Le désir est-il par nature illimité ?
Savons-nous toujours ce que nous désirons ?
Pourquoi avons-nous intérêt à étudier l’histoire ?
Travailler moins, est-ce vivre mieux ?
Faut-il démontrer pour savoir ?




ROT13 Poetry


Terra one, nowhere green, abjurer bar


Just decode/encode in ROT13 and read the result. In French we have TENIR GRAVE and a few others.

La proportion de cons dans tous les milieux

Une grande constante universelle, disait un de mes maîtres à penser, c’est la proportion de cons dans tous les milieux.

Certes il y a aussi la constante de Planck(*), le nombre d’Avogadro(**) et bien d’autres constantes issues notamment de la physeek (classeek ou quanteek)… mais ma constante préférée ça reste la proportion de cons dans tous les milieux. 

Notons la PDCDTLM pour « Proportion De Cons Dans Tous Les Milieux » (ne pas confonde avec PDCDLTLM pour « Proportion De Cons Dans Les Terres Du Milieu »).

Il est très difficile d’estimer la valeur exacte de la PDCDTLM. Des chercheurs de classe internationale s’accordent toutefois à dire que ça tourne autour de 1/7. Autrement dit, dans un groupe de 7 personnes il y a forcément un con. Bien sûr faut analyser : par exemple dans un groupe de 7 gugusses déjà cons, il y a 7 cons. Mais alors il y en a quand même un qui est plus con que les autres. On le note LCDG pour « Le Con Du Groupe »

Faites l’expérience au sein des groupes que vous connaissez. Et surtout, gardez à l’esprit que LCDG peut tout à fait être vous. Exemple: vous êtes avec six camarades et ils sont tous brillants et sympatheeks. Eh bien c'est mauvais signe pour vous, vous êtes le maillon faible, pardon vous êtes LCDG. Par contre, eux ils sont tranquilles.

C'est à cette tranquillité du groupe, précisément, que LCDG est utile: il rassure les autres sur leur intelligence.

Sans entrer dans les détails (des noms ! des noms !) j’ai fréquenté plusieurs groupes d’au moins sept personnes, tous dotés de LCDG comme il se doit. Et, oui, parfois LCDG c'était moi. Assez souvent en fait. Un jour d’ailleurs j’ai quitté un groupe exprès pour ça : j’en avais marre d’y faire le con et j'ai lâchement laissé ce rôle à d'autres.

Il existe une variante de la Proportion De Cons Dans Tous Les Milieux. C'est la Proportion De Traîtres Dans Tous les Milieux (la notion de traître restant largement à définir). Empiriquement, tout groupe de sept personnes contient généralement un traître.

Bon, évidement il y a quelques exceptions. Par exemple Judas était dit-on un traître, mais dans un groupe de 13. Autre exception : les 7 nains, groupe dans lequel il est difficile d’imaginer un traître (Grincheux ? Simplet ?). À la limite ce serait Blanche-Neige la traîtresse vu qu'elle s'est barrée avec le prince charmant. Mais c'est un peu facile - je trouve - de tout mettre sur le dos de la seule nana du groupe. Bon, à part les apôtres et les nains, ça marche plutôt bien. Bien sûr, le traître peut *en plus* être le con du groupe. On a alors à faire à un con de traître, typiquement le roi d'Orcanie dans Kaamelott.


Les lecteurs habitués savent déjà qu'à ce moment précis de l'article, je ne sais plus du tout où je veux en venir. Peut-être à une expérience ancienne, et un peu étrange, où je m'étais senti à la fois LCDG (haut la main !) et à la fois très heureux de ne pas étaler le peu d'intelligence dont j'étais alors doté. Peut-être ai-je trahi en jouant LCDG pour rassurer les autres ? Ou pas.

Pour finir, citons de mémoire cette phrase piquée dans le (très moyen) livre de Harry Harrison et Marvin Minsky : « Il n'est pas nécessaire d'être intelligent, il suffit de faire suffisamment bien semblant. » Si on y réfléchi, c'est une excellente définition de l'intelligence, qui s'étend notamment à l'intelligence artificielle (l'intention première de Marvin Minsky). Mais bon, faut y réfléchir, c'est chiant.

Marvin


(*) Pour rappel, la constante de Planck vaut entre pas bézef et un pouième (à un quart de poil près).
(**) Pour rappel, le nombre d’Avogadro(***) vaut entre un max et une blinde (à un godet de pelleteuse près).
(***) À vos Gadros… prêt… partez !