1984 1984 1984 1984

La nuit dernière au lieu de hacker des trucs, je cherchais la version texte du roman 1984(*).


Chercher 1984

Pas trivial à dénicher mais pas trop compliqué non plus. Ma méthode préférée c'est 1) Je choisi un extrait caractéristeek et plutôt vers la fin du texte, 2) Je soumets cet extrait entre guillemets à un moteur de recherche, 3) Je vois ce qui remonte je sauvegarde tout ça. Et là je commence à réfléchir un peu.


4 fois 1984

L'extrait que j'ai choisi c'est but still noticing the astonishing difference in demeanour. Ce qui remonte, ce sont (notamment) quatre versions texte. Dont celle du projet Gutenberg Australien et celle de Archive.org, mais en fait peu importe la provenance. Ce qui importe c'est que j'ai sous la main quatre versions texte du même roman. Saisi d'un féroce accès d'originalité j'ai nommé les quatre fichiers 1984-1.txt 1984-2.txt 1984-3.txt et 1984-4.txt.

En toute naïveté, on aurait envie que les quatre fichiers soient parfaitement identeeks. Et si les fichiers ne sont pas identeeks, c'est par exemple qu'un des fichiers contient une coquille. Ou une erreur de numérisation ou d'impression ou de retranscription. Bref, si c'est différent ça découvre un petit bug, un truc potentiellement intéressant (**).


Comparaison n'est pas...

En fait, l'idée naïve que les fichiers doivent être identeeks, est quasiment la bonne. il faut juste effectuer quelques ajustements préalables. En gros, pour comparer les versions, il va falloir "normaliser" le texte. En effet, chacune des versions saute des lignes à sa manière, césure les mots ou pas, laisse les numéros de pages ou pas, inclue les annexes ou pas, etc.

Pour l'instant j'ai normalisé deux textes seulement. Ceux qui s'y prêtaient le mieux. Et la comparaison ne fait apparaitre qu'une seule différence. Dans l'une des versions, le mot his est doublé dans she was in his his arms. Intéressant non ? (**).

Je me demande bien ce qui a pu faire que le his est doublé dans cette version précise. Et je trouve génial que l'uneek différence tombe pile sur cette phrase là. Parce qu'elle est très belle cette phrase là. Tiens je te mets une copie d'écran sinon tu ne me croiras jamais. Et je reviens je-sais-pas-quand, au moment où j'aurai réussi à normaliser les deux autres versions.

Tu la vois la différence ?





(*) Une petite farce désopilante de George Orwell, je cherchais ça pour alimenter un prochain billet sur Metallurgeek.

(**) Alors oui, à ce stade je me dis que vous si êtes assez tordus pour avoir lu jusqu'ici, alors la découverte d'une minuscule différence entre des versions d'un même texte vous semblera intéressante. Et après on dit que c'est moi qui suis taré, pffff...