mercredi 20 mars 2013

Le chiffre de Dorabella (3)

(Le début de la réflexion se trouve ICI.)

Si le message a été crypté à l'aide d'un simple chiffrement par substitution (un symbole équivalant à une lettre, ou à deux dans le cas de I/J et U/V), pourquoi ne pas effectuer une analyse fréquentielle des 87 symboles présents dans le cryptogramme ? C'est une pratique fréquente (ha-ha, humour !) en cryptanalyse, dont la plus ancienne mention connue remonte au savant et philosophe arabe Al-Kindi (801-873), pionnier de la discipline. Imaginons que le texte soit écrit en anglais (ce qui est probable mais pas certain), certaines lettres vont forcément être utilisées plus que d'autres. Ainsi, à moins que Sir Elgar n'eût en tête de crypter le vol gracieux d'un essaim d'abeilles, il y aura presque certainement dans son message plus de E, de T, de A, de O, de I et de N (les six lettres apparaissant le plus en anglais) que de P, de B, de K, de X, de Q et de Z, raison pour laquelle, d'ailleurs, les premières lettres citées valent moins de points que les dernières au Scrabble anglais. Gosh dammit!

L'idée est donc d'observer selon quelle fréquence chaque symbole est distribué dans le cryptogramme (autrement dit de compter les symboles un par un et de diviser chacune des sommes obtenues par 87 afin d'obtenir un rapport) et de comparer les résultats avec un tableau reprenant les fréquences d'apparition des lettres en anglais. De tels tableaux existent : ils sont basés sur l'analyse fréquentielle d'un corpus étendu de textes. — Évidemment, d'aucuns ont déjà effectué ce type d'opération sur le chiffre de Dorabella, sans résultat pour l'instant. Il faut dire que les difficultés sont nombreuses. La première (et non la moindre) est que plus le texte à déchiffrer est court, plus l'analyse des fréquences s'avère ardue faute d'une masse de caractères suffisante pour s'approcher d'une répartition classique. La deuxième : il est toujours possible que le texte ne soit pas écrit en anglais. La troisième : il est possible que ce ne soit pas un chiffrement par substitution. La quatrième : il est possible qu'Edward Elgar ait utilisé des abréviations et des jeux de mots, faussant encore plus les résultats d'une analyse fréquentielle.

(Digression.) Et c'est à ce stade de la réflexion que l'on se dit que cette histoire est tout de même singulièrement surréaliste : un compositeur envoie un message crypté à destination d'une jeune amie qui, semble-t-il, ne montre aucun intérêt particulier pour la cryptanalyse... Et il aurait passé son temps à créer, à son intention, un chiffre extrêmement complexe à casser ? Soit ce message chiffré est un canular, soit nous n'avons pas toutes les informations en main, soit Edward Elgar avait des prédispositions au sadisme. (Je penche pour la troisième solution.)

Tout le monde parle d'analyse fréquentielle du chiffre de Dorabella, mais je n'ai pas réussi à trouver sur la Toile un document récapitulatif à ce sujet. Je me suis donc amusé à le créer (les symboles utilisés sont ceux fabriqués par Peter Brooks — grâce lui soit rendue) :

 (Cliquer sur l'image pour l'agrandir.)

L'image ci-dessus comprend :
1) une retranscription du code en plus clair et en plus aligné, avec un comptage des caractères par ligne (les caractères en rouge sont ceux qui prêtent à confusion) ;
2) le nombre d'apparitions et la fréquence (en pourcent) des symboles ;
3) deux tableaux de fréquence d'apparition : le premier pour un texte en anglais, le second pour un texte en latin. — Pourquoi en latin et pas en français, en italien ou en espagnol ? Parce que la correspondance des symboles telle que présentée par Elgar dans sa page d'exercices (22 lettres + U/V et I/J) fait penser directement à l'alphabet latin.

Et après ? Et après, on peut toujours procéder à une batterie de tests et d'essais... Par exemple : la double boucle qui pointe vers le nord-ouest est la plus fréquente (11 occurrences), donc il pourrait vraisemblablement s'agir d'un E ou, si ce n'est pas le cas, d'un T ou d'un A, etc. De manière générale, on peut aussi considérer que les voyelles font partie des symboles apparaissant le plus souvent dans un texte en anglais : même si l'on ne peut savoir où se trouve telle ou telle voyelle, on peut plus ou moins estimer l'emplacement des voyelles en général. Ensuite, certaines séquences se répètent, comme les deux derniers symboles des deux premières lignes, ou bien la fameuse double boucle vers le nord-ouest, qui se répète deux fois d'affilée. On peut aussi imaginer que le texte contient probablement des petits mots anglais courants, comme « OF », « AND », « YOU » ou « THE »... Ou encore : trois des symboles qui n'apparaissent pas une seule fois dans le cryptogramme se suivent dans le tableau des symboles : X, Y et Z viennent immédiatement à l'esprit, même si dans un texte anglais, le Y est plus utilisé qu'en français. — On peut se dire tout cela, oui, oui, mais actuellement, ça n'a jamais rien donné de concluant !

(Demain, la fascinante histoire des roues pivotantes !)

Aucun commentaire:

Enregistrer un commentaire

Remarque : Seul un membre de ce blog est autorisé à enregistrer un commentaire.