title: “维吉尼亚密码的破解” key: 2019-03-10-Vigenere-Cipher tags: crypto pageview: true modify_date: shraring: true show_author_profile: true show_subscribe: true
最近在把自己csdn的一些东西搬到这里来
维吉尼亚密码的破解
密码学作业,做的时候发现网上和书上讲的都不是很详细,导致花了很多时间,所以这里记下来一点希望能有帮助。
##维吉尼亚密码破解步骤:
- 确定密钥长度
- 确定密钥内容
- 根据密钥恢复明文
确定密钥长度
- 在密文中找到重复出现三次以上(这样做是为了保证精确度和减少计算量)的字母组合。这里,字母组合的意思是两个及以上的重复字母组比如tn、pm。
- 然后列表写出每一个重复字母组的位置。(字母组的位置以字母组的第一个字母为准,就是列出每个字母组的第一个字母是整个密文里面的第几位)比如书上的例子BZGTNP,这里面tn的位置是4。
- 接着计算相对距离。就是在第二步里面算出的重复字母组的位置两两相邻的差。比如字母组的位置是4,19,410,那么这一步得出的结果就是15,406。
- 给出相对的距离的因子数。还是这个tn的例子,105 = 3 x 5 x 7,406 = 2 x 7 x 29,那么这一步得出来的结果就应该是2,3,5,7,29
- 将上面的步骤运用于所有重复三次以上的字母组合,生成一张表格。(以上步骤是根据kasiski测试法猜测出的可能)
- 根据重合因子测试法确定密钥长度。(这一步里面,书上的做法是每一个自然数都做了重合指数计算,我觉得这样似乎就让上面求的因子数没有什么意义了,不过还是都求出来保准一点儿吧)。
关于重合因子测试法
这里面要用的两个混的量,一个是重合指数,一个是重合指数的无偏估计值。
重合指数:设某种语言由n个字母组成,每个字母$i$发生的概率为$p_{i} (1<=i <=n)$,则重合指数就是两个随机字母相同的概率。
对于随机文本,这一值大约是0.038。而对于英文文本,这一值大约是0.065。(因为在英语语言中,各个字母出现的频率是有分布的)。
\[IC = \sum^{n}_{i=1}{p_{i}^{2}}\]重合指数的无偏估计值:
\[IC' = \sum^{n}_{i=1}{\frac{x_{i}(x_{i}-1)}{L(L-1)}}\]其中L表示密文长度,$x_{i}$表示密文符号i出现的次数,n表示某门语言包含的字母数(在英语里,取26)。
这两个有什么区别呢,简单来说就是如果判断文本是否被单表加密的时候,要用重合指数来计算。如果密文的重合指数较低,就可能是一个多表代换密码。(这里的理解是,如果是单表加密相当于凯撒密码,每个字母出现的次数看作一个数组的话,加密前后只是数组的下标发生了变化,下标和次数的对应关系顺序变化,而整个数组的内容没有变化。计算重合指数的时候,又和下标无关,只和整个数组里面数字的出现次数有关。)
而在破解维吉尼亚密码的时候,因为密文长度有限容易出现偏差,所以这时候用无偏估计值来计算。
我们从1开始计算密钥长度对应的分组对应的重合指数的无偏估计值。
密钥长度为1的时候,整个密文是一个组内,所以无偏估计值是整个文章的无偏估计值。
密钥长度为2的时候,将第1,3,5,7….分为一组,将2,4,6,8….分为一组,然后对两组分别求无偏估计值并求平均值。
密钥长度为3的时候,将第1,4,7,10…分为一组,第2,5,8,11…分为一组,第3,6,9,12….分为一组。然后对三组分别求无偏估计值病区平均值。
当求到一个重合指数的无偏估计值最接近0.065的密钥长度的时候,可以认为这个长度就是密钥的长度。
确定密钥内容
在这一步中,我们要用到另外一个指数,拟重合指数。
设某种语言由n个字母组成,每个字母i在第一个分布中发生的概率为$r_{i}$,在第二个分布中发生的概率为$q_{i}$,则拟重合指数定义为:
\[x = \sum_{i=1}^{n}{r_{i}q_{i}}\]而在破解维吉尼亚密码的过程中,第一个分布即为正常英语文本,第二个分布为我们分组下的维吉尼亚密码密文的文本。
根据我们在上一步求的密钥,把维吉尼亚密码分成m个组(m为密钥长度)。这样在每个组内的密文都是由同一个字母(密钥)加密而来的,就相当于凯撒密码。所以我们从a-z测试这个作为密钥的字母到底是什么。当拟重合指数取最大的时候,可以认定这个就是使用的密钥。
根据密钥就可以轻而易举得到明文啦(^▽^)