http://www.keakon.net/2010/01/04/SHA-1%20vs%20SHA-256
最近想在GAE上实现一个验证码,但又不想用传统的键盘输入方式。一来是习惯用鼠标,切换到键盘很麻烦;二来是生成图片的成本很大,在GAE上还不能用C实现;三是在让机器难以识别的同时,也会造成用户的困惑。
所以想到Google曾经提出的一个技术:提供一组选项,用鼠标将正确的选项拖动到指定位置,然后提交。在实现时我发现,如果不在客户端加密的话,这个提交过程是可以直接机器模拟的,也就造成验证码没有意义了。既然加密是必须的,那么接着就该选择和非对称加密了。然而思考了一番后发现,如果用户本身要伪装自己,那么非对称加密是完全没用的:公钥和算法都告诉给用户了,用户用机器算出一个值就行了…而非对称加密的性能不及前者,所以就应该考虑对称加密了。而且这个算法还需要经过修改,或者参数是用户所不知道的,才能防止伪造。不过前端只能用JavaScript来加密(我不会也不喜欢Flash),那么源码是必然开放的;但没人会针对我一个个人网站去研究其加密算法,所以仍然是可行的。于是回到正题,在选择对称加密算法时,有很多流行的选择,例如和。实际上虽然MD5和SHA-1有碰撞算法,但并不影响密码明文的安全性,因为攻击者甚至都不知道碰撞的目标。但是我还是不选择MD5,原因是一旦碰撞的目标泄露,有很多网站可以破解MD5加密前的明文,这会泄露用户的资料,而且MD5的前缀碰撞法速度非常快;而目前仍没有SHA-1的破解网站,且SHA-1的碰撞算法仍需要263个计算复杂度,这个成本仍然是很大的(需要大型计算机较长时间的运算),所以至少目前不必担心。更重要的是,这种碰撞并不能让攻击者伪造任意密文,因此如果规定明文的格式(例如以时间开头),并验证其格式的话,就能排除伪造的密文。接着就去测试了下性能,在本地计算机上用Python计算10万个随机数的hash值,MD5、SHA-1和SHA-256分别为0.20、0.21和0.30秒左右;在GAE上则为0.15、0.16和0.20秒左右。由此可见MD5的性能对于SHA-1来说没有任何优势。 测试脚本如下:from hashlib import md5, sha1, sha256from random import randomfrom time import timeSIZE = 1000000rands = [`random()` for i in xrange(SIZE)]t = time()hash = [md5(rand).hexdigest() for rand in rands]print time() - tt = time()hash = [sha1(rand).hexdigest() for rand in rands]print time() - tt = time()hash = [sha256(rand).hexdigest() for rand in rands]print time() - t
接着就看客户端加密了,在网上找到了和的JavaScript实现,在几种浏览器上测试了一下。
IE 6上计算100次分别为0.11s和0.48s;Firefox 3.5上计算1000次分别为0.26s和0.11s;Chrome 4上计算1000次分别为0.26s和0.11s;0.08s和0.16s。总体上来说,SHA-1是要快于SHA-256的,这似乎与某些人的测试结果不同,而且即便在最慢的IE 6上,计算1次也就1ms,不会影响用户的感觉。所以SHA-1足够了。测试脚本如下:var SIZE = 1000;var rands = [];for (var i = 0; i < SIZE; ++i){ rands.push(Math.random().toString());}var hash = [];t = new Date();for (rand in rands){ hash.push(SHA1(rand));}document.write(new Date() - t);document.write('');hash = [];t = new Date();for (rand in rands){ hash.push(SHA256(rand));}document.write(new Date() - t);
当然,回到最初的目的,实际上不用加密也是可行的。
验证码主要是基于较多的可能性,让穷举法比较费力来达到目的的;那么如果给用户一个序列,让用户排出正确的顺序,而穷举这个全排列的代价则是很高的。至于排序的内容,当然不能使用数字或字母;一个不错的例子是弄几张照片,叫用户以照片里人物的年龄顺序来排列。