MD5 optimized in MMX part2

MMXで最適化する場合、プロセスを二つ立てることくらいしか思いつかないよぉ〜
つまり
mm0,mm1...それぞれに二つの32bitの対象分のデータを詰め込んで二つ同時に計算するって言う・・・MMX利用の際に考えられる初歩の初歩のテクニック。
例えば、file0とfile1があったとしてそれを同時にMD5で計算するとかだよね。もしかしたらSHA系やRIPEMD系にも応用利くかもしれません?
MD5のコアの計算部分が前回計算した結果に依存しているからどうも最適化案が思い浮かばないのですよ。
最適化できるところを見つけられる人がいるんだったらすごひと思う!