Cleanup -m 78xx kernels to latest standard

2025-07-31 19:08:43 +00:00 · 2016-04-14 18:40:01 +02:00 · 2016-04-14 18:40:01 +02:00 · 7223cc94de
commit 7223cc94de
parent ebc8acca1f
3 changed files with 478 additions and 641 deletions
--- a/OpenCL/m07800_a0.cl
+++ b/OpenCL/m07800_a0.cl
@ -5,6 +5,9 @@

 #define _SAPG_

+//incompatible data-dependant code
+//#define NEW_SIMD_CODE
+
 #include "include/constants.h"
 #include "include/kernel_vendor.h"

@ -18,9 +21,7 @@
 #include "OpenCL/common.c"
 #include "include/rp_kernel.h"
 #include "OpenCL/rp.c"
-
-#define COMPARE_S "OpenCL/check_single_comp4.c"
-#define COMPARE_M "OpenCL/check_multi_comp4.c"
+#include "OpenCL/simd.c"

 #define GETSHIFTEDINT(a,n) amd_bytealign ((a)[((n)/4)+1], (a)[((n)/4)+0], (n))

@ -209,18 +210,16 @@ __kernel void m07800_m04 (__global pw_t *pws, __global kernel_rule_t *rules_buf,
  if (gid >= gid_max) return;

  u32 pw_buf0[4];
-
-  pw_buf0[0] = pws[gid].i[ 0];
-  pw_buf0[1] = pws[gid].i[ 1];
-  pw_buf0[2] = pws[gid].i[ 2];
-  pw_buf0[3] = pws[gid].i[ 3];
-
  u32 pw_buf1[4];

-  pw_buf1[0] = pws[gid].i[ 4];
-  pw_buf1[1] = pws[gid].i[ 5];
-  pw_buf1[2] = pws[gid].i[ 6];
-  pw_buf1[3] = pws[gid].i[ 7];
+  pw_buf0[0] = pws[gid].i[0];
+  pw_buf0[1] = pws[gid].i[1];
+  pw_buf0[2] = pws[gid].i[2];
+  pw_buf0[3] = pws[gid].i[3];
+  pw_buf1[0] = pws[gid].i[4];
+  pw_buf1[1] = pws[gid].i[5];
+  pw_buf1[2] = pws[gid].i[6];
+  pw_buf1[3] = pws[gid].i[7];

  const u32 pw_len = pws[gid].pw_len;

@ -245,65 +244,36 @@ __kernel void m07800_m04 (__global pw_t *pws, __global kernel_rule_t *rules_buf,
   * loop
   */

-  for (u32 il_pos = 0; il_pos < il_cnt; il_pos++)
+  for (u32 il_pos = 0; il_pos < il_cnt; il_pos += VECT_SIZE)
  {
-    u32 w0[4];
+    u32x w0[4] = { 0 };
+    u32x w1[4] = { 0 };
+    u32x w2[4] = { 0 };
+    u32x w3[4] = { 0 };

-    w0[0] = pw_buf0[0];
-    w0[1] = pw_buf0[1];
-    w0[2] = pw_buf0[2];
-    w0[3] = pw_buf0[3];
-
-    u32 w1[4];
-
-    w1[0] = pw_buf1[0];
-    w1[1] = pw_buf1[1];
-    w1[2] = pw_buf1[2];
-    w1[3] = pw_buf1[3];
-
-    u32 w2[4];
-
-    w2[0] = 0;
-    w2[1] = 0;
-    w2[2] = 0;
-    w2[3] = 0;
-
-    u32 w3[4];
-
-    w3[0] = 0;
-    w3[1] = 0;
-    w3[2] = 0;
-    w3[3] = 0;
-
-    const u32 out_len = apply_rules (rules_buf[il_pos].cmds, w0, w1, pw_len);
+    const u32x out_len = apply_rules_vect (pw_buf0, pw_buf1, pw_len, rules_buf, il_pos, w0, w1);

    /**
-     * append salt
+     * SAP
     */

    u32 s0[4];
+    u32 s1[4];
+    u32 s2[4];
+    u32 s3[4];

    s0[0] = salt_buf[0];
    s0[1] = salt_buf[1];
    s0[2] = salt_buf[2];
    s0[3] = salt_buf[3];
-
-    u32 s1[4];
-
    s1[0] = salt_buf[4];
    s1[1] = salt_buf[5];
    s1[2] = salt_buf[6];
    s1[3] = salt_buf[7];
-
-    u32 s2[4];
-
    s2[0] = 0;
    s2[1] = 0;
    s2[2] = 0;
    s2[3] = 0;
-
-    u32 s3[4];
-
    s3[0] = 0;
    s3[1] = 0;
    s3[2] = 0;
@ -443,12 +413,7 @@ __kernel void m07800_m04 (__global pw_t *pws, __global kernel_rule_t *rules_buf,

    sha1_transform (&final[off + 0], &final[off + 4], &final[off + 8], &final[off + 12], digest);

-    const u32 r0 = digest[3];
-    const u32 r1 = digest[4];
-    const u32 r2 = digest[2];
-    const u32 r3 = digest[1];
-
-    #include COMPARE_M
+    COMPARE_M_SIMD (digest[3], digest[4], digest[2], digest[1]);
  }
 }

@ -477,18 +442,16 @@ __kernel void m07800_s04 (__global pw_t *pws, __global kernel_rule_t *rules_buf,
  if (gid >= gid_max) return;

  u32 pw_buf0[4];
-
-  pw_buf0[0] = pws[gid].i[ 0];
-  pw_buf0[1] = pws[gid].i[ 1];
-  pw_buf0[2] = pws[gid].i[ 2];
-  pw_buf0[3] = pws[gid].i[ 3];
-
  u32 pw_buf1[4];

-  pw_buf1[0] = pws[gid].i[ 4];
-  pw_buf1[1] = pws[gid].i[ 5];
-  pw_buf1[2] = pws[gid].i[ 6];
-  pw_buf1[3] = pws[gid].i[ 7];
+  pw_buf0[0] = pws[gid].i[0];
+  pw_buf0[1] = pws[gid].i[1];
+  pw_buf0[2] = pws[gid].i[2];
+  pw_buf0[3] = pws[gid].i[3];
+  pw_buf1[0] = pws[gid].i[4];
+  pw_buf1[1] = pws[gid].i[5];
+  pw_buf1[2] = pws[gid].i[6];
+  pw_buf1[3] = pws[gid].i[7];

  const u32 pw_len = pws[gid].pw_len;

@ -525,65 +488,36 @@ __kernel void m07800_s04 (__global pw_t *pws, __global kernel_rule_t *rules_buf,
   * loop
   */

-  for (u32 il_pos = 0; il_pos < il_cnt; il_pos++)
+  for (u32 il_pos = 0; il_pos < il_cnt; il_pos += VECT_SIZE)
  {
-    u32 w0[4];
+    u32x w0[4] = { 0 };
+    u32x w1[4] = { 0 };
+    u32x w2[4] = { 0 };
+    u32x w3[4] = { 0 };

-    w0[0] = pw_buf0[0];
-    w0[1] = pw_buf0[1];
-    w0[2] = pw_buf0[2];
-    w0[3] = pw_buf0[3];
-
-    u32 w1[4];
-
-    w1[0] = pw_buf1[0];
-    w1[1] = pw_buf1[1];
-    w1[2] = pw_buf1[2];
-    w1[3] = pw_buf1[3];
-
-    u32 w2[4];
-
-    w2[0] = 0;
-    w2[1] = 0;
-    w2[2] = 0;
-    w2[3] = 0;
-
-    u32 w3[4];
-
-    w3[0] = 0;
-    w3[1] = 0;
-    w3[2] = 0;
-    w3[3] = 0;
-
-    const u32 out_len = apply_rules (rules_buf[il_pos].cmds, w0, w1, pw_len);
+    const u32x out_len = apply_rules_vect (pw_buf0, pw_buf1, pw_len, rules_buf, il_pos, w0, w1);

    /**
-     * append salt
+     * SAP
     */

    u32 s0[4];
+    u32 s1[4];
+    u32 s2[4];
+    u32 s3[4];

    s0[0] = salt_buf[0];
    s0[1] = salt_buf[1];
    s0[2] = salt_buf[2];
    s0[3] = salt_buf[3];
-
-    u32 s1[4];
-
    s1[0] = salt_buf[4];
    s1[1] = salt_buf[5];
    s1[2] = salt_buf[6];
    s1[3] = salt_buf[7];
-
-    u32 s2[4];
-
    s2[0] = 0;
    s2[1] = 0;
    s2[2] = 0;
    s2[3] = 0;
-
-    u32 s3[4];
-
    s3[0] = 0;
    s3[1] = 0;
    s3[2] = 0;
@ -723,12 +657,7 @@ __kernel void m07800_s04 (__global pw_t *pws, __global kernel_rule_t *rules_buf,

    sha1_transform (&final[off + 0], &final[off + 4], &final[off + 8], &final[off + 12], digest);

-    const u32 r0 = digest[3];
-    const u32 r1 = digest[4];
-    const u32 r2 = digest[2];
-    const u32 r3 = digest[1];
-
-    #include COMPARE_S
+    COMPARE_S_SIMD (digest[3], digest[4], digest[2], digest[1]);
  }
 }

--- a/OpenCL/m07800_a1.cl
+++ b/OpenCL/m07800_a1.cl
@ -5,6 +5,9 @@

 #define _SAPG_

+//incompatible data-dependant code
+//#define NEW_SIMD_CODE
+
 #include "include/constants.h"
 #include "include/kernel_vendor.h"

@ -16,9 +19,7 @@
 #include "include/kernel_functions.c"
 #include "OpenCL/types_ocl.c"
 #include "OpenCL/common.c"
-
-#define COMPARE_S "OpenCL/check_single_comp4.c"
-#define COMPARE_M "OpenCL/check_multi_comp4.c"
+#include "OpenCL/simd.c"

 #define GETSHIFTEDINT(a,n) amd_bytealign ((a)[((n)/4)+1], (a)[((n)/4)+0], (n))

@ -206,41 +207,20 @@ __kernel void m07800_m04 (__global pw_t *pws, __global kernel_rule_t *rules_buf,

  if (gid >= gid_max) return;

-  u32 wordl0[4];
+  u32 pw_buf0[4];
+  u32 pw_buf1[4];

-  wordl0[0] = pws[gid].i[ 0];
-  wordl0[1] = pws[gid].i[ 1];
-  wordl0[2] = pws[gid].i[ 2];
-  wordl0[3] = pws[gid].i[ 3];
-
-  u32 wordl1[4];
-
-  wordl1[0] = pws[gid].i[ 4];
-  wordl1[1] = pws[gid].i[ 5];
-  wordl1[2] = pws[gid].i[ 6];
-  wordl1[3] = pws[gid].i[ 7];
-
-  u32 wordl2[4];
-
-  wordl2[0] = 0;
-  wordl2[1] = 0;
-  wordl2[2] = 0;
-  wordl2[3] = 0;
-
-  u32 wordl3[4];
-
-  wordl3[0] = 0;
-  wordl3[1] = 0;
-  wordl3[2] = 0;
-  wordl3[3] = 0;
+  pw_buf0[0] = pws[gid].i[0];
+  pw_buf0[1] = pws[gid].i[1];
+  pw_buf0[2] = pws[gid].i[2];
+  pw_buf0[3] = pws[gid].i[3];
+  pw_buf1[0] = pws[gid].i[4];
+  pw_buf1[1] = pws[gid].i[5];
+  pw_buf1[2] = pws[gid].i[6];
+  pw_buf1[3] = pws[gid].i[7];

  const u32 pw_l_len = pws[gid].pw_len;

-  if (combs_mode == COMBINATOR_MODE_BASE_RIGHT)
-  {
-    switch_buffer_by_offset_le (wordl0, wordl1, wordl2, wordl3, combs_buf[0].pw_len);
-  }
-
  /**
   * salt
   */
@ -262,108 +242,104 @@ __kernel void m07800_m04 (__global pw_t *pws, __global kernel_rule_t *rules_buf,
   * loop
   */

-  for (u32 il_pos = 0; il_pos < il_cnt; il_pos++)
+  for (u32 il_pos = 0; il_pos < il_cnt; il_pos += VECT_SIZE)
  {
-    const u32 pw_r_len = combs_buf[il_pos].pw_len;
+    const u32x pw_r_len = pwlenx_create_combt (combs_buf, il_pos);

-    const u32 pw_len = pw_l_len + pw_r_len;
+    const u32x pw_len = pw_l_len + pw_r_len;

-    u32 wordr0[4];
+    /**
+     * concat password candidate
+     */

-    wordr0[0] = combs_buf[il_pos].i[0];
-    wordr0[1] = combs_buf[il_pos].i[1];
-    wordr0[2] = combs_buf[il_pos].i[2];
-    wordr0[3] = combs_buf[il_pos].i[3];
+    u32x wordl0[4] = { 0 };
+    u32x wordl1[4] = { 0 };
+    u32x wordl2[4] = { 0 };
+    u32x wordl3[4] = { 0 };

-    u32 wordr1[4];
+    wordl0[0] = pw_buf0[0];
+    wordl0[1] = pw_buf0[1];
+    wordl0[2] = pw_buf0[2];
+    wordl0[3] = pw_buf0[3];
+    wordl1[0] = pw_buf1[0];
+    wordl1[1] = pw_buf1[1];
+    wordl1[2] = pw_buf1[2];
+    wordl1[3] = pw_buf1[3];

-    wordr1[0] = combs_buf[il_pos].i[4];
-    wordr1[1] = combs_buf[il_pos].i[5];
-    wordr1[2] = combs_buf[il_pos].i[6];
-    wordr1[3] = combs_buf[il_pos].i[7];
+    u32x wordr0[4] = { 0 };
+    u32x wordr1[4] = { 0 };
+    u32x wordr2[4] = { 0 };
+    u32x wordr3[4] = { 0 };

-    u32 wordr2[4];
-
-    wordr2[0] = 0;
-    wordr2[1] = 0;
-    wordr2[2] = 0;
-    wordr2[3] = 0;
-
-    u32 wordr3[4];
-
-    wordr3[0] = 0;
-    wordr3[1] = 0;
-    wordr3[2] = 0;
-    wordr3[3] = 0;
+    wordr0[0] = ix_create_combt (combs_buf, il_pos, 0);
+    wordr0[1] = ix_create_combt (combs_buf, il_pos, 1);
+    wordr0[2] = ix_create_combt (combs_buf, il_pos, 2);
+    wordr0[3] = ix_create_combt (combs_buf, il_pos, 3);
+    wordr1[0] = ix_create_combt (combs_buf, il_pos, 4);
+    wordr1[1] = ix_create_combt (combs_buf, il_pos, 5);
+    wordr1[2] = ix_create_combt (combs_buf, il_pos, 6);
+    wordr1[3] = ix_create_combt (combs_buf, il_pos, 7);

    if (combs_mode == COMBINATOR_MODE_BASE_LEFT)
    {
-      switch_buffer_by_offset_le (wordr0, wordr1, wordr2, wordr3, pw_l_len);
+      switch_buffer_by_offset_le_VV (wordr0, wordr1, wordr2, wordr3, pw_l_len);
+    }
+    else
+    {
+      switch_buffer_by_offset_le_VV (wordl0, wordl1, wordl2, wordl3, pw_r_len);
    }

-    /**
-     * append salt
-     */
-
-    u32 s0[4];
-
-    s0[0] = salt_buf[0];
-    s0[1] = salt_buf[1];
-    s0[2] = salt_buf[2];
-    s0[3] = salt_buf[3];
-
-    u32 s1[4];
-
-    s1[0] = salt_buf[4];
-    s1[1] = salt_buf[5];
-    s1[2] = salt_buf[6];
-    s1[3] = salt_buf[7];
-
-    u32 s2[4];
-
-    s2[0] = 0;
-    s2[1] = 0;
-    s2[2] = 0;
-    s2[3] = 0;
-
-    u32 s3[4];
-
-    s3[0] = 0;
-    s3[1] = 0;
-    s3[2] = 0;
-    s3[3] = 0;
-
-    switch_buffer_by_offset_le (s0, s1, s2, s3, pw_len);
-
-    const u32 pw_salt_len = pw_len + salt_len;
-
-    u32 w0[4];
+    u32x w0[4];
+    u32x w1[4];
+    u32x w2[4];
+    u32x w3[4];

    w0[0] = wordl0[0] | wordr0[0];
    w0[1] = wordl0[1] | wordr0[1];
    w0[2] = wordl0[2] | wordr0[2];
    w0[3] = wordl0[3] | wordr0[3];
-
-    u32 w1[4];
-
    w1[0] = wordl1[0] | wordr1[0];
    w1[1] = wordl1[1] | wordr1[1];
    w1[2] = wordl1[2] | wordr1[2];
    w1[3] = wordl1[3] | wordr1[3];
-
-    u32 w2[4];
-
    w2[0] = wordl2[0] | wordr2[0];
    w2[1] = wordl2[1] | wordr2[1];
    w2[2] = wordl2[2] | wordr2[2];
    w2[3] = wordl2[3] | wordr2[3];
-
-    u32 w3[4];
-
    w3[0] = wordl3[0] | wordr3[0];
    w3[1] = wordl3[1] | wordr3[1];
-    w3[2] = 0;
-    w3[3] = 0;
+    w3[2] = wordl3[2] | wordr3[2];
+    w3[3] = wordl3[3] | wordr3[3];
+
+    /**
+     * SAP
+     */
+
+    u32 s0[4];
+    u32 s1[4];
+    u32 s2[4];
+    u32 s3[4];
+
+    s0[0] = salt_buf[0];
+    s0[1] = salt_buf[1];
+    s0[2] = salt_buf[2];
+    s0[3] = salt_buf[3];
+    s1[0] = salt_buf[4];
+    s1[1] = salt_buf[5];
+    s1[2] = salt_buf[6];
+    s1[3] = salt_buf[7];
+    s2[0] = 0;
+    s2[1] = 0;
+    s2[2] = 0;
+    s2[3] = 0;
+    s3[0] = 0;
+    s3[1] = 0;
+    s3[2] = 0;
+    s3[3] = 0;
+
+    switch_buffer_by_offset_le_VV (s0, s1, s2, s3, pw_len);
+
+    const u32x pw_salt_len = pw_len + salt_len;

    /**
     * sha1
@ -495,12 +471,7 @@ __kernel void m07800_m04 (__global pw_t *pws, __global kernel_rule_t *rules_buf,

    sha1_transform (&final[off + 0], &final[off + 4], &final[off + 8], &final[off + 12], digest);

-    const u32 r0 = digest[3];
-    const u32 r1 = digest[4];
-    const u32 r2 = digest[2];
-    const u32 r3 = digest[1];
-
-    #include COMPARE_M
+    COMPARE_M_SIMD (digest[3], digest[4], digest[2], digest[1]);
  }
 }

@ -528,49 +499,20 @@ __kernel void m07800_s04 (__global pw_t *pws, __global kernel_rule_t *rules_buf,

  if (gid >= gid_max) return;

-  u32 wordl0[4];
+  u32 pw_buf0[4];
+  u32 pw_buf1[4];

-  wordl0[0] = pws[gid].i[ 0];
-  wordl0[1] = pws[gid].i[ 1];
-  wordl0[2] = pws[gid].i[ 2];
-  wordl0[3] = pws[gid].i[ 3];
-
-  u32 wordl1[4];
-
-  wordl1[0] = pws[gid].i[ 4];
-  wordl1[1] = pws[gid].i[ 5];
-  wordl1[2] = pws[gid].i[ 6];
-  wordl1[3] = pws[gid].i[ 7];
-
-  u32 wordl2[4];
-
-  wordl2[0] = 0;
-  wordl2[1] = 0;
-  wordl2[2] = 0;
-  wordl2[3] = 0;
-
-  u32 wordl3[4];
-
-  wordl3[0] = 0;
-  wordl3[1] = 0;
-  wordl3[2] = 0;
-  wordl3[3] = 0;
+  pw_buf0[0] = pws[gid].i[0];
+  pw_buf0[1] = pws[gid].i[1];
+  pw_buf0[2] = pws[gid].i[2];
+  pw_buf0[3] = pws[gid].i[3];
+  pw_buf1[0] = pws[gid].i[4];
+  pw_buf1[1] = pws[gid].i[5];
+  pw_buf1[2] = pws[gid].i[6];
+  pw_buf1[3] = pws[gid].i[7];

  const u32 pw_l_len = pws[gid].pw_len;

-  if (combs_mode == COMBINATOR_MODE_BASE_RIGHT)
-  {
-    switch_buffer_by_offset_le (wordl0, wordl1, wordl2, wordl3, combs_buf[0].pw_len);
-  }
-
-  const u32 search[4] =
-  {
-    digests_buf[digests_offset].digest_buf[DGST_R0],
-    digests_buf[digests_offset].digest_buf[DGST_R1],
-    digests_buf[digests_offset].digest_buf[DGST_R2],
-    digests_buf[digests_offset].digest_buf[DGST_R3]
-  };
-
  /**
   * salt
   */
@ -588,112 +530,120 @@ __kernel void m07800_s04 (__global pw_t *pws, __global kernel_rule_t *rules_buf,

  const u32 salt_len = salt_bufs[salt_pos].salt_len;

+  /**
+   * digest
+   */
+
+  const u32 search[4] =
+  {
+    digests_buf[digests_offset].digest_buf[DGST_R0],
+    digests_buf[digests_offset].digest_buf[DGST_R1],
+    digests_buf[digests_offset].digest_buf[DGST_R2],
+    digests_buf[digests_offset].digest_buf[DGST_R3]
+  };
+
  /**
   * loop
   */

-  for (u32 il_pos = 0; il_pos < il_cnt; il_pos++)
+  for (u32 il_pos = 0; il_pos < il_cnt; il_pos += VECT_SIZE)
  {
-    const u32 pw_r_len = combs_buf[il_pos].pw_len;
+    const u32x pw_r_len = pwlenx_create_combt (combs_buf, il_pos);

-    const u32 pw_len = pw_l_len + pw_r_len;
+    const u32x pw_len = pw_l_len + pw_r_len;

-    u32 wordr0[4];
+    /**
+     * concat password candidate
+     */

-    wordr0[0] = combs_buf[il_pos].i[0];
-    wordr0[1] = combs_buf[il_pos].i[1];
-    wordr0[2] = combs_buf[il_pos].i[2];
-    wordr0[3] = combs_buf[il_pos].i[3];
+    u32x wordl0[4] = { 0 };
+    u32x wordl1[4] = { 0 };
+    u32x wordl2[4] = { 0 };
+    u32x wordl3[4] = { 0 };

-    u32 wordr1[4];
+    wordl0[0] = pw_buf0[0];
+    wordl0[1] = pw_buf0[1];
+    wordl0[2] = pw_buf0[2];
+    wordl0[3] = pw_buf0[3];
+    wordl1[0] = pw_buf1[0];
+    wordl1[1] = pw_buf1[1];
+    wordl1[2] = pw_buf1[2];
+    wordl1[3] = pw_buf1[3];

-    wordr1[0] = combs_buf[il_pos].i[4];
-    wordr1[1] = combs_buf[il_pos].i[5];
-    wordr1[2] = combs_buf[il_pos].i[6];
-    wordr1[3] = combs_buf[il_pos].i[7];
+    u32x wordr0[4] = { 0 };
+    u32x wordr1[4] = { 0 };
+    u32x wordr2[4] = { 0 };
+    u32x wordr3[4] = { 0 };

-    u32 wordr2[4];
-
-    wordr2[0] = 0;
-    wordr2[1] = 0;
-    wordr2[2] = 0;
-    wordr2[3] = 0;
-
-    u32 wordr3[4];
-
-    wordr3[0] = 0;
-    wordr3[1] = 0;
-    wordr3[2] = 0;
-    wordr3[3] = 0;
+    wordr0[0] = ix_create_combt (combs_buf, il_pos, 0);
+    wordr0[1] = ix_create_combt (combs_buf, il_pos, 1);
+    wordr0[2] = ix_create_combt (combs_buf, il_pos, 2);
+    wordr0[3] = ix_create_combt (combs_buf, il_pos, 3);
+    wordr1[0] = ix_create_combt (combs_buf, il_pos, 4);
+    wordr1[1] = ix_create_combt (combs_buf, il_pos, 5);
+    wordr1[2] = ix_create_combt (combs_buf, il_pos, 6);
+    wordr1[3] = ix_create_combt (combs_buf, il_pos, 7);

    if (combs_mode == COMBINATOR_MODE_BASE_LEFT)
    {
-      switch_buffer_by_offset_le (wordr0, wordr1, wordr2, wordr3, pw_l_len);
+      switch_buffer_by_offset_le_VV (wordr0, wordr1, wordr2, wordr3, pw_l_len);
+    }
+    else
+    {
+      switch_buffer_by_offset_le_VV (wordl0, wordl1, wordl2, wordl3, pw_r_len);
    }

-    /**
-     * append salt
-     */
-
-    u32 s0[4];
-
-    s0[0] = salt_buf[0];
-    s0[1] = salt_buf[1];
-    s0[2] = salt_buf[2];
-    s0[3] = salt_buf[3];
-
-    u32 s1[4];
-
-    s1[0] = salt_buf[4];
-    s1[1] = salt_buf[5];
-    s1[2] = salt_buf[6];
-    s1[3] = salt_buf[7];
-
-    u32 s2[4];
-
-    s2[0] = 0;
-    s2[1] = 0;
-    s2[2] = 0;
-    s2[3] = 0;
-
-    u32 s3[4];
-
-    s3[0] = 0;
-    s3[1] = 0;
-    s3[2] = 0;
-    s3[3] = 0;
-
-    switch_buffer_by_offset_le (s0, s1, s2, s3, pw_len);
-
-    const u32 pw_salt_len = pw_len + salt_len;
-
-    u32 w0[4];
+    u32x w0[4];
+    u32x w1[4];
+    u32x w2[4];
+    u32x w3[4];

    w0[0] = wordl0[0] | wordr0[0];
    w0[1] = wordl0[1] | wordr0[1];
    w0[2] = wordl0[2] | wordr0[2];
    w0[3] = wordl0[3] | wordr0[3];
-
-    u32 w1[4];
-
    w1[0] = wordl1[0] | wordr1[0];
    w1[1] = wordl1[1] | wordr1[1];
    w1[2] = wordl1[2] | wordr1[2];
    w1[3] = wordl1[3] | wordr1[3];
-
-    u32 w2[4];
-
    w2[0] = wordl2[0] | wordr2[0];
    w2[1] = wordl2[1] | wordr2[1];
    w2[2] = wordl2[2] | wordr2[2];
    w2[3] = wordl2[3] | wordr2[3];
-
-    u32 w3[4];
-
    w3[0] = wordl3[0] | wordr3[0];
    w3[1] = wordl3[1] | wordr3[1];
-    w3[2] = 0;
-    w3[3] = 0;
+    w3[2] = wordl3[2] | wordr3[2];
+    w3[3] = wordl3[3] | wordr3[3];
+
+    /**
+     * SAP
+     */
+
+    u32 s0[4];
+    u32 s1[4];
+    u32 s2[4];
+    u32 s3[4];
+
+    s0[0] = salt_buf[0];
+    s0[1] = salt_buf[1];
+    s0[2] = salt_buf[2];
+    s0[3] = salt_buf[3];
+    s1[0] = salt_buf[4];
+    s1[1] = salt_buf[5];
+    s1[2] = salt_buf[6];
+    s1[3] = salt_buf[7];
+    s2[0] = 0;
+    s2[1] = 0;
+    s2[2] = 0;
+    s2[3] = 0;
+    s3[0] = 0;
+    s3[1] = 0;
+    s3[2] = 0;
+    s3[3] = 0;
+
+    switch_buffer_by_offset_le_VV (s0, s1, s2, s3, pw_len);
+
+    const u32x pw_salt_len = pw_len + salt_len;

    /**
     * sha1
@ -825,12 +775,7 @@ __kernel void m07800_s04 (__global pw_t *pws, __global kernel_rule_t *rules_buf,

    sha1_transform (&final[off + 0], &final[off + 4], &final[off + 8], &final[off + 12], digest);

-    const u32 r0 = digest[3];
-    const u32 r1 = digest[4];
-    const u32 r2 = digest[2];
-    const u32 r3 = digest[1];
-
-    #include COMPARE_S
+    COMPARE_S_SIMD (digest[3], digest[4], digest[2], digest[1]);
  }
 }

--- a/OpenCL/m07800_a3.cl
+++ b/OpenCL/m07800_a3.cl
@ -5,6 +5,9 @@

 #define _SAPG_

+//incompatible data-dependant code
+//#define NEW_SIMD_CODE
+
 #include "include/constants.h"
 #include "include/kernel_vendor.h"

@ -16,9 +19,7 @@
 #include "include/kernel_functions.c"
 #include "OpenCL/types_ocl.c"
 #include "OpenCL/common.c"
-
-#define COMPARE_S "OpenCL/check_single_comp4.c"
-#define COMPARE_M "OpenCL/check_multi_comp4.c"
+#include "OpenCL/simd.c"

 #define GETSHIFTEDINT(a,n) amd_bytealign ((a)[((n)/4)+1], (a)[((n)/4)+0], (n))

@ -199,16 +200,6 @@ static void m07800m (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
  const u32 gid = get_global_id (0);
  const u32 lid = get_local_id (0);

-  w0[0] = swap32 (w0[0]);
-  w0[1] = swap32 (w0[1]);
-  w0[2] = swap32 (w0[2]);
-  w0[3] = swap32 (w0[3]);
-
-  w1[0] = swap32 (w1[0]);
-  w1[1] = swap32 (w1[1]);
-  w1[2] = swap32 (w1[2]);
-  w1[3] = swap32 (w1[3]);
-
  /**
   * salt
   */
@ -227,36 +218,30 @@ static void m07800m (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
  const u32 salt_len = salt_bufs[salt_pos].salt_len;

  u32 s0[4];
-
-  s0[0] = salt_buf[0];
-  s0[1] = salt_buf[1];
-  s0[2] = salt_buf[2];
-  s0[3] = salt_buf[3];
-
  u32 s1[4];
-
-  s1[0] = salt_buf[4];
-  s1[1] = salt_buf[5];
-  s1[2] = salt_buf[6];
-  s1[3] = salt_buf[7];
-
  u32 s2[4];
+  u32 s3[4];

+  s0[0] = swap32 (salt_buf[0]);
+  s0[1] = swap32 (salt_buf[1]);
+  s0[2] = swap32 (salt_buf[2]);
+  s0[3] = swap32 (salt_buf[3]);
+  s1[0] = swap32 (salt_buf[4]);
+  s1[1] = swap32 (salt_buf[5]);
+  s1[2] = swap32 (salt_buf[6]);
+  s1[3] = swap32 (salt_buf[7]);
  s2[0] = 0;
  s2[1] = 0;
  s2[2] = 0;
  s2[3] = 0;
-
-  u32 s3[4];
-
  s3[0] = 0;
  s3[1] = 0;
  s3[2] = 0;
  s3[3] = 0;

-  switch_buffer_by_offset_le (s0, s1, s2, s3, pw_len);
+  switch_buffer_by_offset_be_S (s0, s1, s2, s3, pw_len);

-  const u32 pw_salt_len = pw_len + salt_len;
+  const u32x pw_salt_len = pw_len + salt_len;

  /**
   * loop
@ -264,263 +249,34 @@ static void m07800m (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le

  u32 w0l = w0[0];

-  for (u32 il_pos = 0; il_pos < il_cnt; il_pos++)
+  for (u32 il_pos = 0; il_pos < il_cnt; il_pos += VECT_SIZE)
  {
-    const u32 w0r = swap32 (bfs_buf[il_pos].i);
+    const u32x w0r = ix_create_bft (bfs_buf, il_pos);

-    w0[0] = w0l | w0r;
+    const u32x w0lr = w0l | w0r;
+
+    w0[0] = w0lr;

    /**
-     * sha1
+     * SAP
     */

    u32 final[32];

-    final[ 0] = swap32 (w0[0] | s0[0]);
-    final[ 1] = swap32 (w0[1] | s0[1]);
-    final[ 2] = swap32 (w0[2] | s0[2]);
-    final[ 3] = swap32 (w0[3] | s0[3]);
-    final[ 4] = swap32 (w1[0] | s1[0]);
-    final[ 5] = swap32 (w1[1] | s1[1]);
-    final[ 6] = swap32 (w1[2] | s1[2]);
-    final[ 7] = swap32 (w1[3] | s1[3]);
-    final[ 8] = swap32 (w2[0] | s2[0]);
-    final[ 9] = swap32 (w2[1] | s2[1]);
-    final[10] = swap32 (w2[2] | s2[2]);
-    final[11] = swap32 (w2[3] | s2[3]);
-    final[12] = swap32 (w3[0] | s3[0]);
-    final[13] = swap32 (w3[1] | s3[1]);
-    final[14] = 0;
-    final[15] = pw_salt_len * 8;
-
-    u32 digest[5];
-
-    digest[0] = SHA1M_A;
-    digest[1] = SHA1M_B;
-    digest[2] = SHA1M_C;
-    digest[3] = SHA1M_D;
-    digest[4] = SHA1M_E;
-
-    sha1_transform (&final[0], &final[4], &final[8], &final[12], digest);
-
-    // prepare magic array range
-
-    u32 lengthMagicArray = 0x20;
-    u32 offsetMagicArray = 0;
-
-    lengthMagicArray += ((digest[0] >> 24) & 0xff) % 6;
-    lengthMagicArray += ((digest[0] >> 16) & 0xff) % 6;
-    lengthMagicArray += ((digest[0] >>  8) & 0xff) % 6;
-    lengthMagicArray += ((digest[0] >>  0) & 0xff) % 6;
-    lengthMagicArray += ((digest[1] >> 24) & 0xff) % 6;
-    lengthMagicArray += ((digest[1] >> 16) & 0xff) % 6;
-    lengthMagicArray += ((digest[1] >>  8) & 0xff) % 6;
-    lengthMagicArray += ((digest[1] >>  0) & 0xff) % 6;
-    lengthMagicArray += ((digest[2] >> 24) & 0xff) % 6;
-    lengthMagicArray += ((digest[2] >> 16) & 0xff) % 6;
-    offsetMagicArray += ((digest[2] >>  8) & 0xff) % 8;
-    offsetMagicArray += ((digest[2] >>  0) & 0xff) % 8;
-    offsetMagicArray += ((digest[3] >> 24) & 0xff) % 8;
-    offsetMagicArray += ((digest[3] >> 16) & 0xff) % 8;
-    offsetMagicArray += ((digest[3] >>  8) & 0xff) % 8;
-    offsetMagicArray += ((digest[3] >>  0) & 0xff) % 8;
-    offsetMagicArray += ((digest[4] >> 24) & 0xff) % 8;
-    offsetMagicArray += ((digest[4] >> 16) & 0xff) % 8;
-    offsetMagicArray += ((digest[4] >>  8) & 0xff) % 8;
-    offsetMagicArray += ((digest[4] >>  0) & 0xff) % 8;
-
-    // final
-
-    digest[0] = SHA1M_A;
-    digest[1] = SHA1M_B;
-    digest[2] = SHA1M_C;
-    digest[3] = SHA1M_D;
-    digest[4] = SHA1M_E;
-
-    #pragma unroll
-    for (int i = 0; i < 32; i++) final[i] = 0;
-
-    final[0] = w0[0];
-    final[1] = w0[1];
-    final[2] = w0[2];
-    final[3] = w0[3];
-    final[4] = w1[0];
-    final[5] = w1[1];
-    final[6] = w1[2];
-    final[7] = w1[3];
-
-    u32 final_len = pw_len;
-
-    u32 i;
-
-    // append MagicArray
-
-    for (i = 0; i < lengthMagicArray - 4; i += 4)
-    {
-      const u32 tmp = GETSHIFTEDINT (theMagicArray, offsetMagicArray + i);
-
-      SETSHIFTEDINT (final, final_len + i, tmp);
-    }
-
-    const u32 mask = 0xffffffff >> (((i - lengthMagicArray) & 3) * 8);
-
-    const u32 tmp = GETSHIFTEDINT (theMagicArray, offsetMagicArray + i) & mask;
-
-    SETSHIFTEDINT (final, final_len + i, tmp);
-
-    final_len += lengthMagicArray;
-
-    // append Salt
-
-    for (i = 0; i < salt_len + 1; i += 4) // +1 for the 0x80
-    {
-      const u32 tmp = salt_buf[i / 4]; // attention, int[] not char[]
-
-      SETSHIFTEDINT (final, final_len + i, tmp);
-    }
-
-    final_len += salt_len;
-
-    // calculate
-
-    int left;
-    int off;
-
-    for (left = final_len, off = 0; left >= 56; left -= 64, off += 16)
-    {
-      swap_buffer (&final[off]);
-
-      sha1_transform (&final[off + 0], &final[off + 4], &final[off + 8], &final[off + 12], digest);
-    }
-
-    swap_buffer (&final[off]);
-
-    final[off + 14] = 0;
-    final[off + 15] = final_len * 8;
-
-    sha1_transform (&final[off + 0], &final[off + 4], &final[off + 8], &final[off + 12], digest);
-
-    const u32 r0 = digest[3];
-    const u32 r1 = digest[4];
-    const u32 r2 = digest[2];
-    const u32 r3 = digest[1];
-
-    #include COMPARE_M
-  }
-}
-
-static void m07800s (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_len, __global pw_t *pws, __global kernel_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global void *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global void *esalt_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 il_cnt, const u32 digests_cnt, const u32 digests_offset)
-{
-  /**
-   * modifier
-   */
-
-  const u32 gid = get_global_id (0);
-  const u32 lid = get_local_id (0);
-
-  w0[0] = swap32 (w0[0]);
-  w0[1] = swap32 (w0[1]);
-  w0[2] = swap32 (w0[2]);
-  w0[3] = swap32 (w0[3]);
-
-  w1[0] = swap32 (w1[0]);
-  w1[1] = swap32 (w1[1]);
-  w1[2] = swap32 (w1[2]);
-  w1[3] = swap32 (w1[3]);
-
-  /**
-   * salt
-   */
-
-  u32 salt_buf[8];
-
-  salt_buf[0] = salt_bufs[salt_pos].salt_buf[0];
-  salt_buf[1] = salt_bufs[salt_pos].salt_buf[1];
-  salt_buf[2] = salt_bufs[salt_pos].salt_buf[2];
-  salt_buf[3] = salt_bufs[salt_pos].salt_buf[3];
-  salt_buf[4] = salt_bufs[salt_pos].salt_buf[4];
-  salt_buf[5] = salt_bufs[salt_pos].salt_buf[5];
-  salt_buf[6] = salt_bufs[salt_pos].salt_buf[6];
-  salt_buf[7] = salt_bufs[salt_pos].salt_buf[7];
-
-  const u32 salt_len = salt_bufs[salt_pos].salt_len;
-
-  u32 s0[4];
-
-  s0[0] = salt_buf[0];
-  s0[1] = salt_buf[1];
-  s0[2] = salt_buf[2];
-  s0[3] = salt_buf[3];
-
-  u32 s1[4];
-
-  s1[0] = salt_buf[4];
-  s1[1] = salt_buf[5];
-  s1[2] = salt_buf[6];
-  s1[3] = salt_buf[7];
-
-  u32 s2[4];
-
-  s2[0] = 0;
-  s2[1] = 0;
-  s2[2] = 0;
-  s2[3] = 0;
-
-  u32 s3[4];
-
-  s3[0] = 0;
-  s3[1] = 0;
-  s3[2] = 0;
-  s3[3] = 0;
-
-  switch_buffer_by_offset_le (s0, s1, s2, s3, pw_len);
-
-  const u32 pw_salt_len = pw_len + salt_len;
-
-  /**
-   * digest
-   */
-
-  const u32 search[4] =
-  {
-    digests_buf[digests_offset].digest_buf[DGST_R0],
-    digests_buf[digests_offset].digest_buf[DGST_R1],
-    digests_buf[digests_offset].digest_buf[DGST_R2],
-    digests_buf[digests_offset].digest_buf[DGST_R3]
-  };
-
-  /**
-   * loop
-   */
-
-  u32 w0l = w0[0];
-
-  for (u32 il_pos = 0; il_pos < il_cnt; il_pos++)
-  {
-    const u32 w0r = swap32 (bfs_buf[il_pos].i);
-
-    w0[0] = w0l | w0r;
-
-    /**
-     * sha1
-     */
-
-    u32 final[32];
-
-    final[ 0] = swap32 (w0[0] | s0[0]);
-    final[ 1] = swap32 (w0[1] | s0[1]);
-    final[ 2] = swap32 (w0[2] | s0[2]);
-    final[ 3] = swap32 (w0[3] | s0[3]);
-    final[ 4] = swap32 (w1[0] | s1[0]);
-    final[ 5] = swap32 (w1[1] | s1[1]);
-    final[ 6] = swap32 (w1[2] | s1[2]);
-    final[ 7] = swap32 (w1[3] | s1[3]);
-    final[ 8] = swap32 (w2[0] | s2[0]);
-    final[ 9] = swap32 (w2[1] | s2[1]);
-    final[10] = swap32 (w2[2] | s2[2]);
-    final[11] = swap32 (w2[3] | s2[3]);
-    final[12] = swap32 (w3[0] | s3[0]);
-    final[13] = swap32 (w3[1] | s3[1]);
+    final[ 0] = w0[0] | s0[0];
+    final[ 1] = w0[1] | s0[1];
+    final[ 2] = w0[2] | s0[2];
+    final[ 3] = w0[3] | s0[3];
+    final[ 4] = w1[0] | s1[0];
+    final[ 5] = w1[1] | s1[1];
+    final[ 6] = w1[2] | s1[2];
+    final[ 7] = w1[3] | s1[3];
+    final[ 8] = w2[0] | s2[0];
+    final[ 9] = w2[1] | s2[1];
+    final[10] = w2[2] | s2[2];
+    final[11] = w2[3] | s2[3];
+    final[12] = w3[0] | s3[0];
+    final[13] = w3[1] | s3[1];
    final[14] = 0;
    final[15] = pw_salt_len * 8;

@ -571,18 +327,18 @@ static void m07800s (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
    #pragma unroll 32
    for (int i = 0; i < 32; i++) final[i] = 0;

-    final[0] = w0[0];
-    final[1] = w0[1];
-    final[2] = w0[2];
-    final[3] = w0[3];
-    final[4] = w1[0];
-    final[5] = w1[1];
-    final[6] = w1[2];
-    final[7] = w1[3];
+    final[0] = swap32 (w0[0]);
+    final[1] = swap32 (w0[1]);
+    final[2] = swap32 (w0[2]);
+    final[3] = swap32 (w0[3]);
+    final[4] = swap32 (w1[0]);
+    final[5] = swap32 (w1[1]);
+    final[6] = swap32 (w1[2]);
+    final[7] = swap32 (w1[3]);

    u32 final_len = pw_len;

-    u32 i;
+    int i;

    // append MagicArray

@ -631,12 +387,219 @@ static void m07800s (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le

    sha1_transform (&final[off + 0], &final[off + 4], &final[off + 8], &final[off + 12], digest);

-    const u32 r0 = digest[3];
-    const u32 r1 = digest[4];
-    const u32 r2 = digest[2];
-    const u32 r3 = digest[1];
+    COMPARE_M_SIMD (digest[3], digest[4], digest[2], digest[1]);
+  }
+}

-    #include COMPARE_S
+static void m07800s (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_len, __global pw_t *pws, __global kernel_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global void *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global void *esalt_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 il_cnt, const u32 digests_cnt, const u32 digests_offset)
+{
+  /**
+   * modifier
+   */
+
+  const u32 gid = get_global_id (0);
+  const u32 lid = get_local_id (0);
+
+  /**
+   * salt
+   */
+
+  u32 salt_buf[8];
+
+  salt_buf[0] = salt_bufs[salt_pos].salt_buf[0];
+  salt_buf[1] = salt_bufs[salt_pos].salt_buf[1];
+  salt_buf[2] = salt_bufs[salt_pos].salt_buf[2];
+  salt_buf[3] = salt_bufs[salt_pos].salt_buf[3];
+  salt_buf[4] = salt_bufs[salt_pos].salt_buf[4];
+  salt_buf[5] = salt_bufs[salt_pos].salt_buf[5];
+  salt_buf[6] = salt_bufs[salt_pos].salt_buf[6];
+  salt_buf[7] = salt_bufs[salt_pos].salt_buf[7];
+
+  const u32 salt_len = salt_bufs[salt_pos].salt_len;
+
+  u32 s0[4];
+  u32 s1[4];
+  u32 s2[4];
+  u32 s3[4];
+
+  s0[0] = swap32 (salt_buf[0]);
+  s0[1] = swap32 (salt_buf[1]);
+  s0[2] = swap32 (salt_buf[2]);
+  s0[3] = swap32 (salt_buf[3]);
+  s1[0] = swap32 (salt_buf[4]);
+  s1[1] = swap32 (salt_buf[5]);
+  s1[2] = swap32 (salt_buf[6]);
+  s1[3] = swap32 (salt_buf[7]);
+  s2[0] = 0;
+  s2[1] = 0;
+  s2[2] = 0;
+  s2[3] = 0;
+  s3[0] = 0;
+  s3[1] = 0;
+  s3[2] = 0;
+  s3[3] = 0;
+
+  switch_buffer_by_offset_be_S (s0, s1, s2, s3, pw_len);
+
+  const u32x pw_salt_len = pw_len + salt_len;
+
+  /**
+   * digest
+   */
+
+  const u32 search[4] =
+  {
+    digests_buf[digests_offset].digest_buf[DGST_R0],
+    digests_buf[digests_offset].digest_buf[DGST_R1],
+    digests_buf[digests_offset].digest_buf[DGST_R2],
+    digests_buf[digests_offset].digest_buf[DGST_R3]
+  };
+
+  /**
+   * loop
+   */
+
+  u32 w0l = w0[0];
+
+  for (u32 il_pos = 0; il_pos < il_cnt; il_pos += VECT_SIZE)
+  {
+    const u32x w0r = ix_create_bft (bfs_buf, il_pos);
+
+    const u32x w0lr = w0l | w0r;
+
+    w0[0] = w0lr;
+
+    /**
+     * SAP
+     */
+
+    u32 final[32];
+
+    final[ 0] = w0[0] | s0[0];
+    final[ 1] = w0[1] | s0[1];
+    final[ 2] = w0[2] | s0[2];
+    final[ 3] = w0[3] | s0[3];
+    final[ 4] = w1[0] | s1[0];
+    final[ 5] = w1[1] | s1[1];
+    final[ 6] = w1[2] | s1[2];
+    final[ 7] = w1[3] | s1[3];
+    final[ 8] = w2[0] | s2[0];
+    final[ 9] = w2[1] | s2[1];
+    final[10] = w2[2] | s2[2];
+    final[11] = w2[3] | s2[3];
+    final[12] = w3[0] | s3[0];
+    final[13] = w3[1] | s3[1];
+    final[14] = 0;
+    final[15] = pw_salt_len * 8;
+
+    u32 digest[5];
+
+    digest[0] = SHA1M_A;
+    digest[1] = SHA1M_B;
+    digest[2] = SHA1M_C;
+    digest[3] = SHA1M_D;
+    digest[4] = SHA1M_E;
+
+    sha1_transform (&final[0], &final[4], &final[8], &final[12], digest);
+
+    // prepare magic array range
+
+    u32 lengthMagicArray = 0x20;
+    u32 offsetMagicArray = 0;
+
+    lengthMagicArray += ((digest[0] >> 24) & 0xff) % 6;
+    lengthMagicArray += ((digest[0] >> 16) & 0xff) % 6;
+    lengthMagicArray += ((digest[0] >>  8) & 0xff) % 6;
+    lengthMagicArray += ((digest[0] >>  0) & 0xff) % 6;
+    lengthMagicArray += ((digest[1] >> 24) & 0xff) % 6;
+    lengthMagicArray += ((digest[1] >> 16) & 0xff) % 6;
+    lengthMagicArray += ((digest[1] >>  8) & 0xff) % 6;
+    lengthMagicArray += ((digest[1] >>  0) & 0xff) % 6;
+    lengthMagicArray += ((digest[2] >> 24) & 0xff) % 6;
+    lengthMagicArray += ((digest[2] >> 16) & 0xff) % 6;
+    offsetMagicArray += ((digest[2] >>  8) & 0xff) % 8;
+    offsetMagicArray += ((digest[2] >>  0) & 0xff) % 8;
+    offsetMagicArray += ((digest[3] >> 24) & 0xff) % 8;
+    offsetMagicArray += ((digest[3] >> 16) & 0xff) % 8;
+    offsetMagicArray += ((digest[3] >>  8) & 0xff) % 8;
+    offsetMagicArray += ((digest[3] >>  0) & 0xff) % 8;
+    offsetMagicArray += ((digest[4] >> 24) & 0xff) % 8;
+    offsetMagicArray += ((digest[4] >> 16) & 0xff) % 8;
+    offsetMagicArray += ((digest[4] >>  8) & 0xff) % 8;
+    offsetMagicArray += ((digest[4] >>  0) & 0xff) % 8;
+
+    // final
+
+    digest[0] = SHA1M_A;
+    digest[1] = SHA1M_B;
+    digest[2] = SHA1M_C;
+    digest[3] = SHA1M_D;
+    digest[4] = SHA1M_E;
+
+    #pragma unroll 32
+    for (int i = 0; i < 32; i++) final[i] = 0;
+
+    final[0] = swap32 (w0[0]);
+    final[1] = swap32 (w0[1]);
+    final[2] = swap32 (w0[2]);
+    final[3] = swap32 (w0[3]);
+    final[4] = swap32 (w1[0]);
+    final[5] = swap32 (w1[1]);
+    final[6] = swap32 (w1[2]);
+    final[7] = swap32 (w1[3]);
+
+    u32 final_len = pw_len;
+
+    int i;
+
+    // append MagicArray
+
+    for (i = 0; i < lengthMagicArray - 4; i += 4)
+    {
+      const u32 tmp = GETSHIFTEDINT (theMagicArray, offsetMagicArray + i);
+
+      SETSHIFTEDINT (final, final_len + i, tmp);
+    }
+
+    const u32 mask = 0xffffffff >> (((i - lengthMagicArray) & 3) * 8);
+
+    const u32 tmp = GETSHIFTEDINT (theMagicArray, offsetMagicArray + i) & mask;
+
+    SETSHIFTEDINT (final, final_len + i, tmp);
+
+    final_len += lengthMagicArray;
+
+    // append Salt
+
+    for (i = 0; i < salt_len + 1; i += 4) // +1 for the 0x80
+    {
+      const u32 tmp = salt_buf[i / 4]; // attention, int[] not char[]
+
+      SETSHIFTEDINT (final, final_len + i, tmp);
+    }
+
+    final_len += salt_len;
+
+    // calculate
+
+    int left;
+    int off;
+
+    for (left = final_len, off = 0; left >= 56; left -= 64, off += 16)
+    {
+      swap_buffer (&final[off]);
+
+      sha1_transform (&final[off + 0], &final[off + 4], &final[off + 8], &final[off + 12], digest);
+    }
+
+    swap_buffer (&final[off]);
+
+    final[off + 14] = 0;
+    final[off + 15] = final_len * 8;
+
+    sha1_transform (&final[off + 0], &final[off + 4], &final[off + 8], &final[off + 12], digest);
+
+    COMPARE_S_SIMD (digest[3], digest[4], digest[2], digest[1]);
  }
 }