sha512-armv4.S 42 KB


  1. @ Copyright 2007-2020 The OpenSSL Project Authors. All Rights Reserved.
  2. @
  3. @ Licensed under the OpenSSL license (the "License"). You may not use
  4. @ this file except in compliance with the License. You can obtain a copy
  5. @ in the file LICENSE in the source distribution or at
  6. @ https://www.openssl.org/source/license.html
  7. @ ====================================================================
  8. @ Written by Andy Polyakov <appro@openssl.org> for the OpenSSL
  9. @ project. The module is, however, dual licensed under OpenSSL and
  10. @ CRYPTOGAMS licenses depending on where you obtain it. For further
  11. @ details see http://www.openssl.org/~appro/cryptogams/.
  12. @
  13. @ Permission to use under GPL terms is granted.
  14. @ ====================================================================
  15. @ SHA512 block procedure for ARMv4. September 2007.
  16. @ This code is ~4.5 (four and a half) times faster than code generated
  17. @ by gcc 3.4 and it spends ~72 clock cycles per byte [on single-issue
  18. @ Xscale PXA250 core].
  19. @
  20. @ July 2010.
  21. @
  22. @ Rescheduling for dual-issue pipeline resulted in 6% improvement on
  23. @ Cortex A8 core and ~40 cycles per processed byte.
  24. @ February 2011.
  25. @
  26. @ Profiler-assisted and platform-specific optimization resulted in 7%
  27. @ improvement on Coxtex A8 core and ~38 cycles per byte.
  28. @ March 2011.
  29. @
  30. @ Add NEON implementation. On Cortex A8 it was measured to process
  31. @ one byte in 23.3 cycles or ~60% faster than integer-only code.
  32. @ August 2012.
  33. @
  34. @ Improve NEON performance by 12% on Snapdragon S4. In absolute
  35. @ terms it's 22.6 cycles per byte, which is disappointing result.
  36. @ Technical writers asserted that 3-way S4 pipeline can sustain
  37. @ multiple NEON instructions per cycle, but dual NEON issue could
  38. @ not be observed, see http://www.openssl.org/~appro/Snapdragon-S4.html
  39. @ for further details. On side note Cortex-A15 processes one byte in
  40. @ 16 cycles.
  41. @ Byte order [in]dependence. =========================================
  42. @
  43. @ Originally caller was expected to maintain specific *dword* order in
  44. @ h[0-7], namely with most significant dword at *lower* address, which
  45. @ was reflected in below two parameters as 0 and 4. Now caller is
  46. @ expected to maintain native byte order for whole 64-bit values.
  47. #ifndef __KERNEL__
  48. # include "arm_arch.h"
  49. # define VFP_ABI_PUSH vstmdb sp!,{d8-d15}
  50. # define VFP_ABI_POP vldmia sp!,{d8-d15}
  51. #else
  52. # define __ARM_ARCH__ __LINUX_ARM_ARCH__
  53. # define __ARM_MAX_ARCH__ 7
  54. # define VFP_ABI_PUSH
  55. # define VFP_ABI_POP
  56. #endif
  57. #ifdef __ARMEL__
  58. # define LO 0
  59. # define HI 4
  60. # define WORD64(hi0,lo0,hi1,lo1) .word lo0,hi0, lo1,hi1
  61. #else
  62. # define HI 0
  63. # define LO 4
  64. # define WORD64(hi0,lo0,hi1,lo1) .word hi0,lo0, hi1,lo1
  65. #endif
  66. .text
  67. #if defined(__thumb2__)
  68. .syntax unified
  69. .thumb
  70. # define adrl adr
  71. #else
  72. .code 32
  73. #endif
  74. .type K512,%object
  75. .align 5
  76. K512:
  77. WORD64(0x428a2f98,0xd728ae22, 0x71374491,0x23ef65cd)
  78. WORD64(0xb5c0fbcf,0xec4d3b2f, 0xe9b5dba5,0x8189dbbc)
  79. WORD64(0x3956c25b,0xf348b538, 0x59f111f1,0xb605d019)
  80. WORD64(0x923f82a4,0xaf194f9b, 0xab1c5ed5,0xda6d8118)
  81. WORD64(0xd807aa98,0xa3030242, 0x12835b01,0x45706fbe)
  82. WORD64(0x243185be,0x4ee4b28c, 0x550c7dc3,0xd5ffb4e2)
  83. WORD64(0x72be5d74,0xf27b896f, 0x80deb1fe,0x3b1696b1)
  84. WORD64(0x9bdc06a7,0x25c71235, 0xc19bf174,0xcf692694)
  85. WORD64(0xe49b69c1,0x9ef14ad2, 0xefbe4786,0x384f25e3)
  86. WORD64(0x0fc19dc6,0x8b8cd5b5, 0x240ca1cc,0x77ac9c65)
  87. WORD64(0x2de92c6f,0x592b0275, 0x4a7484aa,0x6ea6e483)
  88. WORD64(0x5cb0a9dc,0xbd41fbd4, 0x76f988da,0x831153b5)
  89. WORD64(0x983e5152,0xee66dfab, 0xa831c66d,0x2db43210)
  90. WORD64(0xb00327c8,0x98fb213f, 0xbf597fc7,0xbeef0ee4)
  91. WORD64(0xc6e00bf3,0x3da88fc2, 0xd5a79147,0x930aa725)
  92. WORD64(0x06ca6351,0xe003826f, 0x14292967,0x0a0e6e70)
  93. WORD64(0x27b70a85,0x46d22ffc, 0x2e1b2138,0x5c26c926)
  94. WORD64(0x4d2c6dfc,0x5ac42aed, 0x53380d13,0x9d95b3df)
  95. WORD64(0x650a7354,0x8baf63de, 0x766a0abb,0x3c77b2a8)
  96. WORD64(0x81c2c92e,0x47edaee6, 0x92722c85,0x1482353b)
  97. WORD64(0xa2bfe8a1,0x4cf10364, 0xa81a664b,0xbc423001)
  98. WORD64(0xc24b8b70,0xd0f89791, 0xc76c51a3,0x0654be30)
  99. WORD64(0xd192e819,0xd6ef5218, 0xd6990624,0x5565a910)
  100. WORD64(0xf40e3585,0x5771202a, 0x106aa070,0x32bbd1b8)
  101. WORD64(0x19a4c116,0xb8d2d0c8, 0x1e376c08,0x5141ab53)
  102. WORD64(0x2748774c,0xdf8eeb99, 0x34b0bcb5,0xe19b48a8)
  103. WORD64(0x391c0cb3,0xc5c95a63, 0x4ed8aa4a,0xe3418acb)
  104. WORD64(0x5b9cca4f,0x7763e373, 0x682e6ff3,0xd6b2b8a3)
  105. WORD64(0x748f82ee,0x5defb2fc, 0x78a5636f,0x43172f60)
  106. WORD64(0x84c87814,0xa1f0ab72, 0x8cc70208,0x1a6439ec)
  107. WORD64(0x90befffa,0x23631e28, 0xa4506ceb,0xde82bde9)
  108. WORD64(0xbef9a3f7,0xb2c67915, 0xc67178f2,0xe372532b)
  109. WORD64(0xca273ece,0xea26619c, 0xd186b8c7,0x21c0c207)
  110. WORD64(0xeada7dd6,0xcde0eb1e, 0xf57d4f7f,0xee6ed178)
  111. WORD64(0x06f067aa,0x72176fba, 0x0a637dc5,0xa2c898a6)
  112. WORD64(0x113f9804,0xbef90dae, 0x1b710b35,0x131c471b)
  113. WORD64(0x28db77f5,0x23047d84, 0x32caab7b,0x40c72493)
  114. WORD64(0x3c9ebe0a,0x15c9bebc, 0x431d67c4,0x9c100d4c)
  115. WORD64(0x4cc5d4be,0xcb3e42b6, 0x597f299c,0xfc657e2a)
  116. WORD64(0x5fcb6fab,0x3ad6faec, 0x6c44198c,0x4a475817)
  117. .size K512,.-K512
  118. #if __ARM_MAX_ARCH__>=7 && !defined(__KERNEL__)
  119. .LOPENSSL_armcap:
  120. .word OPENSSL_armcap_P-.Lsha512_block_data_order
  121. .skip 32-4
  122. #else
  123. .skip 32
  124. #endif
  125. .global sha512_block_data_order
  126. .type sha512_block_data_order,%function
  127. sha512_block_data_order:
  128. .Lsha512_block_data_order:
  129. #if __ARM_ARCH__<7 && !defined(__thumb2__)
  130. sub r3,pc,#8 @ sha512_block_data_order
  131. #else
  132. adr r3,.Lsha512_block_data_order
  133. #endif
  134. #if __ARM_MAX_ARCH__>=7 && !defined(__KERNEL__)
  135. ldr r12,.LOPENSSL_armcap
  136. ldr r12,[r3,r12] @ OPENSSL_armcap_P
  137. #ifdef __APPLE__
  138. ldr r12,[r12]
  139. #endif
  140. tst r12,#ARMV7_NEON
  141. bne .LNEON
  142. #endif
  143. add r2,r1,r2,lsl#7 @ len to point at the end of inp
  144. stmdb sp!,{r4-r12,lr}
  145. sub r14,r3,#672 @ K512
  146. sub sp,sp,#9*8
  147. ldr r7,[r0,#32+LO]
  148. ldr r8,[r0,#32+HI]
  149. ldr r9, [r0,#48+LO]
  150. ldr r10, [r0,#48+HI]
  151. ldr r11, [r0,#56+LO]
  152. ldr r12, [r0,#56+HI]
  153. .Loop:
  154. str r9, [sp,#48+0]
  155. str r10, [sp,#48+4]
  156. str r11, [sp,#56+0]
  157. str r12, [sp,#56+4]
  158. ldr r5,[r0,#0+LO]
  159. ldr r6,[r0,#0+HI]
  160. ldr r3,[r0,#8+LO]
  161. ldr r4,[r0,#8+HI]
  162. ldr r9, [r0,#16+LO]
  163. ldr r10, [r0,#16+HI]
  164. ldr r11, [r0,#24+LO]
  165. ldr r12, [r0,#24+HI]
  166. str r3,[sp,#8+0]
  167. str r4,[sp,#8+4]
  168. str r9, [sp,#16+0]
  169. str r10, [sp,#16+4]
  170. str r11, [sp,#24+0]
  171. str r12, [sp,#24+4]
  172. ldr r3,[r0,#40+LO]
  173. ldr r4,[r0,#40+HI]
  174. str r3,[sp,#40+0]
  175. str r4,[sp,#40+4]
  176. .L00_15:
  177. #if __ARM_ARCH__<7
  178. ldrb r3,[r1,#7]
  179. ldrb r9, [r1,#6]
  180. ldrb r10, [r1,#5]
  181. ldrb r11, [r1,#4]
  182. ldrb r4,[r1,#3]
  183. ldrb r12, [r1,#2]
  184. orr r3,r3,r9,lsl#8
  185. ldrb r9, [r1,#1]
  186. orr r3,r3,r10,lsl#16
  187. ldrb r10, [r1],#8
  188. orr r3,r3,r11,lsl#24
  189. orr r4,r4,r12,lsl#8
  190. orr r4,r4,r9,lsl#16
  191. orr r4,r4,r10,lsl#24
  192. #else
  193. ldr r3,[r1,#4]
  194. ldr r4,[r1],#8
  195. #ifdef __ARMEL__
  196. rev r3,r3
  197. rev r4,r4
  198. #endif
  199. #endif
  200. @ Sigma1(x) (ROTR((x),14) ^ ROTR((x),18) ^ ROTR((x),41))
  201. @ LO lo>>14^hi<<18 ^ lo>>18^hi<<14 ^ hi>>9^lo<<23
  202. @ HI hi>>14^lo<<18 ^ hi>>18^lo<<14 ^ lo>>9^hi<<23
  203. mov r9,r7,lsr#14
  204. str r3,[sp,#64+0]
  205. mov r10,r8,lsr#14
  206. str r4,[sp,#64+4]
  207. eor r9,r9,r8,lsl#18
  208. ldr r11,[sp,#56+0] @ h.lo
  209. eor r10,r10,r7,lsl#18
  210. ldr r12,[sp,#56+4] @ h.hi
  211. eor r9,r9,r7,lsr#18
  212. eor r10,r10,r8,lsr#18
  213. eor r9,r9,r8,lsl#14
  214. eor r10,r10,r7,lsl#14
  215. eor r9,r9,r8,lsr#9
  216. eor r10,r10,r7,lsr#9
  217. eor r9,r9,r7,lsl#23
  218. eor r10,r10,r8,lsl#23 @ Sigma1(e)
  219. adds r3,r3,r9
  220. ldr r9,[sp,#40+0] @ f.lo
  221. adc r4,r4,r10 @ T += Sigma1(e)
  222. ldr r10,[sp,#40+4] @ f.hi
  223. adds r3,r3,r11
  224. ldr r11,[sp,#48+0] @ g.lo
  225. adc r4,r4,r12 @ T += h
  226. ldr r12,[sp,#48+4] @ g.hi
  227. eor r9,r9,r11
  228. str r7,[sp,#32+0]
  229. eor r10,r10,r12
  230. str r8,[sp,#32+4]
  231. and r9,r9,r7
  232. str r5,[sp,#0+0]
  233. and r10,r10,r8
  234. str r6,[sp,#0+4]
  235. eor r9,r9,r11
  236. ldr r11,[r14,#LO] @ K[i].lo
  237. eor r10,r10,r12 @ Ch(e,f,g)
  238. ldr r12,[r14,#HI] @ K[i].hi
  239. adds r3,r3,r9
  240. ldr r7,[sp,#24+0] @ d.lo
  241. adc r4,r4,r10 @ T += Ch(e,f,g)
  242. ldr r8,[sp,#24+4] @ d.hi
  243. adds r3,r3,r11
  244. and r9,r11,#0xff
  245. adc r4,r4,r12 @ T += K[i]
  246. adds r7,r7,r3
  247. ldr r11,[sp,#8+0] @ b.lo
  248. adc r8,r8,r4 @ d += T
  249. teq r9,#148
  250. ldr r12,[sp,#16+0] @ c.lo
  251. #ifdef __thumb2__
  252. it eq @ Thumb2 thing, sanity check in ARM
  253. #endif
  254. orreq r14,r14,#1
  255. @ Sigma0(x) (ROTR((x),28) ^ ROTR((x),34) ^ ROTR((x),39))
  256. @ LO lo>>28^hi<<4 ^ hi>>2^lo<<30 ^ hi>>7^lo<<25
  257. @ HI hi>>28^lo<<4 ^ lo>>2^hi<<30 ^ lo>>7^hi<<25
  258. mov r9,r5,lsr#28
  259. mov r10,r6,lsr#28
  260. eor r9,r9,r6,lsl#4
  261. eor r10,r10,r5,lsl#4
  262. eor r9,r9,r6,lsr#2
  263. eor r10,r10,r5,lsr#2
  264. eor r9,r9,r5,lsl#30
  265. eor r10,r10,r6,lsl#30
  266. eor r9,r9,r6,lsr#7
  267. eor r10,r10,r5,lsr#7
  268. eor r9,r9,r5,lsl#25
  269. eor r10,r10,r6,lsl#25 @ Sigma0(a)
  270. adds r3,r3,r9
  271. and r9,r5,r11
  272. adc r4,r4,r10 @ T += Sigma0(a)
  273. ldr r10,[sp,#8+4] @ b.hi
  274. orr r5,r5,r11
  275. ldr r11,[sp,#16+4] @ c.hi
  276. and r5,r5,r12
  277. and r12,r6,r10
  278. orr r6,r6,r10
  279. orr r5,r5,r9 @ Maj(a,b,c).lo
  280. and r6,r6,r11
  281. adds r5,r5,r3
  282. orr r6,r6,r12 @ Maj(a,b,c).hi
  283. sub sp,sp,#8
  284. adc r6,r6,r4 @ h += T
  285. tst r14,#1
  286. add r14,r14,#8
  287. tst r14,#1
  288. beq .L00_15
  289. ldr r9,[sp,#184+0]
  290. ldr r10,[sp,#184+4]
  291. bic r14,r14,#1
  292. .L16_79:
  293. @ sigma0(x) (ROTR((x),1) ^ ROTR((x),8) ^ ((x)>>7))
  294. @ LO lo>>1^hi<<31 ^ lo>>8^hi<<24 ^ lo>>7^hi<<25
  295. @ HI hi>>1^lo<<31 ^ hi>>8^lo<<24 ^ hi>>7
  296. mov r3,r9,lsr#1
  297. ldr r11,[sp,#80+0]
  298. mov r4,r10,lsr#1
  299. ldr r12,[sp,#80+4]
  300. eor r3,r3,r10,lsl#31
  301. eor r4,r4,r9,lsl#31
  302. eor r3,r3,r9,lsr#8
  303. eor r4,r4,r10,lsr#8
  304. eor r3,r3,r10,lsl#24
  305. eor r4,r4,r9,lsl#24
  306. eor r3,r3,r9,lsr#7
  307. eor r4,r4,r10,lsr#7
  308. eor r3,r3,r10,lsl#25
  309. @ sigma1(x) (ROTR((x),19) ^ ROTR((x),61) ^ ((x)>>6))
  310. @ LO lo>>19^hi<<13 ^ hi>>29^lo<<3 ^ lo>>6^hi<<26
  311. @ HI hi>>19^lo<<13 ^ lo>>29^hi<<3 ^ hi>>6
  312. mov r9,r11,lsr#19
  313. mov r10,r12,lsr#19
  314. eor r9,r9,r12,lsl#13
  315. eor r10,r10,r11,lsl#13
  316. eor r9,r9,r12,lsr#29
  317. eor r10,r10,r11,lsr#29
  318. eor r9,r9,r11,lsl#3
  319. eor r10,r10,r12,lsl#3
  320. eor r9,r9,r11,lsr#6
  321. eor r10,r10,r12,lsr#6
  322. ldr r11,[sp,#120+0]
  323. eor r9,r9,r12,lsl#26
  324. ldr r12,[sp,#120+4]
  325. adds r3,r3,r9
  326. ldr r9,[sp,#192+0]
  327. adc r4,r4,r10
  328. ldr r10,[sp,#192+4]
  329. adds r3,r3,r11
  330. adc r4,r4,r12
  331. adds r3,r3,r9
  332. adc r4,r4,r10
  333. @ Sigma1(x) (ROTR((x),14) ^ ROTR((x),18) ^ ROTR((x),41))
  334. @ LO lo>>14^hi<<18 ^ lo>>18^hi<<14 ^ hi>>9^lo<<23
  335. @ HI hi>>14^lo<<18 ^ hi>>18^lo<<14 ^ lo>>9^hi<<23
  336. mov r9,r7,lsr#14
  337. str r3,[sp,#64+0]
  338. mov r10,r8,lsr#14
  339. str r4,[sp,#64+4]
  340. eor r9,r9,r8,lsl#18
  341. ldr r11,[sp,#56+0] @ h.lo
  342. eor r10,r10,r7,lsl#18
  343. ldr r12,[sp,#56+4] @ h.hi
  344. eor r9,r9,r7,lsr#18
  345. eor r10,r10,r8,lsr#18
  346. eor r9,r9,r8,lsl#14
  347. eor r10,r10,r7,lsl#14
  348. eor r9,r9,r8,lsr#9
  349. eor r10,r10,r7,lsr#9
  350. eor r9,r9,r7,lsl#23
  351. eor r10,r10,r8,lsl#23 @ Sigma1(e)
  352. adds r3,r3,r9
  353. ldr r9,[sp,#40+0] @ f.lo
  354. adc r4,r4,r10 @ T += Sigma1(e)
  355. ldr r10,[sp,#40+4] @ f.hi
  356. adds r3,r3,r11
  357. ldr r11,[sp,#48+0] @ g.lo
  358. adc r4,r4,r12 @ T += h
  359. ldr r12,[sp,#48+4] @ g.hi
  360. eor r9,r9,r11
  361. str r7,[sp,#32+0]
  362. eor r10,r10,r12
  363. str r8,[sp,#32+4]
  364. and r9,r9,r7
  365. str r5,[sp,#0+0]
  366. and r10,r10,r8
  367. str r6,[sp,#0+4]
  368. eor r9,r9,r11
  369. ldr r11,[r14,#LO] @ K[i].lo
  370. eor r10,r10,r12 @ Ch(e,f,g)
  371. ldr r12,[r14,#HI] @ K[i].hi
  372. adds r3,r3,r9
  373. ldr r7,[sp,#24+0] @ d.lo
  374. adc r4,r4,r10 @ T += Ch(e,f,g)
  375. ldr r8,[sp,#24+4] @ d.hi
  376. adds r3,r3,r11
  377. and r9,r11,#0xff
  378. adc r4,r4,r12 @ T += K[i]
  379. adds r7,r7,r3
  380. ldr r11,[sp,#8+0] @ b.lo
  381. adc r8,r8,r4 @ d += T
  382. teq r9,#23
  383. ldr r12,[sp,#16+0] @ c.lo
  384. #ifdef __thumb2__
  385. it eq @ Thumb2 thing, sanity check in ARM
  386. #endif
  387. orreq r14,r14,#1
  388. @ Sigma0(x) (ROTR((x),28) ^ ROTR((x),34) ^ ROTR((x),39))
  389. @ LO lo>>28^hi<<4 ^ hi>>2^lo<<30 ^ hi>>7^lo<<25
  390. @ HI hi>>28^lo<<4 ^ lo>>2^hi<<30 ^ lo>>7^hi<<25
  391. mov r9,r5,lsr#28
  392. mov r10,r6,lsr#28
  393. eor r9,r9,r6,lsl#4
  394. eor r10,r10,r5,lsl#4
  395. eor r9,r9,r6,lsr#2
  396. eor r10,r10,r5,lsr#2
  397. eor r9,r9,r5,lsl#30
  398. eor r10,r10,r6,lsl#30
  399. eor r9,r9,r6,lsr#7
  400. eor r10,r10,r5,lsr#7
  401. eor r9,r9,r5,lsl#25
  402. eor r10,r10,r6,lsl#25 @ Sigma0(a)
  403. adds r3,r3,r9
  404. and r9,r5,r11
  405. adc r4,r4,r10 @ T += Sigma0(a)
  406. ldr r10,[sp,#8+4] @ b.hi
  407. orr r5,r5,r11
  408. ldr r11,[sp,#16+4] @ c.hi
  409. and r5,r5,r12
  410. and r12,r6,r10
  411. orr r6,r6,r10
  412. orr r5,r5,r9 @ Maj(a,b,c).lo
  413. and r6,r6,r11
  414. adds r5,r5,r3
  415. orr r6,r6,r12 @ Maj(a,b,c).hi
  416. sub sp,sp,#8
  417. adc r6,r6,r4 @ h += T
  418. tst r14,#1
  419. add r14,r14,#8
  420. #ifdef __thumb2__
  421. ittt eq @ Thumb2 thing, sanity check in ARM
  422. #endif
  423. ldreq r9,[sp,#184+0]
  424. ldreq r10,[sp,#184+4]
  425. beq .L16_79
  426. bic r14,r14,#1
  427. ldr r3,[sp,#8+0]
  428. ldr r4,[sp,#8+4]
  429. ldr r9, [r0,#0+LO]
  430. ldr r10, [r0,#0+HI]
  431. ldr r11, [r0,#8+LO]
  432. ldr r12, [r0,#8+HI]
  433. adds r9,r5,r9
  434. str r9, [r0,#0+LO]
  435. adc r10,r6,r10
  436. str r10, [r0,#0+HI]
  437. adds r11,r3,r11
  438. str r11, [r0,#8+LO]
  439. adc r12,r4,r12
  440. str r12, [r0,#8+HI]
  441. ldr r5,[sp,#16+0]
  442. ldr r6,[sp,#16+4]
  443. ldr r3,[sp,#24+0]
  444. ldr r4,[sp,#24+4]
  445. ldr r9, [r0,#16+LO]
  446. ldr r10, [r0,#16+HI]
  447. ldr r11, [r0,#24+LO]
  448. ldr r12, [r0,#24+HI]
  449. adds r9,r5,r9
  450. str r9, [r0,#16+LO]
  451. adc r10,r6,r10
  452. str r10, [r0,#16+HI]
  453. adds r11,r3,r11
  454. str r11, [r0,#24+LO]
  455. adc r12,r4,r12
  456. str r12, [r0,#24+HI]
  457. ldr r3,[sp,#40+0]
  458. ldr r4,[sp,#40+4]
  459. ldr r9, [r0,#32+LO]
  460. ldr r10, [r0,#32+HI]
  461. ldr r11, [r0,#40+LO]
  462. ldr r12, [r0,#40+HI]
  463. adds r7,r7,r9
  464. str r7,[r0,#32+LO]
  465. adc r8,r8,r10
  466. str r8,[r0,#32+HI]
  467. adds r11,r3,r11
  468. str r11, [r0,#40+LO]
  469. adc r12,r4,r12
  470. str r12, [r0,#40+HI]
  471. ldr r5,[sp,#48+0]
  472. ldr r6,[sp,#48+4]
  473. ldr r3,[sp,#56+0]
  474. ldr r4,[sp,#56+4]
  475. ldr r9, [r0,#48+LO]
  476. ldr r10, [r0,#48+HI]
  477. ldr r11, [r0,#56+LO]
  478. ldr r12, [r0,#56+HI]
  479. adds r9,r5,r9
  480. str r9, [r0,#48+LO]
  481. adc r10,r6,r10
  482. str r10, [r0,#48+HI]
  483. adds r11,r3,r11
  484. str r11, [r0,#56+LO]
  485. adc r12,r4,r12
  486. str r12, [r0,#56+HI]
  487. add sp,sp,#640
  488. sub r14,r14,#640
  489. teq r1,r2
  490. bne .Loop
  491. add sp,sp,#8*9 @ destroy frame
  492. #if __ARM_ARCH__>=5
  493. ldmia sp!,{r4-r12,pc}
  494. #else
  495. ldmia sp!,{r4-r12,lr}
  496. tst lr,#1
  497. moveq pc,lr @ be binary compatible with V4, yet
  498. .word 0xe12fff1e @ interoperable with Thumb ISA:-)
  499. #endif
  500. .size sha512_block_data_order,.-sha512_block_data_order
  501. #if __ARM_MAX_ARCH__>=7
  502. .arch armv7-a
  503. .fpu neon
  504. .global sha512_block_data_order_neon
  505. .type sha512_block_data_order_neon,%function
  506. .align 4
  507. sha512_block_data_order_neon:
  508. .LNEON:
  509. dmb @ errata #451034 on early Cortex A8
  510. add r2,r1,r2,lsl#7 @ len to point at the end of inp
  511. adr r3,K512
  512. VFP_ABI_PUSH
  513. vldmia r0,{d16-d23} @ load context
  514. .Loop_neon:
  515. vshr.u64 d24,d20,#14 @ 0
  516. #if 0<16
  517. vld1.64 {d0},[r1]! @ handles unaligned
  518. #endif
  519. vshr.u64 d25,d20,#18
  520. #if 0>0
  521. vadd.i64 d16,d30 @ h+=Maj from the past
  522. #endif
  523. vshr.u64 d26,d20,#41
  524. vld1.64 {d28},[r3,:64]! @ K[i++]
  525. vsli.64 d24,d20,#50
  526. vsli.64 d25,d20,#46
  527. vmov d29,d20
  528. vsli.64 d26,d20,#23
  529. #if 0<16 && defined(__ARMEL__)
  530. vrev64.8 d0,d0
  531. #endif
  532. veor d25,d24
  533. vbsl d29,d21,d22 @ Ch(e,f,g)
  534. vshr.u64 d24,d16,#28
  535. veor d26,d25 @ Sigma1(e)
  536. vadd.i64 d27,d29,d23
  537. vshr.u64 d25,d16,#34
  538. vsli.64 d24,d16,#36
  539. vadd.i64 d27,d26
  540. vshr.u64 d26,d16,#39
  541. vadd.i64 d28,d0
  542. vsli.64 d25,d16,#30
  543. veor d30,d16,d17
  544. vsli.64 d26,d16,#25
  545. veor d23,d24,d25
  546. vadd.i64 d27,d28
  547. vbsl d30,d18,d17 @ Maj(a,b,c)
  548. veor d23,d26 @ Sigma0(a)
  549. vadd.i64 d19,d27
  550. vadd.i64 d30,d27
  551. @ vadd.i64 d23,d30
  552. vshr.u64 d24,d19,#14 @ 1
  553. #if 1<16
  554. vld1.64 {d1},[r1]! @ handles unaligned
  555. #endif
  556. vshr.u64 d25,d19,#18
  557. #if 1>0
  558. vadd.i64 d23,d30 @ h+=Maj from the past
  559. #endif
  560. vshr.u64 d26,d19,#41
  561. vld1.64 {d28},[r3,:64]! @ K[i++]
  562. vsli.64 d24,d19,#50
  563. vsli.64 d25,d19,#46
  564. vmov d29,d19
  565. vsli.64 d26,d19,#23
  566. #if 1<16 && defined(__ARMEL__)
  567. vrev64.8 d1,d1
  568. #endif
  569. veor d25,d24
  570. vbsl d29,d20,d21 @ Ch(e,f,g)
  571. vshr.u64 d24,d23,#28
  572. veor d26,d25 @ Sigma1(e)
  573. vadd.i64 d27,d29,d22
  574. vshr.u64 d25,d23,#34
  575. vsli.64 d24,d23,#36
  576. vadd.i64 d27,d26
  577. vshr.u64 d26,d23,#39
  578. vadd.i64 d28,d1
  579. vsli.64 d25,d23,#30
  580. veor d30,d23,d16
  581. vsli.64 d26,d23,#25
  582. veor d22,d24,d25
  583. vadd.i64 d27,d28
  584. vbsl d30,d17,d16 @ Maj(a,b,c)
  585. veor d22,d26 @ Sigma0(a)
  586. vadd.i64 d18,d27
  587. vadd.i64 d30,d27
  588. @ vadd.i64 d22,d30
  589. vshr.u64 d24,d18,#14 @ 2
  590. #if 2<16
  591. vld1.64 {d2},[r1]! @ handles unaligned
  592. #endif
  593. vshr.u64 d25,d18,#18
  594. #if 2>0
  595. vadd.i64 d22,d30 @ h+=Maj from the past
  596. #endif
  597. vshr.u64 d26,d18,#41
  598. vld1.64 {d28},[r3,:64]! @ K[i++]
  599. vsli.64 d24,d18,#50
  600. vsli.64 d25,d18,#46
  601. vmov d29,d18
  602. vsli.64 d26,d18,#23
  603. #if 2<16 && defined(__ARMEL__)
  604. vrev64.8 d2,d2
  605. #endif
  606. veor d25,d24
  607. vbsl d29,d19,d20 @ Ch(e,f,g)
  608. vshr.u64 d24,d22,#28
  609. veor d26,d25 @ Sigma1(e)
  610. vadd.i64 d27,d29,d21
  611. vshr.u64 d25,d22,#34
  612. vsli.64 d24,d22,#36
  613. vadd.i64 d27,d26
  614. vshr.u64 d26,d22,#39
  615. vadd.i64 d28,d2
  616. vsli.64 d25,d22,#30
  617. veor d30,d22,d23
  618. vsli.64 d26,d22,#25
  619. veor d21,d24,d25
  620. vadd.i64 d27,d28
  621. vbsl d30,d16,d23 @ Maj(a,b,c)
  622. veor d21,d26 @ Sigma0(a)
  623. vadd.i64 d17,d27
  624. vadd.i64 d30,d27
  625. @ vadd.i64 d21,d30
  626. vshr.u64 d24,d17,#14 @ 3
  627. #if 3<16
  628. vld1.64 {d3},[r1]! @ handles unaligned
  629. #endif
  630. vshr.u64 d25,d17,#18
  631. #if 3>0
  632. vadd.i64 d21,d30 @ h+=Maj from the past
  633. #endif
  634. vshr.u64 d26,d17,#41
  635. vld1.64 {d28},[r3,:64]! @ K[i++]
  636. vsli.64 d24,d17,#50
  637. vsli.64 d25,d17,#46
  638. vmov d29,d17
  639. vsli.64 d26,d17,#23
  640. #if 3<16 && defined(__ARMEL__)
  641. vrev64.8 d3,d3
  642. #endif
  643. veor d25,d24
  644. vbsl d29,d18,d19 @ Ch(e,f,g)
  645. vshr.u64 d24,d21,#28
  646. veor d26,d25 @ Sigma1(e)
  647. vadd.i64 d27,d29,d20
  648. vshr.u64 d25,d21,#34
  649. vsli.64 d24,d21,#36
  650. vadd.i64 d27,d26
  651. vshr.u64 d26,d21,#39
  652. vadd.i64 d28,d3
  653. vsli.64 d25,d21,#30
  654. veor d30,d21,d22
  655. vsli.64 d26,d21,#25
  656. veor d20,d24,d25
  657. vadd.i64 d27,d28
  658. vbsl d30,d23,d22 @ Maj(a,b,c)
  659. veor d20,d26 @ Sigma0(a)
  660. vadd.i64 d16,d27
  661. vadd.i64 d30,d27
  662. @ vadd.i64 d20,d30
  663. vshr.u64 d24,d16,#14 @ 4
  664. #if 4<16
  665. vld1.64 {d4},[r1]! @ handles unaligned
  666. #endif
  667. vshr.u64 d25,d16,#18
  668. #if 4>0
  669. vadd.i64 d20,d30 @ h+=Maj from the past
  670. #endif
  671. vshr.u64 d26,d16,#41
  672. vld1.64 {d28},[r3,:64]! @ K[i++]
  673. vsli.64 d24,d16,#50
  674. vsli.64 d25,d16,#46
  675. vmov d29,d16
  676. vsli.64 d26,d16,#23
  677. #if 4<16 && defined(__ARMEL__)
  678. vrev64.8 d4,d4
  679. #endif
  680. veor d25,d24
  681. vbsl d29,d17,d18 @ Ch(e,f,g)
  682. vshr.u64 d24,d20,#28
  683. veor d26,d25 @ Sigma1(e)
  684. vadd.i64 d27,d29,d19
  685. vshr.u64 d25,d20,#34
  686. vsli.64 d24,d20,#36
  687. vadd.i64 d27,d26
  688. vshr.u64 d26,d20,#39
  689. vadd.i64 d28,d4
  690. vsli.64 d25,d20,#30
  691. veor d30,d20,d21
  692. vsli.64 d26,d20,#25
  693. veor d19,d24,d25
  694. vadd.i64 d27,d28
  695. vbsl d30,d22,d21 @ Maj(a,b,c)
  696. veor d19,d26 @ Sigma0(a)
  697. vadd.i64 d23,d27
  698. vadd.i64 d30,d27
  699. @ vadd.i64 d19,d30
  700. vshr.u64 d24,d23,#14 @ 5
  701. #if 5<16
  702. vld1.64 {d5},[r1]! @ handles unaligned
  703. #endif
  704. vshr.u64 d25,d23,#18
  705. #if 5>0
  706. vadd.i64 d19,d30 @ h+=Maj from the past
  707. #endif
  708. vshr.u64 d26,d23,#41
  709. vld1.64 {d28},[r3,:64]! @ K[i++]
  710. vsli.64 d24,d23,#50
  711. vsli.64 d25,d23,#46
  712. vmov d29,d23
  713. vsli.64 d26,d23,#23
  714. #if 5<16 && defined(__ARMEL__)
  715. vrev64.8 d5,d5
  716. #endif
  717. veor d25,d24
  718. vbsl d29,d16,d17 @ Ch(e,f,g)
  719. vshr.u64 d24,d19,#28
  720. veor d26,d25 @ Sigma1(e)
  721. vadd.i64 d27,d29,d18
  722. vshr.u64 d25,d19,#34
  723. vsli.64 d24,d19,#36
  724. vadd.i64 d27,d26
  725. vshr.u64 d26,d19,#39
  726. vadd.i64 d28,d5
  727. vsli.64 d25,d19,#30
  728. veor d30,d19,d20
  729. vsli.64 d26,d19,#25
  730. veor d18,d24,d25
  731. vadd.i64 d27,d28
  732. vbsl d30,d21,d20 @ Maj(a,b,c)
  733. veor d18,d26 @ Sigma0(a)
  734. vadd.i64 d22,d27
  735. vadd.i64 d30,d27
  736. @ vadd.i64 d18,d30
  737. vshr.u64 d24,d22,#14 @ 6
  738. #if 6<16
  739. vld1.64 {d6},[r1]! @ handles unaligned
  740. #endif
  741. vshr.u64 d25,d22,#18
  742. #if 6>0
  743. vadd.i64 d18,d30 @ h+=Maj from the past
  744. #endif
  745. vshr.u64 d26,d22,#41
  746. vld1.64 {d28},[r3,:64]! @ K[i++]
  747. vsli.64 d24,d22,#50
  748. vsli.64 d25,d22,#46
  749. vmov d29,d22
  750. vsli.64 d26,d22,#23
  751. #if 6<16 && defined(__ARMEL__)
  752. vrev64.8 d6,d6
  753. #endif
  754. veor d25,d24
  755. vbsl d29,d23,d16 @ Ch(e,f,g)
  756. vshr.u64 d24,d18,#28
  757. veor d26,d25 @ Sigma1(e)
  758. vadd.i64 d27,d29,d17
  759. vshr.u64 d25,d18,#34
  760. vsli.64 d24,d18,#36
  761. vadd.i64 d27,d26
  762. vshr.u64 d26,d18,#39
  763. vadd.i64 d28,d6
  764. vsli.64 d25,d18,#30
  765. veor d30,d18,d19
  766. vsli.64 d26,d18,#25
  767. veor d17,d24,d25
  768. vadd.i64 d27,d28
  769. vbsl d30,d20,d19 @ Maj(a,b,c)
  770. veor d17,d26 @ Sigma0(a)
  771. vadd.i64 d21,d27
  772. vadd.i64 d30,d27
  773. @ vadd.i64 d17,d30
  774. vshr.u64 d24,d21,#14 @ 7
  775. #if 7<16
  776. vld1.64 {d7},[r1]! @ handles unaligned
  777. #endif
  778. vshr.u64 d25,d21,#18
  779. #if 7>0
  780. vadd.i64 d17,d30 @ h+=Maj from the past
  781. #endif
  782. vshr.u64 d26,d21,#41
  783. vld1.64 {d28},[r3,:64]! @ K[i++]
  784. vsli.64 d24,d21,#50
  785. vsli.64 d25,d21,#46
  786. vmov d29,d21
  787. vsli.64 d26,d21,#23
  788. #if 7<16 && defined(__ARMEL__)
  789. vrev64.8 d7,d7
  790. #endif
  791. veor d25,d24
  792. vbsl d29,d22,d23 @ Ch(e,f,g)
  793. vshr.u64 d24,d17,#28
  794. veor d26,d25 @ Sigma1(e)
  795. vadd.i64 d27,d29,d16
  796. vshr.u64 d25,d17,#34
  797. vsli.64 d24,d17,#36
  798. vadd.i64 d27,d26
  799. vshr.u64 d26,d17,#39
  800. vadd.i64 d28,d7
  801. vsli.64 d25,d17,#30
  802. veor d30,d17,d18
  803. vsli.64 d26,d17,#25
  804. veor d16,d24,d25
  805. vadd.i64 d27,d28
  806. vbsl d30,d19,d18 @ Maj(a,b,c)
  807. veor d16,d26 @ Sigma0(a)
  808. vadd.i64 d20,d27
  809. vadd.i64 d30,d27
  810. @ vadd.i64 d16,d30
  811. vshr.u64 d24,d20,#14 @ 8
  812. #if 8<16
  813. vld1.64 {d8},[r1]! @ handles unaligned
  814. #endif
  815. vshr.u64 d25,d20,#18
  816. #if 8>0
  817. vadd.i64 d16,d30 @ h+=Maj from the past
  818. #endif
  819. vshr.u64 d26,d20,#41
  820. vld1.64 {d28},[r3,:64]! @ K[i++]
  821. vsli.64 d24,d20,#50
  822. vsli.64 d25,d20,#46
  823. vmov d29,d20
  824. vsli.64 d26,d20,#23
  825. #if 8<16 && defined(__ARMEL__)
  826. vrev64.8 d8,d8
  827. #endif
  828. veor d25,d24
  829. vbsl d29,d21,d22 @ Ch(e,f,g)
  830. vshr.u64 d24,d16,#28
  831. veor d26,d25 @ Sigma1(e)
  832. vadd.i64 d27,d29,d23
  833. vshr.u64 d25,d16,#34
  834. vsli.64 d24,d16,#36
  835. vadd.i64 d27,d26
  836. vshr.u64 d26,d16,#39
  837. vadd.i64 d28,d8
  838. vsli.64 d25,d16,#30
  839. veor d30,d16,d17
  840. vsli.64 d26,d16,#25
  841. veor d23,d24,d25
  842. vadd.i64 d27,d28
  843. vbsl d30,d18,d17 @ Maj(a,b,c)
  844. veor d23,d26 @ Sigma0(a)
  845. vadd.i64 d19,d27
  846. vadd.i64 d30,d27
  847. @ vadd.i64 d23,d30
  848. vshr.u64 d24,d19,#14 @ 9
  849. #if 9<16
  850. vld1.64 {d9},[r1]! @ handles unaligned
  851. #endif
  852. vshr.u64 d25,d19,#18
  853. #if 9>0
  854. vadd.i64 d23,d30 @ h+=Maj from the past
  855. #endif
  856. vshr.u64 d26,d19,#41
  857. vld1.64 {d28},[r3,:64]! @ K[i++]
  858. vsli.64 d24,d19,#50
  859. vsli.64 d25,d19,#46
  860. vmov d29,d19
  861. vsli.64 d26,d19,#23
  862. #if 9<16 && defined(__ARMEL__)
  863. vrev64.8 d9,d9
  864. #endif
  865. veor d25,d24
  866. vbsl d29,d20,d21 @ Ch(e,f,g)
  867. vshr.u64 d24,d23,#28
  868. veor d26,d25 @ Sigma1(e)
  869. vadd.i64 d27,d29,d22
  870. vshr.u64 d25,d23,#34
  871. vsli.64 d24,d23,#36
  872. vadd.i64 d27,d26
  873. vshr.u64 d26,d23,#39
  874. vadd.i64 d28,d9
  875. vsli.64 d25,d23,#30
  876. veor d30,d23,d16
  877. vsli.64 d26,d23,#25
  878. veor d22,d24,d25
  879. vadd.i64 d27,d28
  880. vbsl d30,d17,d16 @ Maj(a,b,c)
  881. veor d22,d26 @ Sigma0(a)
  882. vadd.i64 d18,d27
  883. vadd.i64 d30,d27
  884. @ vadd.i64 d22,d30
  885. vshr.u64 d24,d18,#14 @ 10
  886. #if 10<16
  887. vld1.64 {d10},[r1]! @ handles unaligned
  888. #endif
  889. vshr.u64 d25,d18,#18
  890. #if 10>0
  891. vadd.i64 d22,d30 @ h+=Maj from the past
  892. #endif
  893. vshr.u64 d26,d18,#41
  894. vld1.64 {d28},[r3,:64]! @ K[i++]
  895. vsli.64 d24,d18,#50
  896. vsli.64 d25,d18,#46
  897. vmov d29,d18
  898. vsli.64 d26,d18,#23
  899. #if 10<16 && defined(__ARMEL__)
  900. vrev64.8 d10,d10
  901. #endif
  902. veor d25,d24
  903. vbsl d29,d19,d20 @ Ch(e,f,g)
  904. vshr.u64 d24,d22,#28
  905. veor d26,d25 @ Sigma1(e)
  906. vadd.i64 d27,d29,d21
  907. vshr.u64 d25,d22,#34
  908. vsli.64 d24,d22,#36
  909. vadd.i64 d27,d26
  910. vshr.u64 d26,d22,#39
  911. vadd.i64 d28,d10
  912. vsli.64 d25,d22,#30
  913. veor d30,d22,d23
  914. vsli.64 d26,d22,#25
  915. veor d21,d24,d25
  916. vadd.i64 d27,d28
  917. vbsl d30,d16,d23 @ Maj(a,b,c)
  918. veor d21,d26 @ Sigma0(a)
  919. vadd.i64 d17,d27
  920. vadd.i64 d30,d27
  921. @ vadd.i64 d21,d30
  922. vshr.u64 d24,d17,#14 @ 11
  923. #if 11<16
  924. vld1.64 {d11},[r1]! @ handles unaligned
  925. #endif
  926. vshr.u64 d25,d17,#18
  927. #if 11>0
  928. vadd.i64 d21,d30 @ h+=Maj from the past
  929. #endif
  930. vshr.u64 d26,d17,#41
  931. vld1.64 {d28},[r3,:64]! @ K[i++]
  932. vsli.64 d24,d17,#50
  933. vsli.64 d25,d17,#46
  934. vmov d29,d17
  935. vsli.64 d26,d17,#23
  936. #if 11<16 && defined(__ARMEL__)
  937. vrev64.8 d11,d11
  938. #endif
  939. veor d25,d24
  940. vbsl d29,d18,d19 @ Ch(e,f,g)
  941. vshr.u64 d24,d21,#28
  942. veor d26,d25 @ Sigma1(e)
  943. vadd.i64 d27,d29,d20
  944. vshr.u64 d25,d21,#34
  945. vsli.64 d24,d21,#36
  946. vadd.i64 d27,d26
  947. vshr.u64 d26,d21,#39
  948. vadd.i64 d28,d11
  949. vsli.64 d25,d21,#30
  950. veor d30,d21,d22
  951. vsli.64 d26,d21,#25
  952. veor d20,d24,d25
  953. vadd.i64 d27,d28
  954. vbsl d30,d23,d22 @ Maj(a,b,c)
  955. veor d20,d26 @ Sigma0(a)
  956. vadd.i64 d16,d27
  957. vadd.i64 d30,d27
  958. @ vadd.i64 d20,d30
  959. vshr.u64 d24,d16,#14 @ 12
  960. #if 12<16
  961. vld1.64 {d12},[r1]! @ handles unaligned
  962. #endif
  963. vshr.u64 d25,d16,#18
  964. #if 12>0
  965. vadd.i64 d20,d30 @ h+=Maj from the past
  966. #endif
  967. vshr.u64 d26,d16,#41
  968. vld1.64 {d28},[r3,:64]! @ K[i++]
  969. vsli.64 d24,d16,#50
  970. vsli.64 d25,d16,#46
  971. vmov d29,d16
  972. vsli.64 d26,d16,#23
  973. #if 12<16 && defined(__ARMEL__)
  974. vrev64.8 d12,d12
  975. #endif
  976. veor d25,d24
  977. vbsl d29,d17,d18 @ Ch(e,f,g)
  978. vshr.u64 d24,d20,#28
  979. veor d26,d25 @ Sigma1(e)
  980. vadd.i64 d27,d29,d19
  981. vshr.u64 d25,d20,#34
  982. vsli.64 d24,d20,#36
  983. vadd.i64 d27,d26
  984. vshr.u64 d26,d20,#39
  985. vadd.i64 d28,d12
  986. vsli.64 d25,d20,#30
  987. veor d30,d20,d21
  988. vsli.64 d26,d20,#25
  989. veor d19,d24,d25
  990. vadd.i64 d27,d28
  991. vbsl d30,d22,d21 @ Maj(a,b,c)
  992. veor d19,d26 @ Sigma0(a)
  993. vadd.i64 d23,d27
  994. vadd.i64 d30,d27
  995. @ vadd.i64 d19,d30
  996. vshr.u64 d24,d23,#14 @ 13
  997. #if 13<16
  998. vld1.64 {d13},[r1]! @ handles unaligned
  999. #endif
  1000. vshr.u64 d25,d23,#18
  1001. #if 13>0
  1002. vadd.i64 d19,d30 @ h+=Maj from the past
  1003. #endif
  1004. vshr.u64 d26,d23,#41
  1005. vld1.64 {d28},[r3,:64]! @ K[i++]
  1006. vsli.64 d24,d23,#50
  1007. vsli.64 d25,d23,#46
  1008. vmov d29,d23
  1009. vsli.64 d26,d23,#23
  1010. #if 13<16 && defined(__ARMEL__)
  1011. vrev64.8 d13,d13
  1012. #endif
  1013. veor d25,d24
  1014. vbsl d29,d16,d17 @ Ch(e,f,g)
  1015. vshr.u64 d24,d19,#28
  1016. veor d26,d25 @ Sigma1(e)
  1017. vadd.i64 d27,d29,d18
  1018. vshr.u64 d25,d19,#34
  1019. vsli.64 d24,d19,#36
  1020. vadd.i64 d27,d26
  1021. vshr.u64 d26,d19,#39
  1022. vadd.i64 d28,d13
  1023. vsli.64 d25,d19,#30
  1024. veor d30,d19,d20
  1025. vsli.64 d26,d19,#25
  1026. veor d18,d24,d25
  1027. vadd.i64 d27,d28
  1028. vbsl d30,d21,d20 @ Maj(a,b,c)
  1029. veor d18,d26 @ Sigma0(a)
  1030. vadd.i64 d22,d27
  1031. vadd.i64 d30,d27
  1032. @ vadd.i64 d18,d30
  1033. vshr.u64 d24,d22,#14 @ 14
  1034. #if 14<16
  1035. vld1.64 {d14},[r1]! @ handles unaligned
  1036. #endif
  1037. vshr.u64 d25,d22,#18
  1038. #if 14>0
  1039. vadd.i64 d18,d30 @ h+=Maj from the past
  1040. #endif
  1041. vshr.u64 d26,d22,#41
  1042. vld1.64 {d28},[r3,:64]! @ K[i++]
  1043. vsli.64 d24,d22,#50
  1044. vsli.64 d25,d22,#46
  1045. vmov d29,d22
  1046. vsli.64 d26,d22,#23
  1047. #if 14<16 && defined(__ARMEL__)
  1048. vrev64.8 d14,d14
  1049. #endif
  1050. veor d25,d24
  1051. vbsl d29,d23,d16 @ Ch(e,f,g)
  1052. vshr.u64 d24,d18,#28
  1053. veor d26,d25 @ Sigma1(e)
  1054. vadd.i64 d27,d29,d17
  1055. vshr.u64 d25,d18,#34
  1056. vsli.64 d24,d18,#36
  1057. vadd.i64 d27,d26
  1058. vshr.u64 d26,d18,#39
  1059. vadd.i64 d28,d14
  1060. vsli.64 d25,d18,#30
  1061. veor d30,d18,d19
  1062. vsli.64 d26,d18,#25
  1063. veor d17,d24,d25
  1064. vadd.i64 d27,d28
  1065. vbsl d30,d20,d19 @ Maj(a,b,c)
  1066. veor d17,d26 @ Sigma0(a)
  1067. vadd.i64 d21,d27
  1068. vadd.i64 d30,d27
  1069. @ vadd.i64 d17,d30
  1070. vshr.u64 d24,d21,#14 @ 15
  1071. #if 15<16
  1072. vld1.64 {d15},[r1]! @ handles unaligned
  1073. #endif
  1074. vshr.u64 d25,d21,#18
  1075. #if 15>0
  1076. vadd.i64 d17,d30 @ h+=Maj from the past
  1077. #endif
  1078. vshr.u64 d26,d21,#41
  1079. vld1.64 {d28},[r3,:64]! @ K[i++]
  1080. vsli.64 d24,d21,#50
  1081. vsli.64 d25,d21,#46
  1082. vmov d29,d21
  1083. vsli.64 d26,d21,#23
  1084. #if 15<16 && defined(__ARMEL__)
  1085. vrev64.8 d15,d15
  1086. #endif
  1087. veor d25,d24
  1088. vbsl d29,d22,d23 @ Ch(e,f,g)
  1089. vshr.u64 d24,d17,#28
  1090. veor d26,d25 @ Sigma1(e)
  1091. vadd.i64 d27,d29,d16
  1092. vshr.u64 d25,d17,#34
  1093. vsli.64 d24,d17,#36
  1094. vadd.i64 d27,d26
  1095. vshr.u64 d26,d17,#39
  1096. vadd.i64 d28,d15
  1097. vsli.64 d25,d17,#30
  1098. veor d30,d17,d18
  1099. vsli.64 d26,d17,#25
  1100. veor d16,d24,d25
  1101. vadd.i64 d27,d28
  1102. vbsl d30,d19,d18 @ Maj(a,b,c)
  1103. veor d16,d26 @ Sigma0(a)
  1104. vadd.i64 d20,d27
  1105. vadd.i64 d30,d27
  1106. @ vadd.i64 d16,d30
  1107. mov r12,#4
  1108. .L16_79_neon:
  1109. subs r12,#1
  1110. vshr.u64 q12,q7,#19
  1111. vshr.u64 q13,q7,#61
  1112. vadd.i64 d16,d30 @ h+=Maj from the past
  1113. vshr.u64 q15,q7,#6
  1114. vsli.64 q12,q7,#45
  1115. vext.8 q14,q0,q1,#8 @ X[i+1]
  1116. vsli.64 q13,q7,#3
  1117. veor q15,q12
  1118. vshr.u64 q12,q14,#1
  1119. veor q15,q13 @ sigma1(X[i+14])
  1120. vshr.u64 q13,q14,#8
  1121. vadd.i64 q0,q15
  1122. vshr.u64 q15,q14,#7
  1123. vsli.64 q12,q14,#63
  1124. vsli.64 q13,q14,#56
  1125. vext.8 q14,q4,q5,#8 @ X[i+9]
  1126. veor q15,q12
  1127. vshr.u64 d24,d20,#14 @ from NEON_00_15
  1128. vadd.i64 q0,q14
  1129. vshr.u64 d25,d20,#18 @ from NEON_00_15
  1130. veor q15,q13 @ sigma0(X[i+1])
  1131. vshr.u64 d26,d20,#41 @ from NEON_00_15
  1132. vadd.i64 q0,q15
  1133. vld1.64 {d28},[r3,:64]! @ K[i++]
  1134. vsli.64 d24,d20,#50
  1135. vsli.64 d25,d20,#46
  1136. vmov d29,d20
  1137. vsli.64 d26,d20,#23
  1138. #if 16<16 && defined(__ARMEL__)
  1139. vrev64.8 ,
  1140. #endif
  1141. veor d25,d24
  1142. vbsl d29,d21,d22 @ Ch(e,f,g)
  1143. vshr.u64 d24,d16,#28
  1144. veor d26,d25 @ Sigma1(e)
  1145. vadd.i64 d27,d29,d23
  1146. vshr.u64 d25,d16,#34
  1147. vsli.64 d24,d16,#36
  1148. vadd.i64 d27,d26
  1149. vshr.u64 d26,d16,#39
  1150. vadd.i64 d28,d0
  1151. vsli.64 d25,d16,#30
  1152. veor d30,d16,d17
  1153. vsli.64 d26,d16,#25
  1154. veor d23,d24,d25
  1155. vadd.i64 d27,d28
  1156. vbsl d30,d18,d17 @ Maj(a,b,c)
  1157. veor d23,d26 @ Sigma0(a)
  1158. vadd.i64 d19,d27
  1159. vadd.i64 d30,d27
  1160. @ vadd.i64 d23,d30
  1161. vshr.u64 d24,d19,#14 @ 17
  1162. #if 17<16
  1163. vld1.64 {d1},[r1]! @ handles unaligned
  1164. #endif
  1165. vshr.u64 d25,d19,#18
  1166. #if 17>0
  1167. vadd.i64 d23,d30 @ h+=Maj from the past
  1168. #endif
  1169. vshr.u64 d26,d19,#41
  1170. vld1.64 {d28},[r3,:64]! @ K[i++]
  1171. vsli.64 d24,d19,#50
  1172. vsli.64 d25,d19,#46
  1173. vmov d29,d19
  1174. vsli.64 d26,d19,#23
  1175. #if 17<16 && defined(__ARMEL__)
  1176. vrev64.8 ,
  1177. #endif
  1178. veor d25,d24
  1179. vbsl d29,d20,d21 @ Ch(e,f,g)
  1180. vshr.u64 d24,d23,#28
  1181. veor d26,d25 @ Sigma1(e)
  1182. vadd.i64 d27,d29,d22
  1183. vshr.u64 d25,d23,#34
  1184. vsli.64 d24,d23,#36
  1185. vadd.i64 d27,d26
  1186. vshr.u64 d26,d23,#39
  1187. vadd.i64 d28,d1
  1188. vsli.64 d25,d23,#30
  1189. veor d30,d23,d16
  1190. vsli.64 d26,d23,#25
  1191. veor d22,d24,d25
  1192. vadd.i64 d27,d28
  1193. vbsl d30,d17,d16 @ Maj(a,b,c)
  1194. veor d22,d26 @ Sigma0(a)
  1195. vadd.i64 d18,d27
  1196. vadd.i64 d30,d27
  1197. @ vadd.i64 d22,d30
  1198. vshr.u64 q12,q0,#19
  1199. vshr.u64 q13,q0,#61
  1200. vadd.i64 d22,d30 @ h+=Maj from the past
  1201. vshr.u64 q15,q0,#6
  1202. vsli.64 q12,q0,#45
  1203. vext.8 q14,q1,q2,#8 @ X[i+1]
  1204. vsli.64 q13,q0,#3
  1205. veor q15,q12
  1206. vshr.u64 q12,q14,#1
  1207. veor q15,q13 @ sigma1(X[i+14])
  1208. vshr.u64 q13,q14,#8
  1209. vadd.i64 q1,q15
  1210. vshr.u64 q15,q14,#7
  1211. vsli.64 q12,q14,#63
  1212. vsli.64 q13,q14,#56
  1213. vext.8 q14,q5,q6,#8 @ X[i+9]
  1214. veor q15,q12
  1215. vshr.u64 d24,d18,#14 @ from NEON_00_15
  1216. vadd.i64 q1,q14
  1217. vshr.u64 d25,d18,#18 @ from NEON_00_15
  1218. veor q15,q13 @ sigma0(X[i+1])
  1219. vshr.u64 d26,d18,#41 @ from NEON_00_15
  1220. vadd.i64 q1,q15
  1221. vld1.64 {d28},[r3,:64]! @ K[i++]
  1222. vsli.64 d24,d18,#50
  1223. vsli.64 d25,d18,#46
  1224. vmov d29,d18
  1225. vsli.64 d26,d18,#23
  1226. #if 18<16 && defined(__ARMEL__)
  1227. vrev64.8 ,
  1228. #endif
  1229. veor d25,d24
  1230. vbsl d29,d19,d20 @ Ch(e,f,g)
  1231. vshr.u64 d24,d22,#28
  1232. veor d26,d25 @ Sigma1(e)
  1233. vadd.i64 d27,d29,d21
  1234. vshr.u64 d25,d22,#34
  1235. vsli.64 d24,d22,#36
  1236. vadd.i64 d27,d26
  1237. vshr.u64 d26,d22,#39
  1238. vadd.i64 d28,d2
  1239. vsli.64 d25,d22,#30
  1240. veor d30,d22,d23
  1241. vsli.64 d26,d22,#25
  1242. veor d21,d24,d25
  1243. vadd.i64 d27,d28
  1244. vbsl d30,d16,d23 @ Maj(a,b,c)
  1245. veor d21,d26 @ Sigma0(a)
  1246. vadd.i64 d17,d27
  1247. vadd.i64 d30,d27
  1248. @ vadd.i64 d21,d30
  1249. vshr.u64 d24,d17,#14 @ 19
  1250. #if 19<16
  1251. vld1.64 {d3},[r1]! @ handles unaligned
  1252. #endif
  1253. vshr.u64 d25,d17,#18
  1254. #if 19>0
  1255. vadd.i64 d21,d30 @ h+=Maj from the past
  1256. #endif
  1257. vshr.u64 d26,d17,#41
  1258. vld1.64 {d28},[r3,:64]! @ K[i++]
  1259. vsli.64 d24,d17,#50
  1260. vsli.64 d25,d17,#46
  1261. vmov d29,d17
  1262. vsli.64 d26,d17,#23
  1263. #if 19<16 && defined(__ARMEL__)
  1264. vrev64.8 ,
  1265. #endif
  1266. veor d25,d24
  1267. vbsl d29,d18,d19 @ Ch(e,f,g)
  1268. vshr.u64 d24,d21,#28
  1269. veor d26,d25 @ Sigma1(e)
  1270. vadd.i64 d27,d29,d20
  1271. vshr.u64 d25,d21,#34
  1272. vsli.64 d24,d21,#36
  1273. vadd.i64 d27,d26
  1274. vshr.u64 d26,d21,#39
  1275. vadd.i64 d28,d3
  1276. vsli.64 d25,d21,#30
  1277. veor d30,d21,d22
  1278. vsli.64 d26,d21,#25
  1279. veor d20,d24,d25
  1280. vadd.i64 d27,d28
  1281. vbsl d30,d23,d22 @ Maj(a,b,c)
  1282. veor d20,d26 @ Sigma0(a)
  1283. vadd.i64 d16,d27
  1284. vadd.i64 d30,d27
  1285. @ vadd.i64 d20,d30
  1286. vshr.u64 q12,q1,#19
  1287. vshr.u64 q13,q1,#61
  1288. vadd.i64 d20,d30 @ h+=Maj from the past
  1289. vshr.u64 q15,q1,#6
  1290. vsli.64 q12,q1,#45
  1291. vext.8 q14,q2,q3,#8 @ X[i+1]
  1292. vsli.64 q13,q1,#3
  1293. veor q15,q12
  1294. vshr.u64 q12,q14,#1
  1295. veor q15,q13 @ sigma1(X[i+14])
  1296. vshr.u64 q13,q14,#8
  1297. vadd.i64 q2,q15
  1298. vshr.u64 q15,q14,#7
  1299. vsli.64 q12,q14,#63
  1300. vsli.64 q13,q14,#56
  1301. vext.8 q14,q6,q7,#8 @ X[i+9]
  1302. veor q15,q12
  1303. vshr.u64 d24,d16,#14 @ from NEON_00_15
  1304. vadd.i64 q2,q14
  1305. vshr.u64 d25,d16,#18 @ from NEON_00_15
  1306. veor q15,q13 @ sigma0(X[i+1])
  1307. vshr.u64 d26,d16,#41 @ from NEON_00_15
  1308. vadd.i64 q2,q15
  1309. vld1.64 {d28},[r3,:64]! @ K[i++]
  1310. vsli.64 d24,d16,#50
  1311. vsli.64 d25,d16,#46
  1312. vmov d29,d16
  1313. vsli.64 d26,d16,#23
  1314. #if 20<16 && defined(__ARMEL__)
  1315. vrev64.8 ,
  1316. #endif
  1317. veor d25,d24
  1318. vbsl d29,d17,d18 @ Ch(e,f,g)
  1319. vshr.u64 d24,d20,#28
  1320. veor d26,d25 @ Sigma1(e)
  1321. vadd.i64 d27,d29,d19
  1322. vshr.u64 d25,d20,#34
  1323. vsli.64 d24,d20,#36
  1324. vadd.i64 d27,d26
  1325. vshr.u64 d26,d20,#39
  1326. vadd.i64 d28,d4
  1327. vsli.64 d25,d20,#30
  1328. veor d30,d20,d21
  1329. vsli.64 d26,d20,#25
  1330. veor d19,d24,d25
  1331. vadd.i64 d27,d28
  1332. vbsl d30,d22,d21 @ Maj(a,b,c)
  1333. veor d19,d26 @ Sigma0(a)
  1334. vadd.i64 d23,d27
  1335. vadd.i64 d30,d27
  1336. @ vadd.i64 d19,d30
  1337. vshr.u64 d24,d23,#14 @ 21
  1338. #if 21<16
  1339. vld1.64 {d5},[r1]! @ handles unaligned
  1340. #endif
  1341. vshr.u64 d25,d23,#18
  1342. #if 21>0
  1343. vadd.i64 d19,d30 @ h+=Maj from the past
  1344. #endif
  1345. vshr.u64 d26,d23,#41
  1346. vld1.64 {d28},[r3,:64]! @ K[i++]
  1347. vsli.64 d24,d23,#50
  1348. vsli.64 d25,d23,#46
  1349. vmov d29,d23
  1350. vsli.64 d26,d23,#23
  1351. #if 21<16 && defined(__ARMEL__)
  1352. vrev64.8 ,
  1353. #endif
  1354. veor d25,d24
  1355. vbsl d29,d16,d17 @ Ch(e,f,g)
  1356. vshr.u64 d24,d19,#28
  1357. veor d26,d25 @ Sigma1(e)
  1358. vadd.i64 d27,d29,d18
  1359. vshr.u64 d25,d19,#34
  1360. vsli.64 d24,d19,#36
  1361. vadd.i64 d27,d26
  1362. vshr.u64 d26,d19,#39
  1363. vadd.i64 d28,d5
  1364. vsli.64 d25,d19,#30
  1365. veor d30,d19,d20
  1366. vsli.64 d26,d19,#25
  1367. veor d18,d24,d25
  1368. vadd.i64 d27,d28
  1369. vbsl d30,d21,d20 @ Maj(a,b,c)
  1370. veor d18,d26 @ Sigma0(a)
  1371. vadd.i64 d22,d27
  1372. vadd.i64 d30,d27
  1373. @ vadd.i64 d18,d30
  1374. vshr.u64 q12,q2,#19
  1375. vshr.u64 q13,q2,#61
  1376. vadd.i64 d18,d30 @ h+=Maj from the past
  1377. vshr.u64 q15,q2,#6
  1378. vsli.64 q12,q2,#45
  1379. vext.8 q14,q3,q4,#8 @ X[i+1]
  1380. vsli.64 q13,q2,#3
  1381. veor q15,q12
  1382. vshr.u64 q12,q14,#1
  1383. veor q15,q13 @ sigma1(X[i+14])
  1384. vshr.u64 q13,q14,#8
  1385. vadd.i64 q3,q15
  1386. vshr.u64 q15,q14,#7
  1387. vsli.64 q12,q14,#63
  1388. vsli.64 q13,q14,#56
  1389. vext.8 q14,q7,q0,#8 @ X[i+9]
  1390. veor q15,q12
  1391. vshr.u64 d24,d22,#14 @ from NEON_00_15
  1392. vadd.i64 q3,q14
  1393. vshr.u64 d25,d22,#18 @ from NEON_00_15
  1394. veor q15,q13 @ sigma0(X[i+1])
  1395. vshr.u64 d26,d22,#41 @ from NEON_00_15
  1396. vadd.i64 q3,q15
  1397. vld1.64 {d28},[r3,:64]! @ K[i++]
  1398. vsli.64 d24,d22,#50
  1399. vsli.64 d25,d22,#46
  1400. vmov d29,d22
  1401. vsli.64 d26,d22,#23
  1402. #if 22<16 && defined(__ARMEL__)
  1403. vrev64.8 ,
  1404. #endif
  1405. veor d25,d24
  1406. vbsl d29,d23,d16 @ Ch(e,f,g)
  1407. vshr.u64 d24,d18,#28
  1408. veor d26,d25 @ Sigma1(e)
  1409. vadd.i64 d27,d29,d17
  1410. vshr.u64 d25,d18,#34
  1411. vsli.64 d24,d18,#36
  1412. vadd.i64 d27,d26
  1413. vshr.u64 d26,d18,#39
  1414. vadd.i64 d28,d6
  1415. vsli.64 d25,d18,#30
  1416. veor d30,d18,d19
  1417. vsli.64 d26,d18,#25
  1418. veor d17,d24,d25
  1419. vadd.i64 d27,d28
  1420. vbsl d30,d20,d19 @ Maj(a,b,c)
  1421. veor d17,d26 @ Sigma0(a)
  1422. vadd.i64 d21,d27
  1423. vadd.i64 d30,d27
  1424. @ vadd.i64 d17,d30
  1425. vshr.u64 d24,d21,#14 @ 23
  1426. #if 23<16
  1427. vld1.64 {d7},[r1]! @ handles unaligned
  1428. #endif
  1429. vshr.u64 d25,d21,#18
  1430. #if 23>0
  1431. vadd.i64 d17,d30 @ h+=Maj from the past
  1432. #endif
  1433. vshr.u64 d26,d21,#41
  1434. vld1.64 {d28},[r3,:64]! @ K[i++]
  1435. vsli.64 d24,d21,#50
  1436. vsli.64 d25,d21,#46
  1437. vmov d29,d21
  1438. vsli.64 d26,d21,#23
  1439. #if 23<16 && defined(__ARMEL__)
  1440. vrev64.8 ,
  1441. #endif
  1442. veor d25,d24
  1443. vbsl d29,d22,d23 @ Ch(e,f,g)
  1444. vshr.u64 d24,d17,#28
  1445. veor d26,d25 @ Sigma1(e)
  1446. vadd.i64 d27,d29,d16
  1447. vshr.u64 d25,d17,#34
  1448. vsli.64 d24,d17,#36
  1449. vadd.i64 d27,d26
  1450. vshr.u64 d26,d17,#39
  1451. vadd.i64 d28,d7
  1452. vsli.64 d25,d17,#30
  1453. veor d30,d17,d18
  1454. vsli.64 d26,d17,#25
  1455. veor d16,d24,d25
  1456. vadd.i64 d27,d28
  1457. vbsl d30,d19,d18 @ Maj(a,b,c)
  1458. veor d16,d26 @ Sigma0(a)
  1459. vadd.i64 d20,d27
  1460. vadd.i64 d30,d27
  1461. @ vadd.i64 d16,d30
  1462. vshr.u64 q12,q3,#19
  1463. vshr.u64 q13,q3,#61
  1464. vadd.i64 d16,d30 @ h+=Maj from the past
  1465. vshr.u64 q15,q3,#6
  1466. vsli.64 q12,q3,#45
  1467. vext.8 q14,q4,q5,#8 @ X[i+1]
  1468. vsli.64 q13,q3,#3
  1469. veor q15,q12
  1470. vshr.u64 q12,q14,#1
  1471. veor q15,q13 @ sigma1(X[i+14])
  1472. vshr.u64 q13,q14,#8
  1473. vadd.i64 q4,q15
  1474. vshr.u64 q15,q14,#7
  1475. vsli.64 q12,q14,#63
  1476. vsli.64 q13,q14,#56
  1477. vext.8 q14,q0,q1,#8 @ X[i+9]
  1478. veor q15,q12
  1479. vshr.u64 d24,d20,#14 @ from NEON_00_15
  1480. vadd.i64 q4,q14
  1481. vshr.u64 d25,d20,#18 @ from NEON_00_15
  1482. veor q15,q13 @ sigma0(X[i+1])
  1483. vshr.u64 d26,d20,#41 @ from NEON_00_15
  1484. vadd.i64 q4,q15
  1485. vld1.64 {d28},[r3,:64]! @ K[i++]
  1486. vsli.64 d24,d20,#50
  1487. vsli.64 d25,d20,#46
  1488. vmov d29,d20
  1489. vsli.64 d26,d20,#23
  1490. #if 24<16 && defined(__ARMEL__)
  1491. vrev64.8 ,
  1492. #endif
  1493. veor d25,d24
  1494. vbsl d29,d21,d22 @ Ch(e,f,g)
  1495. vshr.u64 d24,d16,#28
  1496. veor d26,d25 @ Sigma1(e)
  1497. vadd.i64 d27,d29,d23
  1498. vshr.u64 d25,d16,#34
  1499. vsli.64 d24,d16,#36
  1500. vadd.i64 d27,d26
  1501. vshr.u64 d26,d16,#39
  1502. vadd.i64 d28,d8
  1503. vsli.64 d25,d16,#30
  1504. veor d30,d16,d17
  1505. vsli.64 d26,d16,#25
  1506. veor d23,d24,d25
  1507. vadd.i64 d27,d28
  1508. vbsl d30,d18,d17 @ Maj(a,b,c)
  1509. veor d23,d26 @ Sigma0(a)
  1510. vadd.i64 d19,d27
  1511. vadd.i64 d30,d27
  1512. @ vadd.i64 d23,d30
  1513. vshr.u64 d24,d19,#14 @ 25
  1514. #if 25<16
  1515. vld1.64 {d9},[r1]! @ handles unaligned
  1516. #endif
  1517. vshr.u64 d25,d19,#18
  1518. #if 25>0
  1519. vadd.i64 d23,d30 @ h+=Maj from the past
  1520. #endif
  1521. vshr.u64 d26,d19,#41
  1522. vld1.64 {d28},[r3,:64]! @ K[i++]
  1523. vsli.64 d24,d19,#50
  1524. vsli.64 d25,d19,#46
  1525. vmov d29,d19
  1526. vsli.64 d26,d19,#23
  1527. #if 25<16 && defined(__ARMEL__)
  1528. vrev64.8 ,
  1529. #endif
  1530. veor d25,d24
  1531. vbsl d29,d20,d21 @ Ch(e,f,g)
  1532. vshr.u64 d24,d23,#28
  1533. veor d26,d25 @ Sigma1(e)
  1534. vadd.i64 d27,d29,d22
  1535. vshr.u64 d25,d23,#34
  1536. vsli.64 d24,d23,#36
  1537. vadd.i64 d27,d26
  1538. vshr.u64 d26,d23,#39
  1539. vadd.i64 d28,d9
  1540. vsli.64 d25,d23,#30
  1541. veor d30,d23,d16
  1542. vsli.64 d26,d23,#25
  1543. veor d22,d24,d25
  1544. vadd.i64 d27,d28
  1545. vbsl d30,d17,d16 @ Maj(a,b,c)
  1546. veor d22,d26 @ Sigma0(a)
  1547. vadd.i64 d18,d27
  1548. vadd.i64 d30,d27
  1549. @ vadd.i64 d22,d30
  1550. vshr.u64 q12,q4,#19
  1551. vshr.u64 q13,q4,#61
  1552. vadd.i64 d22,d30 @ h+=Maj from the past
  1553. vshr.u64 q15,q4,#6
  1554. vsli.64 q12,q4,#45
  1555. vext.8 q14,q5,q6,#8 @ X[i+1]
  1556. vsli.64 q13,q4,#3
  1557. veor q15,q12
  1558. vshr.u64 q12,q14,#1
  1559. veor q15,q13 @ sigma1(X[i+14])
  1560. vshr.u64 q13,q14,#8
  1561. vadd.i64 q5,q15
  1562. vshr.u64 q15,q14,#7
  1563. vsli.64 q12,q14,#63
  1564. vsli.64 q13,q14,#56
  1565. vext.8 q14,q1,q2,#8 @ X[i+9]
  1566. veor q15,q12
  1567. vshr.u64 d24,d18,#14 @ from NEON_00_15
  1568. vadd.i64 q5,q14
  1569. vshr.u64 d25,d18,#18 @ from NEON_00_15
  1570. veor q15,q13 @ sigma0(X[i+1])
  1571. vshr.u64 d26,d18,#41 @ from NEON_00_15
  1572. vadd.i64 q5,q15
  1573. vld1.64 {d28},[r3,:64]! @ K[i++]
  1574. vsli.64 d24,d18,#50
  1575. vsli.64 d25,d18,#46
  1576. vmov d29,d18
  1577. vsli.64 d26,d18,#23
  1578. #if 26<16 && defined(__ARMEL__)
  1579. vrev64.8 ,
  1580. #endif
  1581. veor d25,d24
  1582. vbsl d29,d19,d20 @ Ch(e,f,g)
  1583. vshr.u64 d24,d22,#28
  1584. veor d26,d25 @ Sigma1(e)
  1585. vadd.i64 d27,d29,d21
  1586. vshr.u64 d25,d22,#34
  1587. vsli.64 d24,d22,#36
  1588. vadd.i64 d27,d26
  1589. vshr.u64 d26,d22,#39
  1590. vadd.i64 d28,d10
  1591. vsli.64 d25,d22,#30
  1592. veor d30,d22,d23
  1593. vsli.64 d26,d22,#25
  1594. veor d21,d24,d25
  1595. vadd.i64 d27,d28
  1596. vbsl d30,d16,d23 @ Maj(a,b,c)
  1597. veor d21,d26 @ Sigma0(a)
  1598. vadd.i64 d17,d27
  1599. vadd.i64 d30,d27
  1600. @ vadd.i64 d21,d30
  1601. vshr.u64 d24,d17,#14 @ 27
  1602. #if 27<16
  1603. vld1.64 {d11},[r1]! @ handles unaligned
  1604. #endif
  1605. vshr.u64 d25,d17,#18
  1606. #if 27>0
  1607. vadd.i64 d21,d30 @ h+=Maj from the past
  1608. #endif
  1609. vshr.u64 d26,d17,#41
  1610. vld1.64 {d28},[r3,:64]! @ K[i++]
  1611. vsli.64 d24,d17,#50
  1612. vsli.64 d25,d17,#46
  1613. vmov d29,d17
  1614. vsli.64 d26,d17,#23
  1615. #if 27<16 && defined(__ARMEL__)
  1616. vrev64.8 ,
  1617. #endif
  1618. veor d25,d24
  1619. vbsl d29,d18,d19 @ Ch(e,f,g)
  1620. vshr.u64 d24,d21,#28
  1621. veor d26,d25 @ Sigma1(e)
  1622. vadd.i64 d27,d29,d20
  1623. vshr.u64 d25,d21,#34
  1624. vsli.64 d24,d21,#36
  1625. vadd.i64 d27,d26
  1626. vshr.u64 d26,d21,#39
  1627. vadd.i64 d28,d11
  1628. vsli.64 d25,d21,#30
  1629. veor d30,d21,d22
  1630. vsli.64 d26,d21,#25
  1631. veor d20,d24,d25
  1632. vadd.i64 d27,d28
  1633. vbsl d30,d23,d22 @ Maj(a,b,c)
  1634. veor d20,d26 @ Sigma0(a)
  1635. vadd.i64 d16,d27
  1636. vadd.i64 d30,d27
  1637. @ vadd.i64 d20,d30
  1638. vshr.u64 q12,q5,#19
  1639. vshr.u64 q13,q5,#61
  1640. vadd.i64 d20,d30 @ h+=Maj from the past
  1641. vshr.u64 q15,q5,#6
  1642. vsli.64 q12,q5,#45
  1643. vext.8 q14,q6,q7,#8 @ X[i+1]
  1644. vsli.64 q13,q5,#3
  1645. veor q15,q12
  1646. vshr.u64 q12,q14,#1
  1647. veor q15,q13 @ sigma1(X[i+14])
  1648. vshr.u64 q13,q14,#8
  1649. vadd.i64 q6,q15
  1650. vshr.u64 q15,q14,#7
  1651. vsli.64 q12,q14,#63
  1652. vsli.64 q13,q14,#56
  1653. vext.8 q14,q2,q3,#8 @ X[i+9]
  1654. veor q15,q12
  1655. vshr.u64 d24,d16,#14 @ from NEON_00_15
  1656. vadd.i64 q6,q14
  1657. vshr.u64 d25,d16,#18 @ from NEON_00_15
  1658. veor q15,q13 @ sigma0(X[i+1])
  1659. vshr.u64 d26,d16,#41 @ from NEON_00_15
  1660. vadd.i64 q6,q15
  1661. vld1.64 {d28},[r3,:64]! @ K[i++]
  1662. vsli.64 d24,d16,#50
  1663. vsli.64 d25,d16,#46
  1664. vmov d29,d16
  1665. vsli.64 d26,d16,#23
  1666. #if 28<16 && defined(__ARMEL__)
  1667. vrev64.8 ,
  1668. #endif
  1669. veor d25,d24
  1670. vbsl d29,d17,d18 @ Ch(e,f,g)
  1671. vshr.u64 d24,d20,#28
  1672. veor d26,d25 @ Sigma1(e)
  1673. vadd.i64 d27,d29,d19
  1674. vshr.u64 d25,d20,#34
  1675. vsli.64 d24,d20,#36
  1676. vadd.i64 d27,d26
  1677. vshr.u64 d26,d20,#39
  1678. vadd.i64 d28,d12
  1679. vsli.64 d25,d20,#30
  1680. veor d30,d20,d21
  1681. vsli.64 d26,d20,#25
  1682. veor d19,d24,d25
  1683. vadd.i64 d27,d28
  1684. vbsl d30,d22,d21 @ Maj(a,b,c)
  1685. veor d19,d26 @ Sigma0(a)
  1686. vadd.i64 d23,d27
  1687. vadd.i64 d30,d27
  1688. @ vadd.i64 d19,d30
  1689. vshr.u64 d24,d23,#14 @ 29
  1690. #if 29<16
  1691. vld1.64 {d13},[r1]! @ handles unaligned
  1692. #endif
  1693. vshr.u64 d25,d23,#18
  1694. #if 29>0
  1695. vadd.i64 d19,d30 @ h+=Maj from the past
  1696. #endif
  1697. vshr.u64 d26,d23,#41
  1698. vld1.64 {d28},[r3,:64]! @ K[i++]
  1699. vsli.64 d24,d23,#50
  1700. vsli.64 d25,d23,#46
  1701. vmov d29,d23
  1702. vsli.64 d26,d23,#23
  1703. #if 29<16 && defined(__ARMEL__)
  1704. vrev64.8 ,
  1705. #endif
  1706. veor d25,d24
  1707. vbsl d29,d16,d17 @ Ch(e,f,g)
  1708. vshr.u64 d24,d19,#28
  1709. veor d26,d25 @ Sigma1(e)
  1710. vadd.i64 d27,d29,d18
  1711. vshr.u64 d25,d19,#34
  1712. vsli.64 d24,d19,#36
  1713. vadd.i64 d27,d26
  1714. vshr.u64 d26,d19,#39
  1715. vadd.i64 d28,d13
  1716. vsli.64 d25,d19,#30
  1717. veor d30,d19,d20
  1718. vsli.64 d26,d19,#25
  1719. veor d18,d24,d25
  1720. vadd.i64 d27,d28
  1721. vbsl d30,d21,d20 @ Maj(a,b,c)
  1722. veor d18,d26 @ Sigma0(a)
  1723. vadd.i64 d22,d27
  1724. vadd.i64 d30,d27
  1725. @ vadd.i64 d18,d30
  1726. vshr.u64 q12,q6,#19
  1727. vshr.u64 q13,q6,#61
  1728. vadd.i64 d18,d30 @ h+=Maj from the past
  1729. vshr.u64 q15,q6,#6
  1730. vsli.64 q12,q6,#45
  1731. vext.8 q14,q7,q0,#8 @ X[i+1]
  1732. vsli.64 q13,q6,#3
  1733. veor q15,q12
  1734. vshr.u64 q12,q14,#1
  1735. veor q15,q13 @ sigma1(X[i+14])
  1736. vshr.u64 q13,q14,#8
  1737. vadd.i64 q7,q15
  1738. vshr.u64 q15,q14,#7
  1739. vsli.64 q12,q14,#63
  1740. vsli.64 q13,q14,#56
  1741. vext.8 q14,q3,q4,#8 @ X[i+9]
  1742. veor q15,q12
  1743. vshr.u64 d24,d22,#14 @ from NEON_00_15
  1744. vadd.i64 q7,q14
  1745. vshr.u64 d25,d22,#18 @ from NEON_00_15
  1746. veor q15,q13 @ sigma0(X[i+1])
  1747. vshr.u64 d26,d22,#41 @ from NEON_00_15
  1748. vadd.i64 q7,q15
  1749. vld1.64 {d28},[r3,:64]! @ K[i++]
  1750. vsli.64 d24,d22,#50
  1751. vsli.64 d25,d22,#46
  1752. vmov d29,d22
  1753. vsli.64 d26,d22,#23
  1754. #if 30<16 && defined(__ARMEL__)
  1755. vrev64.8 ,
  1756. #endif
  1757. veor d25,d24
  1758. vbsl d29,d23,d16 @ Ch(e,f,g)
  1759. vshr.u64 d24,d18,#28
  1760. veor d26,d25 @ Sigma1(e)
  1761. vadd.i64 d27,d29,d17
  1762. vshr.u64 d25,d18,#34
  1763. vsli.64 d24,d18,#36
  1764. vadd.i64 d27,d26
  1765. vshr.u64 d26,d18,#39
  1766. vadd.i64 d28,d14
  1767. vsli.64 d25,d18,#30
  1768. veor d30,d18,d19
  1769. vsli.64 d26,d18,#25
  1770. veor d17,d24,d25
  1771. vadd.i64 d27,d28
  1772. vbsl d30,d20,d19 @ Maj(a,b,c)
  1773. veor d17,d26 @ Sigma0(a)
  1774. vadd.i64 d21,d27
  1775. vadd.i64 d30,d27
  1776. @ vadd.i64 d17,d30
  1777. vshr.u64 d24,d21,#14 @ 31
  1778. #if 31<16
  1779. vld1.64 {d15},[r1]! @ handles unaligned
  1780. #endif
  1781. vshr.u64 d25,d21,#18
  1782. #if 31>0
  1783. vadd.i64 d17,d30 @ h+=Maj from the past
  1784. #endif
  1785. vshr.u64 d26,d21,#41
  1786. vld1.64 {d28},[r3,:64]! @ K[i++]
  1787. vsli.64 d24,d21,#50
  1788. vsli.64 d25,d21,#46
  1789. vmov d29,d21
  1790. vsli.64 d26,d21,#23
  1791. #if 31<16 && defined(__ARMEL__)
  1792. vrev64.8 ,
  1793. #endif
  1794. veor d25,d24
  1795. vbsl d29,d22,d23 @ Ch(e,f,g)
  1796. vshr.u64 d24,d17,#28
  1797. veor d26,d25 @ Sigma1(e)
  1798. vadd.i64 d27,d29,d16
  1799. vshr.u64 d25,d17,#34
  1800. vsli.64 d24,d17,#36
  1801. vadd.i64 d27,d26
  1802. vshr.u64 d26,d17,#39
  1803. vadd.i64 d28,d15
  1804. vsli.64 d25,d17,#30
  1805. veor d30,d17,d18
  1806. vsli.64 d26,d17,#25
  1807. veor d16,d24,d25
  1808. vadd.i64 d27,d28
  1809. vbsl d30,d19,d18 @ Maj(a,b,c)
  1810. veor d16,d26 @ Sigma0(a)
  1811. vadd.i64 d20,d27
  1812. vadd.i64 d30,d27
  1813. @ vadd.i64 d16,d30
  1814. bne .L16_79_neon
  1815. vadd.i64 d16,d30 @ h+=Maj from the past
  1816. vldmia r0,{d24-d31} @ load context to temp
  1817. vadd.i64 q8,q12 @ vectorized accumulate
  1818. vadd.i64 q9,q13
  1819. vadd.i64 q10,q14
  1820. vadd.i64 q11,q15
  1821. vstmia r0,{d16-d23} @ save context
  1822. teq r1,r2
  1823. sub r3,#640 @ rewind K512
  1824. bne .Loop_neon
  1825. VFP_ABI_POP
  1826. bx lr @ .word 0xe12fff1e
  1827. .size sha512_block_data_order_neon,.-sha512_block_data_order_neon
  1828. #endif
  1829. .asciz "SHA512 block transform for ARMv4/NEON, CRYPTOGAMS by <appro@openssl.org>"
  1830. .align 2
  1831. #if __ARM_MAX_ARCH__>=7 && !defined(__KERNEL__)
  1832. .comm OPENSSL_armcap_P,4,4
  1833. #endif