sha512-armv4.pl@ 69881

Last change on this file since 69881 was 69881, checked in by vboxsync, 7 years ago
Update OpenSSL to 1.1.0g. bugref:8070: src/libs maintenance
Property svn:eol-style set to `LF` Property svn:executable set to ``*
File size: 17.2 KB

Line
1	#! /usr/bin/env perl
2	# Copyright 2007-2016 The OpenSSL Project Authors. All Rights Reserved.
3	#
4	# Licensed under the OpenSSL license (the "License"). You may not use
5	# this file except in compliance with the License. You can obtain a copy
6	# in the file LICENSE in the source distribution or at
7	# https://www.openssl.org/source/license.html
8
9
10	# ====================================================================
11	# Written by Andy Polyakov <[email protected]> for the OpenSSL
12	# project. The module is, however, dual licensed under OpenSSL and
13	# CRYPTOGAMS licenses depending on where you obtain it. For further
14	# details see http://www.openssl.org/~appro/cryptogams/.
15	#
16	# Permission to use under GPL terms is granted.
17	# ====================================================================
18
19	# SHA512 block procedure for ARMv4. September 2007.
20
21	# This code is ~4.5 (four and a half) times faster than code generated
22	# by gcc 3.4 and it spends ~72 clock cycles per byte [on single-issue
23	# Xscale PXA250 core].
24	#
25	# July 2010.
26	#
27	# Rescheduling for dual-issue pipeline resulted in 6% improvement on
28	# Cortex A8 core and ~40 cycles per processed byte.
29
30	# February 2011.
31	#
32	# Profiler-assisted and platform-specific optimization resulted in 7%
33	# improvement on Coxtex A8 core and ~38 cycles per byte.
34
35	# March 2011.
36	#
37	# Add NEON implementation. On Cortex A8 it was measured to process
38	# one byte in 23.3 cycles or ~60% faster than integer-only code.
39
40	# August 2012.
41	#
42	# Improve NEON performance by 12% on Snapdragon S4. In absolute
43	# terms it's 22.6 cycles per byte, which is disappointing result.
44	# Technical writers asserted that 3-way S4 pipeline can sustain
45	# multiple NEON instructions per cycle, but dual NEON issue could
46	# not be observed, see http://www.openssl.org/~appro/Snapdragon-S4.html
47	# for further details. On side note Cortex-A15 processes one byte in
48	# 16 cycles.
49
50	# Byte order [in]dependence. =========================================
51	#
52	# Originally caller was expected to maintain specific dword order in
53	# h[0-7], namely with most significant dword at lower address, which
54	# was reflected in below two parameters as 0 and 4. Now caller is
55	# expected to maintain native byte order for whole 64-bit values.
56	$hi="HI";
57	$lo="LO";
58	# ====================================================================
59
60	$flavour = shift;
61	if ($flavour=~/\w[\w\-]*\.\w+$/) { $output=$flavour; undef $flavour; }
62	else { while (($output=shift) && ($output!~/\w[\w\-]*\.\w+$/)) {} }
63
64	if ($flavour && $flavour ne "void") {
65	$0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;
66	( $xlate="${dir}arm-xlate.pl" and -f $xlate ) or
67	( $xlate="${dir}../../perlasm/arm-xlate.pl" and -f $xlate) or
68	die "can't locate arm-xlate.pl";
69
70	open STDOUT,"\| \"$^X\" $xlate $flavour $output";
71	} else {
72	open STDOUT,">$output";
73	}
74
75	$ctx="r0"; # parameter block
76	$inp="r1";
77	$len="r2";
78
79	$Tlo="r3";
80	$Thi="r4";
81	$Alo="r5";
82	$Ahi="r6";
83	$Elo="r7";
84	$Ehi="r8";
85	$t0="r9";
86	$t1="r10";
87	$t2="r11";
88	$t3="r12";
89	############ r13 is stack pointer
90	$Ktbl="r14";
91	############ r15 is program counter
92
93	$Aoff=8*0;
94	$Boff=8*1;
95	$Coff=8*2;
96	$Doff=8*3;
97	$Eoff=8*4;
98	$Foff=8*5;
99	$Goff=8*6;
100	$Hoff=8*7;
101	$Xoff=8*8;
102
103	sub BODY_00_15() {
104	my $magic = shift;
105	$code.=<<___;
106	@ Sigma1(x) (ROTR((x),14) ^ ROTR((x),18) ^ ROTR((x),41))
107	@ LO lo>>14^hi<<18 ^ lo>>18^hi<<14 ^ hi>>9^lo<<23
108	@ HI hi>>14^lo<<18 ^ hi>>18^lo<<14 ^ lo>>9^hi<<23
109	mov $t0,$Elo,lsr#14
110	str $Tlo,[sp,#$Xoff+0]
111	mov $t1,$Ehi,lsr#14
112	str $Thi,[sp,#$Xoff+4]
113	eor $t0,$t0,$Ehi,lsl#18
114	ldr $t2,[sp,#$Hoff+0] @ h.lo
115	eor $t1,$t1,$Elo,lsl#18
116	ldr $t3,[sp,#$Hoff+4] @ h.hi
117	eor $t0,$t0,$Elo,lsr#18
118	eor $t1,$t1,$Ehi,lsr#18
119	eor $t0,$t0,$Ehi,lsl#14
120	eor $t1,$t1,$Elo,lsl#14
121	eor $t0,$t0,$Ehi,lsr#9
122	eor $t1,$t1,$Elo,lsr#9
123	eor $t0,$t0,$Elo,lsl#23
124	eor $t1,$t1,$Ehi,lsl#23 @ Sigma1(e)
125	adds $Tlo,$Tlo,$t0
126	ldr $t0,[sp,#$Foff+0] @ f.lo
127	adc $Thi,$Thi,$t1 @ T += Sigma1(e)
128	ldr $t1,[sp,#$Foff+4] @ f.hi
129	adds $Tlo,$Tlo,$t2
130	ldr $t2,[sp,#$Goff+0] @ g.lo
131	adc $Thi,$Thi,$t3 @ T += h
132	ldr $t3,[sp,#$Goff+4] @ g.hi
133
134	eor $t0,$t0,$t2
135	str $Elo,[sp,#$Eoff+0]
136	eor $t1,$t1,$t3
137	str $Ehi,[sp,#$Eoff+4]
138	and $t0,$t0,$Elo
139	str $Alo,[sp,#$Aoff+0]
140	and $t1,$t1,$Ehi
141	str $Ahi,[sp,#$Aoff+4]
142	eor $t0,$t0,$t2
143	ldr $t2,[$Ktbl,#$lo] @ K[i].lo
144	eor $t1,$t1,$t3 @ Ch(e,f,g)
145	ldr $t3,[$Ktbl,#$hi] @ K[i].hi
146
147	adds $Tlo,$Tlo,$t0
148	ldr $Elo,[sp,#$Doff+0] @ d.lo
149	adc $Thi,$Thi,$t1 @ T += Ch(e,f,g)
150	ldr $Ehi,[sp,#$Doff+4] @ d.hi
151	adds $Tlo,$Tlo,$t2
152	and $t0,$t2,#0xff
153	adc $Thi,$Thi,$t3 @ T += K[i]
154	adds $Elo,$Elo,$Tlo
155	ldr $t2,[sp,#$Boff+0] @ b.lo
156	adc $Ehi,$Ehi,$Thi @ d += T
157	teq $t0,#$magic
158
159	ldr $t3,[sp,#$Coff+0] @ c.lo
160	#if __ARM_ARCH__>=7
161	it eq @ Thumb2 thing, sanity check in ARM
162	#endif
163	orreq $Ktbl,$Ktbl,#1
164	@ Sigma0(x) (ROTR((x),28) ^ ROTR((x),34) ^ ROTR((x),39))
165	@ LO lo>>28^hi<<4 ^ hi>>2^lo<<30 ^ hi>>7^lo<<25
166	@ HI hi>>28^lo<<4 ^ lo>>2^hi<<30 ^ lo>>7^hi<<25
167	mov $t0,$Alo,lsr#28
168	mov $t1,$Ahi,lsr#28
169	eor $t0,$t0,$Ahi,lsl#4
170	eor $t1,$t1,$Alo,lsl#4
171	eor $t0,$t0,$Ahi,lsr#2
172	eor $t1,$t1,$Alo,lsr#2
173	eor $t0,$t0,$Alo,lsl#30
174	eor $t1,$t1,$Ahi,lsl#30
175	eor $t0,$t0,$Ahi,lsr#7
176	eor $t1,$t1,$Alo,lsr#7
177	eor $t0,$t0,$Alo,lsl#25
178	eor $t1,$t1,$Ahi,lsl#25 @ Sigma0(a)
179	adds $Tlo,$Tlo,$t0
180	and $t0,$Alo,$t2
181	adc $Thi,$Thi,$t1 @ T += Sigma0(a)
182
183	ldr $t1,[sp,#$Boff+4] @ b.hi
184	orr $Alo,$Alo,$t2
185	ldr $t2,[sp,#$Coff+4] @ c.hi
186	and $Alo,$Alo,$t3
187	and $t3,$Ahi,$t1
188	orr $Ahi,$Ahi,$t1
189	orr $Alo,$Alo,$t0 @ Maj(a,b,c).lo
190	and $Ahi,$Ahi,$t2
191	adds $Alo,$Alo,$Tlo
192	orr $Ahi,$Ahi,$t3 @ Maj(a,b,c).hi
193	sub sp,sp,#8
194	adc $Ahi,$Ahi,$Thi @ h += T
195	tst $Ktbl,#1
196	add $Ktbl,$Ktbl,#8
197	___
198	}
199	$code=<<___;
200	#ifndef __KERNEL__
201	# include "arm_arch.h"
202	# define VFP_ABI_PUSH vstmdb sp!,{d8-d15}
203	# define VFP_ABI_POP vldmia sp!,{d8-d15}
204	#else
205	# define __ARM_ARCH__ __LINUX_ARM_ARCH__
206	# define __ARM_MAX_ARCH__ 7
207	# define VFP_ABI_PUSH
208	# define VFP_ABI_POP
209	#endif
210
211	#ifdef __ARMEL__
212	# define LO 0
213	# define HI 4
214	# define WORD64(hi0,lo0,hi1,lo1) .word lo0,hi0, lo1,hi1
215	#else
216	# define HI 0
217	# define LO 4
218	# define WORD64(hi0,lo0,hi1,lo1) .word hi0,lo0, hi1,lo1
219	#endif
220
221	.text
222	#if defined(__thumb2__)
223	.syntax unified
224	.thumb
225	# define adrl adr
226	#else
227	.code 32
228	#endif
229
230	.type K512,%object
231	.align 5
232	K512:
233	WORD64(0x428a2f98,0xd728ae22, 0x71374491,0x23ef65cd)
234	WORD64(0xb5c0fbcf,0xec4d3b2f, 0xe9b5dba5,0x8189dbbc)
235	WORD64(0x3956c25b,0xf348b538, 0x59f111f1,0xb605d019)
236	WORD64(0x923f82a4,0xaf194f9b, 0xab1c5ed5,0xda6d8118)
237	WORD64(0xd807aa98,0xa3030242, 0x12835b01,0x45706fbe)
238	WORD64(0x243185be,0x4ee4b28c, 0x550c7dc3,0xd5ffb4e2)
239	WORD64(0x72be5d74,0xf27b896f, 0x80deb1fe,0x3b1696b1)
240	WORD64(0x9bdc06a7,0x25c71235, 0xc19bf174,0xcf692694)
241	WORD64(0xe49b69c1,0x9ef14ad2, 0xefbe4786,0x384f25e3)
242	WORD64(0x0fc19dc6,0x8b8cd5b5, 0x240ca1cc,0x77ac9c65)
243	WORD64(0x2de92c6f,0x592b0275, 0x4a7484aa,0x6ea6e483)
244	WORD64(0x5cb0a9dc,0xbd41fbd4, 0x76f988da,0x831153b5)
245	WORD64(0x983e5152,0xee66dfab, 0xa831c66d,0x2db43210)
246	WORD64(0xb00327c8,0x98fb213f, 0xbf597fc7,0xbeef0ee4)
247	WORD64(0xc6e00bf3,0x3da88fc2, 0xd5a79147,0x930aa725)
248	WORD64(0x06ca6351,0xe003826f, 0x14292967,0x0a0e6e70)
249	WORD64(0x27b70a85,0x46d22ffc, 0x2e1b2138,0x5c26c926)
250	WORD64(0x4d2c6dfc,0x5ac42aed, 0x53380d13,0x9d95b3df)
251	WORD64(0x650a7354,0x8baf63de, 0x766a0abb,0x3c77b2a8)
252	WORD64(0x81c2c92e,0x47edaee6, 0x92722c85,0x1482353b)
253	WORD64(0xa2bfe8a1,0x4cf10364, 0xa81a664b,0xbc423001)
254	WORD64(0xc24b8b70,0xd0f89791, 0xc76c51a3,0x0654be30)
255	WORD64(0xd192e819,0xd6ef5218, 0xd6990624,0x5565a910)
256	WORD64(0xf40e3585,0x5771202a, 0x106aa070,0x32bbd1b8)
257	WORD64(0x19a4c116,0xb8d2d0c8, 0x1e376c08,0x5141ab53)
258	WORD64(0x2748774c,0xdf8eeb99, 0x34b0bcb5,0xe19b48a8)
259	WORD64(0x391c0cb3,0xc5c95a63, 0x4ed8aa4a,0xe3418acb)
260	WORD64(0x5b9cca4f,0x7763e373, 0x682e6ff3,0xd6b2b8a3)
261	WORD64(0x748f82ee,0x5defb2fc, 0x78a5636f,0x43172f60)
262	WORD64(0x84c87814,0xa1f0ab72, 0x8cc70208,0x1a6439ec)
263	WORD64(0x90befffa,0x23631e28, 0xa4506ceb,0xde82bde9)
264	WORD64(0xbef9a3f7,0xb2c67915, 0xc67178f2,0xe372532b)
265	WORD64(0xca273ece,0xea26619c, 0xd186b8c7,0x21c0c207)
266	WORD64(0xeada7dd6,0xcde0eb1e, 0xf57d4f7f,0xee6ed178)
267	WORD64(0x06f067aa,0x72176fba, 0x0a637dc5,0xa2c898a6)
268	WORD64(0x113f9804,0xbef90dae, 0x1b710b35,0x131c471b)
269	WORD64(0x28db77f5,0x23047d84, 0x32caab7b,0x40c72493)
270	WORD64(0x3c9ebe0a,0x15c9bebc, 0x431d67c4,0x9c100d4c)
271	WORD64(0x4cc5d4be,0xcb3e42b6, 0x597f299c,0xfc657e2a)
272	WORD64(0x5fcb6fab,0x3ad6faec, 0x6c44198c,0x4a475817)
273	.size K512,.-K512
274	#if __ARM_MAX_ARCH__>=7 && !defined(__KERNEL__)
275	.LOPENSSL_armcap:
276	.word OPENSSL_armcap_P-.Lsha512_block_data_order
277	.skip 32-4
278	#else
279	.skip 32
280	#endif
281
282	.global sha512_block_data_order
283	.type sha512_block_data_order,%function
284	sha512_block_data_order:
285	.Lsha512_block_data_order:
286	#if __ARM_ARCH__<7 && !defined(__thumb2__)
287	sub r3,pc,#8 @ sha512_block_data_order
288	#else
289	adr r3,.Lsha512_block_data_order
290	#endif
291	#if __ARM_MAX_ARCH__>=7 && !defined(__KERNEL__)
292	ldr r12,.LOPENSSL_armcap
293	ldr r12,[r3,r12] @ OPENSSL_armcap_P
294	#ifdef __APPLE__
295	ldr r12,[r12]
296	#endif
297	tst r12,#ARMV7_NEON
298	bne .LNEON
299	#endif
300	add $len,$inp,$len,lsl#7 @ len to point at the end of inp
301	stmdb sp!,{r4-r12,lr}
302	sub $Ktbl,r3,#672 @ K512
303	sub sp,sp,#9*8
304
305	ldr $Elo,[$ctx,#$Eoff+$lo]
306	ldr $Ehi,[$ctx,#$Eoff+$hi]
307	ldr $t0, [$ctx,#$Goff+$lo]
308	ldr $t1, [$ctx,#$Goff+$hi]
309	ldr $t2, [$ctx,#$Hoff+$lo]
310	ldr $t3, [$ctx,#$Hoff+$hi]
311	.Loop:
312	str $t0, [sp,#$Goff+0]
313	str $t1, [sp,#$Goff+4]
314	str $t2, [sp,#$Hoff+0]
315	str $t3, [sp,#$Hoff+4]
316	ldr $Alo,[$ctx,#$Aoff+$lo]
317	ldr $Ahi,[$ctx,#$Aoff+$hi]
318	ldr $Tlo,[$ctx,#$Boff+$lo]
319	ldr $Thi,[$ctx,#$Boff+$hi]
320	ldr $t0, [$ctx,#$Coff+$lo]
321	ldr $t1, [$ctx,#$Coff+$hi]
322	ldr $t2, [$ctx,#$Doff+$lo]
323	ldr $t3, [$ctx,#$Doff+$hi]
324	str $Tlo,[sp,#$Boff+0]
325	str $Thi,[sp,#$Boff+4]
326	str $t0, [sp,#$Coff+0]
327	str $t1, [sp,#$Coff+4]
328	str $t2, [sp,#$Doff+0]
329	str $t3, [sp,#$Doff+4]
330	ldr $Tlo,[$ctx,#$Foff+$lo]
331	ldr $Thi,[$ctx,#$Foff+$hi]
332	str $Tlo,[sp,#$Foff+0]
333	str $Thi,[sp,#$Foff+4]
334
335	.L00_15:
336	#if __ARM_ARCH__<7
337	ldrb $Tlo,[$inp,#7]
338	ldrb $t0, [$inp,#6]
339	ldrb $t1, [$inp,#5]
340	ldrb $t2, [$inp,#4]
341	ldrb $Thi,[$inp,#3]
342	ldrb $t3, [$inp,#2]
343	orr $Tlo,$Tlo,$t0,lsl#8
344	ldrb $t0, [$inp,#1]
345	orr $Tlo,$Tlo,$t1,lsl#16
346	ldrb $t1, [$inp],#8
347	orr $Tlo,$Tlo,$t2,lsl#24
348	orr $Thi,$Thi,$t3,lsl#8
349	orr $Thi,$Thi,$t0,lsl#16
350	orr $Thi,$Thi,$t1,lsl#24
351	#else
352	ldr $Tlo,[$inp,#4]
353	ldr $Thi,[$inp],#8
354	#ifdef __ARMEL__
355	rev $Tlo,$Tlo
356	rev $Thi,$Thi
357	#endif
358	#endif
359	___
360	&BODY_00_15(0x94);
361	$code.=<<___;
362	tst $Ktbl,#1
363	beq .L00_15
364	ldr $t0,[sp,#`$Xoff+8*(16-1)`+0]
365	ldr $t1,[sp,#`$Xoff+8*(16-1)`+4]
366	bic $Ktbl,$Ktbl,#1
367	.L16_79:
368	@ sigma0(x) (ROTR((x),1) ^ ROTR((x),8) ^ ((x)>>7))
369	@ LO lo>>1^hi<<31 ^ lo>>8^hi<<24 ^ lo>>7^hi<<25
370	@ HI hi>>1^lo<<31 ^ hi>>8^lo<<24 ^ hi>>7
371	mov $Tlo,$t0,lsr#1
372	ldr $t2,[sp,#`$Xoff+8*(16-14)`+0]
373	mov $Thi,$t1,lsr#1
374	ldr $t3,[sp,#`$Xoff+8*(16-14)`+4]
375	eor $Tlo,$Tlo,$t1,lsl#31
376	eor $Thi,$Thi,$t0,lsl#31
377	eor $Tlo,$Tlo,$t0,lsr#8
378	eor $Thi,$Thi,$t1,lsr#8
379	eor $Tlo,$Tlo,$t1,lsl#24
380	eor $Thi,$Thi,$t0,lsl#24
381	eor $Tlo,$Tlo,$t0,lsr#7
382	eor $Thi,$Thi,$t1,lsr#7
383	eor $Tlo,$Tlo,$t1,lsl#25
384
385	@ sigma1(x) (ROTR((x),19) ^ ROTR((x),61) ^ ((x)>>6))
386	@ LO lo>>19^hi<<13 ^ hi>>29^lo<<3 ^ lo>>6^hi<<26
387	@ HI hi>>19^lo<<13 ^ lo>>29^hi<<3 ^ hi>>6
388	mov $t0,$t2,lsr#19
389	mov $t1,$t3,lsr#19
390	eor $t0,$t0,$t3,lsl#13
391	eor $t1,$t1,$t2,lsl#13
392	eor $t0,$t0,$t3,lsr#29
393	eor $t1,$t1,$t2,lsr#29
394	eor $t0,$t0,$t2,lsl#3
395	eor $t1,$t1,$t3,lsl#3
396	eor $t0,$t0,$t2,lsr#6
397	eor $t1,$t1,$t3,lsr#6
398	ldr $t2,[sp,#`$Xoff+8*(16-9)`+0]
399	eor $t0,$t0,$t3,lsl#26
400
401	ldr $t3,[sp,#`$Xoff+8*(16-9)`+4]
402	adds $Tlo,$Tlo,$t0
403	ldr $t0,[sp,#`$Xoff+8*16`+0]
404	adc $Thi,$Thi,$t1
405
406	ldr $t1,[sp,#`$Xoff+8*16`+4]
407	adds $Tlo,$Tlo,$t2
408	adc $Thi,$Thi,$t3
409	adds $Tlo,$Tlo,$t0
410	adc $Thi,$Thi,$t1
411	___
412	&BODY_00_15(0x17);
413	$code.=<<___;
414	#if __ARM_ARCH__>=7
415	ittt eq @ Thumb2 thing, sanity check in ARM
416	#endif
417	ldreq $t0,[sp,#`$Xoff+8*(16-1)`+0]
418	ldreq $t1,[sp,#`$Xoff+8*(16-1)`+4]
419	beq .L16_79
420	bic $Ktbl,$Ktbl,#1
421
422	ldr $Tlo,[sp,#$Boff+0]
423	ldr $Thi,[sp,#$Boff+4]
424	ldr $t0, [$ctx,#$Aoff+$lo]
425	ldr $t1, [$ctx,#$Aoff+$hi]
426	ldr $t2, [$ctx,#$Boff+$lo]
427	ldr $t3, [$ctx,#$Boff+$hi]
428	adds $t0,$Alo,$t0
429	str $t0, [$ctx,#$Aoff+$lo]
430	adc $t1,$Ahi,$t1
431	str $t1, [$ctx,#$Aoff+$hi]
432	adds $t2,$Tlo,$t2
433	str $t2, [$ctx,#$Boff+$lo]
434	adc $t3,$Thi,$t3
435	str $t3, [$ctx,#$Boff+$hi]
436
437	ldr $Alo,[sp,#$Coff+0]
438	ldr $Ahi,[sp,#$Coff+4]
439	ldr $Tlo,[sp,#$Doff+0]
440	ldr $Thi,[sp,#$Doff+4]
441	ldr $t0, [$ctx,#$Coff+$lo]
442	ldr $t1, [$ctx,#$Coff+$hi]
443	ldr $t2, [$ctx,#$Doff+$lo]
444	ldr $t3, [$ctx,#$Doff+$hi]
445	adds $t0,$Alo,$t0
446	str $t0, [$ctx,#$Coff+$lo]
447	adc $t1,$Ahi,$t1
448	str $t1, [$ctx,#$Coff+$hi]
449	adds $t2,$Tlo,$t2
450	str $t2, [$ctx,#$Doff+$lo]
451	adc $t3,$Thi,$t3
452	str $t3, [$ctx,#$Doff+$hi]
453
454	ldr $Tlo,[sp,#$Foff+0]
455	ldr $Thi,[sp,#$Foff+4]
456	ldr $t0, [$ctx,#$Eoff+$lo]
457	ldr $t1, [$ctx,#$Eoff+$hi]
458	ldr $t2, [$ctx,#$Foff+$lo]
459	ldr $t3, [$ctx,#$Foff+$hi]
460	adds $Elo,$Elo,$t0
461	str $Elo,[$ctx,#$Eoff+$lo]
462	adc $Ehi,$Ehi,$t1
463	str $Ehi,[$ctx,#$Eoff+$hi]
464	adds $t2,$Tlo,$t2
465	str $t2, [$ctx,#$Foff+$lo]
466	adc $t3,$Thi,$t3
467	str $t3, [$ctx,#$Foff+$hi]
468
469	ldr $Alo,[sp,#$Goff+0]
470	ldr $Ahi,[sp,#$Goff+4]
471	ldr $Tlo,[sp,#$Hoff+0]
472	ldr $Thi,[sp,#$Hoff+4]
473	ldr $t0, [$ctx,#$Goff+$lo]
474	ldr $t1, [$ctx,#$Goff+$hi]
475	ldr $t2, [$ctx,#$Hoff+$lo]
476	ldr $t3, [$ctx,#$Hoff+$hi]
477	adds $t0,$Alo,$t0
478	str $t0, [$ctx,#$Goff+$lo]
479	adc $t1,$Ahi,$t1
480	str $t1, [$ctx,#$Goff+$hi]
481	adds $t2,$Tlo,$t2
482	str $t2, [$ctx,#$Hoff+$lo]
483	adc $t3,$Thi,$t3
484	str $t3, [$ctx,#$Hoff+$hi]
485
486	add sp,sp,#640
487	sub $Ktbl,$Ktbl,#640
488
489	teq $inp,$len
490	bne .Loop
491
492	add sp,sp,#8*9 @ destroy frame
493	#if __ARM_ARCH__>=5
494	ldmia sp!,{r4-r12,pc}
495	#else
496	ldmia sp!,{r4-r12,lr}
497	tst lr,#1
498	moveq pc,lr @ be binary compatible with V4, yet
499	bx lr @ interoperable with Thumb ISA:-)
500	#endif
501	.size sha512_block_data_order,.-sha512_block_data_order
502	___
503
504	{
505	my @Sigma0=(28,34,39);
506	my @Sigma1=(14,18,41);
507	my @sigma0=(1, 8, 7);
508	my @sigma1=(19,61,6);
509
510	my $Ktbl="r3";
511	my $cnt="r12"; # volatile register known as ip, intra-procedure-call scratch
512
513	my @X=map("d$_",(0..15));
514	my @V=($A,$B,$C,$D,$E,$F,$G,$H)=map("d$_",(16..23));
515
516	sub NEON_00_15() {
517	my $i=shift;
518	my ($a,$b,$c,$d,$e,$f,$g,$h)=@_;
519	my ($t0,$t1,$t2,$T1,$K,$Ch,$Maj)=map("d$_",(24..31)); # temps
520
521	$code.=<<___ if ($i<16 \|\| $i&1);
522	vshr.u64 $t0,$e,#@Sigma1[0] @ $i
523	#if $i<16
524	vld1.64 {@X[$i%16]},[$inp]! @ handles unaligned
525	#endif
526	vshr.u64 $t1,$e,#@Sigma1[1]
527	#if $i>0
528	vadd.i64 $a,$Maj @ h+=Maj from the past
529	#endif
530	vshr.u64 $t2,$e,#@Sigma1[2]
531	___
532	$code.=<<___;
533	vld1.64 {$K},[$Ktbl,:64]! @ K[i++]
534	vsli.64 $t0,$e,#`64-@Sigma1[0]`
535	vsli.64 $t1,$e,#`64-@Sigma1[1]`
536	vmov $Ch,$e
537	vsli.64 $t2,$e,#`64-@Sigma1[2]`
538	#if $i<16 && defined(__ARMEL__)
539	vrev64.8 @X[$i],@X[$i]
540	#endif
541	veor $t1,$t0
542	vbsl $Ch,$f,$g @ Ch(e,f,g)
543	vshr.u64 $t0,$a,#@Sigma0[0]
544	veor $t2,$t1 @ Sigma1(e)
545	vadd.i64 $T1,$Ch,$h
546	vshr.u64 $t1,$a,#@Sigma0[1]
547	vsli.64 $t0,$a,#`64-@Sigma0[0]`
548	vadd.i64 $T1,$t2
549	vshr.u64 $t2,$a,#@Sigma0[2]
550	vadd.i64 $K,@X[$i%16]
551	vsli.64 $t1,$a,#`64-@Sigma0[1]`
552	veor $Maj,$a,$b
553	vsli.64 $t2,$a,#`64-@Sigma0[2]`
554	veor $h,$t0,$t1
555	vadd.i64 $T1,$K
556	vbsl $Maj,$c,$b @ Maj(a,b,c)
557	veor $h,$t2 @ Sigma0(a)
558	vadd.i64 $d,$T1
559	vadd.i64 $Maj,$T1
560	@ vadd.i64 $h,$Maj
561	___
562	}
563
564	sub NEON_16_79() {
565	my $i=shift;
566
567	if ($i&1) { &NEON_00_15($i,@_); return; }
568
569	# 2x-vectorized, therefore runs every 2nd round
570	my @X=map("q$_",(0..7)); # view @X as 128-bit vector
571	my ($t0,$t1,$s0,$s1) = map("q$_",(12..15)); # temps
572	my ($d0,$d1,$d2) = map("d$_",(24..26)); # temps from NEON_00_15
573	my $e=@_[4]; # $e from NEON_00_15
574	$i /= 2;
575	$code.=<<___;
576	vshr.u64 $t0,@X[($i+7)%8],#@sigma1[0]
577	vshr.u64 $t1,@X[($i+7)%8],#@sigma1[1]
578	vadd.i64 @_[0],d30 @ h+=Maj from the past
579	vshr.u64 $s1,@X[($i+7)%8],#@sigma1[2]
580	vsli.64 $t0,@X[($i+7)%8],#`64-@sigma1[0]`
581	vext.8 $s0,@X[$i%8],@X[($i+1)%8],#8 @ X[i+1]
582	vsli.64 $t1,@X[($i+7)%8],#`64-@sigma1[1]`
583	veor $s1,$t0
584	vshr.u64 $t0,$s0,#@sigma0[0]
585	veor $s1,$t1 @ sigma1(X[i+14])
586	vshr.u64 $t1,$s0,#@sigma0[1]
587	vadd.i64 @X[$i%8],$s1
588	vshr.u64 $s1,$s0,#@sigma0[2]
589	vsli.64 $t0,$s0,#`64-@sigma0[0]`
590	vsli.64 $t1,$s0,#`64-@sigma0[1]`
591	vext.8 $s0,@X[($i+4)%8],@X[($i+5)%8],#8 @ X[i+9]
592	veor $s1,$t0
593	vshr.u64 $d0,$e,#@Sigma1[0] @ from NEON_00_15
594	vadd.i64 @X[$i%8],$s0
595	vshr.u64 $d1,$e,#@Sigma1[1] @ from NEON_00_15
596	veor $s1,$t1 @ sigma0(X[i+1])
597	vshr.u64 $d2,$e,#@Sigma1[2] @ from NEON_00_15
598	vadd.i64 @X[$i%8],$s1
599	___
600	&NEON_00_15(2*$i,@_);
601	}
602
603	$code.=<<___;
604	#if __ARM_MAX_ARCH__>=7
605	.arch armv7-a
606	.fpu neon
607
608	.global sha512_block_data_order_neon
609	.type sha512_block_data_order_neon,%function
610	.align 4
611	sha512_block_data_order_neon:
612	.LNEON:
613	dmb @ errata #451034 on early Cortex A8
614	add $len,$inp,$len,lsl#7 @ len to point at the end of inp
615	adr $Ktbl,K512
616	VFP_ABI_PUSH
617	vldmia $ctx,{$A-$H} @ load context
618	.Loop_neon:
619	___
620	for($i=0;$i<16;$i++) { &NEON_00_15($i,@V); unshift(@V,pop(@V)); }
621	$code.=<<___;
622	mov $cnt,#4
623	.L16_79_neon:
624	subs $cnt,#1
625	___
626	for(;$i<32;$i++) { &NEON_16_79($i,@V); unshift(@V,pop(@V)); }
627	$code.=<<___;
628	bne .L16_79_neon
629
630	vadd.i64 $A,d30 @ h+=Maj from the past
631	vldmia $ctx,{d24-d31} @ load context to temp
632	vadd.i64 q8,q12 @ vectorized accumulate
633	vadd.i64 q9,q13
634	vadd.i64 q10,q14
635	vadd.i64 q11,q15
636	vstmia $ctx,{$A-$H} @ save context
637	teq $inp,$len
638	sub $Ktbl,#640 @ rewind K512
639	bne .Loop_neon
640
641	VFP_ABI_POP
642	ret @ bx lr
643	.size sha512_block_data_order_neon,.-sha512_block_data_order_neon
644	#endif
645	___
646	}
647	$code.=<<___;
648	.asciz "SHA512 block transform for ARMv4/NEON, CRYPTOGAMS by <appro\@openssl.org>"
649	.align 2
650	#if __ARM_MAX_ARCH__>=7 && !defined(__KERNEL__)
651	.comm OPENSSL_armcap_P,4,4
652	#endif
653	___
654
655	$code =~ s/\`([^\`]*)\`/eval $1/gem;
656	$code =~ s/\bbx\s+lr\b/.word\t0xe12fff1e/gm; # make it possible to compile with -march=armv4
657	$code =~ s/\bret\b/bx lr/gm;
658
659	open SELF,$0;
660	while(<SELF>) {
661	next if (/^#!/);
662	last if (!s/^#/@/ and !/^$/);
663	print;
664	}
665	close SELF;
666
667	print $code;
668	close STDOUT; # enforce flush

Note: See TracBrowser for help on using the repository browser.

source: vbox/trunk/src/libs/openssl-1.1.0g/crypto/sha/asm/sha512-armv4.pl@ 69881

Download in other formats: