ghash-ia64.pl@ 91772

Last change on this file since 91772 was 91772, checked in by vboxsync, 3 years ago
openssl-1.1.1l: Applied and adjusted our OpenSSL changes to 1.1.1l. bugref:10126
Property svn:executable set to ``*
File size: 18.0 KB

Line
1	#! /usr/bin/env perl
2	# Copyright 2010-2020 The OpenSSL Project Authors. All Rights Reserved.
3	#
4	# Licensed under the OpenSSL license (the "License"). You may not use
5	# this file except in compliance with the License. You can obtain a copy
6	# in the file LICENSE in the source distribution or at
7	# https://www.openssl.org/source/license.html
8
9
10	# ====================================================================
11	# Written by Andy Polyakov <[email protected]> for the OpenSSL
12	# project. The module is, however, dual licensed under OpenSSL and
13	# CRYPTOGAMS licenses depending on where you obtain it. For further
14	# details see http://www.openssl.org/~appro/cryptogams/.
15	# ====================================================================
16	#
17	# March 2010
18	#
19	# The module implements "4-bit" GCM GHASH function and underlying
20	# single multiplication operation in GF(2^128). "4-bit" means that it
21	# uses 256 bytes per-key table [+128 bytes shared table]. Streamed
22	# GHASH performance was measured to be 6.67 cycles per processed byte
23	# on Itanium 2, which is >90% better than Microsoft compiler generated
24	# code. To anchor to something else sha1-ia64.pl module processes one
25	# byte in 5.7 cycles. On Itanium GHASH should run at ~8.5 cycles per
26	# byte.
27
28	# September 2010
29	#
30	# It was originally thought that it makes lesser sense to implement
31	# "528B" variant on Itanium 2 for following reason. Because number of
32	# functional units is naturally limited, it appeared impossible to
33	# implement "528B" loop in 4 cycles, only in 5. This would mean that
34	# theoretically performance improvement couldn't be more than 20%.
35	# But occasionally you prove yourself wrong:-) I figured out a way to
36	# fold couple of instructions and having freed yet another instruction
37	# slot by unrolling the loop... Resulting performance is 4.45 cycles
38	# per processed byte and 50% better than "256B" version. On original
39	# Itanium performance should remain the same as the "256B" version,
40	# i.e. ~8.5 cycles.
41
42	$output=pop and (open STDOUT,">$output" or die "can't open $output: $!");
43
44	if ($^O eq "hpux") {
45	$ADDP="addp4";
46	for (@ARGV) { $ADDP="add" if (/[\+DD\|\-mlp]64/); }
47	} else { $ADDP="add"; }
48	for (@ARGV) { $big_endian=1 if (/\-DB_ENDIAN/);
49	$big_endian=0 if (/\-DL_ENDIAN/); }
50	if (!defined($big_endian))
51	{ $big_endian=(unpack('L',pack('N',1))==1); }
52
53	sub loop() {
54	my $label=shift;
55	my ($p16,$p17)=(shift)?("p63","p63"):("p16","p17"); # mask references to inp
56
57	# Loop is scheduled for 6 ticks on Itanium 2 and 8 on Itanium, i.e.
58	# in scalable manner;-) Naturally assuming data in L1 cache...
59	# Special note about 'dep' instruction, which is used to construct
60	# &rem_4bit[Zlo&0xf]. It works, because rem_4bit is aligned at 128
61	# bytes boundary and lower 7 bits of its address are guaranteed to
62	# be zero.
63	$code.=<<___;
64	$label:
65	{ .mfi; (p18) ld8 Hlo=[Hi[1]],-8
66	(p19) dep rem=Zlo,rem_4bitp,3,4 }
67	{ .mfi; (p19) xor Zhi=Zhi,Hhi
68	($p17) xor xi[1]=xi[1],in[1] };;
69	{ .mfi; (p18) ld8 Hhi=[Hi[1]]
70	(p19) shrp Zlo=Zhi,Zlo,4 }
71	{ .mfi; (p19) ld8 rem=[rem]
72	(p18) and Hi[1]=mask0xf0,xi[2] };;
73	{ .mmi; ($p16) ld1 in[0]=[inp],-1
74	(p18) xor Zlo=Zlo,Hlo
75	(p19) shr.u Zhi=Zhi,4 }
76	{ .mib; (p19) xor Hhi=Hhi,rem
77	(p18) add Hi[1]=Htbl,Hi[1] };;
78
79	{ .mfi; (p18) ld8 Hlo=[Hi[1]],-8
80	(p18) dep rem=Zlo,rem_4bitp,3,4 }
81	{ .mfi; (p17) shladd Hi[0]=xi[1],4,r0
82	(p18) xor Zhi=Zhi,Hhi };;
83	{ .mfi; (p18) ld8 Hhi=[Hi[1]]
84	(p18) shrp Zlo=Zhi,Zlo,4 }
85	{ .mfi; (p18) ld8 rem=[rem]
86	(p17) and Hi[0]=mask0xf0,Hi[0] };;
87	{ .mmi; (p16) ld1 xi[0]=[Xi],-1
88	(p18) xor Zlo=Zlo,Hlo
89	(p18) shr.u Zhi=Zhi,4 }
90	{ .mib; (p18) xor Hhi=Hhi,rem
91	(p17) add Hi[0]=Htbl,Hi[0]
92	br.ctop.sptk $label };;
93	___
94	}
95
96	$code=<<___;
97	.explicit
98	.text
99
100	prevfs=r2; prevlc=r3; prevpr=r8;
101	mask0xf0=r21;
102	rem=r22; rem_4bitp=r23;
103	Xi=r24; Htbl=r25;
104	inp=r26; end=r27;
105	Hhi=r28; Hlo=r29;
106	Zhi=r30; Zlo=r31;
107
108	.align 128
109	.skip 16 // aligns loop body
110	.global gcm_gmult_4bit#
111	.proc gcm_gmult_4bit#
112	gcm_gmult_4bit:
113	.prologue
114	{ .mmi; .save ar.pfs,prevfs
115	alloc prevfs=ar.pfs,2,6,0,8
116	$ADDP Xi=15,in0 // &Xi[15]
117	mov rem_4bitp=ip }
118	{ .mii; $ADDP Htbl=8,in1 // &Htbl[0].lo
119	.save ar.lc,prevlc
120	mov prevlc=ar.lc
121	.save pr,prevpr
122	mov prevpr=pr };;
123
124	.body
125	.rotr in[3],xi[3],Hi[2]
126
127	{ .mib; ld1 xi[2]=[Xi],-1 // Xi[15]
128	mov mask0xf0=0xf0
129	brp.loop.imp .Loop1,.Lend1-16};;
130	{ .mmi; ld1 xi[1]=[Xi],-1 // Xi[14]
131	};;
132	{ .mii; shladd Hi[1]=xi[2],4,r0
133	mov pr.rot=0x7<<16
134	mov ar.lc=13 };;
135	{ .mii; and Hi[1]=mask0xf0,Hi[1]
136	mov ar.ec=3
137	xor Zlo=Zlo,Zlo };;
138	{ .mii; add Hi[1]=Htbl,Hi[1] // &Htbl[nlo].lo
139	add rem_4bitp=rem_4bit#-gcm_gmult_4bit#,rem_4bitp
140	xor Zhi=Zhi,Zhi };;
141	___
142	&loop (".Loop1",1);
143	$code.=<<___;
144	.Lend1:
145	{ .mib; xor Zhi=Zhi,Hhi };; // modulo-scheduling artefact
146	{ .mib; mux1 Zlo=Zlo,\@rev };;
147	{ .mib; mux1 Zhi=Zhi,\@rev };;
148	{ .mmi; add Hlo=9,Xi;; // ;; is here to prevent
149	add Hhi=1,Xi };; // pipeline flush on Itanium
150	{ .mib; st8 [Hlo]=Zlo
151	mov pr=prevpr,0x1ffff };;
152	{ .mib; st8 [Hhi]=Zhi
153	mov ar.lc=prevlc
154	br.ret.sptk.many b0 };;
155	.endp gcm_gmult_4bit#
156	___
157
158	######################################################################
159	# "528B" (well, "512B" actually) streamed GHASH
160	#
161	$Xip="in0";
162	$Htbl="in1";
163	$inp="in2";
164	$len="in3";
165	$rem_8bit="loc0";
166	$mask0xff="loc1";
167	($sum,$rum) = $big_endian ? ("nop.m","nop.m") : ("sum","rum");
168
169	sub load_htable() {
170	for (my $i=0;$i<8;$i++) {
171	$code.=<<___;
172	{ .mmi; ld8 r`16+2*$i+1`=[r8],16 // Htable[$i].hi
173	ld8 r`16+2*$i`=[r9],16 } // Htable[$i].lo
174	{ .mmi; ldf8 f`32+2*$i+1`=[r10],16 // Htable[`8+$i`].hi
175	ldf8 f`32+2*$i`=[r11],16 // Htable[`8+$i`].lo
176	___
177	$code.=shift if (($i+$#_)==7);
178	$code.="\t};;\n"
179	}
180	}
181
182	$code.=<<___;
183	prevsp=r3;
184
185	.align 32
186	.skip 16 // aligns loop body
187	.global gcm_ghash_4bit#
188	.proc gcm_ghash_4bit#
189	gcm_ghash_4bit:
190	.prologue
191	{ .mmi; .save ar.pfs,prevfs
192	alloc prevfs=ar.pfs,4,2,0,0
193	.vframe prevsp
194	mov prevsp=sp
195	mov $rem_8bit=ip };;
196	.body
197	{ .mfi; $ADDP r8=0+0,$Htbl
198	$ADDP r9=0+8,$Htbl }
199	{ .mfi; $ADDP r10=128+0,$Htbl
200	$ADDP r11=128+8,$Htbl };;
201	___
202	&load_htable(
203	" $ADDP $Xip=15,$Xip", # &Xi[15]
204	" $ADDP $len=$len,$inp", # &inp[len]
205	" $ADDP $inp=15,$inp", # &inp[15]
206	" mov $mask0xff=0xff",
207	" add sp=-512,sp",
208	" andcm sp=sp,$mask0xff", # align stack frame
209	" add r14=0,sp",
210	" add r15=8,sp");
211	$code.=<<___;
212	{ .mmi; $sum 1<<1 // go big-endian
213	add r8=256+0,sp
214	add r9=256+8,sp }
215	{ .mmi; add r10=256+128+0,sp
216	add r11=256+128+8,sp
217	add $len=-17,$len };;
218	___
219	for($i=0;$i<8;$i++) { # generate first half of Hshr4[]
220	my ($rlo,$rhi)=("r".eval(16+2$i),"r".eval(16+2$i+1));
221	$code.=<<___;
222	{ .mmi; st8 [r8]=$rlo,16 // Htable[$i].lo
223	st8 [r9]=$rhi,16 // Htable[$i].hi
224	shrp $rlo=$rhi,$rlo,4 }//;;
225	{ .mmi; stf8 [r10]=f`32+2*$i`,16 // Htable[`8+$i`].lo
226	stf8 [r11]=f`32+2*$i+1`,16 // Htable[`8+$i`].hi
227	shr.u $rhi=$rhi,4 };;
228	{ .mmi; st8 [r14]=$rlo,16 // Htable[$i].lo>>4
229	st8 [r15]=$rhi,16 }//;; // Htable[$i].hi>>4
230	___
231	}
232	$code.=<<___;
233	{ .mmi; ld8 r16=[r8],16 // Htable[8].lo
234	ld8 r17=[r9],16 };; // Htable[8].hi
235	{ .mmi; ld8 r18=[r8],16 // Htable[9].lo
236	ld8 r19=[r9],16 } // Htable[9].hi
237	{ .mmi; rum 1<<5 // clear um.mfh
238	shrp r16=r17,r16,4 };;
239	___
240	for($i=0;$i<6;$i++) { # generate second half of Hshr4[]
241	$code.=<<___;
242	{ .mmi; ld8 r`20+2*$i`=[r8],16 // Htable[`10+$i`].lo
243	ld8 r`20+2*$i+1`=[r9],16 // Htable[`10+$i`].hi
244	shr.u r`16+2$i+1`=r`16+2$i+1`,4 };;
245	{ .mmi; st8 [r14]=r`16+2*$i`,16 // Htable[`8+$i`].lo>>4
246	st8 [r15]=r`16+2*$i+1`,16 // Htable[`8+$i`].hi>>4
247	shrp r`18+2$i`=r`18+2$i+1`,r`18+2*$i`,4 }
248	___
249	}
250	$code.=<<___;
251	{ .mmi; shr.u r`16+2$i+1`=r`16+2$i+1`,4 };;
252	{ .mmi; st8 [r14]=r`16+2*$i`,16 // Htable[`8+$i`].lo>>4
253	st8 [r15]=r`16+2*$i+1`,16 // Htable[`8+$i`].hi>>4
254	shrp r`18+2$i`=r`18+2$i+1`,r`18+2*$i`,4 }
255	{ .mmi; add $Htbl=256,sp // &Htable[0]
256	add $rem_8bit=rem_8bit#-gcm_ghash_4bit#,$rem_8bit
257	shr.u r`18+2$i+1`=r`18+2$i+1`,4 };;
258	{ .mmi; st8 [r14]=r`18+2*$i` // Htable[`8+$i`].lo>>4
259	st8 [r15]=r`18+2*$i+1` } // Htable[`8+$i`].hi>>4
260	___
261
262	$in="r15";
263	@xi=("r16","r17");
264	@rem=("r18","r19");
265	($Alo,$Ahi,$Blo,$Bhi,$Zlo,$Zhi)=("r20","r21","r22","r23","r24","r25");
266	($Atbl,$Btbl)=("r26","r27");
267
268	$code.=<<___; # (p16)
269	{ .mmi; ld1 $in=[$inp],-1 //(p16) *inp--
270	ld1 $xi[0]=[$Xip],-1 //(p16) *Xi--
271	cmp.eq p0,p6=r0,r0 };; // clear p6
272	___
273	push (@xi,shift(@xi)); push (@rem,shift(@rem)); # "rotate" registers
274
275	$code.=<<___; # (p16),(p17)
276	{ .mmi; ld1 $xi[0]=[$Xip],-1 //(p16) *Xi--
277	xor $xi[1]=$xi[1],$in };; //(p17) xi=$xi[i]^inp[i]
278	{ .mii; ld1 $in=[$inp],-1 //(p16) *inp--
279	dep $Atbl=$xi[1],$Htbl,4,4 //(p17) &Htable[nlo].lo
280	and $xi[1]=-16,$xi[1] };; //(p17) nhi=xi&0xf0
281	.align 32
282	.LOOP:
283	{ .mmi;
284	(p6) st8 [$Xip]=$Zhi,13
285	xor $Zlo=$Zlo,$Zlo
286	add $Btbl=$xi[1],$Htbl };; //(p17) &Htable[nhi].lo
287	___
288	push (@xi,shift(@xi)); push (@rem,shift(@rem)); # "rotate" registers
289
290	$code.=<<___; # (p16),(p17),(p18)
291	{ .mmi; ld8 $Alo=[$Atbl],8 //(p18) Htable[nlo].lo,&Htable[nlo].hi
292	ld8 $rem[0]=[$Btbl],-256 //(p18) Htable[nhi].lo,&Hshr4[nhi].lo
293	xor $xi[1]=$xi[1],$in };; //(p17) xi=$xi[i]^inp[i]
294	{ .mfi; ld8 $Ahi=[$Atbl] //(p18) Htable[nlo].hi
295	dep $Atbl=$xi[1],$Htbl,4,4 } //(p17) &Htable[nlo].lo
296	{ .mfi; shladd $rem[0]=$rem[0],4,r0 //(p18) Htable[nhi].lo<<4
297	xor $Zlo=$Zlo,$Alo };; //(p18) Z.lo^=Htable[nlo].lo
298	{ .mmi; ld8 $Blo=[$Btbl],8 //(p18) Hshr4[nhi].lo,&Hshr4[nhi].hi
299	ld1 $in=[$inp],-1 } //(p16) *inp--
300	{ .mmi; xor $rem[0]=$rem[0],$Zlo //(p18) Z.lo^(Htable[nhi].lo<<4)
301	mov $Zhi=$Ahi //(p18) Z.hi^=Htable[nlo].hi
302	and $xi[1]=-16,$xi[1] };; //(p17) nhi=xi&0xf0
303	{ .mmi; ld8 $Bhi=[$Btbl] //(p18) Hshr4[nhi].hi
304	ld1 $xi[0]=[$Xip],-1 //(p16) *Xi--
305	shrp $Zlo=$Zhi,$Zlo,8 } //(p18) Z.lo=(Z.hi<<56)\|(Z.lo>>8)
306	{ .mmi; and $rem[0]=$rem[0],$mask0xff //(p18) rem=($Zlo^(Htable[nhi].lo<<4))&0xff
307	add $Btbl=$xi[1],$Htbl };; //(p17) &Htable[nhi]
308	___
309	push (@xi,shift(@xi)); push (@rem,shift(@rem)); # "rotate" registers
310
311	for ($i=1;$i<14;$i++) {
312	# Above and below fragments are derived from this one by removing
313	# unsuitable (p??) instructions.
314	$code.=<<___; # (p16),(p17),(p18),(p19)
315	{ .mmi; ld8 $Alo=[$Atbl],8 //(p18) Htable[nlo].lo,&Htable[nlo].hi
316	ld8 $rem[0]=[$Btbl],-256 //(p18) Htable[nhi].lo,&Hshr4[nhi].lo
317	shr.u $Zhi=$Zhi,8 } //(p19) Z.hi>>=8
318	{ .mmi; shladd $rem[1]=$rem[1],1,$rem_8bit //(p19) &rem_8bit[rem]
319	xor $Zlo=$Zlo,$Blo //(p19) Z.lo^=Hshr4[nhi].lo
320	xor $xi[1]=$xi[1],$in };; //(p17) xi=$xi[i]^inp[i]
321	{ .mmi; ld8 $Ahi=[$Atbl] //(p18) Htable[nlo].hi
322	ld2 $rem[1]=[$rem[1]] //(p19) rem_8bit[rem]
323	dep $Atbl=$xi[1],$Htbl,4,4 } //(p17) &Htable[nlo].lo
324	{ .mmi; shladd $rem[0]=$rem[0],4,r0 //(p18) Htable[nhi].lo<<4
325	xor $Zlo=$Zlo,$Alo //(p18) Z.lo^=Htable[nlo].lo
326	xor $Zhi=$Zhi,$Bhi };; //(p19) Z.hi^=Hshr4[nhi].hi
327	{ .mmi; ld8 $Blo=[$Btbl],8 //(p18) Hshr4[nhi].lo,&Hshr4[nhi].hi
328	ld1 $in=[$inp],-1 //(p16) *inp--
329	shl $rem[1]=$rem[1],48 } //(p19) rem_8bit[rem]<<48
330	{ .mmi; xor $rem[0]=$rem[0],$Zlo //(p18) Z.lo^(Htable[nhi].lo<<4)
331	xor $Zhi=$Zhi,$Ahi //(p18) Z.hi^=Htable[nlo].hi
332	and $xi[1]=-16,$xi[1] };; //(p17) nhi=xi&0xf0
333	{ .mmi; ld8 $Bhi=[$Btbl] //(p18) Hshr4[nhi].hi
334	ld1 $xi[0]=[$Xip],-1 //(p16) *Xi--
335	shrp $Zlo=$Zhi,$Zlo,8 } //(p18) Z.lo=(Z.hi<<56)\|(Z.lo>>8)
336	{ .mmi; and $rem[0]=$rem[0],$mask0xff //(p18) rem=($Zlo^(Htable[nhi].lo<<4))&0xff
337	xor $Zhi=$Zhi,$rem[1] //(p19) Z.hi^=rem_8bit[rem]<<48
338	add $Btbl=$xi[1],$Htbl };; //(p17) &Htable[nhi]
339	___
340	push (@xi,shift(@xi)); push (@rem,shift(@rem)); # "rotate" registers
341	}
342
343	$code.=<<___; # (p17),(p18),(p19)
344	{ .mmi; ld8 $Alo=[$Atbl],8 //(p18) Htable[nlo].lo,&Htable[nlo].hi
345	ld8 $rem[0]=[$Btbl],-256 //(p18) Htable[nhi].lo,&Hshr4[nhi].lo
346	shr.u $Zhi=$Zhi,8 } //(p19) Z.hi>>=8
347	{ .mmi; shladd $rem[1]=$rem[1],1,$rem_8bit //(p19) &rem_8bit[rem]
348	xor $Zlo=$Zlo,$Blo //(p19) Z.lo^=Hshr4[nhi].lo
349	xor $xi[1]=$xi[1],$in };; //(p17) xi=$xi[i]^inp[i]
350	{ .mmi; ld8 $Ahi=[$Atbl] //(p18) Htable[nlo].hi
351	ld2 $rem[1]=[$rem[1]] //(p19) rem_8bit[rem]
352	dep $Atbl=$xi[1],$Htbl,4,4 };; //(p17) &Htable[nlo].lo
353	{ .mmi; shladd $rem[0]=$rem[0],4,r0 //(p18) Htable[nhi].lo<<4
354	xor $Zlo=$Zlo,$Alo //(p18) Z.lo^=Htable[nlo].lo
355	xor $Zhi=$Zhi,$Bhi };; //(p19) Z.hi^=Hshr4[nhi].hi
356	{ .mmi; ld8 $Blo=[$Btbl],8 //(p18) Hshr4[nhi].lo,&Hshr4[nhi].hi
357	shl $rem[1]=$rem[1],48 } //(p19) rem_8bit[rem]<<48
358	{ .mmi; xor $rem[0]=$rem[0],$Zlo //(p18) Z.lo^(Htable[nhi].lo<<4)
359	xor $Zhi=$Zhi,$Ahi //(p18) Z.hi^=Htable[nlo].hi
360	and $xi[1]=-16,$xi[1] };; //(p17) nhi=xi&0xf0
361	{ .mmi; ld8 $Bhi=[$Btbl] //(p18) Hshr4[nhi].hi
362	shrp $Zlo=$Zhi,$Zlo,8 } //(p18) Z.lo=(Z.hi<<56)\|(Z.lo>>8)
363	{ .mmi; and $rem[0]=$rem[0],$mask0xff //(p18) rem=($Zlo^(Htable[nhi].lo<<4))&0xff
364	xor $Zhi=$Zhi,$rem[1] //(p19) Z.hi^=rem_8bit[rem]<<48
365	add $Btbl=$xi[1],$Htbl };; //(p17) &Htable[nhi]
366	___
367	push (@xi,shift(@xi)); push (@rem,shift(@rem)); # "rotate" registers
368
369	$code.=<<___; # (p18),(p19)
370	{ .mfi; ld8 $Alo=[$Atbl],8 //(p18) Htable[nlo].lo,&Htable[nlo].hi
371	shr.u $Zhi=$Zhi,8 } //(p19) Z.hi>>=8
372	{ .mfi; shladd $rem[1]=$rem[1],1,$rem_8bit //(p19) &rem_8bit[rem]
373	xor $Zlo=$Zlo,$Blo };; //(p19) Z.lo^=Hshr4[nhi].lo
374	{ .mfi; ld8 $Ahi=[$Atbl] //(p18) Htable[nlo].hi
375	xor $Zlo=$Zlo,$Alo } //(p18) Z.lo^=Htable[nlo].lo
376	{ .mfi; ld2 $rem[1]=[$rem[1]] //(p19) rem_8bit[rem]
377	xor $Zhi=$Zhi,$Bhi };; //(p19) Z.hi^=Hshr4[nhi].hi
378	{ .mfi; ld8 $Blo=[$Btbl],8 //(p18) Htable[nhi].lo,&Htable[nhi].hi
379	shl $rem[1]=$rem[1],48 } //(p19) rem_8bit[rem]<<48
380	{ .mfi; shladd $rem[0]=$Zlo,4,r0 //(p18) Z.lo<<4
381	xor $Zhi=$Zhi,$Ahi };; //(p18) Z.hi^=Htable[nlo].hi
382	{ .mfi; ld8 $Bhi=[$Btbl] //(p18) Htable[nhi].hi
383	shrp $Zlo=$Zhi,$Zlo,4 } //(p18) Z.lo=(Z.hi<<60)\|(Z.lo>>4)
384	{ .mfi; and $rem[0]=$rem[0],$mask0xff //(p18) rem=($Zlo^(Htable[nhi].lo<<4))&0xff
385	xor $Zhi=$Zhi,$rem[1] };; //(p19) Z.hi^=rem_8bit[rem]<<48
386	___
387	push (@xi,shift(@xi)); push (@rem,shift(@rem)); # "rotate" registers
388
389	$code.=<<___; # (p19)
390	{ .mmi; cmp.ltu p6,p0=$inp,$len
391	add $inp=32,$inp
392	shr.u $Zhi=$Zhi,4 } //(p19) Z.hi>>=4
393	{ .mmi; shladd $rem[1]=$rem[1],1,$rem_8bit //(p19) &rem_8bit[rem]
394	xor $Zlo=$Zlo,$Blo //(p19) Z.lo^=Hshr4[nhi].lo
395	add $Xip=9,$Xip };; // &Xi.lo
396	{ .mmi; ld2 $rem[1]=[$rem[1]] //(p19) rem_8bit[rem]
397	(p6) ld1 $in=[$inp],-1 //[p16] *inp--
398	(p6) extr.u $xi[1]=$Zlo,8,8 } //[p17] Xi[14]
399	{ .mmi; xor $Zhi=$Zhi,$Bhi //(p19) Z.hi^=Hshr4[nhi].hi
400	(p6) and $xi[0]=$Zlo,$mask0xff };; //[p16] Xi[15]
401	{ .mmi; st8 [$Xip]=$Zlo,-8
402	(p6) xor $xi[0]=$xi[0],$in //[p17] xi=$xi[i]^inp[i]
403	shl $rem[1]=$rem[1],48 };; //(p19) rem_8bit[rem]<<48
404	{ .mmi;
405	(p6) ld1 $in=[$inp],-1 //[p16] *inp--
406	xor $Zhi=$Zhi,$rem[1] //(p19) Z.hi^=rem_8bit[rem]<<48
407	(p6) dep $Atbl=$xi[0],$Htbl,4,4 } //[p17] &Htable[nlo].lo
408	{ .mib;
409	(p6) and $xi[0]=-16,$xi[0] //[p17] nhi=xi&0xf0
410	(p6) br.cond.dptk.many .LOOP };;
411
412	{ .mib; st8 [$Xip]=$Zhi };;
413	{ .mib; $rum 1<<1 // return to little-endian
414	.restore sp
415	mov sp=prevsp
416	br.ret.sptk.many b0 };;
417	.endp gcm_ghash_4bit#
418	___
419	$code.=<<___;
420	.align 128
421	.type rem_4bit#,\@object
422	rem_4bit:
423	data8 0x0000<<48, 0x1C20<<48, 0x3840<<48, 0x2460<<48
424	data8 0x7080<<48, 0x6CA0<<48, 0x48C0<<48, 0x54E0<<48
425	data8 0xE100<<48, 0xFD20<<48, 0xD940<<48, 0xC560<<48
426	data8 0x9180<<48, 0x8DA0<<48, 0xA9C0<<48, 0xB5E0<<48
427	.size rem_4bit#,128
428	.type rem_8bit#,\@object
429	rem_8bit:
430	data1 0x00,0x00, 0x01,0xC2, 0x03,0x84, 0x02,0x46, 0x07,0x08, 0x06,0xCA, 0x04,0x8C, 0x05,0x4E
431	data1 0x0E,0x10, 0x0F,0xD2, 0x0D,0x94, 0x0C,0x56, 0x09,0x18, 0x08,0xDA, 0x0A,0x9C, 0x0B,0x5E
432	data1 0x1C,0x20, 0x1D,0xE2, 0x1F,0xA4, 0x1E,0x66, 0x1B,0x28, 0x1A,0xEA, 0x18,0xAC, 0x19,0x6E
433	data1 0x12,0x30, 0x13,0xF2, 0x11,0xB4, 0x10,0x76, 0x15,0x38, 0x14,0xFA, 0x16,0xBC, 0x17,0x7E
434	data1 0x38,0x40, 0x39,0x82, 0x3B,0xC4, 0x3A,0x06, 0x3F,0x48, 0x3E,0x8A, 0x3C,0xCC, 0x3D,0x0E
435	data1 0x36,0x50, 0x37,0x92, 0x35,0xD4, 0x34,0x16, 0x31,0x58, 0x30,0x9A, 0x32,0xDC, 0x33,0x1E
436	data1 0x24,0x60, 0x25,0xA2, 0x27,0xE4, 0x26,0x26, 0x23,0x68, 0x22,0xAA, 0x20,0xEC, 0x21,0x2E
437	data1 0x2A,0x70, 0x2B,0xB2, 0x29,0xF4, 0x28,0x36, 0x2D,0x78, 0x2C,0xBA, 0x2E,0xFC, 0x2F,0x3E
438	data1 0x70,0x80, 0x71,0x42, 0x73,0x04, 0x72,0xC6, 0x77,0x88, 0x76,0x4A, 0x74,0x0C, 0x75,0xCE
439	data1 0x7E,0x90, 0x7F,0x52, 0x7D,0x14, 0x7C,0xD6, 0x79,0x98, 0x78,0x5A, 0x7A,0x1C, 0x7B,0xDE
440	data1 0x6C,0xA0, 0x6D,0x62, 0x6F,0x24, 0x6E,0xE6, 0x6B,0xA8, 0x6A,0x6A, 0x68,0x2C, 0x69,0xEE
441	data1 0x62,0xB0, 0x63,0x72, 0x61,0x34, 0x60,0xF6, 0x65,0xB8, 0x64,0x7A, 0x66,0x3C, 0x67,0xFE
442	data1 0x48,0xC0, 0x49,0x02, 0x4B,0x44, 0x4A,0x86, 0x4F,0xC8, 0x4E,0x0A, 0x4C,0x4C, 0x4D,0x8E
443	data1 0x46,0xD0, 0x47,0x12, 0x45,0x54, 0x44,0x96, 0x41,0xD8, 0x40,0x1A, 0x42,0x5C, 0x43,0x9E
444	data1 0x54,0xE0, 0x55,0x22, 0x57,0x64, 0x56,0xA6, 0x53,0xE8, 0x52,0x2A, 0x50,0x6C, 0x51,0xAE
445	data1 0x5A,0xF0, 0x5B,0x32, 0x59,0x74, 0x58,0xB6, 0x5D,0xF8, 0x5C,0x3A, 0x5E,0x7C, 0x5F,0xBE
446	data1 0xE1,0x00, 0xE0,0xC2, 0xE2,0x84, 0xE3,0x46, 0xE6,0x08, 0xE7,0xCA, 0xE5,0x8C, 0xE4,0x4E
447	data1 0xEF,0x10, 0xEE,0xD2, 0xEC,0x94, 0xED,0x56, 0xE8,0x18, 0xE9,0xDA, 0xEB,0x9C, 0xEA,0x5E
448	data1 0xFD,0x20, 0xFC,0xE2, 0xFE,0xA4, 0xFF,0x66, 0xFA,0x28, 0xFB,0xEA, 0xF9,0xAC, 0xF8,0x6E
449	data1 0xF3,0x30, 0xF2,0xF2, 0xF0,0xB4, 0xF1,0x76, 0xF4,0x38, 0xF5,0xFA, 0xF7,0xBC, 0xF6,0x7E
450	data1 0xD9,0x40, 0xD8,0x82, 0xDA,0xC4, 0xDB,0x06, 0xDE,0x48, 0xDF,0x8A, 0xDD,0xCC, 0xDC,0x0E
451	data1 0xD7,0x50, 0xD6,0x92, 0xD4,0xD4, 0xD5,0x16, 0xD0,0x58, 0xD1,0x9A, 0xD3,0xDC, 0xD2,0x1E
452	data1 0xC5,0x60, 0xC4,0xA2, 0xC6,0xE4, 0xC7,0x26, 0xC2,0x68, 0xC3,0xAA, 0xC1,0xEC, 0xC0,0x2E
453	data1 0xCB,0x70, 0xCA,0xB2, 0xC8,0xF4, 0xC9,0x36, 0xCC,0x78, 0xCD,0xBA, 0xCF,0xFC, 0xCE,0x3E
454	data1 0x91,0x80, 0x90,0x42, 0x92,0x04, 0x93,0xC6, 0x96,0x88, 0x97,0x4A, 0x95,0x0C, 0x94,0xCE
455	data1 0x9F,0x90, 0x9E,0x52, 0x9C,0x14, 0x9D,0xD6, 0x98,0x98, 0x99,0x5A, 0x9B,0x1C, 0x9A,0xDE
456	data1 0x8D,0xA0, 0x8C,0x62, 0x8E,0x24, 0x8F,0xE6, 0x8A,0xA8, 0x8B,0x6A, 0x89,0x2C, 0x88,0xEE
457	data1 0x83,0xB0, 0x82,0x72, 0x80,0x34, 0x81,0xF6, 0x84,0xB8, 0x85,0x7A, 0x87,0x3C, 0x86,0xFE
458	data1 0xA9,0xC0, 0xA8,0x02, 0xAA,0x44, 0xAB,0x86, 0xAE,0xC8, 0xAF,0x0A, 0xAD,0x4C, 0xAC,0x8E
459	data1 0xA7,0xD0, 0xA6,0x12, 0xA4,0x54, 0xA5,0x96, 0xA0,0xD8, 0xA1,0x1A, 0xA3,0x5C, 0xA2,0x9E
460	data1 0xB5,0xE0, 0xB4,0x22, 0xB6,0x64, 0xB7,0xA6, 0xB2,0xE8, 0xB3,0x2A, 0xB1,0x6C, 0xB0,0xAE
461	data1 0xBB,0xF0, 0xBA,0x32, 0xB8,0x74, 0xB9,0xB6, 0xBC,0xF8, 0xBD,0x3A, 0xBF,0x7C, 0xBE,0xBE
462	.size rem_8bit#,512
463	stringz "GHASH for IA64, CRYPTOGAMS by <appro\@openssl.org>"
464	___
465
466	$code =~ s/mux1(\s+)\S+\@rev/nop.i$1 0x0/gm if ($big_endian);
467	$code =~ s/\`([^\`]*)\`/eval $1/gem;
468
469	print $code;
470	close STDOUT or die "error closing STDOUT: $!";

Note: See TracBrowser for help on using the repository browser.

source: vbox/trunk/src/libs/openssl-1.1.1l/crypto/modes/asm/ghash-ia64.pl@ 91772

Download in other formats: