ecp_nistz256-avx2.pl@ 83531

Last change on this file since 83531 was 83531, checked in by vboxsync, 5 years ago
setting svn:sync-process=export for openssl-1.1.1f, all files except tests
Property svn:executable set to ``*
File size: 54.8 KB

Line
1	#! /usr/bin/env perl
2	# Copyright 2014-2020 The OpenSSL Project Authors. All Rights Reserved.
3	# Copyright (c) 2014, Intel Corporation. All Rights Reserved.
4	#
5	# Licensed under the OpenSSL license (the "License"). You may not use
6	# this file except in compliance with the License. You can obtain a copy
7	# in the file LICENSE in the source distribution or at
8	# https://www.openssl.org/source/license.html
9	#
10	# Originally written by Shay Gueron (1, 2), and Vlad Krasnov (1)
11	# (1) Intel Corporation, Israel Development Center, Haifa, Israel
12	# (2) University of Haifa, Israel
13	#
14	# Reference:
15	# S.Gueron and V.Krasnov, "Fast Prime Field Elliptic Curve Cryptography with
16	# 256 Bit Primes"
17
18	$flavour = shift;
19	$output = shift;
20	if ($flavour =~ /\./) { $output = $flavour; undef $flavour; }
21
22	$win64=0; $win64=1 if ($flavour =~ /[nm]asm\|mingw64/ \|\| $output =~ /\.asm$/);
23
24	$0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;
25	( $xlate="${dir}x86_64-xlate.pl" and -f $xlate ) or
26	( $xlate="${dir}../../perlasm/x86_64-xlate.pl" and -f $xlate) or
27	die "can't locate x86_64-xlate.pl";
28
29	open OUT,"\| \"$^X\" $xlate $flavour $output";
30	STDOUT=OUT;
31
32	if (`$ENV{CC} -Wa,-v -c -o /dev/null -x assembler /dev/null 2>&1`
33	=~ /GNU assembler version ([2-9]\.[0-9]+)/) {
34	$avx = ($1>=2.19) + ($1>=2.22);
35	$addx = ($1>=2.23);
36	}
37
38	if (!$addx && $win64 && ($flavour =~ /nasm/ \|\| $ENV{ASM} =~ /nasm/) &&
39	`nasm -v 2>&1` =~ /NASM version ([2-9]\.[0-9]+)/) {
40	$avx = ($1>=2.09) + ($1>=2.10);
41	$addx = ($1>=2.10);
42	}
43
44	if (!$addx && $win64 && ($flavour =~ /masm/ \|\| $ENV{ASM} =~ /ml64/) &&
45	`ml64 2>&1` =~ /Version ([0-9]+)\./) {
46	$avx = ($1>=10) + ($1>=11);
47	$addx = ($1>=12);
48	}
49
50	if (!$addx && `$ENV{CC} -v 2>&1` =~ /((?:^clang\|LLVM) version\|based on LLVM) ([0-9]+)\.([0-9]+)/) {
51	my $ver = $2 + $3/100.0; # 3.1->3.01, 3.10->3.10
52	$avx = ($ver>=3.0) + ($ver>=3.01);
53	$addx = ($ver>=3.03);
54	}
55
56	if ($avx>=2) {{
57	$digit_size = "\$29";
58	$n_digits = "\$9";
59
60	$code.=<<___;
61	.text
62
63	.align 64
64	.LAVX2_AND_MASK:
65	.LAVX2_POLY:
66	.quad 0x1fffffff, 0x1fffffff, 0x1fffffff, 0x1fffffff
67	.quad 0x1fffffff, 0x1fffffff, 0x1fffffff, 0x1fffffff
68	.quad 0x1fffffff, 0x1fffffff, 0x1fffffff, 0x1fffffff
69	.quad 0x000001ff, 0x000001ff, 0x000001ff, 0x000001ff
70	.quad 0x00000000, 0x00000000, 0x00000000, 0x00000000
71	.quad 0x00000000, 0x00000000, 0x00000000, 0x00000000
72	.quad 0x00040000, 0x00040000, 0x00040000, 0x00040000
73	.quad 0x1fe00000, 0x1fe00000, 0x1fe00000, 0x1fe00000
74	.quad 0x00ffffff, 0x00ffffff, 0x00ffffff, 0x00ffffff
75
76	.LAVX2_POLY_x2:
77	.quad 0x7FFFFFFC, 0x7FFFFFFC, 0x7FFFFFFC, 0x7FFFFFFC
78	.quad 0x7FFFFFFC, 0x7FFFFFFC, 0x7FFFFFFC, 0x7FFFFFFC
79	.quad 0x7FFFFFFC, 0x7FFFFFFC, 0x7FFFFFFC, 0x7FFFFFFC
80	.quad 0x400007FC, 0x400007FC, 0x400007FC, 0x400007FC
81	.quad 0x3FFFFFFE, 0x3FFFFFFE, 0x3FFFFFFE, 0x3FFFFFFE
82	.quad 0x3FFFFFFE, 0x3FFFFFFE, 0x3FFFFFFE, 0x3FFFFFFE
83	.quad 0x400FFFFE, 0x400FFFFE, 0x400FFFFE, 0x400FFFFE
84	.quad 0x7F7FFFFE, 0x7F7FFFFE, 0x7F7FFFFE, 0x7F7FFFFE
85	.quad 0x03FFFFFC, 0x03FFFFFC, 0x03FFFFFC, 0x03FFFFFC
86
87	.LAVX2_POLY_x8:
88	.quad 0xFFFFFFF8, 0xFFFFFFF8, 0xFFFFFFF8, 0xFFFFFFF8
89	.quad 0xFFFFFFF8, 0xFFFFFFF8, 0xFFFFFFF8, 0xFFFFFFF8
90	.quad 0xFFFFFFF8, 0xFFFFFFF8, 0xFFFFFFF8, 0xFFFFFFF8
91	.quad 0x80000FF8, 0x80000FF8, 0x80000FF8, 0x80000FF8
92	.quad 0x7FFFFFFC, 0x7FFFFFFC, 0x7FFFFFFC, 0x7FFFFFFC
93	.quad 0x7FFFFFFC, 0x7FFFFFFC, 0x7FFFFFFC, 0x7FFFFFFC
94	.quad 0x801FFFFC, 0x801FFFFC, 0x801FFFFC, 0x801FFFFC
95	.quad 0xFEFFFFFC, 0xFEFFFFFC, 0xFEFFFFFC, 0xFEFFFFFC
96	.quad 0x07FFFFF8, 0x07FFFFF8, 0x07FFFFF8, 0x07FFFFF8
97
98	.LONE:
99	.quad 0x00000020, 0x00000020, 0x00000020, 0x00000020
100	.quad 0x00000000, 0x00000000, 0x00000000, 0x00000000
101	.quad 0x00000000, 0x00000000, 0x00000000, 0x00000000
102	.quad 0x1fffc000, 0x1fffc000, 0x1fffc000, 0x1fffc000
103	.quad 0x1fffffff, 0x1fffffff, 0x1fffffff, 0x1fffffff
104	.quad 0x1fffffff, 0x1fffffff, 0x1fffffff, 0x1fffffff
105	.quad 0x1f7fffff, 0x1f7fffff, 0x1f7fffff, 0x1f7fffff
106	.quad 0x03ffffff, 0x03ffffff, 0x03ffffff, 0x03ffffff
107	.quad 0x00000000, 0x00000000, 0x00000000, 0x00000000
108
109	# RR = 2^266 mod p in AVX2 format, to transform from the native OpenSSL
110	# Montgomery form (2^256) to our format (2^261)
111
112	.LTO_MONT_AVX2:
113	.quad 0x00000400, 0x00000400, 0x00000400, 0x00000400
114	.quad 0x00000000, 0x00000000, 0x00000000, 0x00000000
115	.quad 0x00000000, 0x00000000, 0x00000000, 0x00000000
116	.quad 0x1ff80000, 0x1ff80000, 0x1ff80000, 0x1ff80000
117	.quad 0x1fffffff, 0x1fffffff, 0x1fffffff, 0x1fffffff
118	.quad 0x1fffffff, 0x1fffffff, 0x1fffffff, 0x1fffffff
119	.quad 0x0fffffff, 0x0fffffff, 0x0fffffff, 0x0fffffff
120	.quad 0x1fffffff, 0x1fffffff, 0x1fffffff, 0x1fffffff
121	.quad 0x00000003, 0x00000003, 0x00000003, 0x00000003
122
123	.LFROM_MONT_AVX2:
124	.quad 0x00000001, 0x00000001, 0x00000001, 0x00000001
125	.quad 0x00000000, 0x00000000, 0x00000000, 0x00000000
126	.quad 0x00000000, 0x00000000, 0x00000000, 0x00000000
127	.quad 0x1ffffe00, 0x1ffffe00, 0x1ffffe00, 0x1ffffe00
128	.quad 0x1fffffff, 0x1fffffff, 0x1fffffff, 0x1fffffff
129	.quad 0x1fffffff, 0x1fffffff, 0x1fffffff, 0x1fffffff
130	.quad 0x1ffbffff, 0x1ffbffff, 0x1ffbffff, 0x1ffbffff
131	.quad 0x001fffff, 0x001fffff, 0x001fffff, 0x001fffff
132	.quad 0x00000000, 0x00000000, 0x00000000, 0x00000000
133
134	.LIntOne:
135	.long 1,1,1,1,1,1,1,1
136	___
137
138	{
139	# This function receives a pointer to an array of four affine points
140	# (X, Y, <1>) and rearranges the data for AVX2 execution, while
141	# converting it to 2^29 radix redundant form
142
143	my ($X0,$X1,$X2,$X3, $Y0,$Y1,$Y2,$Y3,
144	$T0,$T1,$T2,$T3, $T4,$T5,$T6,$T7)=map("%ymm$_",(0..15));
145
146	$code.=<<___;
147	.globl ecp_nistz256_avx2_transpose_convert
148	.type ecp_nistz256_avx2_transpose_convert,\@function,2
149	.align 64
150	ecp_nistz256_avx2_transpose_convert:
151	vzeroupper
152	___
153	$code.=<<___ if ($win64);
154	lea -8-16*10(%rsp), %rsp
155	vmovaps %xmm6, -8-16*10(%rax)
156	vmovaps %xmm7, -8-16*9(%rax)
157	vmovaps %xmm8, -8-16*8(%rax)
158	vmovaps %xmm9, -8-16*7(%rax)
159	vmovaps %xmm10, -8-16*6(%rax)
160	vmovaps %xmm11, -8-16*5(%rax)
161	vmovaps %xmm12, -8-16*4(%rax)
162	vmovaps %xmm13, -8-16*3(%rax)
163	vmovaps %xmm14, -8-16*2(%rax)
164	vmovaps %xmm15, -8-16*1(%rax)
165	___
166	$code.=<<___;
167	# Load the data
168	vmovdqa 32*0(%rsi), $X0
169	lea 112(%rsi), %rax # size optimization
170	vmovdqa 32*1(%rsi), $Y0
171	lea .LAVX2_AND_MASK(%rip), %rdx
172	vmovdqa 32*2(%rsi), $X1
173	vmovdqa 32*3(%rsi), $Y1
174	vmovdqa 32*4-112(%rax), $X2
175	vmovdqa 32*5-112(%rax), $Y2
176	vmovdqa 32*6-112(%rax), $X3
177	vmovdqa 32*7-112(%rax), $Y3
178
179	# Transpose X and Y independently
180	vpunpcklqdq $X1, $X0, $T0 # T0 = [B2 A2 B0 A0]
181	vpunpcklqdq $X3, $X2, $T1 # T1 = [D2 C2 D0 C0]
182	vpunpckhqdq $X1, $X0, $T2 # T2 = [B3 A3 B1 A1]
183	vpunpckhqdq $X3, $X2, $T3 # T3 = [D3 C3 D1 C1]
184
185	vpunpcklqdq $Y1, $Y0, $T4
186	vpunpcklqdq $Y3, $Y2, $T5
187	vpunpckhqdq $Y1, $Y0, $T6
188	vpunpckhqdq $Y3, $Y2, $T7
189
190	vperm2i128 \$0x20, $T1, $T0, $X0 # X0 = [D0 C0 B0 A0]
191	vperm2i128 \$0x20, $T3, $T2, $X1 # X1 = [D1 C1 B1 A1]
192	vperm2i128 \$0x31, $T1, $T0, $X2 # X2 = [D2 C2 B2 A2]
193	vperm2i128 \$0x31, $T3, $T2, $X3 # X3 = [D3 C3 B3 A3]
194
195	vperm2i128 \$0x20, $T5, $T4, $Y0
196	vperm2i128 \$0x20, $T7, $T6, $Y1
197	vperm2i128 \$0x31, $T5, $T4, $Y2
198	vperm2i128 \$0x31, $T7, $T6, $Y3
199	vmovdqa (%rdx), $T7
200
201	vpand (%rdx), $X0, $T0 # out[0] = in[0] & mask;
202	vpsrlq \$29, $X0, $X0
203	vpand $T7, $X0, $T1 # out[1] = (in[0] >> shift) & mask;
204	vpsrlq \$29, $X0, $X0
205	vpsllq \$6, $X1, $T2
206	vpxor $X0, $T2, $T2
207	vpand $T7, $T2, $T2 # out[2] = ((in[0] >> (shift2)) ^ (in[1] << (64-shift2))) & mask;
208	vpsrlq \$23, $X1, $X1
209	vpand $T7, $X1, $T3 # out[3] = (in[1] >> ((shift*3)%64)) & mask;
210	vpsrlq \$29, $X1, $X1
211	vpsllq \$12, $X2, $T4
212	vpxor $X1, $T4, $T4
213	vpand $T7, $T4, $T4 # out[4] = ((in[1] >> ((shift4)%64)) ^ (in[2] << (642-shift*4))) & mask;
214	vpsrlq \$17, $X2, $X2
215	vpand $T7, $X2, $T5 # out[5] = (in[2] >> ((shift*5)%64)) & mask;
216	vpsrlq \$29, $X2, $X2
217	vpsllq \$18, $X3, $T6
218	vpxor $X2, $T6, $T6
219	vpand $T7, $T6, $T6 # out[6] = ((in[2] >> ((shift6)%64)) ^ (in[3] << (643-shift*6))) & mask;
220	vpsrlq \$11, $X3, $X3
221	vmovdqa $T0, 32*0(%rdi)
222	lea 112(%rdi), %rax # size optimization
223	vpand $T7, $X3, $T0 # out[7] = (in[3] >> ((shift*7)%64)) & mask;
224	vpsrlq \$29, $X3, $X3 # out[8] = (in[3] >> ((shift*8)%64)) & mask;
225
226	vmovdqa $T1, 32*1(%rdi)
227	vmovdqa $T2, 32*2(%rdi)
228	vmovdqa $T3, 32*3(%rdi)
229	vmovdqa $T4, 32*4-112(%rax)
230	vmovdqa $T5, 32*5-112(%rax)
231	vmovdqa $T6, 32*6-112(%rax)
232	vmovdqa $T0, 32*7-112(%rax)
233	vmovdqa $X3, 32*8-112(%rax)
234	lea 448(%rdi), %rax # size optimization
235
236	vpand $T7, $Y0, $T0 # out[0] = in[0] & mask;
237	vpsrlq \$29, $Y0, $Y0
238	vpand $T7, $Y0, $T1 # out[1] = (in[0] >> shift) & mask;
239	vpsrlq \$29, $Y0, $Y0
240	vpsllq \$6, $Y1, $T2
241	vpxor $Y0, $T2, $T2
242	vpand $T7, $T2, $T2 # out[2] = ((in[0] >> (shift2)) ^ (in[1] << (64-shift2))) & mask;
243	vpsrlq \$23, $Y1, $Y1
244	vpand $T7, $Y1, $T3 # out[3] = (in[1] >> ((shift*3)%64)) & mask;
245	vpsrlq \$29, $Y1, $Y1
246	vpsllq \$12, $Y2, $T4
247	vpxor $Y1, $T4, $T4
248	vpand $T7, $T4, $T4 # out[4] = ((in[1] >> ((shift4)%64)) ^ (in[2] << (642-shift*4))) & mask;
249	vpsrlq \$17, $Y2, $Y2
250	vpand $T7, $Y2, $T5 # out[5] = (in[2] >> ((shift*5)%64)) & mask;
251	vpsrlq \$29, $Y2, $Y2
252	vpsllq \$18, $Y3, $T6
253	vpxor $Y2, $T6, $T6
254	vpand $T7, $T6, $T6 # out[6] = ((in[2] >> ((shift6)%64)) ^ (in[3] << (643-shift*6))) & mask;
255	vpsrlq \$11, $Y3, $Y3
256	vmovdqa $T0, 32*9-448(%rax)
257	vpand $T7, $Y3, $T0 # out[7] = (in[3] >> ((shift*7)%64)) & mask;
258	vpsrlq \$29, $Y3, $Y3 # out[8] = (in[3] >> ((shift*8)%64)) & mask;
259
260	vmovdqa $T1, 32*10-448(%rax)
261	vmovdqa $T2, 32*11-448(%rax)
262	vmovdqa $T3, 32*12-448(%rax)
263	vmovdqa $T4, 32*13-448(%rax)
264	vmovdqa $T5, 32*14-448(%rax)
265	vmovdqa $T6, 32*15-448(%rax)
266	vmovdqa $T0, 32*16-448(%rax)
267	vmovdqa $Y3, 32*17-448(%rax)
268
269	vzeroupper
270	___
271	$code.=<<___ if ($win64);
272	movaps 16*0(%rsp), %xmm6
273	movaps 16*1(%rsp), %xmm7
274	movaps 16*2(%rsp), %xmm8
275	movaps 16*3(%rsp), %xmm9
276	movaps 16*4(%rsp), %xmm10
277	movaps 16*5(%rsp), %xmm11
278	movaps 16*6(%rsp), %xmm12
279	movaps 16*7(%rsp), %xmm13
280	movaps 16*8(%rsp), %xmm14
281	movaps 16*9(%rsp), %xmm15
282	lea 8+16*10(%rsp), %rsp
283	___
284	$code.=<<___;
285	ret
286	.size ecp_nistz256_avx2_transpose_convert,.-ecp_nistz256_avx2_transpose_convert
287	___
288	}
289	{
290	################################################################################
291	# This function receives a pointer to an array of four AVX2 formatted points
292	# (X, Y, Z) convert the data to normal representation, and rearranges the data
293
294	my ($D0,$D1,$D2,$D3, $D4,$D5,$D6,$D7, $D8)=map("%ymm$_",(0..8));
295	my ($T0,$T1,$T2,$T3, $T4,$T5,$T6)=map("%ymm$_",(9..15));
296
297	$code.=<<___;
298
299	.globl ecp_nistz256_avx2_convert_transpose_back
300	.type ecp_nistz256_avx2_convert_transpose_back,\@function,2
301	.align 32
302	ecp_nistz256_avx2_convert_transpose_back:
303	vzeroupper
304	___
305	$code.=<<___ if ($win64);
306	lea -8-16*10(%rsp), %rsp
307	vmovaps %xmm6, -8-16*10(%rax)
308	vmovaps %xmm7, -8-16*9(%rax)
309	vmovaps %xmm8, -8-16*8(%rax)
310	vmovaps %xmm9, -8-16*7(%rax)
311	vmovaps %xmm10, -8-16*6(%rax)
312	vmovaps %xmm11, -8-16*5(%rax)
313	vmovaps %xmm12, -8-16*4(%rax)
314	vmovaps %xmm13, -8-16*3(%rax)
315	vmovaps %xmm14, -8-16*2(%rax)
316	vmovaps %xmm15, -8-16*1(%rax)
317	___
318	$code.=<<___;
319	mov \$3, %ecx
320
321	.Lconv_loop:
322	vmovdqa 32*0(%rsi), $D0
323	lea 160(%rsi), %rax # size optimization
324	vmovdqa 32*1(%rsi), $D1
325	vmovdqa 32*2(%rsi), $D2
326	vmovdqa 32*3(%rsi), $D3
327	vmovdqa 32*4-160(%rax), $D4
328	vmovdqa 32*5-160(%rax), $D5
329	vmovdqa 32*6-160(%rax), $D6
330	vmovdqa 32*7-160(%rax), $D7
331	vmovdqa 32*8-160(%rax), $D8
332
333	vpsllq \$29, $D1, $D1
334	vpsllq \$58, $D2, $T0
335	vpaddq $D1, $D0, $D0
336	vpaddq $T0, $D0, $D0 # out[0] = (in[0]) ^ (in[1] << shift1) ^ (in[2] << shift2);
337
338	vpsrlq \$6, $D2, $D2
339	vpsllq \$23, $D3, $D3
340	vpsllq \$52, $D4, $T1
341	vpaddq $D2, $D3, $D3
342	vpaddq $D3, $T1, $D1 # out[1] = (in[2] >> (641-shift2)) ^ (in[3] << shift3%64) ^ (in[4] << shift4%64);
343
344	vpsrlq \$12, $D4, $D4
345	vpsllq \$17, $D5, $D5
346	vpsllq \$46, $D6, $T2
347	vpaddq $D4, $D5, $D5
348	vpaddq $D5, $T2, $D2 # out[2] = (in[4] >> (642-shift4)) ^ (in[5] << shift5%64) ^ (in[6] << shift6%64);
349
350	vpsrlq \$18, $D6, $D6
351	vpsllq \$11, $D7, $D7
352	vpsllq \$40, $D8, $T3
353	vpaddq $D6, $D7, $D7
354	vpaddq $D7, $T3, $D3 # out[3] = (in[6] >> (643-shift6)) ^ (in[7] << shift7%64) ^ (in[8] << shift8%64);
355
356	vpunpcklqdq $D1, $D0, $T0 # T0 = [B2 A2 B0 A0]
357	vpunpcklqdq $D3, $D2, $T1 # T1 = [D2 C2 D0 C0]
358	vpunpckhqdq $D1, $D0, $T2 # T2 = [B3 A3 B1 A1]
359	vpunpckhqdq $D3, $D2, $T3 # T3 = [D3 C3 D1 C1]
360
361	vperm2i128 \$0x20, $T1, $T0, $D0 # X0 = [D0 C0 B0 A0]
362	vperm2i128 \$0x20, $T3, $T2, $D1 # X1 = [D1 C1 B1 A1]
363	vperm2i128 \$0x31, $T1, $T0, $D2 # X2 = [D2 C2 B2 A2]
364	vperm2i128 \$0x31, $T3, $T2, $D3 # X3 = [D3 C3 B3 A3]
365
366	vmovdqa $D0, 32*0(%rdi)
367	vmovdqa $D1, 32*3(%rdi)
368	vmovdqa $D2, 32*6(%rdi)
369	vmovdqa $D3, 32*9(%rdi)
370
371	lea 32*9(%rsi), %rsi
372	lea 32*1(%rdi), %rdi
373
374	dec %ecx
375	jnz .Lconv_loop
376
377	vzeroupper
378	___
379	$code.=<<___ if ($win64);
380	movaps 16*0(%rsp), %xmm6
381	movaps 16*1(%rsp), %xmm7
382	movaps 16*2(%rsp), %xmm8
383	movaps 16*3(%rsp), %xmm9
384	movaps 16*4(%rsp), %xmm10
385	movaps 16*5(%rsp), %xmm11
386	movaps 16*6(%rsp), %xmm12
387	movaps 16*7(%rsp), %xmm13
388	movaps 16*8(%rsp), %xmm14
389	movaps 16*9(%rsp), %xmm15
390	lea 8+16*10(%rsp), %rsp
391	___
392	$code.=<<___;
393	ret
394	.size ecp_nistz256_avx2_convert_transpose_back,.-ecp_nistz256_avx2_convert_transpose_back
395	___
396	}
397	{
398	my ($r_ptr,$a_ptr,$b_ptr,$itr)=("%rdi","%rsi","%rdx","%ecx");
399	my ($ACC0,$ACC1,$ACC2,$ACC3,$ACC4,$ACC5,$ACC6,$ACC7,$ACC8)=map("%ymm$_",(0..8));
400	my ($B,$Y,$T0,$AND_MASK,$OVERFLOW)=map("%ymm$_",(9..13));
401
402	sub NORMALIZE {
403	my $ret=<<___;
404	vpsrlq $digit_size, $ACC0, $T0
405	vpand $AND_MASK, $ACC0, $ACC0
406	vpaddq $T0, $ACC1, $ACC1
407
408	vpsrlq $digit_size, $ACC1, $T0
409	vpand $AND_MASK, $ACC1, $ACC1
410	vpaddq $T0, $ACC2, $ACC2
411
412	vpsrlq $digit_size, $ACC2, $T0
413	vpand $AND_MASK, $ACC2, $ACC2
414	vpaddq $T0, $ACC3, $ACC3
415
416	vpsrlq $digit_size, $ACC3, $T0
417	vpand $AND_MASK, $ACC3, $ACC3
418	vpaddq $T0, $ACC4, $ACC4
419
420	vpsrlq $digit_size, $ACC4, $T0
421	vpand $AND_MASK, $ACC4, $ACC4
422	vpaddq $T0, $ACC5, $ACC5
423
424	vpsrlq $digit_size, $ACC5, $T0
425	vpand $AND_MASK, $ACC5, $ACC5
426	vpaddq $T0, $ACC6, $ACC6
427
428	vpsrlq $digit_size, $ACC6, $T0
429	vpand $AND_MASK, $ACC6, $ACC6
430	vpaddq $T0, $ACC7, $ACC7
431
432	vpsrlq $digit_size, $ACC7, $T0
433	vpand $AND_MASK, $ACC7, $ACC7
434	vpaddq $T0, $ACC8, $ACC8
435	#vpand $AND_MASK, $ACC8, $ACC8
436	___
437	$ret;
438	}
439
440	sub STORE {
441	my $ret=<<___;
442	vmovdqa $ACC0, 32*0(%rdi)
443	lea 160(%rdi), %rax # size optimization
444	vmovdqa $ACC1, 32*1(%rdi)
445	vmovdqa $ACC2, 32*2(%rdi)
446	vmovdqa $ACC3, 32*3(%rdi)
447	vmovdqa $ACC4, 32*4-160(%rax)
448	vmovdqa $ACC5, 32*5-160(%rax)
449	vmovdqa $ACC6, 32*6-160(%rax)
450	vmovdqa $ACC7, 32*7-160(%rax)
451	vmovdqa $ACC8, 32*8-160(%rax)
452	___
453	$ret;
454	}
455
456	$code.=<<___;
457	.type avx2_normalize,\@abi-omnipotent
458	.align 32
459	avx2_normalize:
460	vpsrlq $digit_size, $ACC0, $T0
461	vpand $AND_MASK, $ACC0, $ACC0
462	vpaddq $T0, $ACC1, $ACC1
463
464	vpsrlq $digit_size, $ACC1, $T0
465	vpand $AND_MASK, $ACC1, $ACC1
466	vpaddq $T0, $ACC2, $ACC2
467
468	vpsrlq $digit_size, $ACC2, $T0
469	vpand $AND_MASK, $ACC2, $ACC2
470	vpaddq $T0, $ACC3, $ACC3
471
472	vpsrlq $digit_size, $ACC3, $T0
473	vpand $AND_MASK, $ACC3, $ACC3
474	vpaddq $T0, $ACC4, $ACC4
475
476	vpsrlq $digit_size, $ACC4, $T0
477	vpand $AND_MASK, $ACC4, $ACC4
478	vpaddq $T0, $ACC5, $ACC5
479
480	vpsrlq $digit_size, $ACC5, $T0
481	vpand $AND_MASK, $ACC5, $ACC5
482	vpaddq $T0, $ACC6, $ACC6
483
484	vpsrlq $digit_size, $ACC6, $T0
485	vpand $AND_MASK, $ACC6, $ACC6
486	vpaddq $T0, $ACC7, $ACC7
487
488	vpsrlq $digit_size, $ACC7, $T0
489	vpand $AND_MASK, $ACC7, $ACC7
490	vpaddq $T0, $ACC8, $ACC8
491	#vpand $AND_MASK, $ACC8, $ACC8
492
493	ret
494	.size avx2_normalize,.-avx2_normalize
495
496	.type avx2_normalize_n_store,\@abi-omnipotent
497	.align 32
498	avx2_normalize_n_store:
499	vpsrlq $digit_size, $ACC0, $T0
500	vpand $AND_MASK, $ACC0, $ACC0
501	vpaddq $T0, $ACC1, $ACC1
502
503	vpsrlq $digit_size, $ACC1, $T0
504	vpand $AND_MASK, $ACC1, $ACC1
505	vmovdqa $ACC0, 32*0(%rdi)
506	lea 160(%rdi), %rax # size optimization
507	vpaddq $T0, $ACC2, $ACC2
508
509	vpsrlq $digit_size, $ACC2, $T0
510	vpand $AND_MASK, $ACC2, $ACC2
511	vmovdqa $ACC1, 32*1(%rdi)
512	vpaddq $T0, $ACC3, $ACC3
513
514	vpsrlq $digit_size, $ACC3, $T0
515	vpand $AND_MASK, $ACC3, $ACC3
516	vmovdqa $ACC2, 32*2(%rdi)
517	vpaddq $T0, $ACC4, $ACC4
518
519	vpsrlq $digit_size, $ACC4, $T0
520	vpand $AND_MASK, $ACC4, $ACC4
521	vmovdqa $ACC3, 32*3(%rdi)
522	vpaddq $T0, $ACC5, $ACC5
523
524	vpsrlq $digit_size, $ACC5, $T0
525	vpand $AND_MASK, $ACC5, $ACC5
526	vmovdqa $ACC4, 32*4-160(%rax)
527	vpaddq $T0, $ACC6, $ACC6
528
529	vpsrlq $digit_size, $ACC6, $T0
530	vpand $AND_MASK, $ACC6, $ACC6
531	vmovdqa $ACC5, 32*5-160(%rax)
532	vpaddq $T0, $ACC7, $ACC7
533
534	vpsrlq $digit_size, $ACC7, $T0
535	vpand $AND_MASK, $ACC7, $ACC7
536	vmovdqa $ACC6, 32*6-160(%rax)
537	vpaddq $T0, $ACC8, $ACC8
538	#vpand $AND_MASK, $ACC8, $ACC8
539	vmovdqa $ACC7, 32*7-160(%rax)
540	vmovdqa $ACC8, 32*8-160(%rax)
541
542	ret
543	.size avx2_normalize_n_store,.-avx2_normalize_n_store
544
545	################################################################################
546	# void avx2_mul_x4(void* RESULTx4, void Ax4, void Bx4);
547	.type avx2_mul_x4,\@abi-omnipotent
548	.align 32
549	avx2_mul_x4:
550	lea .LAVX2_POLY(%rip), %rax
551
552	vpxor $ACC0, $ACC0, $ACC0
553	vpxor $ACC1, $ACC1, $ACC1
554	vpxor $ACC2, $ACC2, $ACC2
555	vpxor $ACC3, $ACC3, $ACC3
556	vpxor $ACC4, $ACC4, $ACC4
557	vpxor $ACC5, $ACC5, $ACC5
558	vpxor $ACC6, $ACC6, $ACC6
559	vpxor $ACC7, $ACC7, $ACC7
560
561	vmovdqa 32*7(%rax), %ymm14
562	vmovdqa 32*8(%rax), %ymm15
563
564	mov $n_digits, $itr
565	lea -512($a_ptr), $a_ptr # strategic bias to control u-op density
566	jmp .Lavx2_mul_x4_loop
567
568	.align 32
569	.Lavx2_mul_x4_loop:
570	vmovdqa 32*0($b_ptr), $B
571	lea 32*1($b_ptr), $b_ptr
572
573	vpmuludq 32*0+512($a_ptr), $B, $T0
574	vpmuludq 32*1+512($a_ptr), $B, $OVERFLOW # borrow $OVERFLOW
575	vpaddq $T0, $ACC0, $ACC0
576	vpmuludq 32*2+512($a_ptr), $B, $T0
577	vpaddq $OVERFLOW, $ACC1, $ACC1
578	vpand $AND_MASK, $ACC0, $Y
579	vpmuludq 32*3+512($a_ptr), $B, $OVERFLOW
580	vpaddq $T0, $ACC2, $ACC2
581	vpmuludq 32*4+512($a_ptr), $B, $T0
582	vpaddq $OVERFLOW, $ACC3, $ACC3
583	vpmuludq 32*5+512($a_ptr), $B, $OVERFLOW
584	vpaddq $T0, $ACC4, $ACC4
585	vpmuludq 32*6+512($a_ptr), $B, $T0
586	vpaddq $OVERFLOW, $ACC5, $ACC5
587	vpmuludq 32*7+512($a_ptr), $B, $OVERFLOW
588	vpaddq $T0, $ACC6, $ACC6
589
590	# Skip some multiplications, optimizing for the constant poly
591	vpmuludq $AND_MASK, $Y, $T0
592	vpaddq $OVERFLOW, $ACC7, $ACC7
593	vpmuludq 32*8+512($a_ptr), $B, $ACC8
594	vpaddq $T0, $ACC0, $OVERFLOW
595	vpaddq $T0, $ACC1, $ACC0
596	vpsrlq $digit_size, $OVERFLOW, $OVERFLOW
597	vpaddq $T0, $ACC2, $ACC1
598	vpmuludq 32*3(%rax), $Y, $T0
599	vpaddq $OVERFLOW, $ACC0, $ACC0
600	vpaddq $T0, $ACC3, $ACC2
601	.byte 0x67
602	vmovdqa $ACC4, $ACC3
603	vpsllq \$18, $Y, $OVERFLOW
604	.byte 0x67
605	vmovdqa $ACC5, $ACC4
606	vpmuludq %ymm14, $Y, $T0
607	vpaddq $OVERFLOW, $ACC6, $ACC5
608	vpmuludq %ymm15, $Y, $OVERFLOW
609	vpaddq $T0, $ACC7, $ACC6
610	vpaddq $OVERFLOW, $ACC8, $ACC7
611
612	dec $itr
613	jnz .Lavx2_mul_x4_loop
614
615	vpxor $ACC8, $ACC8, $ACC8
616
617	ret
618	.size avx2_mul_x4,.-avx2_mul_x4
619
620	# Function optimized for the constant 1
621	################################################################################
622	# void avx2_mul_by1_x4(void* RESULTx4, void *Ax4);
623	.type avx2_mul_by1_x4,\@abi-omnipotent
624	.align 32
625	avx2_mul_by1_x4:
626	lea .LAVX2_POLY(%rip), %rax
627
628	vpxor $ACC0, $ACC0, $ACC0
629	vpxor $ACC1, $ACC1, $ACC1
630	vpxor $ACC2, $ACC2, $ACC2
631	vpxor $ACC3, $ACC3, $ACC3
632	vpxor $ACC4, $ACC4, $ACC4
633	vpxor $ACC5, $ACC5, $ACC5
634	vpxor $ACC6, $ACC6, $ACC6
635	vpxor $ACC7, $ACC7, $ACC7
636	vpxor $ACC8, $ACC8, $ACC8
637
638	vmovdqa 32*3+.LONE(%rip), %ymm14
639	vmovdqa 32*7+.LONE(%rip), %ymm15
640
641	mov $n_digits, $itr
642	jmp .Lavx2_mul_by1_x4_loop
643
644	.align 32
645	.Lavx2_mul_by1_x4_loop:
646	vmovdqa 32*0($a_ptr), $B
647	.byte 0x48,0x8d,0xb6,0x20,0,0,0 # lea 32*1($a_ptr), $a_ptr
648
649	vpsllq \$5, $B, $OVERFLOW
650	vpmuludq %ymm14, $B, $T0
651	vpaddq $OVERFLOW, $ACC0, $ACC0
652	vpaddq $T0, $ACC3, $ACC3
653	.byte 0x67
654	vpmuludq $AND_MASK, $B, $T0
655	vpand $AND_MASK, $ACC0, $Y
656	vpaddq $T0, $ACC4, $ACC4
657	vpaddq $T0, $ACC5, $ACC5
658	vpaddq $T0, $ACC6, $ACC6
659	vpsllq \$23, $B, $T0
660
661	.byte 0x67,0x67
662	vpmuludq %ymm15, $B, $OVERFLOW
663	vpsubq $T0, $ACC6, $ACC6
664
665	vpmuludq $AND_MASK, $Y, $T0
666	vpaddq $OVERFLOW, $ACC7, $ACC7
667	vpaddq $T0, $ACC0, $OVERFLOW
668	vpaddq $T0, $ACC1, $ACC0
669	.byte 0x67,0x67
670	vpsrlq $digit_size, $OVERFLOW, $OVERFLOW
671	vpaddq $T0, $ACC2, $ACC1
672	vpmuludq 32*3(%rax), $Y, $T0
673	vpaddq $OVERFLOW, $ACC0, $ACC0
674	vpaddq $T0, $ACC3, $ACC2
675	vmovdqa $ACC4, $ACC3
676	vpsllq \$18, $Y, $OVERFLOW
677	vmovdqa $ACC5, $ACC4
678	vpmuludq 32*7(%rax), $Y, $T0
679	vpaddq $OVERFLOW, $ACC6, $ACC5
680	vpaddq $T0, $ACC7, $ACC6
681	vpmuludq 32*8(%rax), $Y, $ACC7
682
683	dec $itr
684	jnz .Lavx2_mul_by1_x4_loop
685
686	ret
687	.size avx2_mul_by1_x4,.-avx2_mul_by1_x4
688
689	################################################################################
690	# void avx2_sqr_x4(void* RESULTx4, void Ax4, void Bx4);
691	.type avx2_sqr_x4,\@abi-omnipotent
692	.align 32
693	avx2_sqr_x4:
694	lea .LAVX2_POLY(%rip), %rax
695
696	vmovdqa 32*7(%rax), %ymm14
697	vmovdqa 32*8(%rax), %ymm15
698
699	vmovdqa 32*0($a_ptr), $B
700	vmovdqa 32*1($a_ptr), $ACC1
701	vmovdqa 32*2($a_ptr), $ACC2
702	vmovdqa 32*3($a_ptr), $ACC3
703	vmovdqa 32*4($a_ptr), $ACC4
704	vmovdqa 32*5($a_ptr), $ACC5
705	vmovdqa 32*6($a_ptr), $ACC6
706	vmovdqa 32*7($a_ptr), $ACC7
707	vpaddq $ACC1, $ACC1, $ACC1 # 2*$ACC0..7
708	vmovdqa 32*8($a_ptr), $ACC8
709	vpaddq $ACC2, $ACC2, $ACC2
710	vmovdqa $ACC1, 32*0(%rcx)
711	vpaddq $ACC3, $ACC3, $ACC3
712	vmovdqa $ACC2, 32*1(%rcx)
713	vpaddq $ACC4, $ACC4, $ACC4
714	vmovdqa $ACC3, 32*2(%rcx)
715	vpaddq $ACC5, $ACC5, $ACC5
716	vmovdqa $ACC4, 32*3(%rcx)
717	vpaddq $ACC6, $ACC6, $ACC6
718	vmovdqa $ACC5, 32*4(%rcx)
719	vpaddq $ACC7, $ACC7, $ACC7
720	vmovdqa $ACC6, 32*5(%rcx)
721	vpaddq $ACC8, $ACC8, $ACC8
722	vmovdqa $ACC7, 32*6(%rcx)
723	vmovdqa $ACC8, 32*7(%rcx)
724
725	#itr 1
726	vpmuludq $B, $B, $ACC0
727	vpmuludq $B, $ACC1, $ACC1
728	vpand $AND_MASK, $ACC0, $Y
729	vpmuludq $B, $ACC2, $ACC2
730	vpmuludq $B, $ACC3, $ACC3
731	vpmuludq $B, $ACC4, $ACC4
732	vpmuludq $B, $ACC5, $ACC5
733	vpmuludq $B, $ACC6, $ACC6
734	vpmuludq $AND_MASK, $Y, $T0
735	vpmuludq $B, $ACC7, $ACC7
736	vpmuludq $B, $ACC8, $ACC8
737	vmovdqa 32*1($a_ptr), $B
738
739	vpaddq $T0, $ACC0, $OVERFLOW
740	vpaddq $T0, $ACC1, $ACC0
741	vpsrlq $digit_size, $OVERFLOW, $OVERFLOW
742	vpaddq $T0, $ACC2, $ACC1
743	vpmuludq 32*3(%rax), $Y, $T0
744	vpaddq $OVERFLOW, $ACC0, $ACC0
745	vpaddq $T0, $ACC3, $ACC2
746	vmovdqa $ACC4, $ACC3
747	vpsllq \$18, $Y, $T0
748	vmovdqa $ACC5, $ACC4
749	vpmuludq %ymm14, $Y, $OVERFLOW
750	vpaddq $T0, $ACC6, $ACC5
751	vpmuludq %ymm15, $Y, $T0
752	vpaddq $OVERFLOW, $ACC7, $ACC6
753	vpaddq $T0, $ACC8, $ACC7
754
755	#itr 2
756	vpmuludq $B, $B, $OVERFLOW
757	vpand $AND_MASK, $ACC0, $Y
758	vpmuludq 32*1(%rcx), $B, $T0
759	vpaddq $OVERFLOW, $ACC1, $ACC1
760	vpmuludq 32*2(%rcx), $B, $OVERFLOW
761	vpaddq $T0, $ACC2, $ACC2
762	vpmuludq 32*3(%rcx), $B, $T0
763	vpaddq $OVERFLOW, $ACC3, $ACC3
764	vpmuludq 32*4(%rcx), $B, $OVERFLOW
765	vpaddq $T0, $ACC4, $ACC4
766	vpmuludq 32*5(%rcx), $B, $T0
767	vpaddq $OVERFLOW, $ACC5, $ACC5
768	vpmuludq 32*6(%rcx), $B, $OVERFLOW
769	vpaddq $T0, $ACC6, $ACC6
770
771	vpmuludq $AND_MASK, $Y, $T0
772	vpaddq $OVERFLOW, $ACC7, $ACC7
773	vpmuludq 32*7(%rcx), $B, $ACC8
774	vmovdqa 32*2($a_ptr), $B
775	vpaddq $T0, $ACC0, $OVERFLOW
776	vpaddq $T0, $ACC1, $ACC0
777	vpsrlq $digit_size, $OVERFLOW, $OVERFLOW
778	vpaddq $T0, $ACC2, $ACC1
779	vpmuludq 32*3(%rax), $Y, $T0
780	vpaddq $OVERFLOW, $ACC0, $ACC0
781	vpaddq $T0, $ACC3, $ACC2
782	vmovdqa $ACC4, $ACC3
783	vpsllq \$18, $Y, $T0
784	vmovdqa $ACC5, $ACC4
785	vpmuludq %ymm14, $Y, $OVERFLOW
786	vpaddq $T0, $ACC6, $ACC5
787	vpmuludq %ymm15, $Y, $T0
788	vpaddq $OVERFLOW, $ACC7, $ACC6
789	vpaddq $T0, $ACC8, $ACC7
790
791	#itr 3
792	vpmuludq $B, $B, $T0
793	vpand $AND_MASK, $ACC0, $Y
794	vpmuludq 32*2(%rcx), $B, $OVERFLOW
795	vpaddq $T0, $ACC2, $ACC2
796	vpmuludq 32*3(%rcx), $B, $T0
797	vpaddq $OVERFLOW, $ACC3, $ACC3
798	vpmuludq 32*4(%rcx), $B, $OVERFLOW
799	vpaddq $T0, $ACC4, $ACC4
800	vpmuludq 32*5(%rcx), $B, $T0
801	vpaddq $OVERFLOW, $ACC5, $ACC5
802	vpmuludq 32*6(%rcx), $B, $OVERFLOW
803	vpaddq $T0, $ACC6, $ACC6
804
805	vpmuludq $AND_MASK, $Y, $T0
806	vpaddq $OVERFLOW, $ACC7, $ACC7
807	vpmuludq 32*7(%rcx), $B, $ACC8
808	vmovdqa 32*3($a_ptr), $B
809	vpaddq $T0, $ACC0, $OVERFLOW
810	vpaddq $T0, $ACC1, $ACC0
811	vpsrlq $digit_size, $OVERFLOW, $OVERFLOW
812	vpaddq $T0, $ACC2, $ACC1
813	vpmuludq 32*3(%rax), $Y, $T0
814	vpaddq $OVERFLOW, $ACC0, $ACC0
815	vpaddq $T0, $ACC3, $ACC2
816	vmovdqa $ACC4, $ACC3
817	vpsllq \$18, $Y, $T0
818	vmovdqa $ACC5, $ACC4
819	vpmuludq %ymm14, $Y, $OVERFLOW
820	vpaddq $T0, $ACC6, $ACC5
821	vpmuludq %ymm15, $Y, $T0
822	vpand $AND_MASK, $ACC0, $Y
823	vpaddq $OVERFLOW, $ACC7, $ACC6
824	vpaddq $T0, $ACC8, $ACC7
825
826	#itr 4
827	vpmuludq $B, $B, $OVERFLOW
828	vpmuludq 32*3(%rcx), $B, $T0
829	vpaddq $OVERFLOW, $ACC3, $ACC3
830	vpmuludq 32*4(%rcx), $B, $OVERFLOW
831	vpaddq $T0, $ACC4, $ACC4
832	vpmuludq 32*5(%rcx), $B, $T0
833	vpaddq $OVERFLOW, $ACC5, $ACC5
834	vpmuludq 32*6(%rcx), $B, $OVERFLOW
835	vpaddq $T0, $ACC6, $ACC6
836
837	vpmuludq $AND_MASK, $Y, $T0
838	vpaddq $OVERFLOW, $ACC7, $ACC7
839	vpmuludq 32*7(%rcx), $B, $ACC8
840	vmovdqa 32*4($a_ptr), $B
841	vpaddq $T0, $ACC0, $OVERFLOW
842	vpaddq $T0, $ACC1, $ACC0
843	vpsrlq $digit_size, $OVERFLOW, $OVERFLOW
844	vpaddq $T0, $ACC2, $ACC1
845	vpmuludq 32*3(%rax), $Y, $T0
846	vpaddq $OVERFLOW, $ACC0, $ACC0
847	vpaddq $T0, $ACC3, $ACC2
848	vmovdqa $ACC4, $ACC3
849	vpsllq \$18, $Y, $T0
850	vmovdqa $ACC5, $ACC4
851	vpmuludq %ymm14, $Y, $OVERFLOW
852	vpaddq $T0, $ACC6, $ACC5
853	vpmuludq %ymm15, $Y, $T0
854	vpand $AND_MASK, $ACC0, $Y
855	vpaddq $OVERFLOW, $ACC7, $ACC6
856	vpaddq $T0, $ACC8, $ACC7
857
858	#itr 5
859	vpmuludq $B, $B, $T0
860	vpmuludq 32*4(%rcx), $B, $OVERFLOW
861	vpaddq $T0, $ACC4, $ACC4
862	vpmuludq 32*5(%rcx), $B, $T0
863	vpaddq $OVERFLOW, $ACC5, $ACC5
864	vpmuludq 32*6(%rcx), $B, $OVERFLOW
865	vpaddq $T0, $ACC6, $ACC6
866
867	vpmuludq $AND_MASK, $Y, $T0
868	vpaddq $OVERFLOW, $ACC7, $ACC7
869	vpmuludq 32*7(%rcx), $B, $ACC8
870	vmovdqa 32*5($a_ptr), $B
871	vpaddq $T0, $ACC0, $OVERFLOW
872	vpsrlq $digit_size, $OVERFLOW, $OVERFLOW
873	vpaddq $T0, $ACC1, $ACC0
874	vpaddq $T0, $ACC2, $ACC1
875	vpmuludq 32*3+.LAVX2_POLY(%rip), $Y, $T0
876	vpaddq $OVERFLOW, $ACC0, $ACC0
877	vpaddq $T0, $ACC3, $ACC2
878	vmovdqa $ACC4, $ACC3
879	vpsllq \$18, $Y, $T0
880	vmovdqa $ACC5, $ACC4
881	vpmuludq %ymm14, $Y, $OVERFLOW
882	vpaddq $T0, $ACC6, $ACC5
883	vpmuludq %ymm15, $Y, $T0
884	vpand $AND_MASK, $ACC0, $Y
885	vpaddq $OVERFLOW, $ACC7, $ACC6
886	vpaddq $T0, $ACC8, $ACC7
887
888	#itr 6
889	vpmuludq $B, $B, $OVERFLOW
890	vpmuludq 32*5(%rcx), $B, $T0
891	vpaddq $OVERFLOW, $ACC5, $ACC5
892	vpmuludq 32*6(%rcx), $B, $OVERFLOW
893	vpaddq $T0, $ACC6, $ACC6
894
895	vpmuludq $AND_MASK, $Y, $T0
896	vpaddq $OVERFLOW, $ACC7, $ACC7
897	vpmuludq 32*7(%rcx), $B, $ACC8
898	vmovdqa 32*6($a_ptr), $B
899	vpaddq $T0, $ACC0, $OVERFLOW
900	vpaddq $T0, $ACC1, $ACC0
901	vpsrlq $digit_size, $OVERFLOW, $OVERFLOW
902	vpaddq $T0, $ACC2, $ACC1
903	vpmuludq 32*3(%rax), $Y, $T0
904	vpaddq $OVERFLOW, $ACC0, $ACC0
905	vpaddq $T0, $ACC3, $ACC2
906	vmovdqa $ACC4, $ACC3
907	vpsllq \$18, $Y, $T0
908	vmovdqa $ACC5, $ACC4
909	vpmuludq %ymm14, $Y, $OVERFLOW
910	vpaddq $T0, $ACC6, $ACC5
911	vpmuludq %ymm15, $Y, $T0
912	vpand $AND_MASK, $ACC0, $Y
913	vpaddq $OVERFLOW, $ACC7, $ACC6
914	vpaddq $T0, $ACC8, $ACC7
915
916	#itr 7
917	vpmuludq $B, $B, $T0
918	vpmuludq 32*6(%rcx), $B, $OVERFLOW
919	vpaddq $T0, $ACC6, $ACC6
920
921	vpmuludq $AND_MASK, $Y, $T0
922	vpaddq $OVERFLOW, $ACC7, $ACC7
923	vpmuludq 32*7(%rcx), $B, $ACC8
924	vmovdqa 32*7($a_ptr), $B
925	vpaddq $T0, $ACC0, $OVERFLOW
926	vpsrlq $digit_size, $OVERFLOW, $OVERFLOW
927	vpaddq $T0, $ACC1, $ACC0
928	vpaddq $T0, $ACC2, $ACC1
929	vpmuludq 32*3(%rax), $Y, $T0
930	vpaddq $OVERFLOW, $ACC0, $ACC0
931	vpaddq $T0, $ACC3, $ACC2
932	vmovdqa $ACC4, $ACC3
933	vpsllq \$18, $Y, $T0
934	vmovdqa $ACC5, $ACC4
935	vpmuludq %ymm14, $Y, $OVERFLOW
936	vpaddq $T0, $ACC6, $ACC5
937	vpmuludq %ymm15, $Y, $T0
938	vpand $AND_MASK, $ACC0, $Y
939	vpaddq $OVERFLOW, $ACC7, $ACC6
940	vpaddq $T0, $ACC8, $ACC7
941
942	#itr 8
943	vpmuludq $B, $B, $OVERFLOW
944
945	vpmuludq $AND_MASK, $Y, $T0
946	vpaddq $OVERFLOW, $ACC7, $ACC7
947	vpmuludq 32*7(%rcx), $B, $ACC8
948	vmovdqa 32*8($a_ptr), $B
949	vpaddq $T0, $ACC0, $OVERFLOW
950	vpsrlq $digit_size, $OVERFLOW, $OVERFLOW
951	vpaddq $T0, $ACC1, $ACC0
952	vpaddq $T0, $ACC2, $ACC1
953	vpmuludq 32*3(%rax), $Y, $T0
954	vpaddq $OVERFLOW, $ACC0, $ACC0
955	vpaddq $T0, $ACC3, $ACC2
956	vmovdqa $ACC4, $ACC3
957	vpsllq \$18, $Y, $T0
958	vmovdqa $ACC5, $ACC4
959	vpmuludq %ymm14, $Y, $OVERFLOW
960	vpaddq $T0, $ACC6, $ACC5
961	vpmuludq %ymm15, $Y, $T0
962	vpand $AND_MASK, $ACC0, $Y
963	vpaddq $OVERFLOW, $ACC7, $ACC6
964	vpaddq $T0, $ACC8, $ACC7
965
966	#itr 9
967	vpmuludq $B, $B, $ACC8
968
969	vpmuludq $AND_MASK, $Y, $T0
970	vpaddq $T0, $ACC0, $OVERFLOW
971	vpsrlq $digit_size, $OVERFLOW, $OVERFLOW
972	vpaddq $T0, $ACC1, $ACC0
973	vpaddq $T0, $ACC2, $ACC1
974	vpmuludq 32*3(%rax), $Y, $T0
975	vpaddq $OVERFLOW, $ACC0, $ACC0
976	vpaddq $T0, $ACC3, $ACC2
977	vmovdqa $ACC4, $ACC3
978	vpsllq \$18, $Y, $T0
979	vmovdqa $ACC5, $ACC4
980	vpmuludq %ymm14, $Y, $OVERFLOW
981	vpaddq $T0, $ACC6, $ACC5
982	vpmuludq %ymm15, $Y, $T0
983	vpaddq $OVERFLOW, $ACC7, $ACC6
984	vpaddq $T0, $ACC8, $ACC7
985
986	vpxor $ACC8, $ACC8, $ACC8
987
988	ret
989	.size avx2_sqr_x4,.-avx2_sqr_x4
990
991	################################################################################
992	# void avx2_sub_x4(void* RESULTx4, void Ax4, void Bx4);
993	.type avx2_sub_x4,\@abi-omnipotent
994	.align 32
995	avx2_sub_x4:
996	vmovdqa 32*0($a_ptr), $ACC0
997	lea 160($a_ptr), $a_ptr
998	lea .LAVX2_POLY_x8+128(%rip), %rax
999	lea 128($b_ptr), $b_ptr
1000	vmovdqa 32*1-160($a_ptr), $ACC1
1001	vmovdqa 32*2-160($a_ptr), $ACC2
1002	vmovdqa 32*3-160($a_ptr), $ACC3
1003	vmovdqa 32*4-160($a_ptr), $ACC4
1004	vmovdqa 32*5-160($a_ptr), $ACC5
1005	vmovdqa 32*6-160($a_ptr), $ACC6
1006	vmovdqa 32*7-160($a_ptr), $ACC7
1007	vmovdqa 32*8-160($a_ptr), $ACC8
1008
1009	vpaddq 32*0-128(%rax), $ACC0, $ACC0
1010	vpaddq 32*1-128(%rax), $ACC1, $ACC1
1011	vpaddq 32*2-128(%rax), $ACC2, $ACC2
1012	vpaddq 32*3-128(%rax), $ACC3, $ACC3
1013	vpaddq 32*4-128(%rax), $ACC4, $ACC4
1014	vpaddq 32*5-128(%rax), $ACC5, $ACC5
1015	vpaddq 32*6-128(%rax), $ACC6, $ACC6
1016	vpaddq 32*7-128(%rax), $ACC7, $ACC7
1017	vpaddq 32*8-128(%rax), $ACC8, $ACC8
1018
1019	vpsubq 32*0-128($b_ptr), $ACC0, $ACC0
1020	vpsubq 32*1-128($b_ptr), $ACC1, $ACC1
1021	vpsubq 32*2-128($b_ptr), $ACC2, $ACC2
1022	vpsubq 32*3-128($b_ptr), $ACC3, $ACC3
1023	vpsubq 32*4-128($b_ptr), $ACC4, $ACC4
1024	vpsubq 32*5-128($b_ptr), $ACC5, $ACC5
1025	vpsubq 32*6-128($b_ptr), $ACC6, $ACC6
1026	vpsubq 32*7-128($b_ptr), $ACC7, $ACC7
1027	vpsubq 32*8-128($b_ptr), $ACC8, $ACC8
1028
1029	ret
1030	.size avx2_sub_x4,.-avx2_sub_x4
1031
1032	.type avx2_select_n_store,\@abi-omnipotent
1033	.align 32
1034	avx2_select_n_store:
1035	vmovdqa `8+3298`(%rsp), $Y
1036	vpor `8+3298+32`(%rsp), $Y, $Y
1037
1038	vpandn $ACC0, $Y, $ACC0
1039	vpandn $ACC1, $Y, $ACC1
1040	vpandn $ACC2, $Y, $ACC2
1041	vpandn $ACC3, $Y, $ACC3
1042	vpandn $ACC4, $Y, $ACC4
1043	vpandn $ACC5, $Y, $ACC5
1044	vpandn $ACC6, $Y, $ACC6
1045	vmovdqa `8+3298+32`(%rsp), $B
1046	vpandn $ACC7, $Y, $ACC7
1047	vpandn `8+3298`(%rsp), $B, $B
1048	vpandn $ACC8, $Y, $ACC8
1049
1050	vpand 32*0(%rsi), $B, $T0
1051	lea 160(%rsi), %rax
1052	vpand 32*1(%rsi), $B, $Y
1053	vpxor $T0, $ACC0, $ACC0
1054	vpand 32*2(%rsi), $B, $T0
1055	vpxor $Y, $ACC1, $ACC1
1056	vpand 32*3(%rsi), $B, $Y
1057	vpxor $T0, $ACC2, $ACC2
1058	vpand 32*4-160(%rax), $B, $T0
1059	vpxor $Y, $ACC3, $ACC3
1060	vpand 32*5-160(%rax), $B, $Y
1061	vpxor $T0, $ACC4, $ACC4
1062	vpand 32*6-160(%rax), $B, $T0
1063	vpxor $Y, $ACC5, $ACC5
1064	vpand 32*7-160(%rax), $B, $Y
1065	vpxor $T0, $ACC6, $ACC6
1066	vpand 32*8-160(%rax), $B, $T0
1067	vmovdqa `8+3298+32`(%rsp), $B
1068	vpxor $Y, $ACC7, $ACC7
1069
1070	vpand 32*0(%rdx), $B, $Y
1071	lea 160(%rdx), %rax
1072	vpxor $T0, $ACC8, $ACC8
1073	vpand 32*1(%rdx), $B, $T0
1074	vpxor $Y, $ACC0, $ACC0
1075	vpand 32*2(%rdx), $B, $Y
1076	vpxor $T0, $ACC1, $ACC1
1077	vpand 32*3(%rdx), $B, $T0
1078	vpxor $Y, $ACC2, $ACC2
1079	vpand 32*4-160(%rax), $B, $Y
1080	vpxor $T0, $ACC3, $ACC3
1081	vpand 32*5-160(%rax), $B, $T0
1082	vpxor $Y, $ACC4, $ACC4
1083	vpand 32*6-160(%rax), $B, $Y
1084	vpxor $T0, $ACC5, $ACC5
1085	vpand 32*7-160(%rax), $B, $T0
1086	vpxor $Y, $ACC6, $ACC6
1087	vpand 32*8-160(%rax), $B, $Y
1088	vpxor $T0, $ACC7, $ACC7
1089	vpxor $Y, $ACC8, $ACC8
1090	`&STORE`
1091
1092	ret
1093	.size avx2_select_n_store,.-avx2_select_n_store
1094	___
1095	$code.=<<___ if (0); # inlined
1096	################################################################################
1097	# void avx2_mul_by2_x4(void* RESULTx4, void *Ax4);
1098	.type avx2_mul_by2_x4,\@abi-omnipotent
1099	.align 32
1100	avx2_mul_by2_x4:
1101	vmovdqa 32*0($a_ptr), $ACC0
1102	lea 160($a_ptr), %rax
1103	vmovdqa 32*1($a_ptr), $ACC1
1104	vmovdqa 32*2($a_ptr), $ACC2
1105	vmovdqa 32*3($a_ptr), $ACC3
1106	vmovdqa 32*4-160(%rax), $ACC4
1107	vmovdqa 32*5-160(%rax), $ACC5
1108	vmovdqa 32*6-160(%rax), $ACC6
1109	vmovdqa 32*7-160(%rax), $ACC7
1110	vmovdqa 32*8-160(%rax), $ACC8
1111
1112	vpaddq $ACC0, $ACC0, $ACC0
1113	vpaddq $ACC1, $ACC1, $ACC1
1114	vpaddq $ACC2, $ACC2, $ACC2
1115	vpaddq $ACC3, $ACC3, $ACC3
1116	vpaddq $ACC4, $ACC4, $ACC4
1117	vpaddq $ACC5, $ACC5, $ACC5
1118	vpaddq $ACC6, $ACC6, $ACC6
1119	vpaddq $ACC7, $ACC7, $ACC7
1120	vpaddq $ACC8, $ACC8, $ACC8
1121
1122	ret
1123	.size avx2_mul_by2_x4,.-avx2_mul_by2_x4
1124	___
1125	my ($r_ptr_in,$a_ptr_in,$b_ptr_in)=("%rdi","%rsi","%rdx");
1126	my ($r_ptr,$a_ptr,$b_ptr)=("%r8","%r9","%r10");
1127
1128	$code.=<<___;
1129	################################################################################
1130	# void ecp_nistz256_avx2_point_add_affine_x4(void* RESULTx4, void Ax4, void Bx4);
1131	.globl ecp_nistz256_avx2_point_add_affine_x4
1132	.type ecp_nistz256_avx2_point_add_affine_x4,\@function,3
1133	.align 32
1134	ecp_nistz256_avx2_point_add_affine_x4:
1135	mov %rsp, %rax
1136	push %rbp
1137	vzeroupper
1138	___
1139	$code.=<<___ if ($win64);
1140	lea -16*10(%rsp), %rsp
1141	vmovaps %xmm6, -8-16*10(%rax)
1142	vmovaps %xmm7, -8-16*9(%rax)
1143	vmovaps %xmm8, -8-16*8(%rax)
1144	vmovaps %xmm9, -8-16*7(%rax)
1145	vmovaps %xmm10, -8-16*6(%rax)
1146	vmovaps %xmm11, -8-16*5(%rax)
1147	vmovaps %xmm12, -8-16*4(%rax)
1148	vmovaps %xmm13, -8-16*3(%rax)
1149	vmovaps %xmm14, -8-16*2(%rax)
1150	vmovaps %xmm15, -8-16*1(%rax)
1151	___
1152	$code.=<<___;
1153	lea -8(%rax), %rbp
1154
1155	# Result + 32*0 = Result.X
1156	# Result + 32*9 = Result.Y
1157	# Result + 32*18 = Result.Z
1158
1159	# A + 32*0 = A.X
1160	# A + 32*9 = A.Y
1161	# A + 32*18 = A.Z
1162
1163	# B + 32*0 = B.X
1164	# B + 32*9 = B.Y
1165
1166	sub \$`3298+322+328`, %rsp
1167	and \$-64, %rsp
1168
1169	mov $r_ptr_in, $r_ptr
1170	mov $a_ptr_in, $a_ptr
1171	mov $b_ptr_in, $b_ptr
1172
1173	vmovdqa 32*0($a_ptr_in), %ymm0
1174	vmovdqa .LAVX2_AND_MASK(%rip), $AND_MASK
1175	vpxor %ymm1, %ymm1, %ymm1
1176	lea 256($a_ptr_in), %rax # size optimization
1177	vpor 32*1($a_ptr_in), %ymm0, %ymm0
1178	vpor 32*2($a_ptr_in), %ymm0, %ymm0
1179	vpor 32*3($a_ptr_in), %ymm0, %ymm0
1180	vpor 32*4-256(%rax), %ymm0, %ymm0
1181	lea 256(%rax), %rcx # size optimization
1182	vpor 32*5-256(%rax), %ymm0, %ymm0
1183	vpor 32*6-256(%rax), %ymm0, %ymm0
1184	vpor 32*7-256(%rax), %ymm0, %ymm0
1185	vpor 32*8-256(%rax), %ymm0, %ymm0
1186	vpor 32*9-256(%rax), %ymm0, %ymm0
1187	vpor 32*10-256(%rax), %ymm0, %ymm0
1188	vpor 32*11-256(%rax), %ymm0, %ymm0
1189	vpor 32*12-512(%rcx), %ymm0, %ymm0
1190	vpor 32*13-512(%rcx), %ymm0, %ymm0
1191	vpor 32*14-512(%rcx), %ymm0, %ymm0
1192	vpor 32*15-512(%rcx), %ymm0, %ymm0
1193	vpor 32*16-512(%rcx), %ymm0, %ymm0
1194	vpor 32*17-512(%rcx), %ymm0, %ymm0
1195	vpcmpeqq %ymm1, %ymm0, %ymm0
1196	vmovdqa %ymm0, `3298`(%rsp)
1197
1198	vpxor %ymm1, %ymm1, %ymm1
1199	vmovdqa 32*0($b_ptr), %ymm0
1200	lea 256($b_ptr), %rax # size optimization
1201	vpor 32*1($b_ptr), %ymm0, %ymm0
1202	vpor 32*2($b_ptr), %ymm0, %ymm0
1203	vpor 32*3($b_ptr), %ymm0, %ymm0
1204	vpor 32*4-256(%rax), %ymm0, %ymm0
1205	lea 256(%rax), %rcx # size optimization
1206	vpor 32*5-256(%rax), %ymm0, %ymm0
1207	vpor 32*6-256(%rax), %ymm0, %ymm0
1208	vpor 32*7-256(%rax), %ymm0, %ymm0
1209	vpor 32*8-256(%rax), %ymm0, %ymm0
1210	vpor 32*9-256(%rax), %ymm0, %ymm0
1211	vpor 32*10-256(%rax), %ymm0, %ymm0
1212	vpor 32*11-256(%rax), %ymm0, %ymm0
1213	vpor 32*12-512(%rcx), %ymm0, %ymm0
1214	vpor 32*13-512(%rcx), %ymm0, %ymm0
1215	vpor 32*14-512(%rcx), %ymm0, %ymm0
1216	vpor 32*15-512(%rcx), %ymm0, %ymm0
1217	vpor 32*16-512(%rcx), %ymm0, %ymm0
1218	vpor 32*17-512(%rcx), %ymm0, %ymm0
1219	vpcmpeqq %ymm1, %ymm0, %ymm0
1220	vmovdqa %ymm0, `3298+32`(%rsp)
1221
1222	# Z1^2 = Z1*Z1
1223	lea `3292`($a_ptr), %rsi
1224	lea `3292`(%rsp), %rdi
1225	lea `3298+32*2`(%rsp), %rcx # temporary vector
1226	call avx2_sqr_x4
1227	call avx2_normalize_n_store
1228
1229	# U2 = X2*Z1^2
1230	lea `3290`($b_ptr), %rsi
1231	lea `3292`(%rsp), %rdx
1232	lea `3290`(%rsp), %rdi
1233	call avx2_mul_x4
1234	#call avx2_normalize
1235	`&STORE`
1236
1237	# S2 = Z1*Z1^2 = Z1^3
1238	lea `3292`($a_ptr), %rsi
1239	lea `3292`(%rsp), %rdx
1240	lea `3291`(%rsp), %rdi
1241	call avx2_mul_x4
1242	call avx2_normalize_n_store
1243
1244	# S2 = S2Y2 = Y2Z1^3
1245	lea `3291`($b_ptr), %rsi
1246	lea `3291`(%rsp), %rdx
1247	lea `3291`(%rsp), %rdi
1248	call avx2_mul_x4
1249	call avx2_normalize_n_store
1250
1251	# H = U2 - U1 = U2 - X1
1252	lea `3290`(%rsp), %rsi
1253	lea `3290`($a_ptr), %rdx
1254	lea `3293`(%rsp), %rdi
1255	call avx2_sub_x4
1256	call avx2_normalize_n_store
1257
1258	# R = S2 - S1 = S2 - Y1
1259	lea `3291`(%rsp), %rsi
1260	lea `3291`($a_ptr), %rdx
1261	lea `3294`(%rsp), %rdi
1262	call avx2_sub_x4
1263	call avx2_normalize_n_store
1264
1265	# Z3 = HZ1Z2
1266	lea `3293`(%rsp), %rsi
1267	lea `3292`($a_ptr), %rdx
1268	lea `3292`($r_ptr), %rdi
1269	call avx2_mul_x4
1270	call avx2_normalize
1271
1272	lea .LONE(%rip), %rsi
1273	lea `3292`($a_ptr), %rdx
1274	call avx2_select_n_store
1275
1276	# R^2 = R^2
1277	lea `3294`(%rsp), %rsi
1278	lea `3296`(%rsp), %rdi
1279	lea `3298+32*2`(%rsp), %rcx # temporary vector
1280	call avx2_sqr_x4
1281	call avx2_normalize_n_store
1282
1283	# H^2 = H^2
1284	lea `3293`(%rsp), %rsi
1285	lea `3295`(%rsp), %rdi
1286	call avx2_sqr_x4
1287	call avx2_normalize_n_store
1288
1289	# H^3 = H^2*H
1290	lea `3293`(%rsp), %rsi
1291	lea `3295`(%rsp), %rdx
1292	lea `3297`(%rsp), %rdi
1293	call avx2_mul_x4
1294	call avx2_normalize_n_store
1295
1296	# U2 = U1*H^2
1297	lea `3290`($a_ptr), %rsi
1298	lea `3295`(%rsp), %rdx
1299	lea `3290`(%rsp), %rdi
1300	call avx2_mul_x4
1301	#call avx2_normalize
1302	`&STORE`
1303
1304	# Hsqr = U2*2
1305	#lea 3290(%rsp), %rsi
1306	#lea 3295(%rsp), %rdi
1307	#call avx2_mul_by2_x4
1308
1309	vpaddq $ACC0, $ACC0, $ACC0 # inlined avx2_mul_by2_x4
1310	lea `3295`(%rsp), %rdi
1311	vpaddq $ACC1, $ACC1, $ACC1
1312	vpaddq $ACC2, $ACC2, $ACC2
1313	vpaddq $ACC3, $ACC3, $ACC3
1314	vpaddq $ACC4, $ACC4, $ACC4
1315	vpaddq $ACC5, $ACC5, $ACC5
1316	vpaddq $ACC6, $ACC6, $ACC6
1317	vpaddq $ACC7, $ACC7, $ACC7
1318	vpaddq $ACC8, $ACC8, $ACC8
1319	call avx2_normalize_n_store
1320
1321	# X3 = R^2 - H^3
1322	#lea 3296(%rsp), %rsi
1323	#lea 3297(%rsp), %rdx
1324	#lea 3295(%rsp), %rcx
1325	#lea 3290($r_ptr), %rdi
1326	#call avx2_sub_x4
1327	#NORMALIZE
1328	#STORE
1329
1330	# X3 = X3 - U2*2
1331	#lea 3290($r_ptr), %rsi
1332	#lea 3290($r_ptr), %rdi
1333	#call avx2_sub_x4
1334	#NORMALIZE
1335	#STORE
1336
1337	lea `3296+128`(%rsp), %rsi
1338	lea .LAVX2_POLY_x2+128(%rip), %rax
1339	lea `3297+128`(%rsp), %rdx
1340	lea `3295+128`(%rsp), %rcx
1341	lea `3290`($r_ptr), %rdi
1342
1343	vmovdqa 32*0-128(%rsi), $ACC0
1344	vmovdqa 32*1-128(%rsi), $ACC1
1345	vmovdqa 32*2-128(%rsi), $ACC2
1346	vmovdqa 32*3-128(%rsi), $ACC3
1347	vmovdqa 32*4-128(%rsi), $ACC4
1348	vmovdqa 32*5-128(%rsi), $ACC5
1349	vmovdqa 32*6-128(%rsi), $ACC6
1350	vmovdqa 32*7-128(%rsi), $ACC7
1351	vmovdqa 32*8-128(%rsi), $ACC8
1352
1353	vpaddq 32*0-128(%rax), $ACC0, $ACC0
1354	vpaddq 32*1-128(%rax), $ACC1, $ACC1
1355	vpaddq 32*2-128(%rax), $ACC2, $ACC2
1356	vpaddq 32*3-128(%rax), $ACC3, $ACC3
1357	vpaddq 32*4-128(%rax), $ACC4, $ACC4
1358	vpaddq 32*5-128(%rax), $ACC5, $ACC5
1359	vpaddq 32*6-128(%rax), $ACC6, $ACC6
1360	vpaddq 32*7-128(%rax), $ACC7, $ACC7
1361	vpaddq 32*8-128(%rax), $ACC8, $ACC8
1362
1363	vpsubq 32*0-128(%rdx), $ACC0, $ACC0
1364	vpsubq 32*1-128(%rdx), $ACC1, $ACC1
1365	vpsubq 32*2-128(%rdx), $ACC2, $ACC2
1366	vpsubq 32*3-128(%rdx), $ACC3, $ACC3
1367	vpsubq 32*4-128(%rdx), $ACC4, $ACC4
1368	vpsubq 32*5-128(%rdx), $ACC5, $ACC5
1369	vpsubq 32*6-128(%rdx), $ACC6, $ACC6
1370	vpsubq 32*7-128(%rdx), $ACC7, $ACC7
1371	vpsubq 32*8-128(%rdx), $ACC8, $ACC8
1372
1373	vpsubq 32*0-128(%rcx), $ACC0, $ACC0
1374	vpsubq 32*1-128(%rcx), $ACC1, $ACC1
1375	vpsubq 32*2-128(%rcx), $ACC2, $ACC2
1376	vpsubq 32*3-128(%rcx), $ACC3, $ACC3
1377	vpsubq 32*4-128(%rcx), $ACC4, $ACC4
1378	vpsubq 32*5-128(%rcx), $ACC5, $ACC5
1379	vpsubq 32*6-128(%rcx), $ACC6, $ACC6
1380	vpsubq 32*7-128(%rcx), $ACC7, $ACC7
1381	vpsubq 32*8-128(%rcx), $ACC8, $ACC8
1382	call avx2_normalize
1383
1384	lea 32*0($b_ptr), %rsi
1385	lea 32*0($a_ptr), %rdx
1386	call avx2_select_n_store
1387
1388	# H = U2 - X3
1389	lea `3290`(%rsp), %rsi
1390	lea `3290`($r_ptr), %rdx
1391	lea `3293`(%rsp), %rdi
1392	call avx2_sub_x4
1393	call avx2_normalize_n_store
1394
1395	#
1396	lea `3293`(%rsp), %rsi
1397	lea `3294`(%rsp), %rdx
1398	lea `3293`(%rsp), %rdi
1399	call avx2_mul_x4
1400	call avx2_normalize_n_store
1401
1402	#
1403	lea `3297`(%rsp), %rsi
1404	lea `3291`($a_ptr), %rdx
1405	lea `3291`(%rsp), %rdi
1406	call avx2_mul_x4
1407	call avx2_normalize_n_store
1408
1409	#
1410	lea `3293`(%rsp), %rsi
1411	lea `3291`(%rsp), %rdx
1412	lea `3291`($r_ptr), %rdi
1413	call avx2_sub_x4
1414	call avx2_normalize
1415
1416	lea 32*9($b_ptr), %rsi
1417	lea 32*9($a_ptr), %rdx
1418	call avx2_select_n_store
1419
1420	#lea 3290($r_ptr), %rsi
1421	#lea 3290($r_ptr), %rdi
1422	#call avx2_mul_by1_x4
1423	#NORMALIZE
1424	#STORE
1425
1426	lea `3291`($r_ptr), %rsi
1427	lea `3291`($r_ptr), %rdi
1428	call avx2_mul_by1_x4
1429	call avx2_normalize_n_store
1430
1431	vzeroupper
1432	___
1433	$code.=<<___ if ($win64);
1434	movaps %xmm6, -16*10(%rbp)
1435	movaps %xmm7, -16*9(%rbp)
1436	movaps %xmm8, -16*8(%rbp)
1437	movaps %xmm9, -16*7(%rbp)
1438	movaps %xmm10, -16*6(%rbp)
1439	movaps %xmm11, -16*5(%rbp)
1440	movaps %xmm12, -16*4(%rbp)
1441	movaps %xmm13, -16*3(%rbp)
1442	movaps %xmm14, -16*2(%rbp)
1443	movaps %xmm15, -16*1(%rbp)
1444	___
1445	$code.=<<___;
1446	mov %rbp, %rsp
1447	pop %rbp
1448	ret
1449	.size ecp_nistz256_avx2_point_add_affine_x4,.-ecp_nistz256_avx2_point_add_affine_x4
1450
1451	################################################################################
1452	# void ecp_nistz256_avx2_point_add_affines_x4(void* RESULTx4, void Ax4, void Bx4);
1453	.globl ecp_nistz256_avx2_point_add_affines_x4
1454	.type ecp_nistz256_avx2_point_add_affines_x4,\@function,3
1455	.align 32
1456	ecp_nistz256_avx2_point_add_affines_x4:
1457	mov %rsp, %rax
1458	push %rbp
1459	vzeroupper
1460	___
1461	$code.=<<___ if ($win64);
1462	lea -16*10(%rsp), %rsp
1463	vmovaps %xmm6, -8-16*10(%rax)
1464	vmovaps %xmm7, -8-16*9(%rax)
1465	vmovaps %xmm8, -8-16*8(%rax)
1466	vmovaps %xmm9, -8-16*7(%rax)
1467	vmovaps %xmm10, -8-16*6(%rax)
1468	vmovaps %xmm11, -8-16*5(%rax)
1469	vmovaps %xmm12, -8-16*4(%rax)
1470	vmovaps %xmm13, -8-16*3(%rax)
1471	vmovaps %xmm14, -8-16*2(%rax)
1472	vmovaps %xmm15, -8-16*1(%rax)
1473	___
1474	$code.=<<___;
1475	lea -8(%rax), %rbp
1476
1477	# Result + 32*0 = Result.X
1478	# Result + 32*9 = Result.Y
1479	# Result + 32*18 = Result.Z
1480
1481	# A + 32*0 = A.X
1482	# A + 32*9 = A.Y
1483
1484	# B + 32*0 = B.X
1485	# B + 32*9 = B.Y
1486
1487	sub \$`3298+322+328`, %rsp
1488	and \$-64, %rsp
1489
1490	mov $r_ptr_in, $r_ptr
1491	mov $a_ptr_in, $a_ptr
1492	mov $b_ptr_in, $b_ptr
1493
1494	vmovdqa 32*0($a_ptr_in), %ymm0
1495	vmovdqa .LAVX2_AND_MASK(%rip), $AND_MASK
1496	vpxor %ymm1, %ymm1, %ymm1
1497	lea 256($a_ptr_in), %rax # size optimization
1498	vpor 32*1($a_ptr_in), %ymm0, %ymm0
1499	vpor 32*2($a_ptr_in), %ymm0, %ymm0
1500	vpor 32*3($a_ptr_in), %ymm0, %ymm0
1501	vpor 32*4-256(%rax), %ymm0, %ymm0
1502	lea 256(%rax), %rcx # size optimization
1503	vpor 32*5-256(%rax), %ymm0, %ymm0
1504	vpor 32*6-256(%rax), %ymm0, %ymm0
1505	vpor 32*7-256(%rax), %ymm0, %ymm0
1506	vpor 32*8-256(%rax), %ymm0, %ymm0
1507	vpor 32*9-256(%rax), %ymm0, %ymm0
1508	vpor 32*10-256(%rax), %ymm0, %ymm0
1509	vpor 32*11-256(%rax), %ymm0, %ymm0
1510	vpor 32*12-512(%rcx), %ymm0, %ymm0
1511	vpor 32*13-512(%rcx), %ymm0, %ymm0
1512	vpor 32*14-512(%rcx), %ymm0, %ymm0
1513	vpor 32*15-512(%rcx), %ymm0, %ymm0
1514	vpor 32*16-512(%rcx), %ymm0, %ymm0
1515	vpor 32*17-512(%rcx), %ymm0, %ymm0
1516	vpcmpeqq %ymm1, %ymm0, %ymm0
1517	vmovdqa %ymm0, `3298`(%rsp)
1518
1519	vpxor %ymm1, %ymm1, %ymm1
1520	vmovdqa 32*0($b_ptr), %ymm0
1521	lea 256($b_ptr), %rax # size optimization
1522	vpor 32*1($b_ptr), %ymm0, %ymm0
1523	vpor 32*2($b_ptr), %ymm0, %ymm0
1524	vpor 32*3($b_ptr), %ymm0, %ymm0
1525	vpor 32*4-256(%rax), %ymm0, %ymm0
1526	lea 256(%rax), %rcx # size optimization
1527	vpor 32*5-256(%rax), %ymm0, %ymm0
1528	vpor 32*6-256(%rax), %ymm0, %ymm0
1529	vpor 32*7-256(%rax), %ymm0, %ymm0
1530	vpor 32*8-256(%rax), %ymm0, %ymm0
1531	vpor 32*9-256(%rax), %ymm0, %ymm0
1532	vpor 32*10-256(%rax), %ymm0, %ymm0
1533	vpor 32*11-256(%rax), %ymm0, %ymm0
1534	vpor 32*12-512(%rcx), %ymm0, %ymm0
1535	vpor 32*13-512(%rcx), %ymm0, %ymm0
1536	vpor 32*14-512(%rcx), %ymm0, %ymm0
1537	vpor 32*15-512(%rcx), %ymm0, %ymm0
1538	vpor 32*16-512(%rcx), %ymm0, %ymm0
1539	vpor 32*17-512(%rcx), %ymm0, %ymm0
1540	vpcmpeqq %ymm1, %ymm0, %ymm0
1541	vmovdqa %ymm0, `3298+32`(%rsp)
1542
1543	# H = U2 - U1 = X2 - X1
1544	lea `3290`($b_ptr), %rsi
1545	lea `3290`($a_ptr), %rdx
1546	lea `3293`(%rsp), %rdi
1547	call avx2_sub_x4
1548	call avx2_normalize_n_store
1549
1550	# R = S2 - S1 = Y2 - Y1
1551	lea `3291`($b_ptr), %rsi
1552	lea `3291`($a_ptr), %rdx
1553	lea `3294`(%rsp), %rdi
1554	call avx2_sub_x4
1555	call avx2_normalize_n_store
1556
1557	# Z3 = HZ1Z2 = H
1558	lea `3293`(%rsp), %rsi
1559	lea `3292`($r_ptr), %rdi
1560	call avx2_mul_by1_x4
1561	call avx2_normalize
1562
1563	vmovdqa `3298`(%rsp), $B
1564	vpor `3298+32`(%rsp), $B, $B
1565
1566	vpandn $ACC0, $B, $ACC0
1567	lea .LONE+128(%rip), %rax
1568	vpandn $ACC1, $B, $ACC1
1569	vpandn $ACC2, $B, $ACC2
1570	vpandn $ACC3, $B, $ACC3
1571	vpandn $ACC4, $B, $ACC4
1572	vpandn $ACC5, $B, $ACC5
1573	vpandn $ACC6, $B, $ACC6
1574	vpandn $ACC7, $B, $ACC7
1575
1576	vpand 32*0-128(%rax), $B, $T0
1577	vpandn $ACC8, $B, $ACC8
1578	vpand 32*1-128(%rax), $B, $Y
1579	vpxor $T0, $ACC0, $ACC0
1580	vpand 32*2-128(%rax), $B, $T0
1581	vpxor $Y, $ACC1, $ACC1
1582	vpand 32*3-128(%rax), $B, $Y
1583	vpxor $T0, $ACC2, $ACC2
1584	vpand 32*4-128(%rax), $B, $T0
1585	vpxor $Y, $ACC3, $ACC3
1586	vpand 32*5-128(%rax), $B, $Y
1587	vpxor $T0, $ACC4, $ACC4
1588	vpand 32*6-128(%rax), $B, $T0
1589	vpxor $Y, $ACC5, $ACC5
1590	vpand 32*7-128(%rax), $B, $Y
1591	vpxor $T0, $ACC6, $ACC6
1592	vpand 32*8-128(%rax), $B, $T0
1593	vpxor $Y, $ACC7, $ACC7
1594	vpxor $T0, $ACC8, $ACC8
1595	`&STORE`
1596
1597	# R^2 = R^2
1598	lea `3294`(%rsp), %rsi
1599	lea `3296`(%rsp), %rdi
1600	lea `3298+32*2`(%rsp), %rcx # temporary vector
1601	call avx2_sqr_x4
1602	call avx2_normalize_n_store
1603
1604	# H^2 = H^2
1605	lea `3293`(%rsp), %rsi
1606	lea `3295`(%rsp), %rdi
1607	call avx2_sqr_x4
1608	call avx2_normalize_n_store
1609
1610	# H^3 = H^2*H
1611	lea `3293`(%rsp), %rsi
1612	lea `3295`(%rsp), %rdx
1613	lea `3297`(%rsp), %rdi
1614	call avx2_mul_x4
1615	call avx2_normalize_n_store
1616
1617	# U2 = U1*H^2
1618	lea `3290`($a_ptr), %rsi
1619	lea `3295`(%rsp), %rdx
1620	lea `3290`(%rsp), %rdi
1621	call avx2_mul_x4
1622	#call avx2_normalize
1623	`&STORE`
1624
1625	# Hsqr = U2*2
1626	#lea 3290(%rsp), %rsi
1627	#lea 3295(%rsp), %rdi
1628	#call avx2_mul_by2_x4
1629
1630	vpaddq $ACC0, $ACC0, $ACC0 # inlined avx2_mul_by2_x4
1631	lea `3295`(%rsp), %rdi
1632	vpaddq $ACC1, $ACC1, $ACC1
1633	vpaddq $ACC2, $ACC2, $ACC2
1634	vpaddq $ACC3, $ACC3, $ACC3
1635	vpaddq $ACC4, $ACC4, $ACC4
1636	vpaddq $ACC5, $ACC5, $ACC5
1637	vpaddq $ACC6, $ACC6, $ACC6
1638	vpaddq $ACC7, $ACC7, $ACC7
1639	vpaddq $ACC8, $ACC8, $ACC8
1640	call avx2_normalize_n_store
1641
1642	# X3 = R^2 - H^3
1643	#lea 3296(%rsp), %rsi
1644	#lea 3297(%rsp), %rdx
1645	#lea 3295(%rsp), %rcx
1646	#lea 3290($r_ptr), %rdi
1647	#call avx2_sub_x4
1648	#NORMALIZE
1649	#STORE
1650
1651	# X3 = X3 - U2*2
1652	#lea 3290($r_ptr), %rsi
1653	#lea 3290($r_ptr), %rdi
1654	#call avx2_sub_x4
1655	#NORMALIZE
1656	#STORE
1657
1658	lea `3296+128`(%rsp), %rsi
1659	lea .LAVX2_POLY_x2+128(%rip), %rax
1660	lea `3297+128`(%rsp), %rdx
1661	lea `3295+128`(%rsp), %rcx
1662	lea `3290`($r_ptr), %rdi
1663
1664	vmovdqa 32*0-128(%rsi), $ACC0
1665	vmovdqa 32*1-128(%rsi), $ACC1
1666	vmovdqa 32*2-128(%rsi), $ACC2
1667	vmovdqa 32*3-128(%rsi), $ACC3
1668	vmovdqa 32*4-128(%rsi), $ACC4
1669	vmovdqa 32*5-128(%rsi), $ACC5
1670	vmovdqa 32*6-128(%rsi), $ACC6
1671	vmovdqa 32*7-128(%rsi), $ACC7
1672	vmovdqa 32*8-128(%rsi), $ACC8
1673
1674	vpaddq 32*0-128(%rax), $ACC0, $ACC0
1675	vpaddq 32*1-128(%rax), $ACC1, $ACC1
1676	vpaddq 32*2-128(%rax), $ACC2, $ACC2
1677	vpaddq 32*3-128(%rax), $ACC3, $ACC3
1678	vpaddq 32*4-128(%rax), $ACC4, $ACC4
1679	vpaddq 32*5-128(%rax), $ACC5, $ACC5
1680	vpaddq 32*6-128(%rax), $ACC6, $ACC6
1681	vpaddq 32*7-128(%rax), $ACC7, $ACC7
1682	vpaddq 32*8-128(%rax), $ACC8, $ACC8
1683
1684	vpsubq 32*0-128(%rdx), $ACC0, $ACC0
1685	vpsubq 32*1-128(%rdx), $ACC1, $ACC1
1686	vpsubq 32*2-128(%rdx), $ACC2, $ACC2
1687	vpsubq 32*3-128(%rdx), $ACC3, $ACC3
1688	vpsubq 32*4-128(%rdx), $ACC4, $ACC4
1689	vpsubq 32*5-128(%rdx), $ACC5, $ACC5
1690	vpsubq 32*6-128(%rdx), $ACC6, $ACC6
1691	vpsubq 32*7-128(%rdx), $ACC7, $ACC7
1692	vpsubq 32*8-128(%rdx), $ACC8, $ACC8
1693
1694	vpsubq 32*0-128(%rcx), $ACC0, $ACC0
1695	vpsubq 32*1-128(%rcx), $ACC1, $ACC1
1696	vpsubq 32*2-128(%rcx), $ACC2, $ACC2
1697	vpsubq 32*3-128(%rcx), $ACC3, $ACC3
1698	vpsubq 32*4-128(%rcx), $ACC4, $ACC4
1699	vpsubq 32*5-128(%rcx), $ACC5, $ACC5
1700	vpsubq 32*6-128(%rcx), $ACC6, $ACC6
1701	vpsubq 32*7-128(%rcx), $ACC7, $ACC7
1702	vpsubq 32*8-128(%rcx), $ACC8, $ACC8
1703	call avx2_normalize
1704
1705	lea 32*0($b_ptr), %rsi
1706	lea 32*0($a_ptr), %rdx
1707	call avx2_select_n_store
1708
1709	# H = U2 - X3
1710	lea `3290`(%rsp), %rsi
1711	lea `3290`($r_ptr), %rdx
1712	lea `3293`(%rsp), %rdi
1713	call avx2_sub_x4
1714	call avx2_normalize_n_store
1715
1716	# H = H*R
1717	lea `3293`(%rsp), %rsi
1718	lea `3294`(%rsp), %rdx
1719	lea `3293`(%rsp), %rdi
1720	call avx2_mul_x4
1721	call avx2_normalize_n_store
1722
1723	# S2 = S1 * H^3
1724	lea `3297`(%rsp), %rsi
1725	lea `3291`($a_ptr), %rdx
1726	lea `3291`(%rsp), %rdi
1727	call avx2_mul_x4
1728	call avx2_normalize_n_store
1729
1730	#
1731	lea `3293`(%rsp), %rsi
1732	lea `3291`(%rsp), %rdx
1733	lea `3291`($r_ptr), %rdi
1734	call avx2_sub_x4
1735	call avx2_normalize
1736
1737	lea 32*9($b_ptr), %rsi
1738	lea 32*9($a_ptr), %rdx
1739	call avx2_select_n_store
1740
1741	#lea 3290($r_ptr), %rsi
1742	#lea 3290($r_ptr), %rdi
1743	#call avx2_mul_by1_x4
1744	#NORMALIZE
1745	#STORE
1746
1747	lea `3291`($r_ptr), %rsi
1748	lea `3291`($r_ptr), %rdi
1749	call avx2_mul_by1_x4
1750	call avx2_normalize_n_store
1751
1752	vzeroupper
1753	___
1754	$code.=<<___ if ($win64);
1755	movaps %xmm6, -16*10(%rbp)
1756	movaps %xmm7, -16*9(%rbp)
1757	movaps %xmm8, -16*8(%rbp)
1758	movaps %xmm9, -16*7(%rbp)
1759	movaps %xmm10, -16*6(%rbp)
1760	movaps %xmm11, -16*5(%rbp)
1761	movaps %xmm12, -16*4(%rbp)
1762	movaps %xmm13, -16*3(%rbp)
1763	movaps %xmm14, -16*2(%rbp)
1764	movaps %xmm15, -16*1(%rbp)
1765	___
1766	$code.=<<___;
1767	mov %rbp, %rsp
1768	pop %rbp
1769	ret
1770	.size ecp_nistz256_avx2_point_add_affines_x4,.-ecp_nistz256_avx2_point_add_affines_x4
1771
1772	################################################################################
1773	# void ecp_nistz256_avx2_to_mont(void* RESULTx4, void *Ax4);
1774	.globl ecp_nistz256_avx2_to_mont
1775	.type ecp_nistz256_avx2_to_mont,\@function,2
1776	.align 32
1777	ecp_nistz256_avx2_to_mont:
1778	vzeroupper
1779	___
1780	$code.=<<___ if ($win64);
1781	lea -8-16*10(%rsp), %rsp
1782	vmovaps %xmm6, -8-16*10(%rax)
1783	vmovaps %xmm7, -8-16*9(%rax)
1784	vmovaps %xmm8, -8-16*8(%rax)
1785	vmovaps %xmm9, -8-16*7(%rax)
1786	vmovaps %xmm10, -8-16*6(%rax)
1787	vmovaps %xmm11, -8-16*5(%rax)
1788	vmovaps %xmm12, -8-16*4(%rax)
1789	vmovaps %xmm13, -8-16*3(%rax)
1790	vmovaps %xmm14, -8-16*2(%rax)
1791	vmovaps %xmm15, -8-16*1(%rax)
1792	___
1793	$code.=<<___;
1794	vmovdqa .LAVX2_AND_MASK(%rip), $AND_MASK
1795	lea .LTO_MONT_AVX2(%rip), %rdx
1796	call avx2_mul_x4
1797	call avx2_normalize_n_store
1798
1799	vzeroupper
1800	___
1801	$code.=<<___ if ($win64);
1802	movaps 16*0(%rsp), %xmm6
1803	movaps 16*1(%rsp), %xmm7
1804	movaps 16*2(%rsp), %xmm8
1805	movaps 16*3(%rsp), %xmm9
1806	movaps 16*4(%rsp), %xmm10
1807	movaps 16*5(%rsp), %xmm11
1808	movaps 16*6(%rsp), %xmm12
1809	movaps 16*7(%rsp), %xmm13
1810	movaps 16*8(%rsp), %xmm14
1811	movaps 16*9(%rsp), %xmm15
1812	lea 8+16*10(%rsp), %rsp
1813	___
1814	$code.=<<___;
1815	ret
1816	.size ecp_nistz256_avx2_to_mont,.-ecp_nistz256_avx2_to_mont
1817
1818	################################################################################
1819	# void ecp_nistz256_avx2_from_mont(void* RESULTx4, void *Ax4);
1820	.globl ecp_nistz256_avx2_from_mont
1821	.type ecp_nistz256_avx2_from_mont,\@function,2
1822	.align 32
1823	ecp_nistz256_avx2_from_mont:
1824	vzeroupper
1825	___
1826	$code.=<<___ if ($win64);
1827	lea -8-16*10(%rsp), %rsp
1828	vmovaps %xmm6, -8-16*10(%rax)
1829	vmovaps %xmm7, -8-16*9(%rax)
1830	vmovaps %xmm8, -8-16*8(%rax)
1831	vmovaps %xmm9, -8-16*7(%rax)
1832	vmovaps %xmm10, -8-16*6(%rax)
1833	vmovaps %xmm11, -8-16*5(%rax)
1834	vmovaps %xmm12, -8-16*4(%rax)
1835	vmovaps %xmm13, -8-16*3(%rax)
1836	vmovaps %xmm14, -8-16*2(%rax)
1837	vmovaps %xmm15, -8-16*1(%rax)
1838	___
1839	$code.=<<___;
1840	vmovdqa .LAVX2_AND_MASK(%rip), $AND_MASK
1841	lea .LFROM_MONT_AVX2(%rip), %rdx
1842	call avx2_mul_x4
1843	call avx2_normalize_n_store
1844
1845	vzeroupper
1846	___
1847	$code.=<<___ if ($win64);
1848	movaps 16*0(%rsp), %xmm6
1849	movaps 16*1(%rsp), %xmm7
1850	movaps 16*2(%rsp), %xmm8
1851	movaps 16*3(%rsp), %xmm9
1852	movaps 16*4(%rsp), %xmm10
1853	movaps 16*5(%rsp), %xmm11
1854	movaps 16*6(%rsp), %xmm12
1855	movaps 16*7(%rsp), %xmm13
1856	movaps 16*8(%rsp), %xmm14
1857	movaps 16*9(%rsp), %xmm15
1858	lea 8+16*10(%rsp), %rsp
1859	___
1860	$code.=<<___;
1861	ret
1862	.size ecp_nistz256_avx2_from_mont,.-ecp_nistz256_avx2_from_mont
1863
1864	################################################################################
1865	# void ecp_nistz256_avx2_set1(void* RESULTx4);
1866	.globl ecp_nistz256_avx2_set1
1867	.type ecp_nistz256_avx2_set1,\@function,1
1868	.align 32
1869	ecp_nistz256_avx2_set1:
1870	lea .LONE+128(%rip), %rax
1871	lea 128(%rdi), %rdi
1872	vzeroupper
1873	vmovdqa 32*0-128(%rax), %ymm0
1874	vmovdqa 32*1-128(%rax), %ymm1
1875	vmovdqa 32*2-128(%rax), %ymm2
1876	vmovdqa 32*3-128(%rax), %ymm3
1877	vmovdqa 32*4-128(%rax), %ymm4
1878	vmovdqa 32*5-128(%rax), %ymm5
1879	vmovdqa %ymm0, 32*0-128(%rdi)
1880	vmovdqa 32*6-128(%rax), %ymm0
1881	vmovdqa %ymm1, 32*1-128(%rdi)
1882	vmovdqa 32*7-128(%rax), %ymm1
1883	vmovdqa %ymm2, 32*2-128(%rdi)
1884	vmovdqa 32*8-128(%rax), %ymm2
1885	vmovdqa %ymm3, 32*3-128(%rdi)
1886	vmovdqa %ymm4, 32*4-128(%rdi)
1887	vmovdqa %ymm5, 32*5-128(%rdi)
1888	vmovdqa %ymm0, 32*6-128(%rdi)
1889	vmovdqa %ymm1, 32*7-128(%rdi)
1890	vmovdqa %ymm2, 32*8-128(%rdi)
1891
1892	vzeroupper
1893	ret
1894	.size ecp_nistz256_avx2_set1,.-ecp_nistz256_avx2_set1
1895	___
1896	}
1897	{
1898	################################################################################
1899	# void ecp_nistz256_avx2_multi_gather_w7(void* RESULT, void *in,
1900	# int index0, int index1, int index2, int index3);
1901	################################################################################
1902
1903	my ($val,$in_t,$index0,$index1,$index2,$index3)=("%rdi","%rsi","%edx","%ecx","%r8d","%r9d");
1904	my ($INDEX0,$INDEX1,$INDEX2,$INDEX3)=map("%ymm$_",(0..3));
1905	my ($R0a,$R0b,$R1a,$R1b,$R2a,$R2b,$R3a,$R3b)=map("%ymm$_",(4..11));
1906	my ($M0,$T0,$T1,$TMP0)=map("%ymm$_",(12..15));
1907
1908	$code.=<<___;
1909	.globl ecp_nistz256_avx2_multi_gather_w7
1910	.type ecp_nistz256_avx2_multi_gather_w7,\@function,6
1911	.align 32
1912	ecp_nistz256_avx2_multi_gather_w7:
1913	vzeroupper
1914	___
1915	$code.=<<___ if ($win64);
1916	lea -8-16*10(%rsp), %rsp
1917	vmovaps %xmm6, -8-16*10(%rax)
1918	vmovaps %xmm7, -8-16*9(%rax)
1919	vmovaps %xmm8, -8-16*8(%rax)
1920	vmovaps %xmm9, -8-16*7(%rax)
1921	vmovaps %xmm10, -8-16*6(%rax)
1922	vmovaps %xmm11, -8-16*5(%rax)
1923	vmovaps %xmm12, -8-16*4(%rax)
1924	vmovaps %xmm13, -8-16*3(%rax)
1925	vmovaps %xmm14, -8-16*2(%rax)
1926	vmovaps %xmm15, -8-16*1(%rax)
1927	___
1928	$code.=<<___;
1929	lea .LIntOne(%rip), %rax
1930
1931	vmovd $index0, %xmm0
1932	vmovd $index1, %xmm1
1933	vmovd $index2, %xmm2
1934	vmovd $index3, %xmm3
1935
1936	vpxor $R0a, $R0a, $R0a
1937	vpxor $R0b, $R0b, $R0b
1938	vpxor $R1a, $R1a, $R1a
1939	vpxor $R1b, $R1b, $R1b
1940	vpxor $R2a, $R2a, $R2a
1941	vpxor $R2b, $R2b, $R2b
1942	vpxor $R3a, $R3a, $R3a
1943	vpxor $R3b, $R3b, $R3b
1944	vmovdqa (%rax), $M0
1945
1946	vpermd $INDEX0, $R0a, $INDEX0
1947	vpermd $INDEX1, $R0a, $INDEX1
1948	vpermd $INDEX2, $R0a, $INDEX2
1949	vpermd $INDEX3, $R0a, $INDEX3
1950
1951	mov \$64, %ecx
1952	lea 112($val), $val # size optimization
1953	jmp .Lmulti_select_loop_avx2
1954
1955	# INDEX=0, corresponds to the point at infty (0,0)
1956	.align 32
1957	.Lmulti_select_loop_avx2:
1958	vpcmpeqd $INDEX0, $M0, $TMP0
1959
1960	vmovdqa `320+326420`($in_t), $T0
1961	vmovdqa `321+326420`($in_t), $T1
1962	vpand $TMP0, $T0, $T0
1963	vpand $TMP0, $T1, $T1
1964	vpxor $T0, $R0a, $R0a
1965	vpxor $T1, $R0b, $R0b
1966
1967	vpcmpeqd $INDEX1, $M0, $TMP0
1968
1969	vmovdqa `320+326421`($in_t), $T0
1970	vmovdqa `321+326421`($in_t), $T1
1971	vpand $TMP0, $T0, $T0
1972	vpand $TMP0, $T1, $T1
1973	vpxor $T0, $R1a, $R1a
1974	vpxor $T1, $R1b, $R1b
1975
1976	vpcmpeqd $INDEX2, $M0, $TMP0
1977
1978	vmovdqa `320+326422`($in_t), $T0
1979	vmovdqa `321+326422`($in_t), $T1
1980	vpand $TMP0, $T0, $T0
1981	vpand $TMP0, $T1, $T1
1982	vpxor $T0, $R2a, $R2a
1983	vpxor $T1, $R2b, $R2b
1984
1985	vpcmpeqd $INDEX3, $M0, $TMP0
1986
1987	vmovdqa `320+326423`($in_t), $T0
1988	vmovdqa `321+326423`($in_t), $T1
1989	vpand $TMP0, $T0, $T0
1990	vpand $TMP0, $T1, $T1
1991	vpxor $T0, $R3a, $R3a
1992	vpxor $T1, $R3b, $R3b
1993
1994	vpaddd (%rax), $M0, $M0 # increment
1995	lea 32*2($in_t), $in_t
1996
1997	dec %ecx
1998	jnz .Lmulti_select_loop_avx2
1999
2000	vmovdqu $R0a, 32*0-112($val)
2001	vmovdqu $R0b, 32*1-112($val)
2002	vmovdqu $R1a, 32*2-112($val)
2003	vmovdqu $R1b, 32*3-112($val)
2004	vmovdqu $R2a, 32*4-112($val)
2005	vmovdqu $R2b, 32*5-112($val)
2006	vmovdqu $R3a, 32*6-112($val)
2007	vmovdqu $R3b, 32*7-112($val)
2008
2009	vzeroupper
2010	___
2011	$code.=<<___ if ($win64);
2012	movaps 16*0(%rsp), %xmm6
2013	movaps 16*1(%rsp), %xmm7
2014	movaps 16*2(%rsp), %xmm8
2015	movaps 16*3(%rsp), %xmm9
2016	movaps 16*4(%rsp), %xmm10
2017	movaps 16*5(%rsp), %xmm11
2018	movaps 16*6(%rsp), %xmm12
2019	movaps 16*7(%rsp), %xmm13
2020	movaps 16*8(%rsp), %xmm14
2021	movaps 16*9(%rsp), %xmm15
2022	lea 8+16*10(%rsp), %rsp
2023	___
2024	$code.=<<___;
2025	ret
2026	.size ecp_nistz256_avx2_multi_gather_w7,.-ecp_nistz256_avx2_multi_gather_w7
2027
2028	.extern OPENSSL_ia32cap_P
2029	.globl ecp_nistz_avx2_eligible
2030	.type ecp_nistz_avx2_eligible,\@abi-omnipotent
2031	.align 32
2032	ecp_nistz_avx2_eligible:
2033	mov OPENSSL_ia32cap_P+8(%rip),%eax
2034	shr \$5,%eax
2035	and \$1,%eax
2036	ret
2037	.size ecp_nistz_avx2_eligible,.-ecp_nistz_avx2_eligible
2038	___
2039	}
2040	}} else {{ # assembler is too old
2041	$code.=<<___;
2042	.text
2043
2044	.globl ecp_nistz256_avx2_transpose_convert
2045	.globl ecp_nistz256_avx2_convert_transpose_back
2046	.globl ecp_nistz256_avx2_point_add_affine_x4
2047	.globl ecp_nistz256_avx2_point_add_affines_x4
2048	.globl ecp_nistz256_avx2_to_mont
2049	.globl ecp_nistz256_avx2_from_mont
2050	.globl ecp_nistz256_avx2_set1
2051	.globl ecp_nistz256_avx2_multi_gather_w7
2052	.type ecp_nistz256_avx2_multi_gather_w7,\@abi-omnipotent
2053	ecp_nistz256_avx2_transpose_convert:
2054	ecp_nistz256_avx2_convert_transpose_back:
2055	ecp_nistz256_avx2_point_add_affine_x4:
2056	ecp_nistz256_avx2_point_add_affines_x4:
2057	ecp_nistz256_avx2_to_mont:
2058	ecp_nistz256_avx2_from_mont:
2059	ecp_nistz256_avx2_set1:
2060	ecp_nistz256_avx2_multi_gather_w7:
2061	.byte 0x0f,0x0b # ud2
2062	ret
2063	.size ecp_nistz256_avx2_multi_gather_w7,.-ecp_nistz256_avx2_multi_gather_w7
2064
2065	.globl ecp_nistz_avx2_eligible
2066	.type ecp_nistz_avx2_eligible,\@abi-omnipotent
2067	ecp_nistz_avx2_eligible:
2068	xor %eax,%eax
2069	ret
2070	.size ecp_nistz_avx2_eligible,.-ecp_nistz_avx2_eligible
2071	___
2072	}}
2073
2074	foreach (split("\n",$code)) {
2075	s/\`([^\`]*)\`/eval($1)/geo;
2076
2077	print $_,"\n";
2078	}
2079
2080	close STDOUT or die "error closing STDOUT: $!";

Note: See TracBrowser for help on using the repository browser.

source: vbox/trunk/src/libs/openssl-1.1.1f/crypto/ec/asm/ecp_nistz256-avx2.pl@ 83531

Download in other formats: