1 | .text
|
---|
2 |
|
---|
3 |
|
---|
4 | .globl _gcm_gmult_4bit
|
---|
5 |
|
---|
6 | .p2align 4
|
---|
7 | _gcm_gmult_4bit:
|
---|
8 |
|
---|
9 | .byte 243,15,30,250
|
---|
10 | pushq %rbx
|
---|
11 |
|
---|
12 | pushq %rbp
|
---|
13 |
|
---|
14 | pushq %r12
|
---|
15 |
|
---|
16 | pushq %r13
|
---|
17 |
|
---|
18 | pushq %r14
|
---|
19 |
|
---|
20 | pushq %r15
|
---|
21 |
|
---|
22 | subq $280,%rsp
|
---|
23 |
|
---|
24 | L$gmult_prologue:
|
---|
25 |
|
---|
26 | movzbq 15(%rdi),%r8
|
---|
27 | leaq L$rem_4bit(%rip),%r11
|
---|
28 | xorq %rax,%rax
|
---|
29 | xorq %rbx,%rbx
|
---|
30 | movb %r8b,%al
|
---|
31 | movb %r8b,%bl
|
---|
32 | shlb $4,%al
|
---|
33 | movq $14,%rcx
|
---|
34 | movq 8(%rsi,%rax,1),%r8
|
---|
35 | movq (%rsi,%rax,1),%r9
|
---|
36 | andb $0xf0,%bl
|
---|
37 | movq %r8,%rdx
|
---|
38 | jmp L$oop1
|
---|
39 |
|
---|
40 | .p2align 4
|
---|
41 | L$oop1:
|
---|
42 | shrq $4,%r8
|
---|
43 | andq $0xf,%rdx
|
---|
44 | movq %r9,%r10
|
---|
45 | movb (%rdi,%rcx,1),%al
|
---|
46 | shrq $4,%r9
|
---|
47 | xorq 8(%rsi,%rbx,1),%r8
|
---|
48 | shlq $60,%r10
|
---|
49 | xorq (%rsi,%rbx,1),%r9
|
---|
50 | movb %al,%bl
|
---|
51 | xorq (%r11,%rdx,8),%r9
|
---|
52 | movq %r8,%rdx
|
---|
53 | shlb $4,%al
|
---|
54 | xorq %r10,%r8
|
---|
55 | decq %rcx
|
---|
56 | js L$break1
|
---|
57 |
|
---|
58 | shrq $4,%r8
|
---|
59 | andq $0xf,%rdx
|
---|
60 | movq %r9,%r10
|
---|
61 | shrq $4,%r9
|
---|
62 | xorq 8(%rsi,%rax,1),%r8
|
---|
63 | shlq $60,%r10
|
---|
64 | xorq (%rsi,%rax,1),%r9
|
---|
65 | andb $0xf0,%bl
|
---|
66 | xorq (%r11,%rdx,8),%r9
|
---|
67 | movq %r8,%rdx
|
---|
68 | xorq %r10,%r8
|
---|
69 | jmp L$oop1
|
---|
70 |
|
---|
71 | .p2align 4
|
---|
72 | L$break1:
|
---|
73 | shrq $4,%r8
|
---|
74 | andq $0xf,%rdx
|
---|
75 | movq %r9,%r10
|
---|
76 | shrq $4,%r9
|
---|
77 | xorq 8(%rsi,%rax,1),%r8
|
---|
78 | shlq $60,%r10
|
---|
79 | xorq (%rsi,%rax,1),%r9
|
---|
80 | andb $0xf0,%bl
|
---|
81 | xorq (%r11,%rdx,8),%r9
|
---|
82 | movq %r8,%rdx
|
---|
83 | xorq %r10,%r8
|
---|
84 |
|
---|
85 | shrq $4,%r8
|
---|
86 | andq $0xf,%rdx
|
---|
87 | movq %r9,%r10
|
---|
88 | shrq $4,%r9
|
---|
89 | xorq 8(%rsi,%rbx,1),%r8
|
---|
90 | shlq $60,%r10
|
---|
91 | xorq (%rsi,%rbx,1),%r9
|
---|
92 | xorq %r10,%r8
|
---|
93 | xorq (%r11,%rdx,8),%r9
|
---|
94 |
|
---|
95 | bswapq %r8
|
---|
96 | bswapq %r9
|
---|
97 | movq %r8,8(%rdi)
|
---|
98 | movq %r9,(%rdi)
|
---|
99 |
|
---|
100 | leaq 280+48(%rsp),%rsi
|
---|
101 |
|
---|
102 | movq -8(%rsi),%rbx
|
---|
103 |
|
---|
104 | leaq (%rsi),%rsp
|
---|
105 |
|
---|
106 | L$gmult_epilogue:
|
---|
107 | .byte 0xf3,0xc3
|
---|
108 |
|
---|
109 |
|
---|
110 | .globl _gcm_ghash_4bit
|
---|
111 |
|
---|
112 | .p2align 4
|
---|
113 | _gcm_ghash_4bit:
|
---|
114 |
|
---|
115 | .byte 243,15,30,250
|
---|
116 | pushq %rbx
|
---|
117 |
|
---|
118 | pushq %rbp
|
---|
119 |
|
---|
120 | pushq %r12
|
---|
121 |
|
---|
122 | pushq %r13
|
---|
123 |
|
---|
124 | pushq %r14
|
---|
125 |
|
---|
126 | pushq %r15
|
---|
127 |
|
---|
128 | subq $280,%rsp
|
---|
129 |
|
---|
130 | L$ghash_prologue:
|
---|
131 | movq %rdx,%r14
|
---|
132 | movq %rcx,%r15
|
---|
133 | subq $-128,%rsi
|
---|
134 | leaq 16+128(%rsp),%rbp
|
---|
135 | xorl %edx,%edx
|
---|
136 | movq 0+0-128(%rsi),%r8
|
---|
137 | movq 0+8-128(%rsi),%rax
|
---|
138 | movb %al,%dl
|
---|
139 | shrq $4,%rax
|
---|
140 | movq %r8,%r10
|
---|
141 | shrq $4,%r8
|
---|
142 | movq 16+0-128(%rsi),%r9
|
---|
143 | shlb $4,%dl
|
---|
144 | movq 16+8-128(%rsi),%rbx
|
---|
145 | shlq $60,%r10
|
---|
146 | movb %dl,0(%rsp)
|
---|
147 | orq %r10,%rax
|
---|
148 | movb %bl,%dl
|
---|
149 | shrq $4,%rbx
|
---|
150 | movq %r9,%r10
|
---|
151 | shrq $4,%r9
|
---|
152 | movq %r8,0(%rbp)
|
---|
153 | movq 32+0-128(%rsi),%r8
|
---|
154 | shlb $4,%dl
|
---|
155 | movq %rax,0-128(%rbp)
|
---|
156 | movq 32+8-128(%rsi),%rax
|
---|
157 | shlq $60,%r10
|
---|
158 | movb %dl,1(%rsp)
|
---|
159 | orq %r10,%rbx
|
---|
160 | movb %al,%dl
|
---|
161 | shrq $4,%rax
|
---|
162 | movq %r8,%r10
|
---|
163 | shrq $4,%r8
|
---|
164 | movq %r9,8(%rbp)
|
---|
165 | movq 48+0-128(%rsi),%r9
|
---|
166 | shlb $4,%dl
|
---|
167 | movq %rbx,8-128(%rbp)
|
---|
168 | movq 48+8-128(%rsi),%rbx
|
---|
169 | shlq $60,%r10
|
---|
170 | movb %dl,2(%rsp)
|
---|
171 | orq %r10,%rax
|
---|
172 | movb %bl,%dl
|
---|
173 | shrq $4,%rbx
|
---|
174 | movq %r9,%r10
|
---|
175 | shrq $4,%r9
|
---|
176 | movq %r8,16(%rbp)
|
---|
177 | movq 64+0-128(%rsi),%r8
|
---|
178 | shlb $4,%dl
|
---|
179 | movq %rax,16-128(%rbp)
|
---|
180 | movq 64+8-128(%rsi),%rax
|
---|
181 | shlq $60,%r10
|
---|
182 | movb %dl,3(%rsp)
|
---|
183 | orq %r10,%rbx
|
---|
184 | movb %al,%dl
|
---|
185 | shrq $4,%rax
|
---|
186 | movq %r8,%r10
|
---|
187 | shrq $4,%r8
|
---|
188 | movq %r9,24(%rbp)
|
---|
189 | movq 80+0-128(%rsi),%r9
|
---|
190 | shlb $4,%dl
|
---|
191 | movq %rbx,24-128(%rbp)
|
---|
192 | movq 80+8-128(%rsi),%rbx
|
---|
193 | shlq $60,%r10
|
---|
194 | movb %dl,4(%rsp)
|
---|
195 | orq %r10,%rax
|
---|
196 | movb %bl,%dl
|
---|
197 | shrq $4,%rbx
|
---|
198 | movq %r9,%r10
|
---|
199 | shrq $4,%r9
|
---|
200 | movq %r8,32(%rbp)
|
---|
201 | movq 96+0-128(%rsi),%r8
|
---|
202 | shlb $4,%dl
|
---|
203 | movq %rax,32-128(%rbp)
|
---|
204 | movq 96+8-128(%rsi),%rax
|
---|
205 | shlq $60,%r10
|
---|
206 | movb %dl,5(%rsp)
|
---|
207 | orq %r10,%rbx
|
---|
208 | movb %al,%dl
|
---|
209 | shrq $4,%rax
|
---|
210 | movq %r8,%r10
|
---|
211 | shrq $4,%r8
|
---|
212 | movq %r9,40(%rbp)
|
---|
213 | movq 112+0-128(%rsi),%r9
|
---|
214 | shlb $4,%dl
|
---|
215 | movq %rbx,40-128(%rbp)
|
---|
216 | movq 112+8-128(%rsi),%rbx
|
---|
217 | shlq $60,%r10
|
---|
218 | movb %dl,6(%rsp)
|
---|
219 | orq %r10,%rax
|
---|
220 | movb %bl,%dl
|
---|
221 | shrq $4,%rbx
|
---|
222 | movq %r9,%r10
|
---|
223 | shrq $4,%r9
|
---|
224 | movq %r8,48(%rbp)
|
---|
225 | movq 128+0-128(%rsi),%r8
|
---|
226 | shlb $4,%dl
|
---|
227 | movq %rax,48-128(%rbp)
|
---|
228 | movq 128+8-128(%rsi),%rax
|
---|
229 | shlq $60,%r10
|
---|
230 | movb %dl,7(%rsp)
|
---|
231 | orq %r10,%rbx
|
---|
232 | movb %al,%dl
|
---|
233 | shrq $4,%rax
|
---|
234 | movq %r8,%r10
|
---|
235 | shrq $4,%r8
|
---|
236 | movq %r9,56(%rbp)
|
---|
237 | movq 144+0-128(%rsi),%r9
|
---|
238 | shlb $4,%dl
|
---|
239 | movq %rbx,56-128(%rbp)
|
---|
240 | movq 144+8-128(%rsi),%rbx
|
---|
241 | shlq $60,%r10
|
---|
242 | movb %dl,8(%rsp)
|
---|
243 | orq %r10,%rax
|
---|
244 | movb %bl,%dl
|
---|
245 | shrq $4,%rbx
|
---|
246 | movq %r9,%r10
|
---|
247 | shrq $4,%r9
|
---|
248 | movq %r8,64(%rbp)
|
---|
249 | movq 160+0-128(%rsi),%r8
|
---|
250 | shlb $4,%dl
|
---|
251 | movq %rax,64-128(%rbp)
|
---|
252 | movq 160+8-128(%rsi),%rax
|
---|
253 | shlq $60,%r10
|
---|
254 | movb %dl,9(%rsp)
|
---|
255 | orq %r10,%rbx
|
---|
256 | movb %al,%dl
|
---|
257 | shrq $4,%rax
|
---|
258 | movq %r8,%r10
|
---|
259 | shrq $4,%r8
|
---|
260 | movq %r9,72(%rbp)
|
---|
261 | movq 176+0-128(%rsi),%r9
|
---|
262 | shlb $4,%dl
|
---|
263 | movq %rbx,72-128(%rbp)
|
---|
264 | movq 176+8-128(%rsi),%rbx
|
---|
265 | shlq $60,%r10
|
---|
266 | movb %dl,10(%rsp)
|
---|
267 | orq %r10,%rax
|
---|
268 | movb %bl,%dl
|
---|
269 | shrq $4,%rbx
|
---|
270 | movq %r9,%r10
|
---|
271 | shrq $4,%r9
|
---|
272 | movq %r8,80(%rbp)
|
---|
273 | movq 192+0-128(%rsi),%r8
|
---|
274 | shlb $4,%dl
|
---|
275 | movq %rax,80-128(%rbp)
|
---|
276 | movq 192+8-128(%rsi),%rax
|
---|
277 | shlq $60,%r10
|
---|
278 | movb %dl,11(%rsp)
|
---|
279 | orq %r10,%rbx
|
---|
280 | movb %al,%dl
|
---|
281 | shrq $4,%rax
|
---|
282 | movq %r8,%r10
|
---|
283 | shrq $4,%r8
|
---|
284 | movq %r9,88(%rbp)
|
---|
285 | movq 208+0-128(%rsi),%r9
|
---|
286 | shlb $4,%dl
|
---|
287 | movq %rbx,88-128(%rbp)
|
---|
288 | movq 208+8-128(%rsi),%rbx
|
---|
289 | shlq $60,%r10
|
---|
290 | movb %dl,12(%rsp)
|
---|
291 | orq %r10,%rax
|
---|
292 | movb %bl,%dl
|
---|
293 | shrq $4,%rbx
|
---|
294 | movq %r9,%r10
|
---|
295 | shrq $4,%r9
|
---|
296 | movq %r8,96(%rbp)
|
---|
297 | movq 224+0-128(%rsi),%r8
|
---|
298 | shlb $4,%dl
|
---|
299 | movq %rax,96-128(%rbp)
|
---|
300 | movq 224+8-128(%rsi),%rax
|
---|
301 | shlq $60,%r10
|
---|
302 | movb %dl,13(%rsp)
|
---|
303 | orq %r10,%rbx
|
---|
304 | movb %al,%dl
|
---|
305 | shrq $4,%rax
|
---|
306 | movq %r8,%r10
|
---|
307 | shrq $4,%r8
|
---|
308 | movq %r9,104(%rbp)
|
---|
309 | movq 240+0-128(%rsi),%r9
|
---|
310 | shlb $4,%dl
|
---|
311 | movq %rbx,104-128(%rbp)
|
---|
312 | movq 240+8-128(%rsi),%rbx
|
---|
313 | shlq $60,%r10
|
---|
314 | movb %dl,14(%rsp)
|
---|
315 | orq %r10,%rax
|
---|
316 | movb %bl,%dl
|
---|
317 | shrq $4,%rbx
|
---|
318 | movq %r9,%r10
|
---|
319 | shrq $4,%r9
|
---|
320 | movq %r8,112(%rbp)
|
---|
321 | shlb $4,%dl
|
---|
322 | movq %rax,112-128(%rbp)
|
---|
323 | shlq $60,%r10
|
---|
324 | movb %dl,15(%rsp)
|
---|
325 | orq %r10,%rbx
|
---|
326 | movq %r9,120(%rbp)
|
---|
327 | movq %rbx,120-128(%rbp)
|
---|
328 | addq $-128,%rsi
|
---|
329 | movq 8(%rdi),%r8
|
---|
330 | movq 0(%rdi),%r9
|
---|
331 | addq %r14,%r15
|
---|
332 | leaq L$rem_8bit(%rip),%r11
|
---|
333 | jmp L$outer_loop
|
---|
334 | .p2align 4
|
---|
335 | L$outer_loop:
|
---|
336 | xorq (%r14),%r9
|
---|
337 | movq 8(%r14),%rdx
|
---|
338 | leaq 16(%r14),%r14
|
---|
339 | xorq %r8,%rdx
|
---|
340 | movq %r9,(%rdi)
|
---|
341 | movq %rdx,8(%rdi)
|
---|
342 | shrq $32,%rdx
|
---|
343 | xorq %rax,%rax
|
---|
344 | roll $8,%edx
|
---|
345 | movb %dl,%al
|
---|
346 | movzbl %dl,%ebx
|
---|
347 | shlb $4,%al
|
---|
348 | shrl $4,%ebx
|
---|
349 | roll $8,%edx
|
---|
350 | movq 8(%rsi,%rax,1),%r8
|
---|
351 | movq (%rsi,%rax,1),%r9
|
---|
352 | movb %dl,%al
|
---|
353 | movzbl %dl,%ecx
|
---|
354 | shlb $4,%al
|
---|
355 | movzbq (%rsp,%rbx,1),%r12
|
---|
356 | shrl $4,%ecx
|
---|
357 | xorq %r8,%r12
|
---|
358 | movq %r9,%r10
|
---|
359 | shrq $8,%r8
|
---|
360 | movzbq %r12b,%r12
|
---|
361 | shrq $8,%r9
|
---|
362 | xorq -128(%rbp,%rbx,8),%r8
|
---|
363 | shlq $56,%r10
|
---|
364 | xorq (%rbp,%rbx,8),%r9
|
---|
365 | roll $8,%edx
|
---|
366 | xorq 8(%rsi,%rax,1),%r8
|
---|
367 | xorq (%rsi,%rax,1),%r9
|
---|
368 | movb %dl,%al
|
---|
369 | xorq %r10,%r8
|
---|
370 | movzwq (%r11,%r12,2),%r12
|
---|
371 | movzbl %dl,%ebx
|
---|
372 | shlb $4,%al
|
---|
373 | movzbq (%rsp,%rcx,1),%r13
|
---|
374 | shrl $4,%ebx
|
---|
375 | shlq $48,%r12
|
---|
376 | xorq %r8,%r13
|
---|
377 | movq %r9,%r10
|
---|
378 | xorq %r12,%r9
|
---|
379 | shrq $8,%r8
|
---|
380 | movzbq %r13b,%r13
|
---|
381 | shrq $8,%r9
|
---|
382 | xorq -128(%rbp,%rcx,8),%r8
|
---|
383 | shlq $56,%r10
|
---|
384 | xorq (%rbp,%rcx,8),%r9
|
---|
385 | roll $8,%edx
|
---|
386 | xorq 8(%rsi,%rax,1),%r8
|
---|
387 | xorq (%rsi,%rax,1),%r9
|
---|
388 | movb %dl,%al
|
---|
389 | xorq %r10,%r8
|
---|
390 | movzwq (%r11,%r13,2),%r13
|
---|
391 | movzbl %dl,%ecx
|
---|
392 | shlb $4,%al
|
---|
393 | movzbq (%rsp,%rbx,1),%r12
|
---|
394 | shrl $4,%ecx
|
---|
395 | shlq $48,%r13
|
---|
396 | xorq %r8,%r12
|
---|
397 | movq %r9,%r10
|
---|
398 | xorq %r13,%r9
|
---|
399 | shrq $8,%r8
|
---|
400 | movzbq %r12b,%r12
|
---|
401 | movl 8(%rdi),%edx
|
---|
402 | shrq $8,%r9
|
---|
403 | xorq -128(%rbp,%rbx,8),%r8
|
---|
404 | shlq $56,%r10
|
---|
405 | xorq (%rbp,%rbx,8),%r9
|
---|
406 | roll $8,%edx
|
---|
407 | xorq 8(%rsi,%rax,1),%r8
|
---|
408 | xorq (%rsi,%rax,1),%r9
|
---|
409 | movb %dl,%al
|
---|
410 | xorq %r10,%r8
|
---|
411 | movzwq (%r11,%r12,2),%r12
|
---|
412 | movzbl %dl,%ebx
|
---|
413 | shlb $4,%al
|
---|
414 | movzbq (%rsp,%rcx,1),%r13
|
---|
415 | shrl $4,%ebx
|
---|
416 | shlq $48,%r12
|
---|
417 | xorq %r8,%r13
|
---|
418 | movq %r9,%r10
|
---|
419 | xorq %r12,%r9
|
---|
420 | shrq $8,%r8
|
---|
421 | movzbq %r13b,%r13
|
---|
422 | shrq $8,%r9
|
---|
423 | xorq -128(%rbp,%rcx,8),%r8
|
---|
424 | shlq $56,%r10
|
---|
425 | xorq (%rbp,%rcx,8),%r9
|
---|
426 | roll $8,%edx
|
---|
427 | xorq 8(%rsi,%rax,1),%r8
|
---|
428 | xorq (%rsi,%rax,1),%r9
|
---|
429 | movb %dl,%al
|
---|
430 | xorq %r10,%r8
|
---|
431 | movzwq (%r11,%r13,2),%r13
|
---|
432 | movzbl %dl,%ecx
|
---|
433 | shlb $4,%al
|
---|
434 | movzbq (%rsp,%rbx,1),%r12
|
---|
435 | shrl $4,%ecx
|
---|
436 | shlq $48,%r13
|
---|
437 | xorq %r8,%r12
|
---|
438 | movq %r9,%r10
|
---|
439 | xorq %r13,%r9
|
---|
440 | shrq $8,%r8
|
---|
441 | movzbq %r12b,%r12
|
---|
442 | shrq $8,%r9
|
---|
443 | xorq -128(%rbp,%rbx,8),%r8
|
---|
444 | shlq $56,%r10
|
---|
445 | xorq (%rbp,%rbx,8),%r9
|
---|
446 | roll $8,%edx
|
---|
447 | xorq 8(%rsi,%rax,1),%r8
|
---|
448 | xorq (%rsi,%rax,1),%r9
|
---|
449 | movb %dl,%al
|
---|
450 | xorq %r10,%r8
|
---|
451 | movzwq (%r11,%r12,2),%r12
|
---|
452 | movzbl %dl,%ebx
|
---|
453 | shlb $4,%al
|
---|
454 | movzbq (%rsp,%rcx,1),%r13
|
---|
455 | shrl $4,%ebx
|
---|
456 | shlq $48,%r12
|
---|
457 | xorq %r8,%r13
|
---|
458 | movq %r9,%r10
|
---|
459 | xorq %r12,%r9
|
---|
460 | shrq $8,%r8
|
---|
461 | movzbq %r13b,%r13
|
---|
462 | shrq $8,%r9
|
---|
463 | xorq -128(%rbp,%rcx,8),%r8
|
---|
464 | shlq $56,%r10
|
---|
465 | xorq (%rbp,%rcx,8),%r9
|
---|
466 | roll $8,%edx
|
---|
467 | xorq 8(%rsi,%rax,1),%r8
|
---|
468 | xorq (%rsi,%rax,1),%r9
|
---|
469 | movb %dl,%al
|
---|
470 | xorq %r10,%r8
|
---|
471 | movzwq (%r11,%r13,2),%r13
|
---|
472 | movzbl %dl,%ecx
|
---|
473 | shlb $4,%al
|
---|
474 | movzbq (%rsp,%rbx,1),%r12
|
---|
475 | shrl $4,%ecx
|
---|
476 | shlq $48,%r13
|
---|
477 | xorq %r8,%r12
|
---|
478 | movq %r9,%r10
|
---|
479 | xorq %r13,%r9
|
---|
480 | shrq $8,%r8
|
---|
481 | movzbq %r12b,%r12
|
---|
482 | movl 4(%rdi),%edx
|
---|
483 | shrq $8,%r9
|
---|
484 | xorq -128(%rbp,%rbx,8),%r8
|
---|
485 | shlq $56,%r10
|
---|
486 | xorq (%rbp,%rbx,8),%r9
|
---|
487 | roll $8,%edx
|
---|
488 | xorq 8(%rsi,%rax,1),%r8
|
---|
489 | xorq (%rsi,%rax,1),%r9
|
---|
490 | movb %dl,%al
|
---|
491 | xorq %r10,%r8
|
---|
492 | movzwq (%r11,%r12,2),%r12
|
---|
493 | movzbl %dl,%ebx
|
---|
494 | shlb $4,%al
|
---|
495 | movzbq (%rsp,%rcx,1),%r13
|
---|
496 | shrl $4,%ebx
|
---|
497 | shlq $48,%r12
|
---|
498 | xorq %r8,%r13
|
---|
499 | movq %r9,%r10
|
---|
500 | xorq %r12,%r9
|
---|
501 | shrq $8,%r8
|
---|
502 | movzbq %r13b,%r13
|
---|
503 | shrq $8,%r9
|
---|
504 | xorq -128(%rbp,%rcx,8),%r8
|
---|
505 | shlq $56,%r10
|
---|
506 | xorq (%rbp,%rcx,8),%r9
|
---|
507 | roll $8,%edx
|
---|
508 | xorq 8(%rsi,%rax,1),%r8
|
---|
509 | xorq (%rsi,%rax,1),%r9
|
---|
510 | movb %dl,%al
|
---|
511 | xorq %r10,%r8
|
---|
512 | movzwq (%r11,%r13,2),%r13
|
---|
513 | movzbl %dl,%ecx
|
---|
514 | shlb $4,%al
|
---|
515 | movzbq (%rsp,%rbx,1),%r12
|
---|
516 | shrl $4,%ecx
|
---|
517 | shlq $48,%r13
|
---|
518 | xorq %r8,%r12
|
---|
519 | movq %r9,%r10
|
---|
520 | xorq %r13,%r9
|
---|
521 | shrq $8,%r8
|
---|
522 | movzbq %r12b,%r12
|
---|
523 | shrq $8,%r9
|
---|
524 | xorq -128(%rbp,%rbx,8),%r8
|
---|
525 | shlq $56,%r10
|
---|
526 | xorq (%rbp,%rbx,8),%r9
|
---|
527 | roll $8,%edx
|
---|
528 | xorq 8(%rsi,%rax,1),%r8
|
---|
529 | xorq (%rsi,%rax,1),%r9
|
---|
530 | movb %dl,%al
|
---|
531 | xorq %r10,%r8
|
---|
532 | movzwq (%r11,%r12,2),%r12
|
---|
533 | movzbl %dl,%ebx
|
---|
534 | shlb $4,%al
|
---|
535 | movzbq (%rsp,%rcx,1),%r13
|
---|
536 | shrl $4,%ebx
|
---|
537 | shlq $48,%r12
|
---|
538 | xorq %r8,%r13
|
---|
539 | movq %r9,%r10
|
---|
540 | xorq %r12,%r9
|
---|
541 | shrq $8,%r8
|
---|
542 | movzbq %r13b,%r13
|
---|
543 | shrq $8,%r9
|
---|
544 | xorq -128(%rbp,%rcx,8),%r8
|
---|
545 | shlq $56,%r10
|
---|
546 | xorq (%rbp,%rcx,8),%r9
|
---|
547 | roll $8,%edx
|
---|
548 | xorq 8(%rsi,%rax,1),%r8
|
---|
549 | xorq (%rsi,%rax,1),%r9
|
---|
550 | movb %dl,%al
|
---|
551 | xorq %r10,%r8
|
---|
552 | movzwq (%r11,%r13,2),%r13
|
---|
553 | movzbl %dl,%ecx
|
---|
554 | shlb $4,%al
|
---|
555 | movzbq (%rsp,%rbx,1),%r12
|
---|
556 | shrl $4,%ecx
|
---|
557 | shlq $48,%r13
|
---|
558 | xorq %r8,%r12
|
---|
559 | movq %r9,%r10
|
---|
560 | xorq %r13,%r9
|
---|
561 | shrq $8,%r8
|
---|
562 | movzbq %r12b,%r12
|
---|
563 | movl 0(%rdi),%edx
|
---|
564 | shrq $8,%r9
|
---|
565 | xorq -128(%rbp,%rbx,8),%r8
|
---|
566 | shlq $56,%r10
|
---|
567 | xorq (%rbp,%rbx,8),%r9
|
---|
568 | roll $8,%edx
|
---|
569 | xorq 8(%rsi,%rax,1),%r8
|
---|
570 | xorq (%rsi,%rax,1),%r9
|
---|
571 | movb %dl,%al
|
---|
572 | xorq %r10,%r8
|
---|
573 | movzwq (%r11,%r12,2),%r12
|
---|
574 | movzbl %dl,%ebx
|
---|
575 | shlb $4,%al
|
---|
576 | movzbq (%rsp,%rcx,1),%r13
|
---|
577 | shrl $4,%ebx
|
---|
578 | shlq $48,%r12
|
---|
579 | xorq %r8,%r13
|
---|
580 | movq %r9,%r10
|
---|
581 | xorq %r12,%r9
|
---|
582 | shrq $8,%r8
|
---|
583 | movzbq %r13b,%r13
|
---|
584 | shrq $8,%r9
|
---|
585 | xorq -128(%rbp,%rcx,8),%r8
|
---|
586 | shlq $56,%r10
|
---|
587 | xorq (%rbp,%rcx,8),%r9
|
---|
588 | roll $8,%edx
|
---|
589 | xorq 8(%rsi,%rax,1),%r8
|
---|
590 | xorq (%rsi,%rax,1),%r9
|
---|
591 | movb %dl,%al
|
---|
592 | xorq %r10,%r8
|
---|
593 | movzwq (%r11,%r13,2),%r13
|
---|
594 | movzbl %dl,%ecx
|
---|
595 | shlb $4,%al
|
---|
596 | movzbq (%rsp,%rbx,1),%r12
|
---|
597 | shrl $4,%ecx
|
---|
598 | shlq $48,%r13
|
---|
599 | xorq %r8,%r12
|
---|
600 | movq %r9,%r10
|
---|
601 | xorq %r13,%r9
|
---|
602 | shrq $8,%r8
|
---|
603 | movzbq %r12b,%r12
|
---|
604 | shrq $8,%r9
|
---|
605 | xorq -128(%rbp,%rbx,8),%r8
|
---|
606 | shlq $56,%r10
|
---|
607 | xorq (%rbp,%rbx,8),%r9
|
---|
608 | roll $8,%edx
|
---|
609 | xorq 8(%rsi,%rax,1),%r8
|
---|
610 | xorq (%rsi,%rax,1),%r9
|
---|
611 | movb %dl,%al
|
---|
612 | xorq %r10,%r8
|
---|
613 | movzwq (%r11,%r12,2),%r12
|
---|
614 | movzbl %dl,%ebx
|
---|
615 | shlb $4,%al
|
---|
616 | movzbq (%rsp,%rcx,1),%r13
|
---|
617 | shrl $4,%ebx
|
---|
618 | shlq $48,%r12
|
---|
619 | xorq %r8,%r13
|
---|
620 | movq %r9,%r10
|
---|
621 | xorq %r12,%r9
|
---|
622 | shrq $8,%r8
|
---|
623 | movzbq %r13b,%r13
|
---|
624 | shrq $8,%r9
|
---|
625 | xorq -128(%rbp,%rcx,8),%r8
|
---|
626 | shlq $56,%r10
|
---|
627 | xorq (%rbp,%rcx,8),%r9
|
---|
628 | roll $8,%edx
|
---|
629 | xorq 8(%rsi,%rax,1),%r8
|
---|
630 | xorq (%rsi,%rax,1),%r9
|
---|
631 | movb %dl,%al
|
---|
632 | xorq %r10,%r8
|
---|
633 | movzwq (%r11,%r13,2),%r13
|
---|
634 | movzbl %dl,%ecx
|
---|
635 | shlb $4,%al
|
---|
636 | movzbq (%rsp,%rbx,1),%r12
|
---|
637 | andl $240,%ecx
|
---|
638 | shlq $48,%r13
|
---|
639 | xorq %r8,%r12
|
---|
640 | movq %r9,%r10
|
---|
641 | xorq %r13,%r9
|
---|
642 | shrq $8,%r8
|
---|
643 | movzbq %r12b,%r12
|
---|
644 | movl -4(%rdi),%edx
|
---|
645 | shrq $8,%r9
|
---|
646 | xorq -128(%rbp,%rbx,8),%r8
|
---|
647 | shlq $56,%r10
|
---|
648 | xorq (%rbp,%rbx,8),%r9
|
---|
649 | movzwq (%r11,%r12,2),%r12
|
---|
650 | xorq 8(%rsi,%rax,1),%r8
|
---|
651 | xorq (%rsi,%rax,1),%r9
|
---|
652 | shlq $48,%r12
|
---|
653 | xorq %r10,%r8
|
---|
654 | xorq %r12,%r9
|
---|
655 | movzbq %r8b,%r13
|
---|
656 | shrq $4,%r8
|
---|
657 | movq %r9,%r10
|
---|
658 | shlb $4,%r13b
|
---|
659 | shrq $4,%r9
|
---|
660 | xorq 8(%rsi,%rcx,1),%r8
|
---|
661 | movzwq (%r11,%r13,2),%r13
|
---|
662 | shlq $60,%r10
|
---|
663 | xorq (%rsi,%rcx,1),%r9
|
---|
664 | xorq %r10,%r8
|
---|
665 | shlq $48,%r13
|
---|
666 | bswapq %r8
|
---|
667 | xorq %r13,%r9
|
---|
668 | bswapq %r9
|
---|
669 | cmpq %r15,%r14
|
---|
670 | jb L$outer_loop
|
---|
671 | movq %r8,8(%rdi)
|
---|
672 | movq %r9,(%rdi)
|
---|
673 |
|
---|
674 | leaq 280+48(%rsp),%rsi
|
---|
675 |
|
---|
676 | movq -48(%rsi),%r15
|
---|
677 |
|
---|
678 | movq -40(%rsi),%r14
|
---|
679 |
|
---|
680 | movq -32(%rsi),%r13
|
---|
681 |
|
---|
682 | movq -24(%rsi),%r12
|
---|
683 |
|
---|
684 | movq -16(%rsi),%rbp
|
---|
685 |
|
---|
686 | movq -8(%rsi),%rbx
|
---|
687 |
|
---|
688 | leaq 0(%rsi),%rsp
|
---|
689 |
|
---|
690 | L$ghash_epilogue:
|
---|
691 | .byte 0xf3,0xc3
|
---|
692 |
|
---|
693 |
|
---|
694 | .globl _gcm_init_clmul
|
---|
695 |
|
---|
696 | .p2align 4
|
---|
697 | _gcm_init_clmul:
|
---|
698 |
|
---|
699 | L$_init_clmul:
|
---|
700 | movdqu (%rsi),%xmm2
|
---|
701 | pshufd $78,%xmm2,%xmm2
|
---|
702 |
|
---|
703 |
|
---|
704 | pshufd $255,%xmm2,%xmm4
|
---|
705 | movdqa %xmm2,%xmm3
|
---|
706 | psllq $1,%xmm2
|
---|
707 | pxor %xmm5,%xmm5
|
---|
708 | psrlq $63,%xmm3
|
---|
709 | pcmpgtd %xmm4,%xmm5
|
---|
710 | pslldq $8,%xmm3
|
---|
711 | por %xmm3,%xmm2
|
---|
712 |
|
---|
713 |
|
---|
714 | pand L$0x1c2_polynomial(%rip),%xmm5
|
---|
715 | pxor %xmm5,%xmm2
|
---|
716 |
|
---|
717 |
|
---|
718 | pshufd $78,%xmm2,%xmm6
|
---|
719 | movdqa %xmm2,%xmm0
|
---|
720 | pxor %xmm2,%xmm6
|
---|
721 | movdqa %xmm0,%xmm1
|
---|
722 | pshufd $78,%xmm0,%xmm3
|
---|
723 | pxor %xmm0,%xmm3
|
---|
724 | .byte 102,15,58,68,194,0
|
---|
725 | .byte 102,15,58,68,202,17
|
---|
726 | .byte 102,15,58,68,222,0
|
---|
727 | pxor %xmm0,%xmm3
|
---|
728 | pxor %xmm1,%xmm3
|
---|
729 |
|
---|
730 | movdqa %xmm3,%xmm4
|
---|
731 | psrldq $8,%xmm3
|
---|
732 | pslldq $8,%xmm4
|
---|
733 | pxor %xmm3,%xmm1
|
---|
734 | pxor %xmm4,%xmm0
|
---|
735 |
|
---|
736 | movdqa %xmm0,%xmm4
|
---|
737 | movdqa %xmm0,%xmm3
|
---|
738 | psllq $5,%xmm0
|
---|
739 | pxor %xmm0,%xmm3
|
---|
740 | psllq $1,%xmm0
|
---|
741 | pxor %xmm3,%xmm0
|
---|
742 | psllq $57,%xmm0
|
---|
743 | movdqa %xmm0,%xmm3
|
---|
744 | pslldq $8,%xmm0
|
---|
745 | psrldq $8,%xmm3
|
---|
746 | pxor %xmm4,%xmm0
|
---|
747 | pxor %xmm3,%xmm1
|
---|
748 |
|
---|
749 |
|
---|
750 | movdqa %xmm0,%xmm4
|
---|
751 | psrlq $1,%xmm0
|
---|
752 | pxor %xmm4,%xmm1
|
---|
753 | pxor %xmm0,%xmm4
|
---|
754 | psrlq $5,%xmm0
|
---|
755 | pxor %xmm4,%xmm0
|
---|
756 | psrlq $1,%xmm0
|
---|
757 | pxor %xmm1,%xmm0
|
---|
758 | pshufd $78,%xmm2,%xmm3
|
---|
759 | pshufd $78,%xmm0,%xmm4
|
---|
760 | pxor %xmm2,%xmm3
|
---|
761 | movdqu %xmm2,0(%rdi)
|
---|
762 | pxor %xmm0,%xmm4
|
---|
763 | movdqu %xmm0,16(%rdi)
|
---|
764 | .byte 102,15,58,15,227,8
|
---|
765 | movdqu %xmm4,32(%rdi)
|
---|
766 | movdqa %xmm0,%xmm1
|
---|
767 | pshufd $78,%xmm0,%xmm3
|
---|
768 | pxor %xmm0,%xmm3
|
---|
769 | .byte 102,15,58,68,194,0
|
---|
770 | .byte 102,15,58,68,202,17
|
---|
771 | .byte 102,15,58,68,222,0
|
---|
772 | pxor %xmm0,%xmm3
|
---|
773 | pxor %xmm1,%xmm3
|
---|
774 |
|
---|
775 | movdqa %xmm3,%xmm4
|
---|
776 | psrldq $8,%xmm3
|
---|
777 | pslldq $8,%xmm4
|
---|
778 | pxor %xmm3,%xmm1
|
---|
779 | pxor %xmm4,%xmm0
|
---|
780 |
|
---|
781 | movdqa %xmm0,%xmm4
|
---|
782 | movdqa %xmm0,%xmm3
|
---|
783 | psllq $5,%xmm0
|
---|
784 | pxor %xmm0,%xmm3
|
---|
785 | psllq $1,%xmm0
|
---|
786 | pxor %xmm3,%xmm0
|
---|
787 | psllq $57,%xmm0
|
---|
788 | movdqa %xmm0,%xmm3
|
---|
789 | pslldq $8,%xmm0
|
---|
790 | psrldq $8,%xmm3
|
---|
791 | pxor %xmm4,%xmm0
|
---|
792 | pxor %xmm3,%xmm1
|
---|
793 |
|
---|
794 |
|
---|
795 | movdqa %xmm0,%xmm4
|
---|
796 | psrlq $1,%xmm0
|
---|
797 | pxor %xmm4,%xmm1
|
---|
798 | pxor %xmm0,%xmm4
|
---|
799 | psrlq $5,%xmm0
|
---|
800 | pxor %xmm4,%xmm0
|
---|
801 | psrlq $1,%xmm0
|
---|
802 | pxor %xmm1,%xmm0
|
---|
803 | movdqa %xmm0,%xmm5
|
---|
804 | movdqa %xmm0,%xmm1
|
---|
805 | pshufd $78,%xmm0,%xmm3
|
---|
806 | pxor %xmm0,%xmm3
|
---|
807 | .byte 102,15,58,68,194,0
|
---|
808 | .byte 102,15,58,68,202,17
|
---|
809 | .byte 102,15,58,68,222,0
|
---|
810 | pxor %xmm0,%xmm3
|
---|
811 | pxor %xmm1,%xmm3
|
---|
812 |
|
---|
813 | movdqa %xmm3,%xmm4
|
---|
814 | psrldq $8,%xmm3
|
---|
815 | pslldq $8,%xmm4
|
---|
816 | pxor %xmm3,%xmm1
|
---|
817 | pxor %xmm4,%xmm0
|
---|
818 |
|
---|
819 | movdqa %xmm0,%xmm4
|
---|
820 | movdqa %xmm0,%xmm3
|
---|
821 | psllq $5,%xmm0
|
---|
822 | pxor %xmm0,%xmm3
|
---|
823 | psllq $1,%xmm0
|
---|
824 | pxor %xmm3,%xmm0
|
---|
825 | psllq $57,%xmm0
|
---|
826 | movdqa %xmm0,%xmm3
|
---|
827 | pslldq $8,%xmm0
|
---|
828 | psrldq $8,%xmm3
|
---|
829 | pxor %xmm4,%xmm0
|
---|
830 | pxor %xmm3,%xmm1
|
---|
831 |
|
---|
832 |
|
---|
833 | movdqa %xmm0,%xmm4
|
---|
834 | psrlq $1,%xmm0
|
---|
835 | pxor %xmm4,%xmm1
|
---|
836 | pxor %xmm0,%xmm4
|
---|
837 | psrlq $5,%xmm0
|
---|
838 | pxor %xmm4,%xmm0
|
---|
839 | psrlq $1,%xmm0
|
---|
840 | pxor %xmm1,%xmm0
|
---|
841 | pshufd $78,%xmm5,%xmm3
|
---|
842 | pshufd $78,%xmm0,%xmm4
|
---|
843 | pxor %xmm5,%xmm3
|
---|
844 | movdqu %xmm5,48(%rdi)
|
---|
845 | pxor %xmm0,%xmm4
|
---|
846 | movdqu %xmm0,64(%rdi)
|
---|
847 | .byte 102,15,58,15,227,8
|
---|
848 | movdqu %xmm4,80(%rdi)
|
---|
849 | .byte 0xf3,0xc3
|
---|
850 |
|
---|
851 |
|
---|
852 | .globl _gcm_gmult_clmul
|
---|
853 |
|
---|
854 | .p2align 4
|
---|
855 | _gcm_gmult_clmul:
|
---|
856 |
|
---|
857 | .byte 243,15,30,250
|
---|
858 | L$_gmult_clmul:
|
---|
859 | movdqu (%rdi),%xmm0
|
---|
860 | movdqa L$bswap_mask(%rip),%xmm5
|
---|
861 | movdqu (%rsi),%xmm2
|
---|
862 | movdqu 32(%rsi),%xmm4
|
---|
863 | .byte 102,15,56,0,197
|
---|
864 | movdqa %xmm0,%xmm1
|
---|
865 | pshufd $78,%xmm0,%xmm3
|
---|
866 | pxor %xmm0,%xmm3
|
---|
867 | .byte 102,15,58,68,194,0
|
---|
868 | .byte 102,15,58,68,202,17
|
---|
869 | .byte 102,15,58,68,220,0
|
---|
870 | pxor %xmm0,%xmm3
|
---|
871 | pxor %xmm1,%xmm3
|
---|
872 |
|
---|
873 | movdqa %xmm3,%xmm4
|
---|
874 | psrldq $8,%xmm3
|
---|
875 | pslldq $8,%xmm4
|
---|
876 | pxor %xmm3,%xmm1
|
---|
877 | pxor %xmm4,%xmm0
|
---|
878 |
|
---|
879 | movdqa %xmm0,%xmm4
|
---|
880 | movdqa %xmm0,%xmm3
|
---|
881 | psllq $5,%xmm0
|
---|
882 | pxor %xmm0,%xmm3
|
---|
883 | psllq $1,%xmm0
|
---|
884 | pxor %xmm3,%xmm0
|
---|
885 | psllq $57,%xmm0
|
---|
886 | movdqa %xmm0,%xmm3
|
---|
887 | pslldq $8,%xmm0
|
---|
888 | psrldq $8,%xmm3
|
---|
889 | pxor %xmm4,%xmm0
|
---|
890 | pxor %xmm3,%xmm1
|
---|
891 |
|
---|
892 |
|
---|
893 | movdqa %xmm0,%xmm4
|
---|
894 | psrlq $1,%xmm0
|
---|
895 | pxor %xmm4,%xmm1
|
---|
896 | pxor %xmm0,%xmm4
|
---|
897 | psrlq $5,%xmm0
|
---|
898 | pxor %xmm4,%xmm0
|
---|
899 | psrlq $1,%xmm0
|
---|
900 | pxor %xmm1,%xmm0
|
---|
901 | .byte 102,15,56,0,197
|
---|
902 | movdqu %xmm0,(%rdi)
|
---|
903 | .byte 0xf3,0xc3
|
---|
904 |
|
---|
905 |
|
---|
906 | .globl _gcm_ghash_clmul
|
---|
907 |
|
---|
908 | .p2align 5
|
---|
909 | _gcm_ghash_clmul:
|
---|
910 |
|
---|
911 | .byte 243,15,30,250
|
---|
912 | L$_ghash_clmul:
|
---|
913 | movdqa L$bswap_mask(%rip),%xmm10
|
---|
914 |
|
---|
915 | movdqu (%rdi),%xmm0
|
---|
916 | movdqu (%rsi),%xmm2
|
---|
917 | movdqu 32(%rsi),%xmm7
|
---|
918 | .byte 102,65,15,56,0,194
|
---|
919 |
|
---|
920 | subq $0x10,%rcx
|
---|
921 | jz L$odd_tail
|
---|
922 |
|
---|
923 | movdqu 16(%rsi),%xmm6
|
---|
924 | movl _OPENSSL_ia32cap_P+4(%rip),%eax
|
---|
925 | cmpq $0x30,%rcx
|
---|
926 | jb L$skip4x
|
---|
927 |
|
---|
928 | andl $71303168,%eax
|
---|
929 | cmpl $4194304,%eax
|
---|
930 | je L$skip4x
|
---|
931 |
|
---|
932 | subq $0x30,%rcx
|
---|
933 | movq $0xA040608020C0E000,%rax
|
---|
934 | movdqu 48(%rsi),%xmm14
|
---|
935 | movdqu 64(%rsi),%xmm15
|
---|
936 |
|
---|
937 |
|
---|
938 |
|
---|
939 |
|
---|
940 | movdqu 48(%rdx),%xmm3
|
---|
941 | movdqu 32(%rdx),%xmm11
|
---|
942 | .byte 102,65,15,56,0,218
|
---|
943 | .byte 102,69,15,56,0,218
|
---|
944 | movdqa %xmm3,%xmm5
|
---|
945 | pshufd $78,%xmm3,%xmm4
|
---|
946 | pxor %xmm3,%xmm4
|
---|
947 | .byte 102,15,58,68,218,0
|
---|
948 | .byte 102,15,58,68,234,17
|
---|
949 | .byte 102,15,58,68,231,0
|
---|
950 |
|
---|
951 | movdqa %xmm11,%xmm13
|
---|
952 | pshufd $78,%xmm11,%xmm12
|
---|
953 | pxor %xmm11,%xmm12
|
---|
954 | .byte 102,68,15,58,68,222,0
|
---|
955 | .byte 102,68,15,58,68,238,17
|
---|
956 | .byte 102,68,15,58,68,231,16
|
---|
957 | xorps %xmm11,%xmm3
|
---|
958 | xorps %xmm13,%xmm5
|
---|
959 | movups 80(%rsi),%xmm7
|
---|
960 | xorps %xmm12,%xmm4
|
---|
961 |
|
---|
962 | movdqu 16(%rdx),%xmm11
|
---|
963 | movdqu 0(%rdx),%xmm8
|
---|
964 | .byte 102,69,15,56,0,218
|
---|
965 | .byte 102,69,15,56,0,194
|
---|
966 | movdqa %xmm11,%xmm13
|
---|
967 | pshufd $78,%xmm11,%xmm12
|
---|
968 | pxor %xmm8,%xmm0
|
---|
969 | pxor %xmm11,%xmm12
|
---|
970 | .byte 102,69,15,58,68,222,0
|
---|
971 | movdqa %xmm0,%xmm1
|
---|
972 | pshufd $78,%xmm0,%xmm8
|
---|
973 | pxor %xmm0,%xmm8
|
---|
974 | .byte 102,69,15,58,68,238,17
|
---|
975 | .byte 102,68,15,58,68,231,0
|
---|
976 | xorps %xmm11,%xmm3
|
---|
977 | xorps %xmm13,%xmm5
|
---|
978 |
|
---|
979 | leaq 64(%rdx),%rdx
|
---|
980 | subq $0x40,%rcx
|
---|
981 | jc L$tail4x
|
---|
982 |
|
---|
983 | jmp L$mod4_loop
|
---|
984 | .p2align 5
|
---|
985 | L$mod4_loop:
|
---|
986 | .byte 102,65,15,58,68,199,0
|
---|
987 | xorps %xmm12,%xmm4
|
---|
988 | movdqu 48(%rdx),%xmm11
|
---|
989 | .byte 102,69,15,56,0,218
|
---|
990 | .byte 102,65,15,58,68,207,17
|
---|
991 | xorps %xmm3,%xmm0
|
---|
992 | movdqu 32(%rdx),%xmm3
|
---|
993 | movdqa %xmm11,%xmm13
|
---|
994 | .byte 102,68,15,58,68,199,16
|
---|
995 | pshufd $78,%xmm11,%xmm12
|
---|
996 | xorps %xmm5,%xmm1
|
---|
997 | pxor %xmm11,%xmm12
|
---|
998 | .byte 102,65,15,56,0,218
|
---|
999 | movups 32(%rsi),%xmm7
|
---|
1000 | xorps %xmm4,%xmm8
|
---|
1001 | .byte 102,68,15,58,68,218,0
|
---|
1002 | pshufd $78,%xmm3,%xmm4
|
---|
1003 |
|
---|
1004 | pxor %xmm0,%xmm8
|
---|
1005 | movdqa %xmm3,%xmm5
|
---|
1006 | pxor %xmm1,%xmm8
|
---|
1007 | pxor %xmm3,%xmm4
|
---|
1008 | movdqa %xmm8,%xmm9
|
---|
1009 | .byte 102,68,15,58,68,234,17
|
---|
1010 | pslldq $8,%xmm8
|
---|
1011 | psrldq $8,%xmm9
|
---|
1012 | pxor %xmm8,%xmm0
|
---|
1013 | movdqa L$7_mask(%rip),%xmm8
|
---|
1014 | pxor %xmm9,%xmm1
|
---|
1015 | .byte 102,76,15,110,200
|
---|
1016 |
|
---|
1017 | pand %xmm0,%xmm8
|
---|
1018 | .byte 102,69,15,56,0,200
|
---|
1019 | pxor %xmm0,%xmm9
|
---|
1020 | .byte 102,68,15,58,68,231,0
|
---|
1021 | psllq $57,%xmm9
|
---|
1022 | movdqa %xmm9,%xmm8
|
---|
1023 | pslldq $8,%xmm9
|
---|
1024 | .byte 102,15,58,68,222,0
|
---|
1025 | psrldq $8,%xmm8
|
---|
1026 | pxor %xmm9,%xmm0
|
---|
1027 | pxor %xmm8,%xmm1
|
---|
1028 | movdqu 0(%rdx),%xmm8
|
---|
1029 |
|
---|
1030 | movdqa %xmm0,%xmm9
|
---|
1031 | psrlq $1,%xmm0
|
---|
1032 | .byte 102,15,58,68,238,17
|
---|
1033 | xorps %xmm11,%xmm3
|
---|
1034 | movdqu 16(%rdx),%xmm11
|
---|
1035 | .byte 102,69,15,56,0,218
|
---|
1036 | .byte 102,15,58,68,231,16
|
---|
1037 | xorps %xmm13,%xmm5
|
---|
1038 | movups 80(%rsi),%xmm7
|
---|
1039 | .byte 102,69,15,56,0,194
|
---|
1040 | pxor %xmm9,%xmm1
|
---|
1041 | pxor %xmm0,%xmm9
|
---|
1042 | psrlq $5,%xmm0
|
---|
1043 |
|
---|
1044 | movdqa %xmm11,%xmm13
|
---|
1045 | pxor %xmm12,%xmm4
|
---|
1046 | pshufd $78,%xmm11,%xmm12
|
---|
1047 | pxor %xmm9,%xmm0
|
---|
1048 | pxor %xmm8,%xmm1
|
---|
1049 | pxor %xmm11,%xmm12
|
---|
1050 | .byte 102,69,15,58,68,222,0
|
---|
1051 | psrlq $1,%xmm0
|
---|
1052 | pxor %xmm1,%xmm0
|
---|
1053 | movdqa %xmm0,%xmm1
|
---|
1054 | .byte 102,69,15,58,68,238,17
|
---|
1055 | xorps %xmm11,%xmm3
|
---|
1056 | pshufd $78,%xmm0,%xmm8
|
---|
1057 | pxor %xmm0,%xmm8
|
---|
1058 |
|
---|
1059 | .byte 102,68,15,58,68,231,0
|
---|
1060 | xorps %xmm13,%xmm5
|
---|
1061 |
|
---|
1062 | leaq 64(%rdx),%rdx
|
---|
1063 | subq $0x40,%rcx
|
---|
1064 | jnc L$mod4_loop
|
---|
1065 |
|
---|
1066 | L$tail4x:
|
---|
1067 | .byte 102,65,15,58,68,199,0
|
---|
1068 | .byte 102,65,15,58,68,207,17
|
---|
1069 | .byte 102,68,15,58,68,199,16
|
---|
1070 | xorps %xmm12,%xmm4
|
---|
1071 | xorps %xmm3,%xmm0
|
---|
1072 | xorps %xmm5,%xmm1
|
---|
1073 | pxor %xmm0,%xmm1
|
---|
1074 | pxor %xmm4,%xmm8
|
---|
1075 |
|
---|
1076 | pxor %xmm1,%xmm8
|
---|
1077 | pxor %xmm0,%xmm1
|
---|
1078 |
|
---|
1079 | movdqa %xmm8,%xmm9
|
---|
1080 | psrldq $8,%xmm8
|
---|
1081 | pslldq $8,%xmm9
|
---|
1082 | pxor %xmm8,%xmm1
|
---|
1083 | pxor %xmm9,%xmm0
|
---|
1084 |
|
---|
1085 | movdqa %xmm0,%xmm4
|
---|
1086 | movdqa %xmm0,%xmm3
|
---|
1087 | psllq $5,%xmm0
|
---|
1088 | pxor %xmm0,%xmm3
|
---|
1089 | psllq $1,%xmm0
|
---|
1090 | pxor %xmm3,%xmm0
|
---|
1091 | psllq $57,%xmm0
|
---|
1092 | movdqa %xmm0,%xmm3
|
---|
1093 | pslldq $8,%xmm0
|
---|
1094 | psrldq $8,%xmm3
|
---|
1095 | pxor %xmm4,%xmm0
|
---|
1096 | pxor %xmm3,%xmm1
|
---|
1097 |
|
---|
1098 |
|
---|
1099 | movdqa %xmm0,%xmm4
|
---|
1100 | psrlq $1,%xmm0
|
---|
1101 | pxor %xmm4,%xmm1
|
---|
1102 | pxor %xmm0,%xmm4
|
---|
1103 | psrlq $5,%xmm0
|
---|
1104 | pxor %xmm4,%xmm0
|
---|
1105 | psrlq $1,%xmm0
|
---|
1106 | pxor %xmm1,%xmm0
|
---|
1107 | addq $0x40,%rcx
|
---|
1108 | jz L$done
|
---|
1109 | movdqu 32(%rsi),%xmm7
|
---|
1110 | subq $0x10,%rcx
|
---|
1111 | jz L$odd_tail
|
---|
1112 | L$skip4x:
|
---|
1113 |
|
---|
1114 |
|
---|
1115 |
|
---|
1116 |
|
---|
1117 |
|
---|
1118 | movdqu (%rdx),%xmm8
|
---|
1119 | movdqu 16(%rdx),%xmm3
|
---|
1120 | .byte 102,69,15,56,0,194
|
---|
1121 | .byte 102,65,15,56,0,218
|
---|
1122 | pxor %xmm8,%xmm0
|
---|
1123 |
|
---|
1124 | movdqa %xmm3,%xmm5
|
---|
1125 | pshufd $78,%xmm3,%xmm4
|
---|
1126 | pxor %xmm3,%xmm4
|
---|
1127 | .byte 102,15,58,68,218,0
|
---|
1128 | .byte 102,15,58,68,234,17
|
---|
1129 | .byte 102,15,58,68,231,0
|
---|
1130 |
|
---|
1131 | leaq 32(%rdx),%rdx
|
---|
1132 | nop
|
---|
1133 | subq $0x20,%rcx
|
---|
1134 | jbe L$even_tail
|
---|
1135 | nop
|
---|
1136 | jmp L$mod_loop
|
---|
1137 |
|
---|
1138 | .p2align 5
|
---|
1139 | L$mod_loop:
|
---|
1140 | movdqa %xmm0,%xmm1
|
---|
1141 | movdqa %xmm4,%xmm8
|
---|
1142 | pshufd $78,%xmm0,%xmm4
|
---|
1143 | pxor %xmm0,%xmm4
|
---|
1144 |
|
---|
1145 | .byte 102,15,58,68,198,0
|
---|
1146 | .byte 102,15,58,68,206,17
|
---|
1147 | .byte 102,15,58,68,231,16
|
---|
1148 |
|
---|
1149 | pxor %xmm3,%xmm0
|
---|
1150 | pxor %xmm5,%xmm1
|
---|
1151 | movdqu (%rdx),%xmm9
|
---|
1152 | pxor %xmm0,%xmm8
|
---|
1153 | .byte 102,69,15,56,0,202
|
---|
1154 | movdqu 16(%rdx),%xmm3
|
---|
1155 |
|
---|
1156 | pxor %xmm1,%xmm8
|
---|
1157 | pxor %xmm9,%xmm1
|
---|
1158 | pxor %xmm8,%xmm4
|
---|
1159 | .byte 102,65,15,56,0,218
|
---|
1160 | movdqa %xmm4,%xmm8
|
---|
1161 | psrldq $8,%xmm8
|
---|
1162 | pslldq $8,%xmm4
|
---|
1163 | pxor %xmm8,%xmm1
|
---|
1164 | pxor %xmm4,%xmm0
|
---|
1165 |
|
---|
1166 | movdqa %xmm3,%xmm5
|
---|
1167 |
|
---|
1168 | movdqa %xmm0,%xmm9
|
---|
1169 | movdqa %xmm0,%xmm8
|
---|
1170 | psllq $5,%xmm0
|
---|
1171 | pxor %xmm0,%xmm8
|
---|
1172 | .byte 102,15,58,68,218,0
|
---|
1173 | psllq $1,%xmm0
|
---|
1174 | pxor %xmm8,%xmm0
|
---|
1175 | psllq $57,%xmm0
|
---|
1176 | movdqa %xmm0,%xmm8
|
---|
1177 | pslldq $8,%xmm0
|
---|
1178 | psrldq $8,%xmm8
|
---|
1179 | pxor %xmm9,%xmm0
|
---|
1180 | pshufd $78,%xmm5,%xmm4
|
---|
1181 | pxor %xmm8,%xmm1
|
---|
1182 | pxor %xmm5,%xmm4
|
---|
1183 |
|
---|
1184 | movdqa %xmm0,%xmm9
|
---|
1185 | psrlq $1,%xmm0
|
---|
1186 | .byte 102,15,58,68,234,17
|
---|
1187 | pxor %xmm9,%xmm1
|
---|
1188 | pxor %xmm0,%xmm9
|
---|
1189 | psrlq $5,%xmm0
|
---|
1190 | pxor %xmm9,%xmm0
|
---|
1191 | leaq 32(%rdx),%rdx
|
---|
1192 | psrlq $1,%xmm0
|
---|
1193 | .byte 102,15,58,68,231,0
|
---|
1194 | pxor %xmm1,%xmm0
|
---|
1195 |
|
---|
1196 | subq $0x20,%rcx
|
---|
1197 | ja L$mod_loop
|
---|
1198 |
|
---|
1199 | L$even_tail:
|
---|
1200 | movdqa %xmm0,%xmm1
|
---|
1201 | movdqa %xmm4,%xmm8
|
---|
1202 | pshufd $78,%xmm0,%xmm4
|
---|
1203 | pxor %xmm0,%xmm4
|
---|
1204 |
|
---|
1205 | .byte 102,15,58,68,198,0
|
---|
1206 | .byte 102,15,58,68,206,17
|
---|
1207 | .byte 102,15,58,68,231,16
|
---|
1208 |
|
---|
1209 | pxor %xmm3,%xmm0
|
---|
1210 | pxor %xmm5,%xmm1
|
---|
1211 | pxor %xmm0,%xmm8
|
---|
1212 | pxor %xmm1,%xmm8
|
---|
1213 | pxor %xmm8,%xmm4
|
---|
1214 | movdqa %xmm4,%xmm8
|
---|
1215 | psrldq $8,%xmm8
|
---|
1216 | pslldq $8,%xmm4
|
---|
1217 | pxor %xmm8,%xmm1
|
---|
1218 | pxor %xmm4,%xmm0
|
---|
1219 |
|
---|
1220 | movdqa %xmm0,%xmm4
|
---|
1221 | movdqa %xmm0,%xmm3
|
---|
1222 | psllq $5,%xmm0
|
---|
1223 | pxor %xmm0,%xmm3
|
---|
1224 | psllq $1,%xmm0
|
---|
1225 | pxor %xmm3,%xmm0
|
---|
1226 | psllq $57,%xmm0
|
---|
1227 | movdqa %xmm0,%xmm3
|
---|
1228 | pslldq $8,%xmm0
|
---|
1229 | psrldq $8,%xmm3
|
---|
1230 | pxor %xmm4,%xmm0
|
---|
1231 | pxor %xmm3,%xmm1
|
---|
1232 |
|
---|
1233 |
|
---|
1234 | movdqa %xmm0,%xmm4
|
---|
1235 | psrlq $1,%xmm0
|
---|
1236 | pxor %xmm4,%xmm1
|
---|
1237 | pxor %xmm0,%xmm4
|
---|
1238 | psrlq $5,%xmm0
|
---|
1239 | pxor %xmm4,%xmm0
|
---|
1240 | psrlq $1,%xmm0
|
---|
1241 | pxor %xmm1,%xmm0
|
---|
1242 | testq %rcx,%rcx
|
---|
1243 | jnz L$done
|
---|
1244 |
|
---|
1245 | L$odd_tail:
|
---|
1246 | movdqu (%rdx),%xmm8
|
---|
1247 | .byte 102,69,15,56,0,194
|
---|
1248 | pxor %xmm8,%xmm0
|
---|
1249 | movdqa %xmm0,%xmm1
|
---|
1250 | pshufd $78,%xmm0,%xmm3
|
---|
1251 | pxor %xmm0,%xmm3
|
---|
1252 | .byte 102,15,58,68,194,0
|
---|
1253 | .byte 102,15,58,68,202,17
|
---|
1254 | .byte 102,15,58,68,223,0
|
---|
1255 | pxor %xmm0,%xmm3
|
---|
1256 | pxor %xmm1,%xmm3
|
---|
1257 |
|
---|
1258 | movdqa %xmm3,%xmm4
|
---|
1259 | psrldq $8,%xmm3
|
---|
1260 | pslldq $8,%xmm4
|
---|
1261 | pxor %xmm3,%xmm1
|
---|
1262 | pxor %xmm4,%xmm0
|
---|
1263 |
|
---|
1264 | movdqa %xmm0,%xmm4
|
---|
1265 | movdqa %xmm0,%xmm3
|
---|
1266 | psllq $5,%xmm0
|
---|
1267 | pxor %xmm0,%xmm3
|
---|
1268 | psllq $1,%xmm0
|
---|
1269 | pxor %xmm3,%xmm0
|
---|
1270 | psllq $57,%xmm0
|
---|
1271 | movdqa %xmm0,%xmm3
|
---|
1272 | pslldq $8,%xmm0
|
---|
1273 | psrldq $8,%xmm3
|
---|
1274 | pxor %xmm4,%xmm0
|
---|
1275 | pxor %xmm3,%xmm1
|
---|
1276 |
|
---|
1277 |
|
---|
1278 | movdqa %xmm0,%xmm4
|
---|
1279 | psrlq $1,%xmm0
|
---|
1280 | pxor %xmm4,%xmm1
|
---|
1281 | pxor %xmm0,%xmm4
|
---|
1282 | psrlq $5,%xmm0
|
---|
1283 | pxor %xmm4,%xmm0
|
---|
1284 | psrlq $1,%xmm0
|
---|
1285 | pxor %xmm1,%xmm0
|
---|
1286 | L$done:
|
---|
1287 | .byte 102,65,15,56,0,194
|
---|
1288 | movdqu %xmm0,(%rdi)
|
---|
1289 | .byte 0xf3,0xc3
|
---|
1290 |
|
---|
1291 |
|
---|
1292 | .globl _gcm_init_avx
|
---|
1293 |
|
---|
1294 | .p2align 5
|
---|
1295 | _gcm_init_avx:
|
---|
1296 |
|
---|
1297 | jmp L$_init_clmul
|
---|
1298 |
|
---|
1299 |
|
---|
1300 | .globl _gcm_gmult_avx
|
---|
1301 |
|
---|
1302 | .p2align 5
|
---|
1303 | _gcm_gmult_avx:
|
---|
1304 |
|
---|
1305 | .byte 243,15,30,250
|
---|
1306 | jmp L$_gmult_clmul
|
---|
1307 |
|
---|
1308 |
|
---|
1309 | .globl _gcm_ghash_avx
|
---|
1310 |
|
---|
1311 | .p2align 5
|
---|
1312 | _gcm_ghash_avx:
|
---|
1313 |
|
---|
1314 | .byte 243,15,30,250
|
---|
1315 | jmp L$_ghash_clmul
|
---|
1316 |
|
---|
1317 |
|
---|
1318 | .p2align 6
|
---|
1319 | L$bswap_mask:
|
---|
1320 | .byte 15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0
|
---|
1321 | L$0x1c2_polynomial:
|
---|
1322 | .byte 1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0xc2
|
---|
1323 | L$7_mask:
|
---|
1324 | .long 7,0,7,0
|
---|
1325 | L$7_mask_poly:
|
---|
1326 | .long 7,0,450,0
|
---|
1327 | .p2align 6
|
---|
1328 |
|
---|
1329 | L$rem_4bit:
|
---|
1330 | .long 0,0,0,471859200,0,943718400,0,610271232
|
---|
1331 | .long 0,1887436800,0,1822425088,0,1220542464,0,1423966208
|
---|
1332 | .long 0,3774873600,0,4246732800,0,3644850176,0,3311403008
|
---|
1333 | .long 0,2441084928,0,2376073216,0,2847932416,0,3051356160
|
---|
1334 |
|
---|
1335 | L$rem_8bit:
|
---|
1336 | .value 0x0000,0x01C2,0x0384,0x0246,0x0708,0x06CA,0x048C,0x054E
|
---|
1337 | .value 0x0E10,0x0FD2,0x0D94,0x0C56,0x0918,0x08DA,0x0A9C,0x0B5E
|
---|
1338 | .value 0x1C20,0x1DE2,0x1FA4,0x1E66,0x1B28,0x1AEA,0x18AC,0x196E
|
---|
1339 | .value 0x1230,0x13F2,0x11B4,0x1076,0x1538,0x14FA,0x16BC,0x177E
|
---|
1340 | .value 0x3840,0x3982,0x3BC4,0x3A06,0x3F48,0x3E8A,0x3CCC,0x3D0E
|
---|
1341 | .value 0x3650,0x3792,0x35D4,0x3416,0x3158,0x309A,0x32DC,0x331E
|
---|
1342 | .value 0x2460,0x25A2,0x27E4,0x2626,0x2368,0x22AA,0x20EC,0x212E
|
---|
1343 | .value 0x2A70,0x2BB2,0x29F4,0x2836,0x2D78,0x2CBA,0x2EFC,0x2F3E
|
---|
1344 | .value 0x7080,0x7142,0x7304,0x72C6,0x7788,0x764A,0x740C,0x75CE
|
---|
1345 | .value 0x7E90,0x7F52,0x7D14,0x7CD6,0x7998,0x785A,0x7A1C,0x7BDE
|
---|
1346 | .value 0x6CA0,0x6D62,0x6F24,0x6EE6,0x6BA8,0x6A6A,0x682C,0x69EE
|
---|
1347 | .value 0x62B0,0x6372,0x6134,0x60F6,0x65B8,0x647A,0x663C,0x67FE
|
---|
1348 | .value 0x48C0,0x4902,0x4B44,0x4A86,0x4FC8,0x4E0A,0x4C4C,0x4D8E
|
---|
1349 | .value 0x46D0,0x4712,0x4554,0x4496,0x41D8,0x401A,0x425C,0x439E
|
---|
1350 | .value 0x54E0,0x5522,0x5764,0x56A6,0x53E8,0x522A,0x506C,0x51AE
|
---|
1351 | .value 0x5AF0,0x5B32,0x5974,0x58B6,0x5DF8,0x5C3A,0x5E7C,0x5FBE
|
---|
1352 | .value 0xE100,0xE0C2,0xE284,0xE346,0xE608,0xE7CA,0xE58C,0xE44E
|
---|
1353 | .value 0xEF10,0xEED2,0xEC94,0xED56,0xE818,0xE9DA,0xEB9C,0xEA5E
|
---|
1354 | .value 0xFD20,0xFCE2,0xFEA4,0xFF66,0xFA28,0xFBEA,0xF9AC,0xF86E
|
---|
1355 | .value 0xF330,0xF2F2,0xF0B4,0xF176,0xF438,0xF5FA,0xF7BC,0xF67E
|
---|
1356 | .value 0xD940,0xD882,0xDAC4,0xDB06,0xDE48,0xDF8A,0xDDCC,0xDC0E
|
---|
1357 | .value 0xD750,0xD692,0xD4D4,0xD516,0xD058,0xD19A,0xD3DC,0xD21E
|
---|
1358 | .value 0xC560,0xC4A2,0xC6E4,0xC726,0xC268,0xC3AA,0xC1EC,0xC02E
|
---|
1359 | .value 0xCB70,0xCAB2,0xC8F4,0xC936,0xCC78,0xCDBA,0xCFFC,0xCE3E
|
---|
1360 | .value 0x9180,0x9042,0x9204,0x93C6,0x9688,0x974A,0x950C,0x94CE
|
---|
1361 | .value 0x9F90,0x9E52,0x9C14,0x9DD6,0x9898,0x995A,0x9B1C,0x9ADE
|
---|
1362 | .value 0x8DA0,0x8C62,0x8E24,0x8FE6,0x8AA8,0x8B6A,0x892C,0x88EE
|
---|
1363 | .value 0x83B0,0x8272,0x8034,0x81F6,0x84B8,0x857A,0x873C,0x86FE
|
---|
1364 | .value 0xA9C0,0xA802,0xAA44,0xAB86,0xAEC8,0xAF0A,0xAD4C,0xAC8E
|
---|
1365 | .value 0xA7D0,0xA612,0xA454,0xA596,0xA0D8,0xA11A,0xA35C,0xA29E
|
---|
1366 | .value 0xB5E0,0xB422,0xB664,0xB7A6,0xB2E8,0xB32A,0xB16C,0xB0AE
|
---|
1367 | .value 0xBBF0,0xBA32,0xB874,0xB9B6,0xBCF8,0xBD3A,0xBF7C,0xBEBE
|
---|
1368 |
|
---|
1369 | .byte 71,72,65,83,72,32,102,111,114,32,120,56,54,95,54,52,44,32,67,82,89,80,84,79,71,65,77,83,32,98,121,32,60,97,112,112,114,111,64,111,112,101,110,115,115,108,46,111,114,103,62,0
|
---|
1370 | .p2align 6
|
---|