pngvcrd.c@ 9441

Last change on this file since 9441 was 6393, checked in by vboxsync, 17 years ago
export libpng and zlib so Windows and OS/2 builds cleanly.
Property svn:eol-style set to `native`
File size: 140.1 KB

Line
1	/* pngvcrd.c - mixed C/assembler version of utilities to read a PNG file
2	*
3	* For Intel x86 CPU and Microsoft Visual C++ compiler
4	*
5	* libpng version 1.2.8 - December 3, 2004
6	* For conditions of distribution and use, see copyright notice in png.h
7	* Copyright (c) 1998-2004 Glenn Randers-Pehrson
8	* Copyright (c) 1998, Intel Corporation
9	*
10	* Contributed by Nirav Chhatrapati, Intel Corporation, 1998
11	* Interface to libpng contributed by Gilles Vollant, 1999
12	*
13	*
14	* In png_do_read_interlace() in libpng versions 1.0.3a through 1.0.4d,
15	* a sign error in the post-MMX cleanup code for each pixel_depth resulted
16	* in bad pixels at the beginning of some rows of some images, and also
17	* (due to out-of-range memory reads and writes) caused heap corruption
18	* when compiled with MSVC 6.0. The error was fixed in version 1.0.4e.
19	*
20	* [png_read_filter_row_mmx_avg() bpp == 2 bugfix, GRR 20000916]
21	*
22	* [runtime MMX configuration, GRR 20010102]
23	*
24	*/
25
26	#define PNG_INTERNAL
27	#include "png.h"
28
29	#if defined(PNG_ASSEMBLER_CODE_SUPPORTED) && defined(PNG_USE_PNGVCRD)
30
31	static int mmx_supported=2;
32
33
34	int PNGAPI
35	png_mmx_support(void)
36	{
37	int mmx_supported_local = 0;
38	_asm {
39	push ebx //CPUID will trash these
40	push ecx
41	push edx
42
43	pushfd //Save Eflag to stack
44	pop eax //Get Eflag from stack into eax
45	mov ecx, eax //Make another copy of Eflag in ecx
46	xor eax, 0x200000 //Toggle ID bit in Eflag [i.e. bit(21)]
47	push eax //Save modified Eflag back to stack
48
49	popfd //Restored modified value back to Eflag reg
50	pushfd //Save Eflag to stack
51	pop eax //Get Eflag from stack
52	push ecx // save original Eflag to stack
53	popfd // restore original Eflag
54	xor eax, ecx //Compare the new Eflag with the original Eflag
55	jz NOT_SUPPORTED //If the same, CPUID instruction is not supported,
56	//skip following instructions and jump to
57	//NOT_SUPPORTED label
58
59	xor eax, eax //Set eax to zero
60
61	_asm _emit 0x0f //CPUID instruction (two bytes opcode)
62	_asm _emit 0xa2
63
64	cmp eax, 1 //make sure eax return non-zero value
65	jl NOT_SUPPORTED //If eax is zero, mmx not supported
66
67	xor eax, eax //set eax to zero
68	inc eax //Now increment eax to 1. This instruction is
69	//faster than the instruction "mov eax, 1"
70
71	_asm _emit 0x0f //CPUID instruction
72	_asm _emit 0xa2
73
74	and edx, 0x00800000 //mask out all bits but mmx bit(24)
75	cmp edx, 0 // 0 = mmx not supported
76	jz NOT_SUPPORTED // non-zero = Yes, mmx IS supported
77
78	mov mmx_supported_local, 1 //set return value to 1
79
80	NOT_SUPPORTED:
81	mov eax, mmx_supported_local //move return value to eax
82	pop edx //CPUID trashed these
83	pop ecx
84	pop ebx
85	}
86
87	//mmx_supported_local=0; // test code for force don't support MMX
88	//printf("MMX : %u (1=MMX supported)\n",mmx_supported_local);
89
90	mmx_supported = mmx_supported_local;
91	return mmx_supported_local;
92	}
93
94	/* Combines the row recently read in with the previous row.
95	This routine takes care of alpha and transparency if requested.
96	This routine also handles the two methods of progressive display
97	of interlaced images, depending on the mask value.
98	The mask value describes which pixels are to be combined with
99	the row. The pattern always repeats every 8 pixels, so just 8
100	bits are needed. A one indicates the pixel is to be combined; a
101	zero indicates the pixel is to be skipped. This is in addition
102	to any alpha or transparency value associated with the pixel. If
103	you want all pixels to be combined, pass 0xff (255) in mask. */
104
105	/* Use this routine for x86 platform - uses faster MMX routine if machine
106	supports MMX */
107
108	void /* PRIVATE */
109	png_combine_row(png_structp png_ptr, png_bytep row, int mask)
110	{
111	#ifdef PNG_USE_LOCAL_ARRAYS
112	const int png_pass_inc[7] = {8, 8, 4, 4, 2, 2, 1};
113	#endif
114
115	png_debug(1,"in png_combine_row_asm\n");
116
117	if (mmx_supported == 2) {
118	#if !defined(PNG_1_0_X)
119	/* this should have happened in png_init_mmx_flags() already */
120	png_warning(png_ptr, "asm_flags may not have been initialized");
121	#endif
122	png_mmx_support();
123	}
124
125	if (mask == 0xff)
126	{
127	png_memcpy(row, png_ptr->row_buf + 1,
128	(png_size_t)PNG_ROWBYTES(png_ptr->row_info.pixel_depth,
129	png_ptr->width));
130	}
131	/* GRR: add "else if (mask == 0)" case?
132	* or does png_combine_row() not even get called in that case? */
133	else
134	{
135	switch (png_ptr->row_info.pixel_depth)
136	{
137	case 1:
138	{
139	png_bytep sp;
140	png_bytep dp;
141	int s_inc, s_start, s_end;
142	int m;
143	int shift;
144	png_uint_32 i;
145
146	sp = png_ptr->row_buf + 1;
147	dp = row;
148	m = 0x80;
149	#if defined(PNG_READ_PACKSWAP_SUPPORTED)
150	if (png_ptr->transformations & PNG_PACKSWAP)
151	{
152	s_start = 0;
153	s_end = 7;
154	s_inc = 1;
155	}
156	else
157	#endif
158	{
159	s_start = 7;
160	s_end = 0;
161	s_inc = -1;
162	}
163
164	shift = s_start;
165
166	for (i = 0; i < png_ptr->width; i++)
167	{
168	if (m & mask)
169	{
170	int value;
171
172	value = (*sp >> shift) & 0x1;
173	*dp &= (png_byte)((0x7f7f >> (7 - shift)) & 0xff);
174	*dp \|= (png_byte)(value << shift);
175	}
176
177	if (shift == s_end)
178	{
179	shift = s_start;
180	sp++;
181	dp++;
182	}
183	else
184	shift += s_inc;
185
186	if (m == 1)
187	m = 0x80;
188	else
189	m >>= 1;
190	}
191	break;
192	}
193
194	case 2:
195	{
196	png_bytep sp;
197	png_bytep dp;
198	int s_start, s_end, s_inc;
199	int m;
200	int shift;
201	png_uint_32 i;
202	int value;
203
204	sp = png_ptr->row_buf + 1;
205	dp = row;
206	m = 0x80;
207	#if defined(PNG_READ_PACKSWAP_SUPPORTED)
208	if (png_ptr->transformations & PNG_PACKSWAP)
209	{
210	s_start = 0;
211	s_end = 6;
212	s_inc = 2;
213	}
214	else
215	#endif
216	{
217	s_start = 6;
218	s_end = 0;
219	s_inc = -2;
220	}
221
222	shift = s_start;
223
224	for (i = 0; i < png_ptr->width; i++)
225	{
226	if (m & mask)
227	{
228	value = (*sp >> shift) & 0x3;
229	*dp &= (png_byte)((0x3f3f >> (6 - shift)) & 0xff);
230	*dp \|= (png_byte)(value << shift);
231	}
232
233	if (shift == s_end)
234	{
235	shift = s_start;
236	sp++;
237	dp++;
238	}
239	else
240	shift += s_inc;
241	if (m == 1)
242	m = 0x80;
243	else
244	m >>= 1;
245	}
246	break;
247	}
248
249	case 4:
250	{
251	png_bytep sp;
252	png_bytep dp;
253	int s_start, s_end, s_inc;
254	int m;
255	int shift;
256	png_uint_32 i;
257	int value;
258
259	sp = png_ptr->row_buf + 1;
260	dp = row;
261	m = 0x80;
262	#if defined(PNG_READ_PACKSWAP_SUPPORTED)
263	if (png_ptr->transformations & PNG_PACKSWAP)
264	{
265	s_start = 0;
266	s_end = 4;
267	s_inc = 4;
268	}
269	else
270	#endif
271	{
272	s_start = 4;
273	s_end = 0;
274	s_inc = -4;
275	}
276	shift = s_start;
277
278	for (i = 0; i < png_ptr->width; i++)
279	{
280	if (m & mask)
281	{
282	value = (*sp >> shift) & 0xf;
283	*dp &= (png_byte)((0xf0f >> (4 - shift)) & 0xff);
284	*dp \|= (png_byte)(value << shift);
285	}
286
287	if (shift == s_end)
288	{
289	shift = s_start;
290	sp++;
291	dp++;
292	}
293	else
294	shift += s_inc;
295	if (m == 1)
296	m = 0x80;
297	else
298	m >>= 1;
299	}
300	break;
301	}
302
303	case 8:
304	{
305	png_bytep srcptr;
306	png_bytep dstptr;
307	png_uint_32 len;
308	int m;
309	int diff, unmask;
310
311	__int64 mask0=0x0102040810204080;
312
313	#if !defined(PNG_1_0_X)
314	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_COMBINE_ROW)
315	/* && mmx_supported */ )
316	#else
317	if (mmx_supported)
318	#endif
319	{
320	srcptr = png_ptr->row_buf + 1;
321	dstptr = row;
322	m = 0x80;
323	unmask = ~mask;
324	len = png_ptr->width &~7; //reduce to multiple of 8
325	diff = png_ptr->width & 7; //amount lost
326
327	_asm
328	{
329	movd mm7, unmask //load bit pattern
330	psubb mm6,mm6 //zero mm6
331	punpcklbw mm7,mm7
332	punpcklwd mm7,mm7
333	punpckldq mm7,mm7 //fill register with 8 masks
334
335	movq mm0,mask0
336
337	pand mm0,mm7 //nonzero if keep byte
338	pcmpeqb mm0,mm6 //zeros->1s, v versa
339
340	mov ecx,len //load length of line (pixels)
341	mov esi,srcptr //load source
342	mov ebx,dstptr //load dest
343	cmp ecx,0 //lcr
344	je mainloop8end
345
346	mainloop8:
347	movq mm4,[esi]
348	pand mm4,mm0
349	movq mm6,mm0
350	pandn mm6,[ebx]
351	por mm4,mm6
352	movq [ebx],mm4
353
354	add esi,8 //inc by 8 bytes processed
355	add ebx,8
356	sub ecx,8 //dec by 8 pixels processed
357
358	ja mainloop8
359	mainloop8end:
360
361	mov ecx,diff
362	cmp ecx,0
363	jz end8
364
365	mov edx,mask
366	sal edx,24 //make low byte the high byte
367
368	secondloop8:
369	sal edx,1 //move high bit to CF
370	jnc skip8 //if CF = 0
371	mov al,[esi]
372	mov [ebx],al
373	skip8:
374	inc esi
375	inc ebx
376
377	dec ecx
378	jnz secondloop8
379	end8:
380	emms
381	}
382	}
383	else /* mmx not supported - use modified C routine */
384	{
385	register unsigned int incr1, initial_val, final_val;
386	png_size_t pixel_bytes;
387	png_uint_32 i;
388	register int disp = png_pass_inc[png_ptr->pass];
389	int offset_table[7] = {0, 4, 0, 2, 0, 1, 0};
390
391	pixel_bytes = (png_ptr->row_info.pixel_depth >> 3);
392	srcptr = png_ptr->row_buf + 1 + offset_table[png_ptr->pass]*
393	pixel_bytes;
394	dstptr = row + offset_table[png_ptr->pass]*pixel_bytes;
395	initial_val = offset_table[png_ptr->pass]*pixel_bytes;
396	final_val = png_ptr->width*pixel_bytes;
397	incr1 = (disp)*pixel_bytes;
398	for (i = initial_val; i < final_val; i += incr1)
399	{
400	png_memcpy(dstptr, srcptr, pixel_bytes);
401	srcptr += incr1;
402	dstptr += incr1;
403	}
404	} /* end of else */
405
406	break;
407	} // end 8 bpp
408
409	case 16:
410	{
411	png_bytep srcptr;
412	png_bytep dstptr;
413	png_uint_32 len;
414	int unmask, diff;
415	__int64 mask1=0x0101020204040808,
416	mask0=0x1010202040408080;
417
418	#if !defined(PNG_1_0_X)
419	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_COMBINE_ROW)
420	/* && mmx_supported */ )
421	#else
422	if (mmx_supported)
423	#endif
424	{
425	srcptr = png_ptr->row_buf + 1;
426	dstptr = row;
427
428	unmask = ~mask;
429	len = (png_ptr->width)&~7;
430	diff = (png_ptr->width)&7;
431	_asm
432	{
433	movd mm7, unmask //load bit pattern
434	psubb mm6,mm6 //zero mm6
435	punpcklbw mm7,mm7
436	punpcklwd mm7,mm7
437	punpckldq mm7,mm7 //fill register with 8 masks
438
439	movq mm0,mask0
440	movq mm1,mask1
441
442	pand mm0,mm7
443	pand mm1,mm7
444
445	pcmpeqb mm0,mm6
446	pcmpeqb mm1,mm6
447
448	mov ecx,len //load length of line
449	mov esi,srcptr //load source
450	mov ebx,dstptr //load dest
451	cmp ecx,0 //lcr
452	jz mainloop16end
453
454	mainloop16:
455	movq mm4,[esi]
456	pand mm4,mm0
457	movq mm6,mm0
458	movq mm7,[ebx]
459	pandn mm6,mm7
460	por mm4,mm6
461	movq [ebx],mm4
462
463	movq mm5,[esi+8]
464	pand mm5,mm1
465	movq mm7,mm1
466	movq mm6,[ebx+8]
467	pandn mm7,mm6
468	por mm5,mm7
469	movq [ebx+8],mm5
470
471	add esi,16 //inc by 16 bytes processed
472	add ebx,16
473	sub ecx,8 //dec by 8 pixels processed
474
475	ja mainloop16
476
477	mainloop16end:
478	mov ecx,diff
479	cmp ecx,0
480	jz end16
481
482	mov edx,mask
483	sal edx,24 //make low byte the high byte
484	secondloop16:
485	sal edx,1 //move high bit to CF
486	jnc skip16 //if CF = 0
487	mov ax,[esi]
488	mov [ebx],ax
489	skip16:
490	add esi,2
491	add ebx,2
492
493	dec ecx
494	jnz secondloop16
495	end16:
496	emms
497	}
498	}
499	else /* mmx not supported - use modified C routine */
500	{
501	register unsigned int incr1, initial_val, final_val;
502	png_size_t pixel_bytes;
503	png_uint_32 i;
504	register int disp = png_pass_inc[png_ptr->pass];
505	int offset_table[7] = {0, 4, 0, 2, 0, 1, 0};
506
507	pixel_bytes = (png_ptr->row_info.pixel_depth >> 3);
508	srcptr = png_ptr->row_buf + 1 + offset_table[png_ptr->pass]*
509	pixel_bytes;
510	dstptr = row + offset_table[png_ptr->pass]*pixel_bytes;
511	initial_val = offset_table[png_ptr->pass]*pixel_bytes;
512	final_val = png_ptr->width*pixel_bytes;
513	incr1 = (disp)*pixel_bytes;
514	for (i = initial_val; i < final_val; i += incr1)
515	{
516	png_memcpy(dstptr, srcptr, pixel_bytes);
517	srcptr += incr1;
518	dstptr += incr1;
519	}
520	} /* end of else */
521
522	break;
523	} // end 16 bpp
524
525	case 24:
526	{
527	png_bytep srcptr;
528	png_bytep dstptr;
529	png_uint_32 len;
530	int unmask, diff;
531
532	__int64 mask2=0x0101010202020404, //24bpp
533	mask1=0x0408080810101020,
534	mask0=0x2020404040808080;
535
536	srcptr = png_ptr->row_buf + 1;
537	dstptr = row;
538
539	unmask = ~mask;
540	len = (png_ptr->width)&~7;
541	diff = (png_ptr->width)&7;
542
543	#if !defined(PNG_1_0_X)
544	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_COMBINE_ROW)
545	/* && mmx_supported */ )
546	#else
547	if (mmx_supported)
548	#endif
549	{
550	_asm
551	{
552	movd mm7, unmask //load bit pattern
553	psubb mm6,mm6 //zero mm6
554	punpcklbw mm7,mm7
555	punpcklwd mm7,mm7
556	punpckldq mm7,mm7 //fill register with 8 masks
557
558	movq mm0,mask0
559	movq mm1,mask1
560	movq mm2,mask2
561
562	pand mm0,mm7
563	pand mm1,mm7
564	pand mm2,mm7
565
566	pcmpeqb mm0,mm6
567	pcmpeqb mm1,mm6
568	pcmpeqb mm2,mm6
569
570	mov ecx,len //load length of line
571	mov esi,srcptr //load source
572	mov ebx,dstptr //load dest
573	cmp ecx,0
574	jz mainloop24end
575
576	mainloop24:
577	movq mm4,[esi]
578	pand mm4,mm0
579	movq mm6,mm0
580	movq mm7,[ebx]
581	pandn mm6,mm7
582	por mm4,mm6
583	movq [ebx],mm4
584
585
586	movq mm5,[esi+8]
587	pand mm5,mm1
588	movq mm7,mm1
589	movq mm6,[ebx+8]
590	pandn mm7,mm6
591	por mm5,mm7
592	movq [ebx+8],mm5
593
594	movq mm6,[esi+16]
595	pand mm6,mm2
596	movq mm4,mm2
597	movq mm7,[ebx+16]
598	pandn mm4,mm7
599	por mm6,mm4
600	movq [ebx+16],mm6
601
602	add esi,24 //inc by 24 bytes processed
603	add ebx,24
604	sub ecx,8 //dec by 8 pixels processed
605
606	ja mainloop24
607
608	mainloop24end:
609	mov ecx,diff
610	cmp ecx,0
611	jz end24
612
613	mov edx,mask
614	sal edx,24 //make low byte the high byte
615	secondloop24:
616	sal edx,1 //move high bit to CF
617	jnc skip24 //if CF = 0
618	mov ax,[esi]
619	mov [ebx],ax
620	xor eax,eax
621	mov al,[esi+2]
622	mov [ebx+2],al
623	skip24:
624	add esi,3
625	add ebx,3
626
627	dec ecx
628	jnz secondloop24
629
630	end24:
631	emms
632	}
633	}
634	else /* mmx not supported - use modified C routine */
635	{
636	register unsigned int incr1, initial_val, final_val;
637	png_size_t pixel_bytes;
638	png_uint_32 i;
639	register int disp = png_pass_inc[png_ptr->pass];
640	int offset_table[7] = {0, 4, 0, 2, 0, 1, 0};
641
642	pixel_bytes = (png_ptr->row_info.pixel_depth >> 3);
643	srcptr = png_ptr->row_buf + 1 + offset_table[png_ptr->pass]*
644	pixel_bytes;
645	dstptr = row + offset_table[png_ptr->pass]*pixel_bytes;
646	initial_val = offset_table[png_ptr->pass]*pixel_bytes;
647	final_val = png_ptr->width*pixel_bytes;
648	incr1 = (disp)*pixel_bytes;
649	for (i = initial_val; i < final_val; i += incr1)
650	{
651	png_memcpy(dstptr, srcptr, pixel_bytes);
652	srcptr += incr1;
653	dstptr += incr1;
654	}
655	} /* end of else */
656
657	break;
658	} // end 24 bpp
659
660	case 32:
661	{
662	png_bytep srcptr;
663	png_bytep dstptr;
664	png_uint_32 len;
665	int unmask, diff;
666
667	__int64 mask3=0x0101010102020202, //32bpp
668	mask2=0x0404040408080808,
669	mask1=0x1010101020202020,
670	mask0=0x4040404080808080;
671
672	srcptr = png_ptr->row_buf + 1;
673	dstptr = row;
674
675	unmask = ~mask;
676	len = (png_ptr->width)&~7;
677	diff = (png_ptr->width)&7;
678
679	#if !defined(PNG_1_0_X)
680	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_COMBINE_ROW)
681	/* && mmx_supported */ )
682	#else
683	if (mmx_supported)
684	#endif
685	{
686	_asm
687	{
688	movd mm7, unmask //load bit pattern
689	psubb mm6,mm6 //zero mm6
690	punpcklbw mm7,mm7
691	punpcklwd mm7,mm7
692	punpckldq mm7,mm7 //fill register with 8 masks
693
694	movq mm0,mask0
695	movq mm1,mask1
696	movq mm2,mask2
697	movq mm3,mask3
698
699	pand mm0,mm7
700	pand mm1,mm7
701	pand mm2,mm7
702	pand mm3,mm7
703
704	pcmpeqb mm0,mm6
705	pcmpeqb mm1,mm6
706	pcmpeqb mm2,mm6
707	pcmpeqb mm3,mm6
708
709	mov ecx,len //load length of line
710	mov esi,srcptr //load source
711	mov ebx,dstptr //load dest
712
713	cmp ecx,0 //lcr
714	jz mainloop32end
715
716	mainloop32:
717	movq mm4,[esi]
718	pand mm4,mm0
719	movq mm6,mm0
720	movq mm7,[ebx]
721	pandn mm6,mm7
722	por mm4,mm6
723	movq [ebx],mm4
724
725	movq mm5,[esi+8]
726	pand mm5,mm1
727	movq mm7,mm1
728	movq mm6,[ebx+8]
729	pandn mm7,mm6
730	por mm5,mm7
731	movq [ebx+8],mm5
732
733	movq mm6,[esi+16]
734	pand mm6,mm2
735	movq mm4,mm2
736	movq mm7,[ebx+16]
737	pandn mm4,mm7
738	por mm6,mm4
739	movq [ebx+16],mm6
740
741	movq mm7,[esi+24]
742	pand mm7,mm3
743	movq mm5,mm3
744	movq mm4,[ebx+24]
745	pandn mm5,mm4
746	por mm7,mm5
747	movq [ebx+24],mm7
748
749	add esi,32 //inc by 32 bytes processed
750	add ebx,32
751	sub ecx,8 //dec by 8 pixels processed
752
753	ja mainloop32
754
755	mainloop32end:
756	mov ecx,diff
757	cmp ecx,0
758	jz end32
759
760	mov edx,mask
761	sal edx,24 //make low byte the high byte
762	secondloop32:
763	sal edx,1 //move high bit to CF
764	jnc skip32 //if CF = 0
765	mov eax,[esi]
766	mov [ebx],eax
767	skip32:
768	add esi,4
769	add ebx,4
770
771	dec ecx
772	jnz secondloop32
773
774	end32:
775	emms
776	}
777	}
778	else /* mmx _not supported - Use modified C routine */
779	{
780	register unsigned int incr1, initial_val, final_val;
781	png_size_t pixel_bytes;
782	png_uint_32 i;
783	register int disp = png_pass_inc[png_ptr->pass];
784	int offset_table[7] = {0, 4, 0, 2, 0, 1, 0};
785
786	pixel_bytes = (png_ptr->row_info.pixel_depth >> 3);
787	srcptr = png_ptr->row_buf + 1 + offset_table[png_ptr->pass]*
788	pixel_bytes;
789	dstptr = row + offset_table[png_ptr->pass]*pixel_bytes;
790	initial_val = offset_table[png_ptr->pass]*pixel_bytes;
791	final_val = png_ptr->width*pixel_bytes;
792	incr1 = (disp)*pixel_bytes;
793	for (i = initial_val; i < final_val; i += incr1)
794	{
795	png_memcpy(dstptr, srcptr, pixel_bytes);
796	srcptr += incr1;
797	dstptr += incr1;
798	}
799	} /* end of else */
800
801	break;
802	} // end 32 bpp
803
804	case 48:
805	{
806	png_bytep srcptr;
807	png_bytep dstptr;
808	png_uint_32 len;
809	int unmask, diff;
810
811	__int64 mask5=0x0101010101010202,
812	mask4=0x0202020204040404,
813	mask3=0x0404080808080808,
814	mask2=0x1010101010102020,
815	mask1=0x2020202040404040,
816	mask0=0x4040808080808080;
817
818	#if !defined(PNG_1_0_X)
819	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_COMBINE_ROW)
820	/* && mmx_supported */ )
821	#else
822	if (mmx_supported)
823	#endif
824	{
825	srcptr = png_ptr->row_buf + 1;
826	dstptr = row;
827
828	unmask = ~mask;
829	len = (png_ptr->width)&~7;
830	diff = (png_ptr->width)&7;
831	_asm
832	{
833	movd mm7, unmask //load bit pattern
834	psubb mm6,mm6 //zero mm6
835	punpcklbw mm7,mm7
836	punpcklwd mm7,mm7
837	punpckldq mm7,mm7 //fill register with 8 masks
838
839	movq mm0,mask0
840	movq mm1,mask1
841	movq mm2,mask2
842	movq mm3,mask3
843	movq mm4,mask4
844	movq mm5,mask5
845
846	pand mm0,mm7
847	pand mm1,mm7
848	pand mm2,mm7
849	pand mm3,mm7
850	pand mm4,mm7
851	pand mm5,mm7
852
853	pcmpeqb mm0,mm6
854	pcmpeqb mm1,mm6
855	pcmpeqb mm2,mm6
856	pcmpeqb mm3,mm6
857	pcmpeqb mm4,mm6
858	pcmpeqb mm5,mm6
859
860	mov ecx,len //load length of line
861	mov esi,srcptr //load source
862	mov ebx,dstptr //load dest
863
864	cmp ecx,0
865	jz mainloop48end
866
867	mainloop48:
868	movq mm7,[esi]
869	pand mm7,mm0
870	movq mm6,mm0
871	pandn mm6,[ebx]
872	por mm7,mm6
873	movq [ebx],mm7
874
875	movq mm6,[esi+8]
876	pand mm6,mm1
877	movq mm7,mm1
878	pandn mm7,[ebx+8]
879	por mm6,mm7
880	movq [ebx+8],mm6
881
882	movq mm6,[esi+16]
883	pand mm6,mm2
884	movq mm7,mm2
885	pandn mm7,[ebx+16]
886	por mm6,mm7
887	movq [ebx+16],mm6
888
889	movq mm7,[esi+24]
890	pand mm7,mm3
891	movq mm6,mm3
892	pandn mm6,[ebx+24]
893	por mm7,mm6
894	movq [ebx+24],mm7
895
896	movq mm6,[esi+32]
897	pand mm6,mm4
898	movq mm7,mm4
899	pandn mm7,[ebx+32]
900	por mm6,mm7
901	movq [ebx+32],mm6
902
903	movq mm7,[esi+40]
904	pand mm7,mm5
905	movq mm6,mm5
906	pandn mm6,[ebx+40]
907	por mm7,mm6
908	movq [ebx+40],mm7
909
910	add esi,48 //inc by 32 bytes processed
911	add ebx,48
912	sub ecx,8 //dec by 8 pixels processed
913
914	ja mainloop48
915	mainloop48end:
916
917	mov ecx,diff
918	cmp ecx,0
919	jz end48
920
921	mov edx,mask
922	sal edx,24 //make low byte the high byte
923
924	secondloop48:
925	sal edx,1 //move high bit to CF
926	jnc skip48 //if CF = 0
927	mov eax,[esi]
928	mov [ebx],eax
929	skip48:
930	add esi,4
931	add ebx,4
932
933	dec ecx
934	jnz secondloop48
935
936	end48:
937	emms
938	}
939	}
940	else /* mmx _not supported - Use modified C routine */
941	{
942	register unsigned int incr1, initial_val, final_val;
943	png_size_t pixel_bytes;
944	png_uint_32 i;
945	register int disp = png_pass_inc[png_ptr->pass];
946	int offset_table[7] = {0, 4, 0, 2, 0, 1, 0};
947
948	pixel_bytes = (png_ptr->row_info.pixel_depth >> 3);
949	srcptr = png_ptr->row_buf + 1 + offset_table[png_ptr->pass]*
950	pixel_bytes;
951	dstptr = row + offset_table[png_ptr->pass]*pixel_bytes;
952	initial_val = offset_table[png_ptr->pass]*pixel_bytes;
953	final_val = png_ptr->width*pixel_bytes;
954	incr1 = (disp)*pixel_bytes;
955	for (i = initial_val; i < final_val; i += incr1)
956	{
957	png_memcpy(dstptr, srcptr, pixel_bytes);
958	srcptr += incr1;
959	dstptr += incr1;
960	}
961	} /* end of else */
962
963	break;
964	} // end 48 bpp
965
966	default:
967	{
968	png_bytep sptr;
969	png_bytep dp;
970	png_size_t pixel_bytes;
971	int offset_table[7] = {0, 4, 0, 2, 0, 1, 0};
972	unsigned int i;
973	register int disp = png_pass_inc[png_ptr->pass]; // get the offset
974	register unsigned int incr1, initial_val, final_val;
975
976	pixel_bytes = (png_ptr->row_info.pixel_depth >> 3);
977	sptr = png_ptr->row_buf + 1 + offset_table[png_ptr->pass]*
978	pixel_bytes;
979	dp = row + offset_table[png_ptr->pass]*pixel_bytes;
980	initial_val = offset_table[png_ptr->pass]*pixel_bytes;
981	final_val = png_ptr->width*pixel_bytes;
982	incr1 = (disp)*pixel_bytes;
983	for (i = initial_val; i < final_val; i += incr1)
984	{
985	png_memcpy(dp, sptr, pixel_bytes);
986	sptr += incr1;
987	dp += incr1;
988	}
989	break;
990	}
991	} /* end switch (png_ptr->row_info.pixel_depth) */
992	} /* end if (non-trivial mask) */
993
994	} /* end png_combine_row() */
995
996
997	#if defined(PNG_READ_INTERLACING_SUPPORTED)
998
999	void /* PRIVATE */
1000	png_do_read_interlace(png_structp png_ptr)
1001	{
1002	png_row_infop row_info = &(png_ptr->row_info);
1003	png_bytep row = png_ptr->row_buf + 1;
1004	int pass = png_ptr->pass;
1005	png_uint_32 transformations = png_ptr->transformations;
1006	#ifdef PNG_USE_LOCAL_ARRAYS
1007	const int png_pass_inc[7] = {8, 8, 4, 4, 2, 2, 1};
1008	#endif
1009
1010	png_debug(1,"in png_do_read_interlace\n");
1011
1012	if (mmx_supported == 2) {
1013	#if !defined(PNG_1_0_X)
1014	/* this should have happened in png_init_mmx_flags() already */
1015	png_warning(png_ptr, "asm_flags may not have been initialized");
1016	#endif
1017	png_mmx_support();
1018	}
1019
1020	if (row != NULL && row_info != NULL)
1021	{
1022	png_uint_32 final_width;
1023
1024	final_width = row_info->width * png_pass_inc[pass];
1025
1026	switch (row_info->pixel_depth)
1027	{
1028	case 1:
1029	{
1030	png_bytep sp, dp;
1031	int sshift, dshift;
1032	int s_start, s_end, s_inc;
1033	png_byte v;
1034	png_uint_32 i;
1035	int j;
1036
1037	sp = row + (png_size_t)((row_info->width - 1) >> 3);
1038	dp = row + (png_size_t)((final_width - 1) >> 3);
1039	#if defined(PNG_READ_PACKSWAP_SUPPORTED)
1040	if (transformations & PNG_PACKSWAP)
1041	{
1042	sshift = (int)((row_info->width + 7) & 7);
1043	dshift = (int)((final_width + 7) & 7);
1044	s_start = 7;
1045	s_end = 0;
1046	s_inc = -1;
1047	}
1048	else
1049	#endif
1050	{
1051	sshift = 7 - (int)((row_info->width + 7) & 7);
1052	dshift = 7 - (int)((final_width + 7) & 7);
1053	s_start = 0;
1054	s_end = 7;
1055	s_inc = 1;
1056	}
1057
1058	for (i = row_info->width; i; i--)
1059	{
1060	v = (png_byte)((*sp >> sshift) & 0x1);
1061	for (j = 0; j < png_pass_inc[pass]; j++)
1062	{
1063	*dp &= (png_byte)((0x7f7f >> (7 - dshift)) & 0xff);
1064	*dp \|= (png_byte)(v << dshift);
1065	if (dshift == s_end)
1066	{
1067	dshift = s_start;
1068	dp--;
1069	}
1070	else
1071	dshift += s_inc;
1072	}
1073	if (sshift == s_end)
1074	{
1075	sshift = s_start;
1076	sp--;
1077	}
1078	else
1079	sshift += s_inc;
1080	}
1081	break;
1082	}
1083
1084	case 2:
1085	{
1086	png_bytep sp, dp;
1087	int sshift, dshift;
1088	int s_start, s_end, s_inc;
1089	png_uint_32 i;
1090
1091	sp = row + (png_size_t)((row_info->width - 1) >> 2);
1092	dp = row + (png_size_t)((final_width - 1) >> 2);
1093	#if defined(PNG_READ_PACKSWAP_SUPPORTED)
1094	if (transformations & PNG_PACKSWAP)
1095	{
1096	sshift = (png_size_t)(((row_info->width + 3) & 3) << 1);
1097	dshift = (png_size_t)(((final_width + 3) & 3) << 1);
1098	s_start = 6;
1099	s_end = 0;
1100	s_inc = -2;
1101	}
1102	else
1103	#endif
1104	{
1105	sshift = (png_size_t)((3 - ((row_info->width + 3) & 3)) << 1);
1106	dshift = (png_size_t)((3 - ((final_width + 3) & 3)) << 1);
1107	s_start = 0;
1108	s_end = 6;
1109	s_inc = 2;
1110	}
1111
1112	for (i = row_info->width; i; i--)
1113	{
1114	png_byte v;
1115	int j;
1116
1117	v = (png_byte)((*sp >> sshift) & 0x3);
1118	for (j = 0; j < png_pass_inc[pass]; j++)
1119	{
1120	*dp &= (png_byte)((0x3f3f >> (6 - dshift)) & 0xff);
1121	*dp \|= (png_byte)(v << dshift);
1122	if (dshift == s_end)
1123	{
1124	dshift = s_start;
1125	dp--;
1126	}
1127	else
1128	dshift += s_inc;
1129	}
1130	if (sshift == s_end)
1131	{
1132	sshift = s_start;
1133	sp--;
1134	}
1135	else
1136	sshift += s_inc;
1137	}
1138	break;
1139	}
1140
1141	case 4:
1142	{
1143	png_bytep sp, dp;
1144	int sshift, dshift;
1145	int s_start, s_end, s_inc;
1146	png_uint_32 i;
1147
1148	sp = row + (png_size_t)((row_info->width - 1) >> 1);
1149	dp = row + (png_size_t)((final_width - 1) >> 1);
1150	#if defined(PNG_READ_PACKSWAP_SUPPORTED)
1151	if (transformations & PNG_PACKSWAP)
1152	{
1153	sshift = (png_size_t)(((row_info->width + 1) & 1) << 2);
1154	dshift = (png_size_t)(((final_width + 1) & 1) << 2);
1155	s_start = 4;
1156	s_end = 0;
1157	s_inc = -4;
1158	}
1159	else
1160	#endif
1161	{
1162	sshift = (png_size_t)((1 - ((row_info->width + 1) & 1)) << 2);
1163	dshift = (png_size_t)((1 - ((final_width + 1) & 1)) << 2);
1164	s_start = 0;
1165	s_end = 4;
1166	s_inc = 4;
1167	}
1168
1169	for (i = row_info->width; i; i--)
1170	{
1171	png_byte v;
1172	int j;
1173
1174	v = (png_byte)((*sp >> sshift) & 0xf);
1175	for (j = 0; j < png_pass_inc[pass]; j++)
1176	{
1177	*dp &= (png_byte)((0xf0f >> (4 - dshift)) & 0xff);
1178	*dp \|= (png_byte)(v << dshift);
1179	if (dshift == s_end)
1180	{
1181	dshift = s_start;
1182	dp--;
1183	}
1184	else
1185	dshift += s_inc;
1186	}
1187	if (sshift == s_end)
1188	{
1189	sshift = s_start;
1190	sp--;
1191	}
1192	else
1193	sshift += s_inc;
1194	}
1195	break;
1196	}
1197
1198	default: // This is the place where the routine is modified
1199	{
1200	__int64 const4 = 0x0000000000FFFFFF;
1201	// __int64 const5 = 0x000000FFFFFF0000; // unused...
1202	__int64 const6 = 0x00000000000000FF;
1203	png_bytep sptr, dp;
1204	png_uint_32 i;
1205	png_size_t pixel_bytes;
1206	int width = row_info->width;
1207
1208	pixel_bytes = (row_info->pixel_depth >> 3);
1209
1210	sptr = row + (width - 1) * pixel_bytes;
1211	dp = row + (final_width - 1) * pixel_bytes;
1212	// New code by Nirav Chhatrapati - Intel Corporation
1213	// sign fix by GRR
1214	// NOTE: there is NO MMX code for 48-bit and 64-bit images
1215
1216	// use MMX routine if machine supports it
1217	#if !defined(PNG_1_0_X)
1218	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_INTERLACE)
1219	/* && mmx_supported */ )
1220	#else
1221	if (mmx_supported)
1222	#endif
1223	{
1224	if (pixel_bytes == 3)
1225	{
1226	if (((pass == 0) \|\| (pass == 1)) && width)
1227	{
1228	_asm
1229	{
1230	mov esi, sptr
1231	mov edi, dp
1232	mov ecx, width
1233	sub edi, 21 // (png_pass_inc[pass] - 1)*pixel_bytes
1234	loop_pass0:
1235	movd mm0, [esi] ; X X X X X v2 v1 v0
1236	pand mm0, const4 ; 0 0 0 0 0 v2 v1 v0
1237	movq mm1, mm0 ; 0 0 0 0 0 v2 v1 v0
1238	psllq mm0, 16 ; 0 0 0 v2 v1 v0 0 0
1239	movq mm2, mm0 ; 0 0 0 v2 v1 v0 0 0
1240	psllq mm0, 24 ; v2 v1 v0 0 0 0 0 0
1241	psrlq mm1, 8 ; 0 0 0 0 0 0 v2 v1
1242	por mm0, mm2 ; v2 v1 v0 v2 v1 v0 0 0
1243	por mm0, mm1 ; v2 v1 v0 v2 v1 v0 v2 v1
1244	movq mm3, mm0 ; v2 v1 v0 v2 v1 v0 v2 v1
1245	psllq mm0, 16 ; v0 v2 v1 v0 v2 v1 0 0
1246	movq mm4, mm3 ; v2 v1 v0 v2 v1 v0 v2 v1
1247	punpckhdq mm3, mm0 ; v0 v2 v1 v0 v2 v1 v0 v2
1248	movq [edi+16] , mm4
1249	psrlq mm0, 32 ; 0 0 0 0 v0 v2 v1 v0
1250	movq [edi+8] , mm3
1251	punpckldq mm0, mm4 ; v1 v0 v2 v1 v0 v2 v1 v0
1252	sub esi, 3
1253	movq [edi], mm0
1254	sub edi, 24
1255	//sub esi, 3
1256	dec ecx
1257	jnz loop_pass0
1258	EMMS
1259	}
1260	}
1261	else if (((pass == 2) \|\| (pass == 3)) && width)
1262	{
1263	_asm
1264	{
1265	mov esi, sptr
1266	mov edi, dp
1267	mov ecx, width
1268	sub edi, 9 // (png_pass_inc[pass] - 1)*pixel_bytes
1269	loop_pass2:
1270	movd mm0, [esi] ; X X X X X v2 v1 v0
1271	pand mm0, const4 ; 0 0 0 0 0 v2 v1 v0
1272	movq mm1, mm0 ; 0 0 0 0 0 v2 v1 v0
1273	psllq mm0, 16 ; 0 0 0 v2 v1 v0 0 0
1274	movq mm2, mm0 ; 0 0 0 v2 v1 v0 0 0
1275	psllq mm0, 24 ; v2 v1 v0 0 0 0 0 0
1276	psrlq mm1, 8 ; 0 0 0 0 0 0 v2 v1
1277	por mm0, mm2 ; v2 v1 v0 v2 v1 v0 0 0
1278	por mm0, mm1 ; v2 v1 v0 v2 v1 v0 v2 v1
1279	movq [edi+4], mm0 ; move to memory
1280	psrlq mm0, 16 ; 0 0 v2 v1 v0 v2 v1 v0
1281	movd [edi], mm0 ; move to memory
1282	sub esi, 3
1283	sub edi, 12
1284	dec ecx
1285	jnz loop_pass2
1286	EMMS
1287	}
1288	}
1289	else if (width) /* && ((pass == 4) \|\| (pass == 5)) */
1290	{
1291	int width_mmx = ((width >> 1) << 1) - 8;
1292	if (width_mmx < 0)
1293	width_mmx = 0;
1294	width -= width_mmx; // 8 or 9 pix, 24 or 27 bytes
1295	if (width_mmx)
1296	{
1297	_asm
1298	{
1299	mov esi, sptr
1300	mov edi, dp
1301	mov ecx, width_mmx
1302	sub esi, 3
1303	sub edi, 9
1304	loop_pass4:
1305	movq mm0, [esi] ; X X v2 v1 v0 v5 v4 v3
1306	movq mm7, mm0 ; X X v2 v1 v0 v5 v4 v3
1307	movq mm6, mm0 ; X X v2 v1 v0 v5 v4 v3
1308	psllq mm0, 24 ; v1 v0 v5 v4 v3 0 0 0
1309	pand mm7, const4 ; 0 0 0 0 0 v5 v4 v3
1310	psrlq mm6, 24 ; 0 0 0 X X v2 v1 v0
1311	por mm0, mm7 ; v1 v0 v5 v4 v3 v5 v4 v3
1312	movq mm5, mm6 ; 0 0 0 X X v2 v1 v0
1313	psllq mm6, 8 ; 0 0 X X v2 v1 v0 0
1314	movq [edi], mm0 ; move quad to memory
1315	psrlq mm5, 16 ; 0 0 0 0 0 X X v2
1316	pand mm5, const6 ; 0 0 0 0 0 0 0 v2
1317	por mm6, mm5 ; 0 0 X X v2 v1 v0 v2
1318	movd [edi+8], mm6 ; move double to memory
1319	sub esi, 6
1320	sub edi, 12
1321	sub ecx, 2
1322	jnz loop_pass4
1323	EMMS
1324	}
1325	}
1326
1327	sptr -= width_mmx*3;
1328	dp -= width_mmx*6;
1329	for (i = width; i; i--)
1330	{
1331	png_byte v[8];
1332	int j;
1333
1334	png_memcpy(v, sptr, 3);
1335	for (j = 0; j < png_pass_inc[pass]; j++)
1336	{
1337	png_memcpy(dp, v, 3);
1338	dp -= 3;
1339	}
1340	sptr -= 3;
1341	}
1342	}
1343	} /* end of pixel_bytes == 3 */
1344
1345	else if (pixel_bytes == 1)
1346	{
1347	if (((pass == 0) \|\| (pass == 1)) && width)
1348	{
1349	int width_mmx = ((width >> 2) << 2);
1350	width -= width_mmx;
1351	if (width_mmx)
1352	{
1353	_asm
1354	{
1355	mov esi, sptr
1356	mov edi, dp
1357	mov ecx, width_mmx
1358	sub edi, 31
1359	sub esi, 3
1360	loop1_pass0:
1361	movd mm0, [esi] ; X X X X v0 v1 v2 v3
1362	movq mm1, mm0 ; X X X X v0 v1 v2 v3
1363	punpcklbw mm0, mm0 ; v0 v0 v1 v1 v2 v2 v3 v3
1364	movq mm2, mm0 ; v0 v0 v1 v1 v2 v2 v3 v3
1365	punpcklwd mm0, mm0 ; v2 v2 v2 v2 v3 v3 v3 v3
1366	movq mm3, mm0 ; v2 v2 v2 v2 v3 v3 v3 v3
1367	punpckldq mm0, mm0 ; v3 v3 v3 v3 v3 v3 v3 v3
1368	punpckhdq mm3, mm3 ; v2 v2 v2 v2 v2 v2 v2 v2
1369	movq [edi], mm0 ; move to memory v3
1370	punpckhwd mm2, mm2 ; v0 v0 v0 v0 v1 v1 v1 v1
1371	movq [edi+8], mm3 ; move to memory v2
1372	movq mm4, mm2 ; v0 v0 v0 v0 v1 v1 v1 v1
1373	punpckldq mm2, mm2 ; v1 v1 v1 v1 v1 v1 v1 v1
1374	punpckhdq mm4, mm4 ; v0 v0 v0 v0 v0 v0 v0 v0
1375	movq [edi+16], mm2 ; move to memory v1
1376	movq [edi+24], mm4 ; move to memory v0
1377	sub esi, 4
1378	sub edi, 32
1379	sub ecx, 4
1380	jnz loop1_pass0
1381	EMMS
1382	}
1383	}
1384
1385	sptr -= width_mmx;
1386	dp -= width_mmx*8;
1387	for (i = width; i; i--)
1388	{
1389	int j;
1390
1391	/* I simplified this part in version 1.0.4e
1392	* here and in several other instances where
1393	* pixel_bytes == 1 -- GR-P
1394	*
1395	* Original code:
1396	*
1397	* png_byte v[8];
1398	* png_memcpy(v, sptr, pixel_bytes);
1399	* for (j = 0; j < png_pass_inc[pass]; j++)
1400	* {
1401	* png_memcpy(dp, v, pixel_bytes);
1402	* dp -= pixel_bytes;
1403	* }
1404	* sptr -= pixel_bytes;
1405	*
1406	* Replacement code is in the next three lines:
1407	*/
1408
1409	for (j = 0; j < png_pass_inc[pass]; j++)
1410	dp-- = sptr;
1411	sptr--;
1412	}
1413	}
1414	else if (((pass == 2) \|\| (pass == 3)) && width)
1415	{
1416	int width_mmx = ((width >> 2) << 2);
1417	width -= width_mmx;
1418	if (width_mmx)
1419	{
1420	_asm
1421	{
1422	mov esi, sptr
1423	mov edi, dp
1424	mov ecx, width_mmx
1425	sub edi, 15
1426	sub esi, 3
1427	loop1_pass2:
1428	movd mm0, [esi] ; X X X X v0 v1 v2 v3
1429	punpcklbw mm0, mm0 ; v0 v0 v1 v1 v2 v2 v3 v3
1430	movq mm1, mm0 ; v0 v0 v1 v1 v2 v2 v3 v3
1431	punpcklwd mm0, mm0 ; v2 v2 v2 v2 v3 v3 v3 v3
1432	punpckhwd mm1, mm1 ; v0 v0 v0 v0 v1 v1 v1 v1
1433	movq [edi], mm0 ; move to memory v2 and v3
1434	sub esi, 4
1435	movq [edi+8], mm1 ; move to memory v1 and v0
1436	sub edi, 16
1437	sub ecx, 4
1438	jnz loop1_pass2
1439	EMMS
1440	}
1441	}
1442
1443	sptr -= width_mmx;
1444	dp -= width_mmx*4;
1445	for (i = width; i; i--)
1446	{
1447	int j;
1448
1449	for (j = 0; j < png_pass_inc[pass]; j++)
1450	{
1451	dp-- = sptr;
1452	}
1453	sptr --;
1454	}
1455	}
1456	else if (width) /* && ((pass == 4) \|\| (pass == 5))) */
1457	{
1458	int width_mmx = ((width >> 3) << 3);
1459	width -= width_mmx;
1460	if (width_mmx)
1461	{
1462	_asm
1463	{
1464	mov esi, sptr
1465	mov edi, dp
1466	mov ecx, width_mmx
1467	sub edi, 15
1468	sub esi, 7
1469	loop1_pass4:
1470	movq mm0, [esi] ; v0 v1 v2 v3 v4 v5 v6 v7
1471	movq mm1, mm0 ; v0 v1 v2 v3 v4 v5 v6 v7
1472	punpcklbw mm0, mm0 ; v4 v4 v5 v5 v6 v6 v7 v7
1473	//movq mm1, mm0 ; v0 v0 v1 v1 v2 v2 v3 v3
1474	punpckhbw mm1, mm1 ;v0 v0 v1 v1 v2 v2 v3 v3
1475	movq [edi+8], mm1 ; move to memory v0 v1 v2 and v3
1476	sub esi, 8
1477	movq [edi], mm0 ; move to memory v4 v5 v6 and v7
1478	//sub esi, 4
1479	sub edi, 16
1480	sub ecx, 8
1481	jnz loop1_pass4
1482	EMMS
1483	}
1484	}
1485
1486	sptr -= width_mmx;
1487	dp -= width_mmx*2;
1488	for (i = width; i; i--)
1489	{
1490	int j;
1491
1492	for (j = 0; j < png_pass_inc[pass]; j++)
1493	{
1494	dp-- = sptr;
1495	}
1496	sptr --;
1497	}
1498	}
1499	} /* end of pixel_bytes == 1 */
1500
1501	else if (pixel_bytes == 2)
1502	{
1503	if (((pass == 0) \|\| (pass == 1)) && width)
1504	{
1505	int width_mmx = ((width >> 1) << 1);
1506	width -= width_mmx;
1507	if (width_mmx)
1508	{
1509	_asm
1510	{
1511	mov esi, sptr
1512	mov edi, dp
1513	mov ecx, width_mmx
1514	sub esi, 2
1515	sub edi, 30
1516	loop2_pass0:
1517	movd mm0, [esi] ; X X X X v1 v0 v3 v2
1518	punpcklwd mm0, mm0 ; v1 v0 v1 v0 v3 v2 v3 v2
1519	movq mm1, mm0 ; v1 v0 v1 v0 v3 v2 v3 v2
1520	punpckldq mm0, mm0 ; v3 v2 v3 v2 v3 v2 v3 v2
1521	punpckhdq mm1, mm1 ; v1 v0 v1 v0 v1 v0 v1 v0
1522	movq [edi], mm0
1523	movq [edi + 8], mm0
1524	movq [edi + 16], mm1
1525	movq [edi + 24], mm1
1526	sub esi, 4
1527	sub edi, 32
1528	sub ecx, 2
1529	jnz loop2_pass0
1530	EMMS
1531	}
1532	}
1533
1534	sptr -= (width_mmx*2 - 2); // sign fixed
1535	dp -= (width_mmx*16 - 2); // sign fixed
1536	for (i = width; i; i--)
1537	{
1538	png_byte v[8];
1539	int j;
1540	sptr -= 2;
1541	png_memcpy(v, sptr, 2);
1542	for (j = 0; j < png_pass_inc[pass]; j++)
1543	{
1544	dp -= 2;
1545	png_memcpy(dp, v, 2);
1546	}
1547	}
1548	}
1549	else if (((pass == 2) \|\| (pass == 3)) && width)
1550	{
1551	int width_mmx = ((width >> 1) << 1) ;
1552	width -= width_mmx;
1553	if (width_mmx)
1554	{
1555	_asm
1556	{
1557	mov esi, sptr
1558	mov edi, dp
1559	mov ecx, width_mmx
1560	sub esi, 2
1561	sub edi, 14
1562	loop2_pass2:
1563	movd mm0, [esi] ; X X X X v1 v0 v3 v2
1564	punpcklwd mm0, mm0 ; v1 v0 v1 v0 v3 v2 v3 v2
1565	movq mm1, mm0 ; v1 v0 v1 v0 v3 v2 v3 v2
1566	punpckldq mm0, mm0 ; v3 v2 v3 v2 v3 v2 v3 v2
1567	punpckhdq mm1, mm1 ; v1 v0 v1 v0 v1 v0 v1 v0
1568	movq [edi], mm0
1569	sub esi, 4
1570	movq [edi + 8], mm1
1571	//sub esi, 4
1572	sub edi, 16
1573	sub ecx, 2
1574	jnz loop2_pass2
1575	EMMS
1576	}
1577	}
1578
1579	sptr -= (width_mmx*2 - 2); // sign fixed
1580	dp -= (width_mmx*8 - 2); // sign fixed
1581	for (i = width; i; i--)
1582	{
1583	png_byte v[8];
1584	int j;
1585	sptr -= 2;
1586	png_memcpy(v, sptr, 2);
1587	for (j = 0; j < png_pass_inc[pass]; j++)
1588	{
1589	dp -= 2;
1590	png_memcpy(dp, v, 2);
1591	}
1592	}
1593	}
1594	else if (width) // pass == 4 or 5
1595	{
1596	int width_mmx = ((width >> 1) << 1) ;
1597	width -= width_mmx;
1598	if (width_mmx)
1599	{
1600	_asm
1601	{
1602	mov esi, sptr
1603	mov edi, dp
1604	mov ecx, width_mmx
1605	sub esi, 2
1606	sub edi, 6
1607	loop2_pass4:
1608	movd mm0, [esi] ; X X X X v1 v0 v3 v2
1609	punpcklwd mm0, mm0 ; v1 v0 v1 v0 v3 v2 v3 v2
1610	sub esi, 4
1611	movq [edi], mm0
1612	sub edi, 8
1613	sub ecx, 2
1614	jnz loop2_pass4
1615	EMMS
1616	}
1617	}
1618
1619	sptr -= (width_mmx*2 - 2); // sign fixed
1620	dp -= (width_mmx*4 - 2); // sign fixed
1621	for (i = width; i; i--)
1622	{
1623	png_byte v[8];
1624	int j;
1625	sptr -= 2;
1626	png_memcpy(v, sptr, 2);
1627	for (j = 0; j < png_pass_inc[pass]; j++)
1628	{
1629	dp -= 2;
1630	png_memcpy(dp, v, 2);
1631	}
1632	}
1633	}
1634	} /* end of pixel_bytes == 2 */
1635
1636	else if (pixel_bytes == 4)
1637	{
1638	if (((pass == 0) \|\| (pass == 1)) && width)
1639	{
1640	int width_mmx = ((width >> 1) << 1) ;
1641	width -= width_mmx;
1642	if (width_mmx)
1643	{
1644	_asm
1645	{
1646	mov esi, sptr
1647	mov edi, dp
1648	mov ecx, width_mmx
1649	sub esi, 4
1650	sub edi, 60
1651	loop4_pass0:
1652	movq mm0, [esi] ; v3 v2 v1 v0 v7 v6 v5 v4
1653	movq mm1, mm0 ; v3 v2 v1 v0 v7 v6 v5 v4
1654	punpckldq mm0, mm0 ; v7 v6 v5 v4 v7 v6 v5 v4
1655	punpckhdq mm1, mm1 ; v3 v2 v1 v0 v3 v2 v1 v0
1656	movq [edi], mm0
1657	movq [edi + 8], mm0
1658	movq [edi + 16], mm0
1659	movq [edi + 24], mm0
1660	movq [edi+32], mm1
1661	movq [edi + 40], mm1
1662	movq [edi+ 48], mm1
1663	sub esi, 8
1664	movq [edi + 56], mm1
1665	sub edi, 64
1666	sub ecx, 2
1667	jnz loop4_pass0
1668	EMMS
1669	}
1670	}
1671
1672	sptr -= (width_mmx*4 - 4); // sign fixed
1673	dp -= (width_mmx*32 - 4); // sign fixed
1674	for (i = width; i; i--)
1675	{
1676	png_byte v[8];
1677	int j;
1678	sptr -= 4;
1679	png_memcpy(v, sptr, 4);
1680	for (j = 0; j < png_pass_inc[pass]; j++)
1681	{
1682	dp -= 4;
1683	png_memcpy(dp, v, 4);
1684	}
1685	}
1686	}
1687	else if (((pass == 2) \|\| (pass == 3)) && width)
1688	{
1689	int width_mmx = ((width >> 1) << 1) ;
1690	width -= width_mmx;
1691	if (width_mmx)
1692	{
1693	_asm
1694	{
1695	mov esi, sptr
1696	mov edi, dp
1697	mov ecx, width_mmx
1698	sub esi, 4
1699	sub edi, 28
1700	loop4_pass2:
1701	movq mm0, [esi] ; v3 v2 v1 v0 v7 v6 v5 v4
1702	movq mm1, mm0 ; v3 v2 v1 v0 v7 v6 v5 v4
1703	punpckldq mm0, mm0 ; v7 v6 v5 v4 v7 v6 v5 v4
1704	punpckhdq mm1, mm1 ; v3 v2 v1 v0 v3 v2 v1 v0
1705	movq [edi], mm0
1706	movq [edi + 8], mm0
1707	movq [edi+16], mm1
1708	movq [edi + 24], mm1
1709	sub esi, 8
1710	sub edi, 32
1711	sub ecx, 2
1712	jnz loop4_pass2
1713	EMMS
1714	}
1715	}
1716
1717	sptr -= (width_mmx*4 - 4); // sign fixed
1718	dp -= (width_mmx*16 - 4); // sign fixed
1719	for (i = width; i; i--)
1720	{
1721	png_byte v[8];
1722	int j;
1723	sptr -= 4;
1724	png_memcpy(v, sptr, 4);
1725	for (j = 0; j < png_pass_inc[pass]; j++)
1726	{
1727	dp -= 4;
1728	png_memcpy(dp, v, 4);
1729	}
1730	}
1731	}
1732	else if (width) // pass == 4 or 5
1733	{
1734	int width_mmx = ((width >> 1) << 1) ;
1735	width -= width_mmx;
1736	if (width_mmx)
1737	{
1738	_asm
1739	{
1740	mov esi, sptr
1741	mov edi, dp
1742	mov ecx, width_mmx
1743	sub esi, 4
1744	sub edi, 12
1745	loop4_pass4:
1746	movq mm0, [esi] ; v3 v2 v1 v0 v7 v6 v5 v4
1747	movq mm1, mm0 ; v3 v2 v1 v0 v7 v6 v5 v4
1748	punpckldq mm0, mm0 ; v7 v6 v5 v4 v7 v6 v5 v4
1749	punpckhdq mm1, mm1 ; v3 v2 v1 v0 v3 v2 v1 v0
1750	movq [edi], mm0
1751	sub esi, 8
1752	movq [edi + 8], mm1
1753	sub edi, 16
1754	sub ecx, 2
1755	jnz loop4_pass4
1756	EMMS
1757	}
1758	}
1759
1760	sptr -= (width_mmx*4 - 4); // sign fixed
1761	dp -= (width_mmx*8 - 4); // sign fixed
1762	for (i = width; i; i--)
1763	{
1764	png_byte v[8];
1765	int j;
1766	sptr -= 4;
1767	png_memcpy(v, sptr, 4);
1768	for (j = 0; j < png_pass_inc[pass]; j++)
1769	{
1770	dp -= 4;
1771	png_memcpy(dp, v, 4);
1772	}
1773	}
1774	}
1775
1776	} /* end of pixel_bytes == 4 */
1777
1778	else if (pixel_bytes == 6)
1779	{
1780	for (i = width; i; i--)
1781	{
1782	png_byte v[8];
1783	int j;
1784	png_memcpy(v, sptr, 6);
1785	for (j = 0; j < png_pass_inc[pass]; j++)
1786	{
1787	png_memcpy(dp, v, 6);
1788	dp -= 6;
1789	}
1790	sptr -= 6;
1791	}
1792	} /* end of pixel_bytes == 6 */
1793
1794	else
1795	{
1796	for (i = width; i; i--)
1797	{
1798	png_byte v[8];
1799	int j;
1800	png_memcpy(v, sptr, pixel_bytes);
1801	for (j = 0; j < png_pass_inc[pass]; j++)
1802	{
1803	png_memcpy(dp, v, pixel_bytes);
1804	dp -= pixel_bytes;
1805	}
1806	sptr-= pixel_bytes;
1807	}
1808	}
1809	} /* end of mmx_supported */
1810
1811	else /* MMX not supported: use modified C code - takes advantage
1812	* of inlining of memcpy for a constant */
1813	{
1814	if (pixel_bytes == 1)
1815	{
1816	for (i = width; i; i--)
1817	{
1818	int j;
1819	for (j = 0; j < png_pass_inc[pass]; j++)
1820	dp-- = sptr;
1821	sptr--;
1822	}
1823	}
1824	else if (pixel_bytes == 3)
1825	{
1826	for (i = width; i; i--)
1827	{
1828	png_byte v[8];
1829	int j;
1830	png_memcpy(v, sptr, pixel_bytes);
1831	for (j = 0; j < png_pass_inc[pass]; j++)
1832	{
1833	png_memcpy(dp, v, pixel_bytes);
1834	dp -= pixel_bytes;
1835	}
1836	sptr -= pixel_bytes;
1837	}
1838	}
1839	else if (pixel_bytes == 2)
1840	{
1841	for (i = width; i; i--)
1842	{
1843	png_byte v[8];
1844	int j;
1845	png_memcpy(v, sptr, pixel_bytes);
1846	for (j = 0; j < png_pass_inc[pass]; j++)
1847	{
1848	png_memcpy(dp, v, pixel_bytes);
1849	dp -= pixel_bytes;
1850	}
1851	sptr -= pixel_bytes;
1852	}
1853	}
1854	else if (pixel_bytes == 4)
1855	{
1856	for (i = width; i; i--)
1857	{
1858	png_byte v[8];
1859	int j;
1860	png_memcpy(v, sptr, pixel_bytes);
1861	for (j = 0; j < png_pass_inc[pass]; j++)
1862	{
1863	png_memcpy(dp, v, pixel_bytes);
1864	dp -= pixel_bytes;
1865	}
1866	sptr -= pixel_bytes;
1867	}
1868	}
1869	else if (pixel_bytes == 6)
1870	{
1871	for (i = width; i; i--)
1872	{
1873	png_byte v[8];
1874	int j;
1875	png_memcpy(v, sptr, pixel_bytes);
1876	for (j = 0; j < png_pass_inc[pass]; j++)
1877	{
1878	png_memcpy(dp, v, pixel_bytes);
1879	dp -= pixel_bytes;
1880	}
1881	sptr -= pixel_bytes;
1882	}
1883	}
1884	else
1885	{
1886	for (i = width; i; i--)
1887	{
1888	png_byte v[8];
1889	int j;
1890	png_memcpy(v, sptr, pixel_bytes);
1891	for (j = 0; j < png_pass_inc[pass]; j++)
1892	{
1893	png_memcpy(dp, v, pixel_bytes);
1894	dp -= pixel_bytes;
1895	}
1896	sptr -= pixel_bytes;
1897	}
1898	}
1899
1900	} /* end of MMX not supported */
1901	break;
1902	}
1903	} /* end switch (row_info->pixel_depth) */
1904
1905	row_info->width = final_width;
1906
1907	row_info->rowbytes = PNG_ROWBYTES(row_info->pixel_depth,final_width);
1908	}
1909
1910	}
1911
1912	#endif /* PNG_READ_INTERLACING_SUPPORTED */
1913
1914
1915	// These variables are utilized in the functions below. They are declared
1916	// globally here to ensure alignment on 8-byte boundaries.
1917
1918	union uAll {
1919	__int64 use;
1920	double align;
1921	} LBCarryMask = {0x0101010101010101},
1922	HBClearMask = {0x7f7f7f7f7f7f7f7f},
1923	ActiveMask, ActiveMask2, ActiveMaskEnd, ShiftBpp, ShiftRem;
1924
1925
1926	// Optimized code for PNG Average filter decoder
1927	void /* PRIVATE */
1928	png_read_filter_row_mmx_avg(png_row_infop row_info, png_bytep row
1929	, png_bytep prev_row)
1930	{
1931	int bpp;
1932	png_uint_32 FullLength;
1933	png_uint_32 MMXLength;
1934	//png_uint_32 len;
1935	int diff;
1936
1937	bpp = (row_info->pixel_depth + 7) >> 3; // Get # bytes per pixel
1938	FullLength = row_info->rowbytes; // # of bytes to filter
1939	_asm {
1940	// Init address pointers and offset
1941	mov edi, row // edi ==> Avg(x)
1942	xor ebx, ebx // ebx ==> x
1943	mov edx, edi
1944	mov esi, prev_row // esi ==> Prior(x)
1945	sub edx, bpp // edx ==> Raw(x-bpp)
1946
1947	xor eax, eax
1948	// Compute the Raw value for the first bpp bytes
1949	// Raw(x) = Avg(x) + (Prior(x)/2)
1950	davgrlp:
1951	mov al, [esi + ebx] // Load al with Prior(x)
1952	inc ebx
1953	shr al, 1 // divide by 2
1954	add al, [edi+ebx-1] // Add Avg(x); -1 to offset inc ebx
1955	cmp ebx, bpp
1956	mov [edi+ebx-1], al // Write back Raw(x);
1957	// mov does not affect flags; -1 to offset inc ebx
1958	jb davgrlp
1959	// get # of bytes to alignment
1960	mov diff, edi // take start of row
1961	add diff, ebx // add bpp
1962	add diff, 0xf // add 7 + 8 to incr past alignment boundary
1963	and diff, 0xfffffff8 // mask to alignment boundary
1964	sub diff, edi // subtract from start ==> value ebx at alignment
1965	jz davggo
1966	// fix alignment
1967	// Compute the Raw value for the bytes upto the alignment boundary
1968	// Raw(x) = Avg(x) + ((Raw(x-bpp) + Prior(x))/2)
1969	xor ecx, ecx
1970	davglp1:
1971	xor eax, eax
1972	mov cl, [esi + ebx] // load cl with Prior(x)
1973	mov al, [edx + ebx] // load al with Raw(x-bpp)
1974	add ax, cx
1975	inc ebx
1976	shr ax, 1 // divide by 2
1977	add al, [edi+ebx-1] // Add Avg(x); -1 to offset inc ebx
1978	cmp ebx, diff // Check if at alignment boundary
1979	mov [edi+ebx-1], al // Write back Raw(x);
1980	// mov does not affect flags; -1 to offset inc ebx
1981	jb davglp1 // Repeat until at alignment boundary
1982	davggo:
1983	mov eax, FullLength
1984	mov ecx, eax
1985	sub eax, ebx // subtract alignment fix
1986	and eax, 0x00000007 // calc bytes over mult of 8
1987	sub ecx, eax // drop over bytes from original length
1988	mov MMXLength, ecx
1989	} // end _asm block
1990	// Now do the math for the rest of the row
1991	switch ( bpp )
1992	{
1993	case 3:
1994	{
1995	ActiveMask.use = 0x0000000000ffffff;
1996	ShiftBpp.use = 24; // == 3 * 8
1997	ShiftRem.use = 40; // == 64 - 24
1998	_asm {
1999	// Re-init address pointers and offset
2000	movq mm7, ActiveMask
2001	mov ebx, diff // ebx ==> x = offset to alignment boundary
2002	movq mm5, LBCarryMask
2003	mov edi, row // edi ==> Avg(x)
2004	movq mm4, HBClearMask
2005	mov esi, prev_row // esi ==> Prior(x)
2006	// PRIME the pump (load the first Raw(x-bpp) data set
2007	movq mm2, [edi + ebx - 8] // Load previous aligned 8 bytes
2008	// (we correct position in loop below)
2009	davg3lp:
2010	movq mm0, [edi + ebx] // Load mm0 with Avg(x)
2011	// Add (Prev_row/2) to Average
2012	movq mm3, mm5
2013	psrlq mm2, ShiftRem // Correct position Raw(x-bpp) data
2014	movq mm1, [esi + ebx] // Load mm1 with Prior(x)
2015	movq mm6, mm7
2016	pand mm3, mm1 // get lsb for each prev_row byte
2017	psrlq mm1, 1 // divide prev_row bytes by 2
2018	pand mm1, mm4 // clear invalid bit 7 of each byte
2019	paddb mm0, mm1 // add (Prev_row/2) to Avg for each byte
2020	// Add 1st active group (Raw(x-bpp)/2) to Average with LBCarry
2021	movq mm1, mm3 // now use mm1 for getting LBCarrys
2022	pand mm1, mm2 // get LBCarrys for each byte where both
2023	// lsb's were == 1 (Only valid for active group)
2024	psrlq mm2, 1 // divide raw bytes by 2
2025	pand mm2, mm4 // clear invalid bit 7 of each byte
2026	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
2027	pand mm2, mm6 // Leave only Active Group 1 bytes to add to Avg
2028	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active
2029	// byte
2030	// Add 2nd active group (Raw(x-bpp)/2) to Average with LBCarry
2031	psllq mm6, ShiftBpp // shift the mm6 mask to cover bytes 3-5
2032	movq mm2, mm0 // mov updated Raws to mm2
2033	psllq mm2, ShiftBpp // shift data to position correctly
2034	movq mm1, mm3 // now use mm1 for getting LBCarrys
2035	pand mm1, mm2 // get LBCarrys for each byte where both
2036	// lsb's were == 1 (Only valid for active group)
2037	psrlq mm2, 1 // divide raw bytes by 2
2038	pand mm2, mm4 // clear invalid bit 7 of each byte
2039	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
2040	pand mm2, mm6 // Leave only Active Group 2 bytes to add to Avg
2041	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active
2042	// byte
2043
2044	// Add 3rd active group (Raw(x-bpp)/2) to Average with LBCarry
2045	psllq mm6, ShiftBpp // shift the mm6 mask to cover the last two
2046	// bytes
2047	movq mm2, mm0 // mov updated Raws to mm2
2048	psllq mm2, ShiftBpp // shift data to position correctly
2049	// Data only needs to be shifted once here to
2050	// get the correct x-bpp offset.
2051	movq mm1, mm3 // now use mm1 for getting LBCarrys
2052	pand mm1, mm2 // get LBCarrys for each byte where both
2053	// lsb's were == 1 (Only valid for active group)
2054	psrlq mm2, 1 // divide raw bytes by 2
2055	pand mm2, mm4 // clear invalid bit 7 of each byte
2056	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
2057	pand mm2, mm6 // Leave only Active Group 2 bytes to add to Avg
2058	add ebx, 8
2059	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active
2060	// byte
2061
2062	// Now ready to write back to memory
2063	movq [edi + ebx - 8], mm0
2064	// Move updated Raw(x) to use as Raw(x-bpp) for next loop
2065	cmp ebx, MMXLength
2066	movq mm2, mm0 // mov updated Raw(x) to mm2
2067	jb davg3lp
2068	} // end _asm block
2069	}
2070	break;
2071
2072	case 6:
2073	case 4:
2074	case 7:
2075	case 5:
2076	{
2077	ActiveMask.use = 0xffffffffffffffff; // use shift below to clear
2078	// appropriate inactive bytes
2079	ShiftBpp.use = bpp << 3;
2080	ShiftRem.use = 64 - ShiftBpp.use;
2081	_asm {
2082	movq mm4, HBClearMask
2083	// Re-init address pointers and offset
2084	mov ebx, diff // ebx ==> x = offset to alignment boundary
2085	// Load ActiveMask and clear all bytes except for 1st active group
2086	movq mm7, ActiveMask
2087	mov edi, row // edi ==> Avg(x)
2088	psrlq mm7, ShiftRem
2089	mov esi, prev_row // esi ==> Prior(x)
2090	movq mm6, mm7
2091	movq mm5, LBCarryMask
2092	psllq mm6, ShiftBpp // Create mask for 2nd active group
2093	// PRIME the pump (load the first Raw(x-bpp) data set
2094	movq mm2, [edi + ebx - 8] // Load previous aligned 8 bytes
2095	// (we correct position in loop below)
2096	davg4lp:
2097	movq mm0, [edi + ebx]
2098	psrlq mm2, ShiftRem // shift data to position correctly
2099	movq mm1, [esi + ebx]
2100	// Add (Prev_row/2) to Average
2101	movq mm3, mm5
2102	pand mm3, mm1 // get lsb for each prev_row byte
2103	psrlq mm1, 1 // divide prev_row bytes by 2
2104	pand mm1, mm4 // clear invalid bit 7 of each byte
2105	paddb mm0, mm1 // add (Prev_row/2) to Avg for each byte
2106	// Add 1st active group (Raw(x-bpp)/2) to Average with LBCarry
2107	movq mm1, mm3 // now use mm1 for getting LBCarrys
2108	pand mm1, mm2 // get LBCarrys for each byte where both
2109	// lsb's were == 1 (Only valid for active group)
2110	psrlq mm2, 1 // divide raw bytes by 2
2111	pand mm2, mm4 // clear invalid bit 7 of each byte
2112	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
2113	pand mm2, mm7 // Leave only Active Group 1 bytes to add to Avg
2114	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active
2115	// byte
2116	// Add 2nd active group (Raw(x-bpp)/2) to Average with LBCarry
2117	movq mm2, mm0 // mov updated Raws to mm2
2118	psllq mm2, ShiftBpp // shift data to position correctly
2119	add ebx, 8
2120	movq mm1, mm3 // now use mm1 for getting LBCarrys
2121	pand mm1, mm2 // get LBCarrys for each byte where both
2122	// lsb's were == 1 (Only valid for active group)
2123	psrlq mm2, 1 // divide raw bytes by 2
2124	pand mm2, mm4 // clear invalid bit 7 of each byte
2125	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
2126	pand mm2, mm6 // Leave only Active Group 2 bytes to add to Avg
2127	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active
2128	// byte
2129	cmp ebx, MMXLength
2130	// Now ready to write back to memory
2131	movq [edi + ebx - 8], mm0
2132	// Prep Raw(x-bpp) for next loop
2133	movq mm2, mm0 // mov updated Raws to mm2
2134	jb davg4lp
2135	} // end _asm block
2136	}
2137	break;
2138	case 2:
2139	{
2140	ActiveMask.use = 0x000000000000ffff;
2141	ShiftBpp.use = 16; // == 2 * 8 [BUGFIX]
2142	ShiftRem.use = 48; // == 64 - 16 [BUGFIX]
2143	_asm {
2144	// Load ActiveMask
2145	movq mm7, ActiveMask
2146	// Re-init address pointers and offset
2147	mov ebx, diff // ebx ==> x = offset to alignment boundary
2148	movq mm5, LBCarryMask
2149	mov edi, row // edi ==> Avg(x)
2150	movq mm4, HBClearMask
2151	mov esi, prev_row // esi ==> Prior(x)
2152	// PRIME the pump (load the first Raw(x-bpp) data set
2153	movq mm2, [edi + ebx - 8] // Load previous aligned 8 bytes
2154	// (we correct position in loop below)
2155	davg2lp:
2156	movq mm0, [edi + ebx]
2157	psrlq mm2, ShiftRem // shift data to position correctly [BUGFIX]
2158	movq mm1, [esi + ebx]
2159	// Add (Prev_row/2) to Average
2160	movq mm3, mm5
2161	pand mm3, mm1 // get lsb for each prev_row byte
2162	psrlq mm1, 1 // divide prev_row bytes by 2
2163	pand mm1, mm4 // clear invalid bit 7 of each byte
2164	movq mm6, mm7
2165	paddb mm0, mm1 // add (Prev_row/2) to Avg for each byte
2166	// Add 1st active group (Raw(x-bpp)/2) to Average with LBCarry
2167	movq mm1, mm3 // now use mm1 for getting LBCarrys
2168	pand mm1, mm2 // get LBCarrys for each byte where both
2169	// lsb's were == 1 (Only valid for active group)
2170	psrlq mm2, 1 // divide raw bytes by 2
2171	pand mm2, mm4 // clear invalid bit 7 of each byte
2172	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
2173	pand mm2, mm6 // Leave only Active Group 1 bytes to add to Avg
2174	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active byte
2175	// Add 2nd active group (Raw(x-bpp)/2) to Average with LBCarry
2176	psllq mm6, ShiftBpp // shift the mm6 mask to cover bytes 2 & 3
2177	movq mm2, mm0 // mov updated Raws to mm2
2178	psllq mm2, ShiftBpp // shift data to position correctly
2179	movq mm1, mm3 // now use mm1 for getting LBCarrys
2180	pand mm1, mm2 // get LBCarrys for each byte where both
2181	// lsb's were == 1 (Only valid for active group)
2182	psrlq mm2, 1 // divide raw bytes by 2
2183	pand mm2, mm4 // clear invalid bit 7 of each byte
2184	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
2185	pand mm2, mm6 // Leave only Active Group 2 bytes to add to Avg
2186	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active byte
2187
2188	// Add rdd active group (Raw(x-bpp)/2) to Average with LBCarry
2189	psllq mm6, ShiftBpp // shift the mm6 mask to cover bytes 4 & 5
2190	movq mm2, mm0 // mov updated Raws to mm2
2191	psllq mm2, ShiftBpp // shift data to position correctly
2192	// Data only needs to be shifted once here to
2193	// get the correct x-bpp offset.
2194	movq mm1, mm3 // now use mm1 for getting LBCarrys
2195	pand mm1, mm2 // get LBCarrys for each byte where both
2196	// lsb's were == 1 (Only valid for active group)
2197	psrlq mm2, 1 // divide raw bytes by 2
2198	pand mm2, mm4 // clear invalid bit 7 of each byte
2199	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
2200	pand mm2, mm6 // Leave only Active Group 2 bytes to add to Avg
2201	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active byte
2202
2203	// Add 4th active group (Raw(x-bpp)/2) to Average with LBCarry
2204	psllq mm6, ShiftBpp // shift the mm6 mask to cover bytes 6 & 7
2205	movq mm2, mm0 // mov updated Raws to mm2
2206	psllq mm2, ShiftBpp // shift data to position correctly
2207	// Data only needs to be shifted once here to
2208	// get the correct x-bpp offset.
2209	add ebx, 8
2210	movq mm1, mm3 // now use mm1 for getting LBCarrys
2211	pand mm1, mm2 // get LBCarrys for each byte where both
2212	// lsb's were == 1 (Only valid for active group)
2213	psrlq mm2, 1 // divide raw bytes by 2
2214	pand mm2, mm4 // clear invalid bit 7 of each byte
2215	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
2216	pand mm2, mm6 // Leave only Active Group 2 bytes to add to Avg
2217	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active byte
2218
2219	cmp ebx, MMXLength
2220	// Now ready to write back to memory
2221	movq [edi + ebx - 8], mm0
2222	// Prep Raw(x-bpp) for next loop
2223	movq mm2, mm0 // mov updated Raws to mm2
2224	jb davg2lp
2225	} // end _asm block
2226	}
2227	break;
2228
2229	case 1: // bpp == 1
2230	{
2231	_asm {
2232	// Re-init address pointers and offset
2233	mov ebx, diff // ebx ==> x = offset to alignment boundary
2234	mov edi, row // edi ==> Avg(x)
2235	cmp ebx, FullLength // Test if offset at end of array
2236	jnb davg1end
2237	// Do Paeth decode for remaining bytes
2238	mov esi, prev_row // esi ==> Prior(x)
2239	mov edx, edi
2240	xor ecx, ecx // zero ecx before using cl & cx in loop below
2241	sub edx, bpp // edx ==> Raw(x-bpp)
2242	davg1lp:
2243	// Raw(x) = Avg(x) + ((Raw(x-bpp) + Prior(x))/2)
2244	xor eax, eax
2245	mov cl, [esi + ebx] // load cl with Prior(x)
2246	mov al, [edx + ebx] // load al with Raw(x-bpp)
2247	add ax, cx
2248	inc ebx
2249	shr ax, 1 // divide by 2
2250	add al, [edi+ebx-1] // Add Avg(x); -1 to offset inc ebx
2251	cmp ebx, FullLength // Check if at end of array
2252	mov [edi+ebx-1], al // Write back Raw(x);
2253	// mov does not affect flags; -1 to offset inc ebx
2254	jb davg1lp
2255	davg1end:
2256	} // end _asm block
2257	}
2258	return;
2259
2260	case 8: // bpp == 8
2261	{
2262	_asm {
2263	// Re-init address pointers and offset
2264	mov ebx, diff // ebx ==> x = offset to alignment boundary
2265	movq mm5, LBCarryMask
2266	mov edi, row // edi ==> Avg(x)
2267	movq mm4, HBClearMask
2268	mov esi, prev_row // esi ==> Prior(x)
2269	// PRIME the pump (load the first Raw(x-bpp) data set
2270	movq mm2, [edi + ebx - 8] // Load previous aligned 8 bytes
2271	// (NO NEED to correct position in loop below)
2272	davg8lp:
2273	movq mm0, [edi + ebx]
2274	movq mm3, mm5
2275	movq mm1, [esi + ebx]
2276	add ebx, 8
2277	pand mm3, mm1 // get lsb for each prev_row byte
2278	psrlq mm1, 1 // divide prev_row bytes by 2
2279	pand mm3, mm2 // get LBCarrys for each byte where both
2280	// lsb's were == 1
2281	psrlq mm2, 1 // divide raw bytes by 2
2282	pand mm1, mm4 // clear invalid bit 7 of each byte
2283	paddb mm0, mm3 // add LBCarrys to Avg for each byte
2284	pand mm2, mm4 // clear invalid bit 7 of each byte
2285	paddb mm0, mm1 // add (Prev_row/2) to Avg for each byte
2286	paddb mm0, mm2 // add (Raw/2) to Avg for each byte
2287	cmp ebx, MMXLength
2288	movq [edi + ebx - 8], mm0
2289	movq mm2, mm0 // reuse as Raw(x-bpp)
2290	jb davg8lp
2291	} // end _asm block
2292	}
2293	break;
2294	default: // bpp greater than 8
2295	{
2296	_asm {
2297	movq mm5, LBCarryMask
2298	// Re-init address pointers and offset
2299	mov ebx, diff // ebx ==> x = offset to alignment boundary
2300	mov edi, row // edi ==> Avg(x)
2301	movq mm4, HBClearMask
2302	mov edx, edi
2303	mov esi, prev_row // esi ==> Prior(x)
2304	sub edx, bpp // edx ==> Raw(x-bpp)
2305	davgAlp:
2306	movq mm0, [edi + ebx]
2307	movq mm3, mm5
2308	movq mm1, [esi + ebx]
2309	pand mm3, mm1 // get lsb for each prev_row byte
2310	movq mm2, [edx + ebx]
2311	psrlq mm1, 1 // divide prev_row bytes by 2
2312	pand mm3, mm2 // get LBCarrys for each byte where both
2313	// lsb's were == 1
2314	psrlq mm2, 1 // divide raw bytes by 2
2315	pand mm1, mm4 // clear invalid bit 7 of each byte
2316	paddb mm0, mm3 // add LBCarrys to Avg for each byte
2317	pand mm2, mm4 // clear invalid bit 7 of each byte
2318	paddb mm0, mm1 // add (Prev_row/2) to Avg for each byte
2319	add ebx, 8
2320	paddb mm0, mm2 // add (Raw/2) to Avg for each byte
2321	cmp ebx, MMXLength
2322	movq [edi + ebx - 8], mm0
2323	jb davgAlp
2324	} // end _asm block
2325	}
2326	break;
2327	} // end switch ( bpp )
2328
2329	_asm {
2330	// MMX acceleration complete now do clean-up
2331	// Check if any remaining bytes left to decode
2332	mov ebx, MMXLength // ebx ==> x = offset bytes remaining after MMX
2333	mov edi, row // edi ==> Avg(x)
2334	cmp ebx, FullLength // Test if offset at end of array
2335	jnb davgend
2336	// Do Paeth decode for remaining bytes
2337	mov esi, prev_row // esi ==> Prior(x)
2338	mov edx, edi
2339	xor ecx, ecx // zero ecx before using cl & cx in loop below
2340	sub edx, bpp // edx ==> Raw(x-bpp)
2341	davglp2:
2342	// Raw(x) = Avg(x) + ((Raw(x-bpp) + Prior(x))/2)
2343	xor eax, eax
2344	mov cl, [esi + ebx] // load cl with Prior(x)
2345	mov al, [edx + ebx] // load al with Raw(x-bpp)
2346	add ax, cx
2347	inc ebx
2348	shr ax, 1 // divide by 2
2349	add al, [edi+ebx-1] // Add Avg(x); -1 to offset inc ebx
2350	cmp ebx, FullLength // Check if at end of array
2351	mov [edi+ebx-1], al // Write back Raw(x);
2352	// mov does not affect flags; -1 to offset inc ebx
2353	jb davglp2
2354	davgend:
2355	emms // End MMX instructions; prep for possible FP instrs.
2356	} // end _asm block
2357	}
2358
2359	// Optimized code for PNG Paeth filter decoder
2360	void /* PRIVATE */
2361	png_read_filter_row_mmx_paeth(png_row_infop row_info, png_bytep row,
2362	png_bytep prev_row)
2363	{
2364	png_uint_32 FullLength;
2365	png_uint_32 MMXLength;
2366	//png_uint_32 len;
2367	int bpp;
2368	int diff;
2369	//int ptemp;
2370	int patemp, pbtemp, pctemp;
2371
2372	bpp = (row_info->pixel_depth + 7) >> 3; // Get # bytes per pixel
2373	FullLength = row_info->rowbytes; // # of bytes to filter
2374	_asm
2375	{
2376	xor ebx, ebx // ebx ==> x offset
2377	mov edi, row
2378	xor edx, edx // edx ==> x-bpp offset
2379	mov esi, prev_row
2380	xor eax, eax
2381
2382	// Compute the Raw value for the first bpp bytes
2383	// Note: the formula works out to be always
2384	// Paeth(x) = Raw(x) + Prior(x) where x < bpp
2385	dpthrlp:
2386	mov al, [edi + ebx]
2387	add al, [esi + ebx]
2388	inc ebx
2389	cmp ebx, bpp
2390	mov [edi + ebx - 1], al
2391	jb dpthrlp
2392	// get # of bytes to alignment
2393	mov diff, edi // take start of row
2394	add diff, ebx // add bpp
2395	xor ecx, ecx
2396	add diff, 0xf // add 7 + 8 to incr past alignment boundary
2397	and diff, 0xfffffff8 // mask to alignment boundary
2398	sub diff, edi // subtract from start ==> value ebx at alignment
2399	jz dpthgo
2400	// fix alignment
2401	dpthlp1:
2402	xor eax, eax
2403	// pav = p - a = (a + b - c) - a = b - c
2404	mov al, [esi + ebx] // load Prior(x) into al
2405	mov cl, [esi + edx] // load Prior(x-bpp) into cl
2406	sub eax, ecx // subtract Prior(x-bpp)
2407	mov patemp, eax // Save pav for later use
2408	xor eax, eax
2409	// pbv = p - b = (a + b - c) - b = a - c
2410	mov al, [edi + edx] // load Raw(x-bpp) into al
2411	sub eax, ecx // subtract Prior(x-bpp)
2412	mov ecx, eax
2413	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
2414	add eax, patemp // pcv = pav + pbv
2415	// pc = abs(pcv)
2416	test eax, 0x80000000
2417	jz dpthpca
2418	neg eax // reverse sign of neg values
2419	dpthpca:
2420	mov pctemp, eax // save pc for later use
2421	// pb = abs(pbv)
2422	test ecx, 0x80000000
2423	jz dpthpba
2424	neg ecx // reverse sign of neg values
2425	dpthpba:
2426	mov pbtemp, ecx // save pb for later use
2427	// pa = abs(pav)
2428	mov eax, patemp
2429	test eax, 0x80000000
2430	jz dpthpaa
2431	neg eax // reverse sign of neg values
2432	dpthpaa:
2433	mov patemp, eax // save pa for later use
2434	// test if pa <= pb
2435	cmp eax, ecx
2436	jna dpthabb
2437	// pa > pb; now test if pb <= pc
2438	cmp ecx, pctemp
2439	jna dpthbbc
2440	// pb > pc; Raw(x) = Paeth(x) + Prior(x-bpp)
2441	mov cl, [esi + edx] // load Prior(x-bpp) into cl
2442	jmp dpthpaeth
2443	dpthbbc:
2444	// pb <= pc; Raw(x) = Paeth(x) + Prior(x)
2445	mov cl, [esi + ebx] // load Prior(x) into cl
2446	jmp dpthpaeth
2447	dpthabb:
2448	// pa <= pb; now test if pa <= pc
2449	cmp eax, pctemp
2450	jna dpthabc
2451	// pa > pc; Raw(x) = Paeth(x) + Prior(x-bpp)
2452	mov cl, [esi + edx] // load Prior(x-bpp) into cl
2453	jmp dpthpaeth
2454	dpthabc:
2455	// pa <= pc; Raw(x) = Paeth(x) + Raw(x-bpp)
2456	mov cl, [edi + edx] // load Raw(x-bpp) into cl
2457	dpthpaeth:
2458	inc ebx
2459	inc edx
2460	// Raw(x) = (Paeth(x) + Paeth_Predictor( a, b, c )) mod 256
2461	add [edi + ebx - 1], cl
2462	cmp ebx, diff
2463	jb dpthlp1
2464	dpthgo:
2465	mov ecx, FullLength
2466	mov eax, ecx
2467	sub eax, ebx // subtract alignment fix
2468	and eax, 0x00000007 // calc bytes over mult of 8
2469	sub ecx, eax // drop over bytes from original length
2470	mov MMXLength, ecx
2471	} // end _asm block
2472	// Now do the math for the rest of the row
2473	switch ( bpp )
2474	{
2475	case 3:
2476	{
2477	ActiveMask.use = 0x0000000000ffffff;
2478	ActiveMaskEnd.use = 0xffff000000000000;
2479	ShiftBpp.use = 24; // == bpp(3) * 8
2480	ShiftRem.use = 40; // == 64 - 24
2481	_asm
2482	{
2483	mov ebx, diff
2484	mov edi, row
2485	mov esi, prev_row
2486	pxor mm0, mm0
2487	// PRIME the pump (load the first Raw(x-bpp) data set
2488	movq mm1, [edi+ebx-8]
2489	dpth3lp:
2490	psrlq mm1, ShiftRem // shift last 3 bytes to 1st 3 bytes
2491	movq mm2, [esi + ebx] // load b=Prior(x)
2492	punpcklbw mm1, mm0 // Unpack High bytes of a
2493	movq mm3, [esi+ebx-8] // Prep c=Prior(x-bpp) bytes
2494	punpcklbw mm2, mm0 // Unpack High bytes of b
2495	psrlq mm3, ShiftRem // shift last 3 bytes to 1st 3 bytes
2496	// pav = p - a = (a + b - c) - a = b - c
2497	movq mm4, mm2
2498	punpcklbw mm3, mm0 // Unpack High bytes of c
2499	// pbv = p - b = (a + b - c) - b = a - c
2500	movq mm5, mm1
2501	psubw mm4, mm3
2502	pxor mm7, mm7
2503	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
2504	movq mm6, mm4
2505	psubw mm5, mm3
2506
2507	// pa = abs(p-a) = abs(pav)
2508	// pb = abs(p-b) = abs(pbv)
2509	// pc = abs(p-c) = abs(pcv)
2510	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
2511	paddw mm6, mm5
2512	pand mm0, mm4 // Only pav bytes < 0 in mm7
2513	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
2514	psubw mm4, mm0
2515	pand mm7, mm5 // Only pbv bytes < 0 in mm0
2516	psubw mm4, mm0
2517	psubw mm5, mm7
2518	pxor mm0, mm0
2519	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
2520	pand mm0, mm6 // Only pav bytes < 0 in mm7
2521	psubw mm5, mm7
2522	psubw mm6, mm0
2523	// test pa <= pb
2524	movq mm7, mm4
2525	psubw mm6, mm0
2526	pcmpgtw mm7, mm5 // pa > pb?
2527	movq mm0, mm7
2528	// use mm7 mask to merge pa & pb
2529	pand mm5, mm7
2530	// use mm0 mask copy to merge a & b
2531	pand mm2, mm0
2532	pandn mm7, mm4
2533	pandn mm0, mm1
2534	paddw mm7, mm5
2535	paddw mm0, mm2
2536	// test ((pa <= pb)? pa:pb) <= pc
2537	pcmpgtw mm7, mm6 // pab > pc?
2538	pxor mm1, mm1
2539	pand mm3, mm7
2540	pandn mm7, mm0
2541	paddw mm7, mm3
2542	pxor mm0, mm0
2543	packuswb mm7, mm1
2544	movq mm3, [esi + ebx] // load c=Prior(x-bpp)
2545	pand mm7, ActiveMask
2546	movq mm2, mm3 // load b=Prior(x) step 1
2547	paddb mm7, [edi + ebx] // add Paeth predictor with Raw(x)
2548	punpcklbw mm3, mm0 // Unpack High bytes of c
2549	movq [edi + ebx], mm7 // write back updated value
2550	movq mm1, mm7 // Now mm1 will be used as Raw(x-bpp)
2551	// Now do Paeth for 2nd set of bytes (3-5)
2552	psrlq mm2, ShiftBpp // load b=Prior(x) step 2
2553	punpcklbw mm1, mm0 // Unpack High bytes of a
2554	pxor mm7, mm7
2555	punpcklbw mm2, mm0 // Unpack High bytes of b
2556	// pbv = p - b = (a + b - c) - b = a - c
2557	movq mm5, mm1
2558	// pav = p - a = (a + b - c) - a = b - c
2559	movq mm4, mm2
2560	psubw mm5, mm3
2561	psubw mm4, mm3
2562	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) =
2563	// pav + pbv = pbv + pav
2564	movq mm6, mm5
2565	paddw mm6, mm4
2566
2567	// pa = abs(p-a) = abs(pav)
2568	// pb = abs(p-b) = abs(pbv)
2569	// pc = abs(p-c) = abs(pcv)
2570	pcmpgtw mm0, mm5 // Create mask pbv bytes < 0
2571	pcmpgtw mm7, mm4 // Create mask pav bytes < 0
2572	pand mm0, mm5 // Only pbv bytes < 0 in mm0
2573	pand mm7, mm4 // Only pav bytes < 0 in mm7
2574	psubw mm5, mm0
2575	psubw mm4, mm7
2576	psubw mm5, mm0
2577	psubw mm4, mm7
2578	pxor mm0, mm0
2579	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
2580	pand mm0, mm6 // Only pav bytes < 0 in mm7
2581	psubw mm6, mm0
2582	// test pa <= pb
2583	movq mm7, mm4
2584	psubw mm6, mm0
2585	pcmpgtw mm7, mm5 // pa > pb?
2586	movq mm0, mm7
2587	// use mm7 mask to merge pa & pb
2588	pand mm5, mm7
2589	// use mm0 mask copy to merge a & b
2590	pand mm2, mm0
2591	pandn mm7, mm4
2592	pandn mm0, mm1
2593	paddw mm7, mm5
2594	paddw mm0, mm2
2595	// test ((pa <= pb)? pa:pb) <= pc
2596	pcmpgtw mm7, mm6 // pab > pc?
2597	movq mm2, [esi + ebx] // load b=Prior(x)
2598	pand mm3, mm7
2599	pandn mm7, mm0
2600	pxor mm1, mm1
2601	paddw mm7, mm3
2602	pxor mm0, mm0
2603	packuswb mm7, mm1
2604	movq mm3, mm2 // load c=Prior(x-bpp) step 1
2605	pand mm7, ActiveMask
2606	punpckhbw mm2, mm0 // Unpack High bytes of b
2607	psllq mm7, ShiftBpp // Shift bytes to 2nd group of 3 bytes
2608	// pav = p - a = (a + b - c) - a = b - c
2609	movq mm4, mm2
2610	paddb mm7, [edi + ebx] // add Paeth predictor with Raw(x)
2611	psllq mm3, ShiftBpp // load c=Prior(x-bpp) step 2
2612	movq [edi + ebx], mm7 // write back updated value
2613	movq mm1, mm7
2614	punpckhbw mm3, mm0 // Unpack High bytes of c
2615	psllq mm1, ShiftBpp // Shift bytes
2616	// Now mm1 will be used as Raw(x-bpp)
2617	// Now do Paeth for 3rd, and final, set of bytes (6-7)
2618	pxor mm7, mm7
2619	punpckhbw mm1, mm0 // Unpack High bytes of a
2620	psubw mm4, mm3
2621	// pbv = p - b = (a + b - c) - b = a - c
2622	movq mm5, mm1
2623	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
2624	movq mm6, mm4
2625	psubw mm5, mm3
2626	pxor mm0, mm0
2627	paddw mm6, mm5
2628
2629	// pa = abs(p-a) = abs(pav)
2630	// pb = abs(p-b) = abs(pbv)
2631	// pc = abs(p-c) = abs(pcv)
2632	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
2633	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
2634	pand mm0, mm4 // Only pav bytes < 0 in mm7
2635	pand mm7, mm5 // Only pbv bytes < 0 in mm0
2636	psubw mm4, mm0
2637	psubw mm5, mm7
2638	psubw mm4, mm0
2639	psubw mm5, mm7
2640	pxor mm0, mm0
2641	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
2642	pand mm0, mm6 // Only pav bytes < 0 in mm7
2643	psubw mm6, mm0
2644	// test pa <= pb
2645	movq mm7, mm4
2646	psubw mm6, mm0
2647	pcmpgtw mm7, mm5 // pa > pb?
2648	movq mm0, mm7
2649	// use mm0 mask copy to merge a & b
2650	pand mm2, mm0
2651	// use mm7 mask to merge pa & pb
2652	pand mm5, mm7
2653	pandn mm0, mm1
2654	pandn mm7, mm4
2655	paddw mm0, mm2
2656	paddw mm7, mm5
2657	// test ((pa <= pb)? pa:pb) <= pc
2658	pcmpgtw mm7, mm6 // pab > pc?
2659	pand mm3, mm7
2660	pandn mm7, mm0
2661	paddw mm7, mm3
2662	pxor mm1, mm1
2663	packuswb mm1, mm7
2664	// Step ebx to next set of 8 bytes and repeat loop til done
2665	add ebx, 8
2666	pand mm1, ActiveMaskEnd
2667	paddb mm1, [edi + ebx - 8] // add Paeth predictor with Raw(x)
2668
2669	cmp ebx, MMXLength
2670	pxor mm0, mm0 // pxor does not affect flags
2671	movq [edi + ebx - 8], mm1 // write back updated value
2672	// mm1 will be used as Raw(x-bpp) next loop
2673	// mm3 ready to be used as Prior(x-bpp) next loop
2674	jb dpth3lp
2675	} // end _asm block
2676	}
2677	break;
2678
2679	case 6:
2680	case 7:
2681	case 5:
2682	{
2683	ActiveMask.use = 0x00000000ffffffff;
2684	ActiveMask2.use = 0xffffffff00000000;
2685	ShiftBpp.use = bpp << 3; // == bpp * 8
2686	ShiftRem.use = 64 - ShiftBpp.use;
2687	_asm
2688	{
2689	mov ebx, diff
2690	mov edi, row
2691	mov esi, prev_row
2692	// PRIME the pump (load the first Raw(x-bpp) data set
2693	movq mm1, [edi+ebx-8]
2694	pxor mm0, mm0
2695	dpth6lp:
2696	// Must shift to position Raw(x-bpp) data
2697	psrlq mm1, ShiftRem
2698	// Do first set of 4 bytes
2699	movq mm3, [esi+ebx-8] // read c=Prior(x-bpp) bytes
2700	punpcklbw mm1, mm0 // Unpack Low bytes of a
2701	movq mm2, [esi + ebx] // load b=Prior(x)
2702	punpcklbw mm2, mm0 // Unpack Low bytes of b
2703	// Must shift to position Prior(x-bpp) data
2704	psrlq mm3, ShiftRem
2705	// pav = p - a = (a + b - c) - a = b - c
2706	movq mm4, mm2
2707	punpcklbw mm3, mm0 // Unpack Low bytes of c
2708	// pbv = p - b = (a + b - c) - b = a - c
2709	movq mm5, mm1
2710	psubw mm4, mm3
2711	pxor mm7, mm7
2712	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
2713	movq mm6, mm4
2714	psubw mm5, mm3
2715	// pa = abs(p-a) = abs(pav)
2716	// pb = abs(p-b) = abs(pbv)
2717	// pc = abs(p-c) = abs(pcv)
2718	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
2719	paddw mm6, mm5
2720	pand mm0, mm4 // Only pav bytes < 0 in mm7
2721	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
2722	psubw mm4, mm0
2723	pand mm7, mm5 // Only pbv bytes < 0 in mm0
2724	psubw mm4, mm0
2725	psubw mm5, mm7
2726	pxor mm0, mm0
2727	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
2728	pand mm0, mm6 // Only pav bytes < 0 in mm7
2729	psubw mm5, mm7
2730	psubw mm6, mm0
2731	// test pa <= pb
2732	movq mm7, mm4
2733	psubw mm6, mm0
2734	pcmpgtw mm7, mm5 // pa > pb?
2735	movq mm0, mm7
2736	// use mm7 mask to merge pa & pb
2737	pand mm5, mm7
2738	// use mm0 mask copy to merge a & b
2739	pand mm2, mm0
2740	pandn mm7, mm4
2741	pandn mm0, mm1
2742	paddw mm7, mm5
2743	paddw mm0, mm2
2744	// test ((pa <= pb)? pa:pb) <= pc
2745	pcmpgtw mm7, mm6 // pab > pc?
2746	pxor mm1, mm1
2747	pand mm3, mm7
2748	pandn mm7, mm0
2749	paddw mm7, mm3
2750	pxor mm0, mm0
2751	packuswb mm7, mm1
2752	movq mm3, [esi + ebx - 8] // load c=Prior(x-bpp)
2753	pand mm7, ActiveMask
2754	psrlq mm3, ShiftRem
2755	movq mm2, [esi + ebx] // load b=Prior(x) step 1
2756	paddb mm7, [edi + ebx] // add Paeth predictor with Raw(x)
2757	movq mm6, mm2
2758	movq [edi + ebx], mm7 // write back updated value
2759	movq mm1, [edi+ebx-8]
2760	psllq mm6, ShiftBpp
2761	movq mm5, mm7
2762	psrlq mm1, ShiftRem
2763	por mm3, mm6
2764	psllq mm5, ShiftBpp
2765	punpckhbw mm3, mm0 // Unpack High bytes of c
2766	por mm1, mm5
2767	// Do second set of 4 bytes
2768	punpckhbw mm2, mm0 // Unpack High bytes of b
2769	punpckhbw mm1, mm0 // Unpack High bytes of a
2770	// pav = p - a = (a + b - c) - a = b - c
2771	movq mm4, mm2
2772	// pbv = p - b = (a + b - c) - b = a - c
2773	movq mm5, mm1
2774	psubw mm4, mm3
2775	pxor mm7, mm7
2776	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
2777	movq mm6, mm4
2778	psubw mm5, mm3
2779	// pa = abs(p-a) = abs(pav)
2780	// pb = abs(p-b) = abs(pbv)
2781	// pc = abs(p-c) = abs(pcv)
2782	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
2783	paddw mm6, mm5
2784	pand mm0, mm4 // Only pav bytes < 0 in mm7
2785	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
2786	psubw mm4, mm0
2787	pand mm7, mm5 // Only pbv bytes < 0 in mm0
2788	psubw mm4, mm0
2789	psubw mm5, mm7
2790	pxor mm0, mm0
2791	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
2792	pand mm0, mm6 // Only pav bytes < 0 in mm7
2793	psubw mm5, mm7
2794	psubw mm6, mm0
2795	// test pa <= pb
2796	movq mm7, mm4
2797	psubw mm6, mm0
2798	pcmpgtw mm7, mm5 // pa > pb?
2799	movq mm0, mm7
2800	// use mm7 mask to merge pa & pb
2801	pand mm5, mm7
2802	// use mm0 mask copy to merge a & b
2803	pand mm2, mm0
2804	pandn mm7, mm4
2805	pandn mm0, mm1
2806	paddw mm7, mm5
2807	paddw mm0, mm2
2808	// test ((pa <= pb)? pa:pb) <= pc
2809	pcmpgtw mm7, mm6 // pab > pc?
2810	pxor mm1, mm1
2811	pand mm3, mm7
2812	pandn mm7, mm0
2813	pxor mm1, mm1
2814	paddw mm7, mm3
2815	pxor mm0, mm0
2816	// Step ex to next set of 8 bytes and repeat loop til done
2817	add ebx, 8
2818	packuswb mm1, mm7
2819	paddb mm1, [edi + ebx - 8] // add Paeth predictor with Raw(x)
2820	cmp ebx, MMXLength
2821	movq [edi + ebx - 8], mm1 // write back updated value
2822	// mm1 will be used as Raw(x-bpp) next loop
2823	jb dpth6lp
2824	} // end _asm block
2825	}
2826	break;
2827
2828	case 4:
2829	{
2830	ActiveMask.use = 0x00000000ffffffff;
2831	_asm {
2832	mov ebx, diff
2833	mov edi, row
2834	mov esi, prev_row
2835	pxor mm0, mm0
2836	// PRIME the pump (load the first Raw(x-bpp) data set
2837	movq mm1, [edi+ebx-8] // Only time should need to read
2838	// a=Raw(x-bpp) bytes
2839	dpth4lp:
2840	// Do first set of 4 bytes
2841	movq mm3, [esi+ebx-8] // read c=Prior(x-bpp) bytes
2842	punpckhbw mm1, mm0 // Unpack Low bytes of a
2843	movq mm2, [esi + ebx] // load b=Prior(x)
2844	punpcklbw mm2, mm0 // Unpack High bytes of b
2845	// pav = p - a = (a + b - c) - a = b - c
2846	movq mm4, mm2
2847	punpckhbw mm3, mm0 // Unpack High bytes of c
2848	// pbv = p - b = (a + b - c) - b = a - c
2849	movq mm5, mm1
2850	psubw mm4, mm3
2851	pxor mm7, mm7
2852	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
2853	movq mm6, mm4
2854	psubw mm5, mm3
2855	// pa = abs(p-a) = abs(pav)
2856	// pb = abs(p-b) = abs(pbv)
2857	// pc = abs(p-c) = abs(pcv)
2858	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
2859	paddw mm6, mm5
2860	pand mm0, mm4 // Only pav bytes < 0 in mm7
2861	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
2862	psubw mm4, mm0
2863	pand mm7, mm5 // Only pbv bytes < 0 in mm0
2864	psubw mm4, mm0
2865	psubw mm5, mm7
2866	pxor mm0, mm0
2867	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
2868	pand mm0, mm6 // Only pav bytes < 0 in mm7
2869	psubw mm5, mm7
2870	psubw mm6, mm0
2871	// test pa <= pb
2872	movq mm7, mm4
2873	psubw mm6, mm0
2874	pcmpgtw mm7, mm5 // pa > pb?
2875	movq mm0, mm7
2876	// use mm7 mask to merge pa & pb
2877	pand mm5, mm7
2878	// use mm0 mask copy to merge a & b
2879	pand mm2, mm0
2880	pandn mm7, mm4
2881	pandn mm0, mm1
2882	paddw mm7, mm5
2883	paddw mm0, mm2
2884	// test ((pa <= pb)? pa:pb) <= pc
2885	pcmpgtw mm7, mm6 // pab > pc?
2886	pxor mm1, mm1
2887	pand mm3, mm7
2888	pandn mm7, mm0
2889	paddw mm7, mm3
2890	pxor mm0, mm0
2891	packuswb mm7, mm1
2892	movq mm3, [esi + ebx] // load c=Prior(x-bpp)
2893	pand mm7, ActiveMask
2894	movq mm2, mm3 // load b=Prior(x) step 1
2895	paddb mm7, [edi + ebx] // add Paeth predictor with Raw(x)
2896	punpcklbw mm3, mm0 // Unpack High bytes of c
2897	movq [edi + ebx], mm7 // write back updated value
2898	movq mm1, mm7 // Now mm1 will be used as Raw(x-bpp)
2899	// Do second set of 4 bytes
2900	punpckhbw mm2, mm0 // Unpack Low bytes of b
2901	punpcklbw mm1, mm0 // Unpack Low bytes of a
2902	// pav = p - a = (a + b - c) - a = b - c
2903	movq mm4, mm2
2904	// pbv = p - b = (a + b - c) - b = a - c
2905	movq mm5, mm1
2906	psubw mm4, mm3
2907	pxor mm7, mm7
2908	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
2909	movq mm6, mm4
2910	psubw mm5, mm3
2911	// pa = abs(p-a) = abs(pav)
2912	// pb = abs(p-b) = abs(pbv)
2913	// pc = abs(p-c) = abs(pcv)
2914	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
2915	paddw mm6, mm5
2916	pand mm0, mm4 // Only pav bytes < 0 in mm7
2917	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
2918	psubw mm4, mm0
2919	pand mm7, mm5 // Only pbv bytes < 0 in mm0
2920	psubw mm4, mm0
2921	psubw mm5, mm7
2922	pxor mm0, mm0
2923	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
2924	pand mm0, mm6 // Only pav bytes < 0 in mm7
2925	psubw mm5, mm7
2926	psubw mm6, mm0
2927	// test pa <= pb
2928	movq mm7, mm4
2929	psubw mm6, mm0
2930	pcmpgtw mm7, mm5 // pa > pb?
2931	movq mm0, mm7
2932	// use mm7 mask to merge pa & pb
2933	pand mm5, mm7
2934	// use mm0 mask copy to merge a & b
2935	pand mm2, mm0
2936	pandn mm7, mm4
2937	pandn mm0, mm1
2938	paddw mm7, mm5
2939	paddw mm0, mm2
2940	// test ((pa <= pb)? pa:pb) <= pc
2941	pcmpgtw mm7, mm6 // pab > pc?
2942	pxor mm1, mm1
2943	pand mm3, mm7
2944	pandn mm7, mm0
2945	pxor mm1, mm1
2946	paddw mm7, mm3
2947	pxor mm0, mm0
2948	// Step ex to next set of 8 bytes and repeat loop til done
2949	add ebx, 8
2950	packuswb mm1, mm7
2951	paddb mm1, [edi + ebx - 8] // add Paeth predictor with Raw(x)
2952	cmp ebx, MMXLength
2953	movq [edi + ebx - 8], mm1 // write back updated value
2954	// mm1 will be used as Raw(x-bpp) next loop
2955	jb dpth4lp
2956	} // end _asm block
2957	}
2958	break;
2959	case 8: // bpp == 8
2960	{
2961	ActiveMask.use = 0x00000000ffffffff;
2962	_asm {
2963	mov ebx, diff
2964	mov edi, row
2965	mov esi, prev_row
2966	pxor mm0, mm0
2967	// PRIME the pump (load the first Raw(x-bpp) data set
2968	movq mm1, [edi+ebx-8] // Only time should need to read
2969	// a=Raw(x-bpp) bytes
2970	dpth8lp:
2971	// Do first set of 4 bytes
2972	movq mm3, [esi+ebx-8] // read c=Prior(x-bpp) bytes
2973	punpcklbw mm1, mm0 // Unpack Low bytes of a
2974	movq mm2, [esi + ebx] // load b=Prior(x)
2975	punpcklbw mm2, mm0 // Unpack Low bytes of b
2976	// pav = p - a = (a + b - c) - a = b - c
2977	movq mm4, mm2
2978	punpcklbw mm3, mm0 // Unpack Low bytes of c
2979	// pbv = p - b = (a + b - c) - b = a - c
2980	movq mm5, mm1
2981	psubw mm4, mm3
2982	pxor mm7, mm7
2983	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
2984	movq mm6, mm4
2985	psubw mm5, mm3
2986	// pa = abs(p-a) = abs(pav)
2987	// pb = abs(p-b) = abs(pbv)
2988	// pc = abs(p-c) = abs(pcv)
2989	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
2990	paddw mm6, mm5
2991	pand mm0, mm4 // Only pav bytes < 0 in mm7
2992	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
2993	psubw mm4, mm0
2994	pand mm7, mm5 // Only pbv bytes < 0 in mm0
2995	psubw mm4, mm0
2996	psubw mm5, mm7
2997	pxor mm0, mm0
2998	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
2999	pand mm0, mm6 // Only pav bytes < 0 in mm7
3000	psubw mm5, mm7
3001	psubw mm6, mm0
3002	// test pa <= pb
3003	movq mm7, mm4
3004	psubw mm6, mm0
3005	pcmpgtw mm7, mm5 // pa > pb?
3006	movq mm0, mm7
3007	// use mm7 mask to merge pa & pb
3008	pand mm5, mm7
3009	// use mm0 mask copy to merge a & b
3010	pand mm2, mm0
3011	pandn mm7, mm4
3012	pandn mm0, mm1
3013	paddw mm7, mm5
3014	paddw mm0, mm2
3015	// test ((pa <= pb)? pa:pb) <= pc
3016	pcmpgtw mm7, mm6 // pab > pc?
3017	pxor mm1, mm1
3018	pand mm3, mm7
3019	pandn mm7, mm0
3020	paddw mm7, mm3
3021	pxor mm0, mm0
3022	packuswb mm7, mm1
3023	movq mm3, [esi+ebx-8] // read c=Prior(x-bpp) bytes
3024	pand mm7, ActiveMask
3025	movq mm2, [esi + ebx] // load b=Prior(x)
3026	paddb mm7, [edi + ebx] // add Paeth predictor with Raw(x)
3027	punpckhbw mm3, mm0 // Unpack High bytes of c
3028	movq [edi + ebx], mm7 // write back updated value
3029	movq mm1, [edi+ebx-8] // read a=Raw(x-bpp) bytes
3030
3031	// Do second set of 4 bytes
3032	punpckhbw mm2, mm0 // Unpack High bytes of b
3033	punpckhbw mm1, mm0 // Unpack High bytes of a
3034	// pav = p - a = (a + b - c) - a = b - c
3035	movq mm4, mm2
3036	// pbv = p - b = (a + b - c) - b = a - c
3037	movq mm5, mm1
3038	psubw mm4, mm3
3039	pxor mm7, mm7
3040	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
3041	movq mm6, mm4
3042	psubw mm5, mm3
3043	// pa = abs(p-a) = abs(pav)
3044	// pb = abs(p-b) = abs(pbv)
3045	// pc = abs(p-c) = abs(pcv)
3046	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
3047	paddw mm6, mm5
3048	pand mm0, mm4 // Only pav bytes < 0 in mm7
3049	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
3050	psubw mm4, mm0
3051	pand mm7, mm5 // Only pbv bytes < 0 in mm0
3052	psubw mm4, mm0
3053	psubw mm5, mm7
3054	pxor mm0, mm0
3055	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
3056	pand mm0, mm6 // Only pav bytes < 0 in mm7
3057	psubw mm5, mm7
3058	psubw mm6, mm0
3059	// test pa <= pb
3060	movq mm7, mm4
3061	psubw mm6, mm0
3062	pcmpgtw mm7, mm5 // pa > pb?
3063	movq mm0, mm7
3064	// use mm7 mask to merge pa & pb
3065	pand mm5, mm7
3066	// use mm0 mask copy to merge a & b
3067	pand mm2, mm0
3068	pandn mm7, mm4
3069	pandn mm0, mm1
3070	paddw mm7, mm5
3071	paddw mm0, mm2
3072	// test ((pa <= pb)? pa:pb) <= pc
3073	pcmpgtw mm7, mm6 // pab > pc?
3074	pxor mm1, mm1
3075	pand mm3, mm7
3076	pandn mm7, mm0
3077	pxor mm1, mm1
3078	paddw mm7, mm3
3079	pxor mm0, mm0
3080	// Step ex to next set of 8 bytes and repeat loop til done
3081	add ebx, 8
3082	packuswb mm1, mm7
3083	paddb mm1, [edi + ebx - 8] // add Paeth predictor with Raw(x)
3084	cmp ebx, MMXLength
3085	movq [edi + ebx - 8], mm1 // write back updated value
3086	// mm1 will be used as Raw(x-bpp) next loop
3087	jb dpth8lp
3088	} // end _asm block
3089	}
3090	break;
3091
3092	case 1: // bpp = 1
3093	case 2: // bpp = 2
3094	default: // bpp > 8
3095	{
3096	_asm {
3097	mov ebx, diff
3098	cmp ebx, FullLength
3099	jnb dpthdend
3100	mov edi, row
3101	mov esi, prev_row
3102	// Do Paeth decode for remaining bytes
3103	mov edx, ebx
3104	xor ecx, ecx // zero ecx before using cl & cx in loop below
3105	sub edx, bpp // Set edx = ebx - bpp
3106	dpthdlp:
3107	xor eax, eax
3108	// pav = p - a = (a + b - c) - a = b - c
3109	mov al, [esi + ebx] // load Prior(x) into al
3110	mov cl, [esi + edx] // load Prior(x-bpp) into cl
3111	sub eax, ecx // subtract Prior(x-bpp)
3112	mov patemp, eax // Save pav for later use
3113	xor eax, eax
3114	// pbv = p - b = (a + b - c) - b = a - c
3115	mov al, [edi + edx] // load Raw(x-bpp) into al
3116	sub eax, ecx // subtract Prior(x-bpp)
3117	mov ecx, eax
3118	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
3119	add eax, patemp // pcv = pav + pbv
3120	// pc = abs(pcv)
3121	test eax, 0x80000000
3122	jz dpthdpca
3123	neg eax // reverse sign of neg values
3124	dpthdpca:
3125	mov pctemp, eax // save pc for later use
3126	// pb = abs(pbv)
3127	test ecx, 0x80000000
3128	jz dpthdpba
3129	neg ecx // reverse sign of neg values
3130	dpthdpba:
3131	mov pbtemp, ecx // save pb for later use
3132	// pa = abs(pav)
3133	mov eax, patemp
3134	test eax, 0x80000000
3135	jz dpthdpaa
3136	neg eax // reverse sign of neg values
3137	dpthdpaa:
3138	mov patemp, eax // save pa for later use
3139	// test if pa <= pb
3140	cmp eax, ecx
3141	jna dpthdabb
3142	// pa > pb; now test if pb <= pc
3143	cmp ecx, pctemp
3144	jna dpthdbbc
3145	// pb > pc; Raw(x) = Paeth(x) + Prior(x-bpp)
3146	mov cl, [esi + edx] // load Prior(x-bpp) into cl
3147	jmp dpthdpaeth
3148	dpthdbbc:
3149	// pb <= pc; Raw(x) = Paeth(x) + Prior(x)
3150	mov cl, [esi + ebx] // load Prior(x) into cl
3151	jmp dpthdpaeth
3152	dpthdabb:
3153	// pa <= pb; now test if pa <= pc
3154	cmp eax, pctemp
3155	jna dpthdabc
3156	// pa > pc; Raw(x) = Paeth(x) + Prior(x-bpp)
3157	mov cl, [esi + edx] // load Prior(x-bpp) into cl
3158	jmp dpthdpaeth
3159	dpthdabc:
3160	// pa <= pc; Raw(x) = Paeth(x) + Raw(x-bpp)
3161	mov cl, [edi + edx] // load Raw(x-bpp) into cl
3162	dpthdpaeth:
3163	inc ebx
3164	inc edx
3165	// Raw(x) = (Paeth(x) + Paeth_Predictor( a, b, c )) mod 256
3166	add [edi + ebx - 1], cl
3167	cmp ebx, FullLength
3168	jb dpthdlp
3169	dpthdend:
3170	} // end _asm block
3171	}
3172	return; // No need to go further with this one
3173	} // end switch ( bpp )
3174	_asm
3175	{
3176	// MMX acceleration complete now do clean-up
3177	// Check if any remaining bytes left to decode
3178	mov ebx, MMXLength
3179	cmp ebx, FullLength
3180	jnb dpthend
3181	mov edi, row
3182	mov esi, prev_row
3183	// Do Paeth decode for remaining bytes
3184	mov edx, ebx
3185	xor ecx, ecx // zero ecx before using cl & cx in loop below
3186	sub edx, bpp // Set edx = ebx - bpp
3187	dpthlp2:
3188	xor eax, eax
3189	// pav = p - a = (a + b - c) - a = b - c
3190	mov al, [esi + ebx] // load Prior(x) into al
3191	mov cl, [esi + edx] // load Prior(x-bpp) into cl
3192	sub eax, ecx // subtract Prior(x-bpp)
3193	mov patemp, eax // Save pav for later use
3194	xor eax, eax
3195	// pbv = p - b = (a + b - c) - b = a - c
3196	mov al, [edi + edx] // load Raw(x-bpp) into al
3197	sub eax, ecx // subtract Prior(x-bpp)
3198	mov ecx, eax
3199	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
3200	add eax, patemp // pcv = pav + pbv
3201	// pc = abs(pcv)
3202	test eax, 0x80000000
3203	jz dpthpca2
3204	neg eax // reverse sign of neg values
3205	dpthpca2:
3206	mov pctemp, eax // save pc for later use
3207	// pb = abs(pbv)
3208	test ecx, 0x80000000
3209	jz dpthpba2
3210	neg ecx // reverse sign of neg values
3211	dpthpba2:
3212	mov pbtemp, ecx // save pb for later use
3213	// pa = abs(pav)
3214	mov eax, patemp
3215	test eax, 0x80000000
3216	jz dpthpaa2
3217	neg eax // reverse sign of neg values
3218	dpthpaa2:
3219	mov patemp, eax // save pa for later use
3220	// test if pa <= pb
3221	cmp eax, ecx
3222	jna dpthabb2
3223	// pa > pb; now test if pb <= pc
3224	cmp ecx, pctemp
3225	jna dpthbbc2
3226	// pb > pc; Raw(x) = Paeth(x) + Prior(x-bpp)
3227	mov cl, [esi + edx] // load Prior(x-bpp) into cl
3228	jmp dpthpaeth2
3229	dpthbbc2:
3230	// pb <= pc; Raw(x) = Paeth(x) + Prior(x)
3231	mov cl, [esi + ebx] // load Prior(x) into cl
3232	jmp dpthpaeth2
3233	dpthabb2:
3234	// pa <= pb; now test if pa <= pc
3235	cmp eax, pctemp
3236	jna dpthabc2
3237	// pa > pc; Raw(x) = Paeth(x) + Prior(x-bpp)
3238	mov cl, [esi + edx] // load Prior(x-bpp) into cl
3239	jmp dpthpaeth2
3240	dpthabc2:
3241	// pa <= pc; Raw(x) = Paeth(x) + Raw(x-bpp)
3242	mov cl, [edi + edx] // load Raw(x-bpp) into cl
3243	dpthpaeth2:
3244	inc ebx
3245	inc edx
3246	// Raw(x) = (Paeth(x) + Paeth_Predictor( a, b, c )) mod 256
3247	add [edi + ebx - 1], cl
3248	cmp ebx, FullLength
3249	jb dpthlp2
3250	dpthend:
3251	emms // End MMX instructions; prep for possible FP instrs.
3252	} // end _asm block
3253	}
3254
3255	// Optimized code for PNG Sub filter decoder
3256	void /* PRIVATE */
3257	png_read_filter_row_mmx_sub(png_row_infop row_info, png_bytep row)
3258	{
3259	//int test;
3260	int bpp;
3261	png_uint_32 FullLength;
3262	png_uint_32 MMXLength;
3263	int diff;
3264
3265	bpp = (row_info->pixel_depth + 7) >> 3; // Get # bytes per pixel
3266	FullLength = row_info->rowbytes - bpp; // # of bytes to filter
3267	_asm {
3268	mov edi, row
3269	mov esi, edi // lp = row
3270	add edi, bpp // rp = row + bpp
3271	xor eax, eax
3272	// get # of bytes to alignment
3273	mov diff, edi // take start of row
3274	add diff, 0xf // add 7 + 8 to incr past
3275	// alignment boundary
3276	xor ebx, ebx
3277	and diff, 0xfffffff8 // mask to alignment boundary
3278	sub diff, edi // subtract from start ==> value
3279	// ebx at alignment
3280	jz dsubgo
3281	// fix alignment
3282	dsublp1:
3283	mov al, [esi+ebx]
3284	add [edi+ebx], al
3285	inc ebx
3286	cmp ebx, diff
3287	jb dsublp1
3288	dsubgo:
3289	mov ecx, FullLength
3290	mov edx, ecx
3291	sub edx, ebx // subtract alignment fix
3292	and edx, 0x00000007 // calc bytes over mult of 8
3293	sub ecx, edx // drop over bytes from length
3294	mov MMXLength, ecx
3295	} // end _asm block
3296
3297	// Now do the math for the rest of the row
3298	switch ( bpp )
3299	{
3300	case 3:
3301	{
3302	ActiveMask.use = 0x0000ffffff000000;
3303	ShiftBpp.use = 24; // == 3 * 8
3304	ShiftRem.use = 40; // == 64 - 24
3305	_asm {
3306	mov edi, row
3307	movq mm7, ActiveMask // Load ActiveMask for 2nd active byte group
3308	mov esi, edi // lp = row
3309	add edi, bpp // rp = row + bpp
3310	movq mm6, mm7
3311	mov ebx, diff
3312	psllq mm6, ShiftBpp // Move mask in mm6 to cover 3rd active
3313	// byte group
3314	// PRIME the pump (load the first Raw(x-bpp) data set
3315	movq mm1, [edi+ebx-8]
3316	dsub3lp:
3317	psrlq mm1, ShiftRem // Shift data for adding 1st bpp bytes
3318	// no need for mask; shift clears inactive bytes
3319	// Add 1st active group
3320	movq mm0, [edi+ebx]
3321	paddb mm0, mm1
3322	// Add 2nd active group
3323	movq mm1, mm0 // mov updated Raws to mm1
3324	psllq mm1, ShiftBpp // shift data to position correctly
3325	pand mm1, mm7 // mask to use only 2nd active group
3326	paddb mm0, mm1
3327	// Add 3rd active group
3328	movq mm1, mm0 // mov updated Raws to mm1
3329	psllq mm1, ShiftBpp // shift data to position correctly
3330	pand mm1, mm6 // mask to use only 3rd active group
3331	add ebx, 8
3332	paddb mm0, mm1
3333	cmp ebx, MMXLength
3334	movq [edi+ebx-8], mm0 // Write updated Raws back to array
3335	// Prep for doing 1st add at top of loop
3336	movq mm1, mm0
3337	jb dsub3lp
3338	} // end _asm block
3339	}
3340	break;
3341
3342	case 1:
3343	{
3344	// Placed here just in case this is a duplicate of the
3345	// non-MMX code for the SUB filter in png_read_filter_row below
3346	//
3347	// png_bytep rp;
3348	// png_bytep lp;
3349	// png_uint_32 i;
3350	// bpp = (row_info->pixel_depth + 7) >> 3;
3351	// for (i = (png_uint_32)bpp, rp = row + bpp, lp = row;
3352	// i < row_info->rowbytes; i++, rp++, lp++)
3353	// {
3354	// rp = (png_byte)(((int)(rp) + (int)(*lp)) & 0xff);
3355	// }
3356	_asm {
3357	mov ebx, diff
3358	mov edi, row
3359	cmp ebx, FullLength
3360	jnb dsub1end
3361	mov esi, edi // lp = row
3362	xor eax, eax
3363	add edi, bpp // rp = row + bpp
3364	dsub1lp:
3365	mov al, [esi+ebx]
3366	add [edi+ebx], al
3367	inc ebx
3368	cmp ebx, FullLength
3369	jb dsub1lp
3370	dsub1end:
3371	} // end _asm block
3372	}
3373	return;
3374
3375	case 6:
3376	case 7:
3377	case 4:
3378	case 5:
3379	{
3380	ShiftBpp.use = bpp << 3;
3381	ShiftRem.use = 64 - ShiftBpp.use;
3382	_asm {
3383	mov edi, row
3384	mov ebx, diff
3385	mov esi, edi // lp = row
3386	add edi, bpp // rp = row + bpp
3387	// PRIME the pump (load the first Raw(x-bpp) data set
3388	movq mm1, [edi+ebx-8]
3389	dsub4lp:
3390	psrlq mm1, ShiftRem // Shift data for adding 1st bpp bytes
3391	// no need for mask; shift clears inactive bytes
3392	movq mm0, [edi+ebx]
3393	paddb mm0, mm1
3394	// Add 2nd active group
3395	movq mm1, mm0 // mov updated Raws to mm1
3396	psllq mm1, ShiftBpp // shift data to position correctly
3397	// there is no need for any mask
3398	// since shift clears inactive bits/bytes
3399	add ebx, 8
3400	paddb mm0, mm1
3401	cmp ebx, MMXLength
3402	movq [edi+ebx-8], mm0
3403	movq mm1, mm0 // Prep for doing 1st add at top of loop
3404	jb dsub4lp
3405	} // end _asm block
3406	}
3407	break;
3408
3409	case 2:
3410	{
3411	ActiveMask.use = 0x00000000ffff0000;
3412	ShiftBpp.use = 16; // == 2 * 8
3413	ShiftRem.use = 48; // == 64 - 16
3414	_asm {
3415	movq mm7, ActiveMask // Load ActiveMask for 2nd active byte group
3416	mov ebx, diff
3417	movq mm6, mm7
3418	mov edi, row
3419	psllq mm6, ShiftBpp // Move mask in mm6 to cover 3rd active
3420	// byte group
3421	mov esi, edi // lp = row
3422	movq mm5, mm6
3423	add edi, bpp // rp = row + bpp
3424	psllq mm5, ShiftBpp // Move mask in mm5 to cover 4th active
3425	// byte group
3426	// PRIME the pump (load the first Raw(x-bpp) data set
3427	movq mm1, [edi+ebx-8]
3428	dsub2lp:
3429	// Add 1st active group
3430	psrlq mm1, ShiftRem // Shift data for adding 1st bpp bytes
3431	// no need for mask; shift clears inactive
3432	// bytes
3433	movq mm0, [edi+ebx]
3434	paddb mm0, mm1
3435	// Add 2nd active group
3436	movq mm1, mm0 // mov updated Raws to mm1
3437	psllq mm1, ShiftBpp // shift data to position correctly
3438	pand mm1, mm7 // mask to use only 2nd active group
3439	paddb mm0, mm1
3440	// Add 3rd active group
3441	movq mm1, mm0 // mov updated Raws to mm1
3442	psllq mm1, ShiftBpp // shift data to position correctly
3443	pand mm1, mm6 // mask to use only 3rd active group
3444	paddb mm0, mm1
3445	// Add 4th active group
3446	movq mm1, mm0 // mov updated Raws to mm1
3447	psllq mm1, ShiftBpp // shift data to position correctly
3448	pand mm1, mm5 // mask to use only 4th active group
3449	add ebx, 8
3450	paddb mm0, mm1
3451	cmp ebx, MMXLength
3452	movq [edi+ebx-8], mm0 // Write updated Raws back to array
3453	movq mm1, mm0 // Prep for doing 1st add at top of loop
3454	jb dsub2lp
3455	} // end _asm block
3456	}
3457	break;
3458	case 8:
3459	{
3460	_asm {
3461	mov edi, row
3462	mov ebx, diff
3463	mov esi, edi // lp = row
3464	add edi, bpp // rp = row + bpp
3465	mov ecx, MMXLength
3466	movq mm7, [edi+ebx-8] // PRIME the pump (load the first
3467	// Raw(x-bpp) data set
3468	and ecx, 0x0000003f // calc bytes over mult of 64
3469	dsub8lp:
3470	movq mm0, [edi+ebx] // Load Sub(x) for 1st 8 bytes
3471	paddb mm0, mm7
3472	movq mm1, [edi+ebx+8] // Load Sub(x) for 2nd 8 bytes
3473	movq [edi+ebx], mm0 // Write Raw(x) for 1st 8 bytes
3474	// Now mm0 will be used as Raw(x-bpp) for
3475	// the 2nd group of 8 bytes. This will be
3476	// repeated for each group of 8 bytes with
3477	// the 8th group being used as the Raw(x-bpp)
3478	// for the 1st group of the next loop.
3479	paddb mm1, mm0
3480	movq mm2, [edi+ebx+16] // Load Sub(x) for 3rd 8 bytes
3481	movq [edi+ebx+8], mm1 // Write Raw(x) for 2nd 8 bytes
3482	paddb mm2, mm1
3483	movq mm3, [edi+ebx+24] // Load Sub(x) for 4th 8 bytes
3484	movq [edi+ebx+16], mm2 // Write Raw(x) for 3rd 8 bytes
3485	paddb mm3, mm2
3486	movq mm4, [edi+ebx+32] // Load Sub(x) for 5th 8 bytes
3487	movq [edi+ebx+24], mm3 // Write Raw(x) for 4th 8 bytes
3488	paddb mm4, mm3
3489	movq mm5, [edi+ebx+40] // Load Sub(x) for 6th 8 bytes
3490	movq [edi+ebx+32], mm4 // Write Raw(x) for 5th 8 bytes
3491	paddb mm5, mm4
3492	movq mm6, [edi+ebx+48] // Load Sub(x) for 7th 8 bytes
3493	movq [edi+ebx+40], mm5 // Write Raw(x) for 6th 8 bytes
3494	paddb mm6, mm5
3495	movq mm7, [edi+ebx+56] // Load Sub(x) for 8th 8 bytes
3496	movq [edi+ebx+48], mm6 // Write Raw(x) for 7th 8 bytes
3497	add ebx, 64
3498	paddb mm7, mm6
3499	cmp ebx, ecx
3500	movq [edi+ebx-8], mm7 // Write Raw(x) for 8th 8 bytes
3501	jb dsub8lp
3502	cmp ebx, MMXLength
3503	jnb dsub8lt8
3504	dsub8lpA:
3505	movq mm0, [edi+ebx]
3506	add ebx, 8
3507	paddb mm0, mm7
3508	cmp ebx, MMXLength
3509	movq [edi+ebx-8], mm0 // use -8 to offset early add to ebx
3510	movq mm7, mm0 // Move calculated Raw(x) data to mm1 to
3511	// be the new Raw(x-bpp) for the next loop
3512	jb dsub8lpA
3513	dsub8lt8:
3514	} // end _asm block
3515	}
3516	break;
3517
3518	default: // bpp greater than 8 bytes
3519	{
3520	_asm {
3521	mov ebx, diff
3522	mov edi, row
3523	mov esi, edi // lp = row
3524	add edi, bpp // rp = row + bpp
3525	dsubAlp:
3526	movq mm0, [edi+ebx]
3527	movq mm1, [esi+ebx]
3528	add ebx, 8
3529	paddb mm0, mm1
3530	cmp ebx, MMXLength
3531	movq [edi+ebx-8], mm0 // mov does not affect flags; -8 to offset
3532	// add ebx
3533	jb dsubAlp
3534	} // end _asm block
3535	}
3536	break;
3537
3538	} // end switch ( bpp )
3539
3540	_asm {
3541	mov ebx, MMXLength
3542	mov edi, row
3543	cmp ebx, FullLength
3544	jnb dsubend
3545	mov esi, edi // lp = row
3546	xor eax, eax
3547	add edi, bpp // rp = row + bpp
3548	dsublp2:
3549	mov al, [esi+ebx]
3550	add [edi+ebx], al
3551	inc ebx
3552	cmp ebx, FullLength
3553	jb dsublp2
3554	dsubend:
3555	emms // End MMX instructions; prep for possible FP instrs.
3556	} // end _asm block
3557	}
3558
3559	// Optimized code for PNG Up filter decoder
3560	void /* PRIVATE */
3561	png_read_filter_row_mmx_up(png_row_infop row_info, png_bytep row,
3562	png_bytep prev_row)
3563	{
3564	png_uint_32 len;
3565	len = row_info->rowbytes; // # of bytes to filter
3566	_asm {
3567	mov edi, row
3568	// get # of bytes to alignment
3569	mov ecx, edi
3570	xor ebx, ebx
3571	add ecx, 0x7
3572	xor eax, eax
3573	and ecx, 0xfffffff8
3574	mov esi, prev_row
3575	sub ecx, edi
3576	jz dupgo
3577	// fix alignment
3578	duplp1:
3579	mov al, [edi+ebx]
3580	add al, [esi+ebx]
3581	inc ebx
3582	cmp ebx, ecx
3583	mov [edi + ebx-1], al // mov does not affect flags; -1 to offset inc ebx
3584	jb duplp1
3585	dupgo:
3586	mov ecx, len
3587	mov edx, ecx
3588	sub edx, ebx // subtract alignment fix
3589	and edx, 0x0000003f // calc bytes over mult of 64
3590	sub ecx, edx // drop over bytes from length
3591	// Unrolled loop - use all MMX registers and interleave to reduce
3592	// number of branch instructions (loops) and reduce partial stalls
3593	duploop:
3594	movq mm1, [esi+ebx]
3595	movq mm0, [edi+ebx]
3596	movq mm3, [esi+ebx+8]
3597	paddb mm0, mm1
3598	movq mm2, [edi+ebx+8]
3599	movq [edi+ebx], mm0
3600	paddb mm2, mm3
3601	movq mm5, [esi+ebx+16]
3602	movq [edi+ebx+8], mm2
3603	movq mm4, [edi+ebx+16]
3604	movq mm7, [esi+ebx+24]
3605	paddb mm4, mm5
3606	movq mm6, [edi+ebx+24]
3607	movq [edi+ebx+16], mm4
3608	paddb mm6, mm7
3609	movq mm1, [esi+ebx+32]
3610	movq [edi+ebx+24], mm6
3611	movq mm0, [edi+ebx+32]
3612	movq mm3, [esi+ebx+40]
3613	paddb mm0, mm1
3614	movq mm2, [edi+ebx+40]
3615	movq [edi+ebx+32], mm0
3616	paddb mm2, mm3
3617	movq mm5, [esi+ebx+48]
3618	movq [edi+ebx+40], mm2
3619	movq mm4, [edi+ebx+48]
3620	movq mm7, [esi+ebx+56]
3621	paddb mm4, mm5
3622	movq mm6, [edi+ebx+56]
3623	movq [edi+ebx+48], mm4
3624	add ebx, 64
3625	paddb mm6, mm7
3626	cmp ebx, ecx
3627	movq [edi+ebx-8], mm6 // (+56)movq does not affect flags;
3628	// -8 to offset add ebx
3629	jb duploop
3630
3631	cmp edx, 0 // Test for bytes over mult of 64
3632	jz dupend
3633
3634
3635	// 2 lines added by lcreeve at netins.net
3636	// (mail 11 Jul 98 in png-implement list)
3637	cmp edx, 8 //test for less than 8 bytes
3638	jb duplt8
3639
3640
3641	add ecx, edx
3642	and edx, 0x00000007 // calc bytes over mult of 8
3643	sub ecx, edx // drop over bytes from length
3644	jz duplt8
3645	// Loop using MMX registers mm0 & mm1 to update 8 bytes simultaneously
3646	duplpA:
3647	movq mm1, [esi+ebx]
3648	movq mm0, [edi+ebx]
3649	add ebx, 8
3650	paddb mm0, mm1
3651	cmp ebx, ecx
3652	movq [edi+ebx-8], mm0 // movq does not affect flags; -8 to offset add ebx
3653	jb duplpA
3654	cmp edx, 0 // Test for bytes over mult of 8
3655	jz dupend
3656	duplt8:
3657	xor eax, eax
3658	add ecx, edx // move over byte count into counter
3659	// Loop using x86 registers to update remaining bytes
3660	duplp2:
3661	mov al, [edi + ebx]
3662	add al, [esi + ebx]
3663	inc ebx
3664	cmp ebx, ecx
3665	mov [edi + ebx-1], al // mov does not affect flags; -1 to offset inc ebx
3666	jb duplp2
3667	dupend:
3668	// Conversion of filtered row completed
3669	emms // End MMX instructions; prep for possible FP instrs.
3670	} // end _asm block
3671	}
3672
3673
3674	// Optimized png_read_filter_row routines
3675	void /* PRIVATE */
3676	png_read_filter_row(png_structp png_ptr, png_row_infop row_info, png_bytep
3677	row, png_bytep prev_row, int filter)
3678	{
3679	#ifdef PNG_DEBUG
3680	char filnm[10];
3681	#endif
3682
3683	if (mmx_supported == 2) {
3684	#if !defined(PNG_1_0_X)
3685	/* this should have happened in png_init_mmx_flags() already */
3686	png_warning(png_ptr, "asm_flags may not have been initialized");
3687	#endif
3688	png_mmx_support();
3689	}
3690
3691	#ifdef PNG_DEBUG
3692	png_debug(1, "in png_read_filter_row\n");
3693	switch (filter)
3694	{
3695	case 0: sprintf(filnm, "none");
3696	break;
3697	#if !defined(PNG_1_0_X)
3698	case 1: sprintf(filnm, "sub-%s",
3699	(png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_SUB)? "MMX" : "x86");
3700	break;
3701	case 2: sprintf(filnm, "up-%s",
3702	(png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_UP)? "MMX" : "x86");
3703	break;
3704	case 3: sprintf(filnm, "avg-%s",
3705	(png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_AVG)? "MMX" : "x86");
3706	break;
3707	case 4: sprintf(filnm, "Paeth-%s",
3708	(png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_PAETH)? "MMX":"x86");
3709	break;
3710	#else
3711	case 1: sprintf(filnm, "sub");
3712	break;
3713	case 2: sprintf(filnm, "up");
3714	break;
3715	case 3: sprintf(filnm, "avg");
3716	break;
3717	case 4: sprintf(filnm, "Paeth");
3718	break;
3719	#endif
3720	default: sprintf(filnm, "unknw");
3721	break;
3722	}
3723	png_debug2(0,"row=%5d, %s, ", png_ptr->row_number, filnm);
3724	png_debug2(0, "pd=%2d, b=%d, ", (int)row_info->pixel_depth,
3725	(int)((row_info->pixel_depth + 7) >> 3));
3726	png_debug1(0,"len=%8d, ", row_info->rowbytes);
3727	#endif /* PNG_DEBUG */
3728
3729	switch (filter)
3730	{
3731	case PNG_FILTER_VALUE_NONE:
3732	break;
3733
3734	case PNG_FILTER_VALUE_SUB:
3735	{
3736	#if !defined(PNG_1_0_X)
3737	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_SUB) &&
3738	(row_info->pixel_depth >= png_ptr->mmx_bitdepth_threshold) &&
3739	(row_info->rowbytes >= png_ptr->mmx_rowbytes_threshold))
3740	#else
3741	if (mmx_supported)
3742	#endif
3743	{
3744	png_read_filter_row_mmx_sub(row_info, row);
3745	}
3746	else
3747	{
3748	png_uint_32 i;
3749	png_uint_32 istop = row_info->rowbytes;
3750	png_uint_32 bpp = (row_info->pixel_depth + 7) >> 3;
3751	png_bytep rp = row + bpp;
3752	png_bytep lp = row;
3753
3754	for (i = bpp; i < istop; i++)
3755	{
3756	rp = (png_byte)(((int)(rp) + (int)(*lp++)) & 0xff);
3757	rp++;
3758	}
3759	}
3760	break;
3761	}
3762
3763	case PNG_FILTER_VALUE_UP:
3764	{
3765	#if !defined(PNG_1_0_X)
3766	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_UP) &&
3767	(row_info->pixel_depth >= png_ptr->mmx_bitdepth_threshold) &&
3768	(row_info->rowbytes >= png_ptr->mmx_rowbytes_threshold))
3769	#else
3770	if (mmx_supported)
3771	#endif
3772	{
3773	png_read_filter_row_mmx_up(row_info, row, prev_row);
3774	}
3775	else
3776	{
3777	png_uint_32 i;
3778	png_uint_32 istop = row_info->rowbytes;
3779	png_bytep rp = row;
3780	png_bytep pp = prev_row;
3781
3782	for (i = 0; i < istop; ++i)
3783	{
3784	rp = (png_byte)(((int)(rp) + (int)(*pp++)) & 0xff);
3785	rp++;
3786	}
3787	}
3788	break;
3789	}
3790
3791	case PNG_FILTER_VALUE_AVG:
3792	{
3793	#if !defined(PNG_1_0_X)
3794	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_AVG) &&
3795	(row_info->pixel_depth >= png_ptr->mmx_bitdepth_threshold) &&
3796	(row_info->rowbytes >= png_ptr->mmx_rowbytes_threshold))
3797	#else
3798	if (mmx_supported)
3799	#endif
3800	{
3801	png_read_filter_row_mmx_avg(row_info, row, prev_row);
3802	}
3803	else
3804	{
3805	png_uint_32 i;
3806	png_bytep rp = row;
3807	png_bytep pp = prev_row;
3808	png_bytep lp = row;
3809	png_uint_32 bpp = (row_info->pixel_depth + 7) >> 3;
3810	png_uint_32 istop = row_info->rowbytes - bpp;
3811
3812	for (i = 0; i < bpp; i++)
3813	{
3814	rp = (png_byte)(((int)(rp) +
3815	((int)(*pp++) >> 1)) & 0xff);
3816	rp++;
3817	}
3818
3819	for (i = 0; i < istop; i++)
3820	{
3821	rp = (png_byte)(((int)(rp) +
3822	((int)(pp++ + lp++) >> 1)) & 0xff);
3823	rp++;
3824	}
3825	}
3826	break;
3827	}
3828
3829	case PNG_FILTER_VALUE_PAETH:
3830	{
3831	#if !defined(PNG_1_0_X)
3832	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_PAETH) &&
3833	(row_info->pixel_depth >= png_ptr->mmx_bitdepth_threshold) &&
3834	(row_info->rowbytes >= png_ptr->mmx_rowbytes_threshold))
3835	#else
3836	if (mmx_supported)
3837	#endif
3838	{
3839	png_read_filter_row_mmx_paeth(row_info, row, prev_row);
3840	}
3841	else
3842	{
3843	png_uint_32 i;
3844	png_bytep rp = row;
3845	png_bytep pp = prev_row;
3846	png_bytep lp = row;
3847	png_bytep cp = prev_row;
3848	png_uint_32 bpp = (row_info->pixel_depth + 7) >> 3;
3849	png_uint_32 istop=row_info->rowbytes - bpp;
3850
3851	for (i = 0; i < bpp; i++)
3852	{
3853	rp = (png_byte)(((int)(rp) + (int)(*pp++)) & 0xff);
3854	rp++;
3855	}
3856
3857	for (i = 0; i < istop; i++) // use leftover rp,pp
3858	{
3859	int a, b, c, pa, pb, pc, p;
3860
3861	a = *lp++;
3862	b = *pp++;
3863	c = *cp++;
3864
3865	p = b - c;
3866	pc = a - c;
3867
3868	#ifdef PNG_USE_ABS
3869	pa = abs(p);
3870	pb = abs(pc);
3871	pc = abs(p + pc);
3872	#else
3873	pa = p < 0 ? -p : p;
3874	pb = pc < 0 ? -pc : pc;
3875	pc = (p + pc) < 0 ? -(p + pc) : p + pc;
3876	#endif
3877
3878	/*
3879	if (pa <= pb && pa <= pc)
3880	p = a;
3881	else if (pb <= pc)
3882	p = b;
3883	else
3884	p = c;
3885	*/
3886
3887	p = (pa <= pb && pa <=pc) ? a : (pb <= pc) ? b : c;
3888
3889	rp = (png_byte)(((int)(rp) + p) & 0xff);
3890	rp++;
3891	}
3892	}
3893	break;
3894	}
3895
3896	default:
3897	png_warning(png_ptr, "Ignoring bad row filter type");
3898	*row=0;
3899	break;
3900	}
3901	}
3902
3903	#endif /* PNG_ASSEMBLER_CODE_SUPPORTED && PNG_USE_PNGVCRD */

Note: See TracBrowser for help on using the repository browser.

source: vbox/trunk/src/libs/libpng-1.2.8/pngvcrd.c@ 9441

Download in other formats: