12 years ago · 706bd8ea19
--- a/common.mak
+++ b/common.mak
@@ -11,7 +11,7 @@ ifndef V
 
				 Q      = @
			
 
				 ECHO   = printf "$(1)\t%s\n" $(2)
			
 
				 BRIEF  = CC CXX AS YASM AR LD HOSTCC STRIP CP
			
 
				-SILENT = DEPCC DEPAS DEPHOSTCC YASMDEP RM RANLIB
			
 
				+SILENT = DEPCC DEPAS DEPHOSTCC DEPYASM RM RANLIB
			
 
				 MSG    = $@
			
 
				 M      = @$(call ECHO,$(TAG),$@);
			
 
				 $(foreach VAR,$(BRIEF), \
			
@@ -35,7 +35,7 @@ LDFLAGS    := $(ALLFFLIBS:%=-Llib%) $(LDFLAGS)
 
				 
			
 
				 define COMPILE
			
 
				        $(call $(1)DEP,$(1))
			
 
				-       $($(1)) $($(1)FLAGS) $($(1)_DEPFLAGS) -c $($(1)_O) $<
			
 
				+       $($(1)) $($(1)FLAGS) $($(1)_DEPFLAGS) $($(1)_C) $($(1)_O) $<
			
 
				 endef
			
 
				 
			
 
				 COMPILE_C = $(call COMPILE,CC)
			
@@ -55,7 +55,7 @@ COMPILE_S = $(call COMPILE,AS)
 
				 	$(COMPILE_S)
			
 
				 
			
 
				 %.ho: %.h
			
 
				-	$(CC) $(CPPFLAGS) $(CFLAGS) -c -o $@ -x c $<
			
 
				+	$(CC) $(CCFLAGS) -c $(CC_O) -x c $<
			
 
				 
			
 
				 %.ver: %.v
			
 
				 	$(Q)sed 's/$$MAJOR/$($(basename $(@F))_VERSION_MAJOR)/' $^ > $@
			
--- a/configure
+++ b/configure
@@ -673,11 +673,15 @@ cc_o(){
 
				     eval printf '%s\\n' $CC_O
			
 
				 }
			
 
				 
			
 
				+cc_e(){
			
 
				+    eval printf '%s\\n' $CC_E
			
 
				+}
			
 
				+
			
 
				 check_cc(){
			
 
				     log check_cc "$@"
			
 
				     cat > $TMPC
			
 
				     log_file $TMPC
			
 
				-    check_cmd $cc $CPPFLAGS $CFLAGS "$@" -c $(cc_o $TMPO) $TMPC
			
 
				+    check_cmd $cc $CPPFLAGS $CFLAGS "$@" $CC_C $(cc_o $TMPO) $TMPC
			
 
				 }
			
 
				 
			
 
				 check_cxx(){
			
@@ -691,14 +695,14 @@ check_cpp(){
 
				     log check_cpp "$@"
			
 
				     cat > $TMPC
			
 
				     log_file $TMPC
			
 
				-    check_cmd $cc $CPPFLAGS $CFLAGS "$@" -E -o $TMPO $TMPC
			
 
				+    check_cmd $cc $CPPFLAGS $CFLAGS "$@" $(cc_e $TMPO) $TMPC
			
 
				 }
			
 
				 
			
 
				 check_as(){
			
 
				     log check_as "$@"
			
 
				     cat > $TMPC
			
 
				     log_file $TMPC
			
 
				-    check_cmd $as $CPPFLAGS $ASFLAGS "$@" -c -o $TMPO $TMPC
			
 
				+    check_cmd $as $CPPFLAGS $ASFLAGS "$@" $AS_C -o $TMPO $TMPC
			
 
				 }
			
 
				 
			
 
				 check_asm(){
			
@@ -1043,7 +1047,6 @@ PROGRAM_LIST="
 
				 CONFIG_LIST="
			
 
				     $COMPONENT_LIST
			
 
				     $PROGRAM_LIST
			
 
				-    ac3dsp
			
 
				     avcodec
			
 
				     avdevice
			
 
				     avfilter
			
@@ -1061,7 +1064,6 @@ CONFIG_LIST="
 
				     fft
			
 
				     fontconfig
			
 
				     frei0r
			
 
				-    gcrypt
			
 
				     gnutls
			
 
				     gpl
			
 
				     gray
			
@@ -1107,8 +1109,6 @@ CONFIG_LIST="
 
				     mdct
			
 
				     memalign_hack
			
 
				     memory_poisoning
			
 
				-    mpegaudiodsp
			
 
				-    nettle
			
 
				     network
			
 
				     nonfree
			
 
				     openal
			
@@ -1116,11 +1116,9 @@ CONFIG_LIST="
 
				     pic
			
 
				     postproc
			
 
				     rdft
			
 
				-    rtpdec
			
 
				     runtime_cpudetect
			
 
				     safe_bitstream_reader
			
 
				     shared
			
 
				-    sinewin
			
 
				     small
			
 
				     sram
			
 
				     static
			
@@ -1341,7 +1339,9 @@ HAVE_LIST="
 
				 # options emitted with CONFIG_ prefix but not available on command line
			
 
				 CONFIG_EXTRA="
			
 
				     aandcttables
			
 
				+    ac3dsp
			
 
				     avutil
			
 
				+    gcrypt
			
 
				     golomb
			
 
				     gplv3
			
 
				     h264chroma
			
@@ -1351,6 +1351,10 @@ CONFIG_EXTRA="
 
				     huffman
			
 
				     lgplv3
			
 
				     lpc
			
 
				+    mpegaudiodsp
			
 
				+    nettle
			
 
				+    rtpdec
			
 
				+    sinewin
			
 
				     vp3dsp
			
 
				 "
			
 
				 
			
@@ -1738,7 +1742,7 @@ v4l_indev_deps="linux_videodev_h"
 
				 v4l2_indev_deps_any="linux_videodev2_h sys_videoio_h"
			
 
				 vfwcap_indev_deps="capCreateCaptureWindow vfwcap_defines"
			
 
				 vfwcap_indev_extralibs="-lavicap32"
			
 
				-x11_grab_device_indev_deps="x11grab"
			
 
				+x11grab_indev_deps="x11grab"
			
 
				 
			
 
				 # protocols
			
 
				 bluray_protocol_deps="libbluray"
			
@@ -1968,10 +1972,14 @@ asflags_filter=echo
 
				 cflags_filter=echo
			
 
				 ldflags_filter=echo
			
 
				 
			
 
				+AS_C='-c'
			
 
				 AS_O='-o $@'
			
 
				+CC_C='-c'
			
 
				+CC_E='-E -o $@'
			
 
				 CC_O='-o $@'
			
 
				 CXX_O='-o $@'
			
 
				 LD_O='-o $@'
			
 
				+HOSTCC_C='-c'
			
 
				 HOSTCC_O='-o $@'
			
 
				 
			
 
				 host_cflags='-D_ISOC99_SOURCE -D_XOPEN_SOURCE=600 -O3 -g'
			
@@ -2331,7 +2339,8 @@ probe_cc(){
 
				     pfx=$1
			
 
				     _cc=$2
			
 
				 
			
 
				-    unset _type _ident _cc_o _flags _cflags _ldflags _depflags _DEPCMD _DEPFLAGS
			
 
				+    unset _type _ident _cc_c _cc_e _cc_o _flags _cflags _ldflags
			
 
				+    unset _depflags _DEPCMD _DEPFLAGS
			
 
				     _flags_filter=echo
			
 
				 
			
 
				     if $_cc -v 2>&1 | grep -q '^gcc.*LLVM'; then
			
@@ -2394,6 +2403,7 @@ probe_cc(){
 
				         _ident=$($_cc -version | head -n1 | tr -s ' ')
			
 
				         _flags='--gcc --abi=eabi -me'
			
 
				         _cflags='-D__gnuc_va_list=va_list -D__USER_LABEL_PREFIX__='
			
 
				+        _cc_e='-ppl -fe=$@'
			
 
				         _cc_o='-fe=$@'
			
 
				         as_default="${cross_prefix}gcc"
			
 
				         ld_default="${cross_prefix}gcc"
			
@@ -2445,6 +2455,8 @@ probe_cc(){
 
				 }
			
 
				 
			
 
				 set_ccvars(){
			
 
				+    eval ${1}_C=\${_cc_c-\${${1}_C}}
			
 
				+    eval ${1}_E=\${_cc_e-\${${1}_E}}
			
 
				     eval ${1}_O=\${_cc_o-\${${1}_O}}
			
 
				 
			
 
				     if [ -n "$_depflags" ]; then
			
@@ -3874,7 +3886,7 @@ DEPCCFLAGS=$DEPCCFLAGS \$(CPPFLAGS)
 
				 DEPAS=$as
			
 
				 DEPASFLAGS=$DEPASFLAGS \$(CPPFLAGS)
			
 
				 YASM=$yasmexe
			
 
				-YASMDEP=$yasmexe
			
 
				+DEPYASM=$yasmexe
			
 
				 AR=$ar
			
 
				 RANLIB=$ranlib
			
 
				 CP=cp -p
			
@@ -3884,7 +3896,9 @@ CPPFLAGS=$CPPFLAGS
 
				 CFLAGS=$CFLAGS
			
 
				 CXXFLAGS=$CXXFLAGS
			
 
				 ASFLAGS=$ASFLAGS
			
 
				+AS_C=$AS_C
			
 
				 AS_O=$AS_O
			
 
				+CC_C=$CC_C
			
 
				 CC_O=$CC_O
			
 
				 CXX_O=$CXX_O
			
 
				 LD_O=$LD_O
			
@@ -3919,6 +3933,7 @@ DEPHOSTCCFLAGS=$DEPHOSTCCFLAGS \$(HOSTCCFLAGS)
 
				 HOSTCCDEP=$HOSTCCDEP
			
 
				 HOSTCCDEP_FLAGS=$HOSTCCDEP_FLAGS
			
 
				 HOSTCC_DEPFLAGS=$HOSTCC_DEPFLAGS
			
 
				+HOSTCC_C=$HOSTCC_C
			
 
				 HOSTCC_O=$HOSTCC_O
			
 
				 TARGET_EXEC=$target_exec
			
 
				 TARGET_PATH=$target_path
			
--- a/libavcodec/vc1dec.c
+++ b/libavcodec/vc1dec.c
@@ -1050,9 +1050,10 @@ static void vc1_mc_4mv_chroma4(VC1Context *v)
 
				         if ((edges&8) && s->mb_y == (s->mb_height - 1))        \
			
 
				             mquant = v->altpq;                                 \
			
 
				         if (!mquant || mquant > 31) {                          \
			
 
				-            av_log(v->s.avctx, AV_LOG_ERROR, "invalid mquant %d\n", mquant);   \
			
 
				-            mquant = 1;                                \
			
 
				-        }                                              \
			
 
				+            av_log(v->s.avctx, AV_LOG_ERROR,                   \
			
 
				+                   "Overriding invalid mquant %d\n", mquant);  \
			
 
				+            mquant = 1;                                        \
			
 
				+        }                                                      \
			
 
				     }
			
 
				 
			
 
				 /**
			
@@ -4944,15 +4945,17 @@ static void vc1_draw_sprites(VC1Context *v, SpriteData* sd)
 
				                 int      iline  = s->current_picture.f.linesize[plane];
			
 
				                 int      ycoord = yoff[sprite] + yadv[sprite] * row;
			
 
				                 int      yline  = ycoord >> 16;
			
 
				+                int      next_line;
			
 
				                 ysub[sprite] = ycoord & 0xFFFF;
			
 
				                 if (sprite) {
			
 
				                     iplane = s->last_picture.f.data[plane];
			
 
				                     iline  = s->last_picture.f.linesize[plane];
			
 
				                 }
			
 
				+                next_line = FFMIN(yline + 1, (v->sprite_height >> !!plane) - 1) * iline;
			
 
				                 if (!(xoff[sprite] & 0xFFFF) && xadv[sprite] == 1 << 16) {
			
 
				                         src_h[sprite][0] = iplane + (xoff[sprite] >> 16) +  yline      * iline;
			
 
				                     if (ysub[sprite])
			
 
				-                        src_h[sprite][1] = iplane + (xoff[sprite] >> 16) + FFMIN(yline + 1, (v->sprite_height>>!!plane)-1) * iline;
			
 
				+                        src_h[sprite][1] = iplane + (xoff[sprite] >> 16) + next_line;
			
 
				                 } else {
			
 
				                     if (sr_cache[sprite][0] != yline) {
			
 
				                         if (sr_cache[sprite][1] == yline) {
			
@@ -4964,7 +4967,9 @@ static void vc1_draw_sprites(VC1Context *v, SpriteData* sd)
 
				                         }
			
 
				                     }
			
 
				                     if (ysub[sprite] && sr_cache[sprite][1] != yline + 1) {
			
 
				-                        v->vc1dsp.sprite_h(v->sr_rows[sprite][1], iplane + FFMIN(yline + 1, (v->sprite_height>>!!plane)-1) * iline, xoff[sprite], xadv[sprite], width);
			
 
				+                        v->vc1dsp.sprite_h(v->sr_rows[sprite][1],
			
 
				+                                           iplane + next_line, xoff[sprite],
			
 
				+                                           xadv[sprite], width);
			
 
				                         sr_cache[sprite][1] = yline + 1;
			
 
				                     }
			
 
				                     src_h[sprite][0] = v->sr_rows[sprite][0];
			
@@ -5581,8 +5586,10 @@ static int vc1_decode_frame(AVCodecContext *avctx, void *data,
 
				         mb_height = s->mb_height >> v->field_mode;
			
 
				         for (i = 0; i <= n_slices; i++) {
			
 
				             if (i > 0 &&  slices[i - 1].mby_start >= mb_height) {
			
 
				-                if(v->field_mode <= 0) {
			
 
				-                    av_log(v->s.avctx, AV_LOG_ERROR, "invalid end_mb_y %d\n", slices[i - 1].mby_start);
			
 
				+                if (v->field_mode <= 0) {
			
 
				+                    av_log(v->s.avctx, AV_LOG_ERROR, "Slice %d starts beyond "
			
 
				+                           "picture boundary (%d >= %d)\n", i,
			
 
				+                           slices[i - 1].mby_start, mb_height);
			
 
				                     continue;
			
 
				                 }
			
 
				                 v->second_field = 1;
			
@@ -5597,13 +5604,13 @@ static int vc1_decode_frame(AVCodecContext *avctx, void *data,
 
				                 v->pic_header_flag = 0;
			
 
				                 if (v->field_mode && i == n_slices1 + 2) {
			
 
				                     if (ff_vc1_parse_frame_header_adv(v, &s->gb) < 0) {
			
 
				-                        av_log(v->s.avctx, AV_LOG_ERROR, "slice header damaged\n");
			
 
				+                        av_log(v->s.avctx, AV_LOG_ERROR, "Field header damaged\n");
			
 
				                         continue;
			
 
				                     }
			
 
				                 } else if (get_bits1(&s->gb)) {
			
 
				                     v->pic_header_flag = 1;
			
 
				                     if (ff_vc1_parse_frame_header_adv(v, &s->gb) < 0) {
			
 
				-                        av_log(v->s.avctx, AV_LOG_ERROR, "slice header damaged\n");
			
 
				+                        av_log(v->s.avctx, AV_LOG_ERROR, "Slice header damaged\n");
			
 
				                         continue;
			
 
				                     }
			
 
				                 }
			
--- a/libavcodec/x86/dsputil_mmx.c
+++ b/libavcodec/x86/dsputil_mmx.c
@@ -2137,10 +2137,10 @@ void ff_ ## OP ## _h264_chroma_mc ## NUM ## _ ## DEPTH ## _ ## OPT      \
 
				                                       (uint8_t *dst, uint8_t *src,      \
			
 
				                                        int stride, int h, int x, int y);
			
 
				 
			
 
				-CHROMA_MC(put, 2, 10, mmxext)
			
 
				-CHROMA_MC(avg, 2, 10, mmxext)
			
 
				-CHROMA_MC(put, 4, 10, mmxext)
			
 
				-CHROMA_MC(avg, 4, 10, mmxext)
			
 
				+CHROMA_MC(put, 2, 10, mmx2)
			
 
				+CHROMA_MC(avg, 2, 10, mmx2)
			
 
				+CHROMA_MC(put, 4, 10, mmx2)
			
 
				+CHROMA_MC(avg, 4, 10, mmx2)
			
 
				 CHROMA_MC(put, 8, 10, sse2)
			
 
				 CHROMA_MC(avg, 8, 10, sse2)
			
 
				 CHROMA_MC(put, 8, 10, avx)
			
@@ -2841,10 +2841,10 @@ static void dsputil_init_mmx2(DSPContext *c, AVCodecContext *avctx,
 
				         c->put_h264_chroma_pixels_tab[2] = ff_put_h264_chroma_mc2_mmx2;
			
 
				     }
			
 
				     if (bit_depth == 10 && CONFIG_H264CHROMA) {
			
 
				-        c->put_h264_chroma_pixels_tab[2] = ff_put_h264_chroma_mc2_10_mmxext;
			
 
				-        c->avg_h264_chroma_pixels_tab[2] = ff_avg_h264_chroma_mc2_10_mmxext;
			
 
				-        c->put_h264_chroma_pixels_tab[1] = ff_put_h264_chroma_mc4_10_mmxext;
			
 
				-        c->avg_h264_chroma_pixels_tab[1] = ff_avg_h264_chroma_mc4_10_mmxext;
			
 
				+        c->put_h264_chroma_pixels_tab[2] = ff_put_h264_chroma_mc2_10_mmx2;
			
 
				+        c->avg_h264_chroma_pixels_tab[2] = ff_avg_h264_chroma_mc2_10_mmx2;
			
 
				+        c->put_h264_chroma_pixels_tab[1] = ff_put_h264_chroma_mc4_10_mmx2;
			
 
				+        c->avg_h264_chroma_pixels_tab[1] = ff_avg_h264_chroma_mc4_10_mmx2;
			
 
				     }
			
 
				 
			
 
				     c->add_hfyu_median_prediction   = ff_add_hfyu_median_prediction_mmx2;
			
--- a/libavcodec/x86/fft_mmx.asm
+++ b/libavcodec/x86/fft_mmx.asm
@@ -517,23 +517,23 @@ INIT_MMX 3dnow
 
				 FFT48_3DN
			
 
				 
			
 
				 
			
 
				-%define Z(x) [zq + o1q*(x&6) + mmsize*(x&1)]
			
 
				-%define Z2(x) [zq + o3q + mmsize*(x&1)]
			
 
				-%define ZH(x) [zq + o1q*(x&6) + mmsize*(x&1) + mmsize/2]
			
 
				-%define Z2H(x) [zq + o3q + mmsize*(x&1) + mmsize/2]
			
 
				+%define Z(x) [zcq + o1q*(x&6) + mmsize*(x&1)]
			
 
				+%define Z2(x) [zcq + o3q + mmsize*(x&1)]
			
 
				+%define ZH(x) [zcq + o1q*(x&6) + mmsize*(x&1) + mmsize/2]
			
 
				+%define Z2H(x) [zcq + o3q + mmsize*(x&1) + mmsize/2]
			
 
				 
			
 
				 %macro DECL_PASS 2+ ; name, payload
			
 
				 align 16
			
 
				 %1:
			
 
				-DEFINE_ARGS z, w, n, o1, o3
			
 
				+DEFINE_ARGS zc, w, n, o1, o3
			
 
				     lea o3q, [nq*3]
			
 
				     lea o1q, [nq*8]
			
 
				     shl o3q, 4
			
 
				 .loop:
			
 
				     %2
			
 
				-    add zq, mmsize*2
			
 
				-    add wq, mmsize
			
 
				-    sub nd, mmsize/8
			
 
				+    add zcq, mmsize*2
			
 
				+    add  wq, mmsize
			
 
				+    sub  nd, mmsize/8
			
 
				     jg .loop
			
 
				     rep ret
			
 
				 %endmacro
			
@@ -748,7 +748,7 @@ section .text
 
				 
			
 
				 ; On x86_32, this function does the register saving and restoring for all of fft.
			
 
				 ; The others pass args in registers and don't spill anything.
			
 
				-cglobal fft_dispatch%2, 2,5,8, z, nbits
			
 
				+cglobal fft_dispatch%2, 2,5,8, zc, nbits
			
 
				     FFT_DISPATCH fullsuffix, nbits
			
 
				     RET
			
 
				 %endmacro ; DECL_FFT
			
--- a/libavcodec/x86/h264_chromamc_10bit.asm
+++ b/libavcodec/x86/h264_chromamc_10bit.asm
@@ -60,10 +60,10 @@ SECTION .text
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; void put/avg_h264_chroma_mc8(pixel *dst, pixel *src, int stride, int h, int mx, int my)
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-%macro CHROMA_MC8 2
			
 
				+%macro CHROMA_MC8 1
			
 
				 ; put/avg_h264_chroma_mc8_*(uint8_t *dst /*align 8*/, uint8_t *src /*align 1*/,
			
 
				 ;                              int stride, int h, int mx, int my)
			
 
				-cglobal %1_h264_chroma_mc8_10_%2, 6,7,8
			
 
				+cglobal %1_h264_chroma_mc8_10, 6,7,8
			
 
				     movsxdifnidn  r2, r2d
			
 
				     mov          r6d, r5d
			
 
				     or           r6d, r4d
			
@@ -173,8 +173,8 @@ cglobal %1_h264_chroma_mc8_10_%2, 6,7,8
 
				     add           r0, r2
			
 
				 %endmacro
			
 
				 
			
 
				-%macro CHROMA_MC4 2
			
 
				-cglobal %1_h264_chroma_mc4_10_%2, 6,6,7
			
 
				+%macro CHROMA_MC4 1
			
 
				+cglobal %1_h264_chroma_mc4_10, 6,6,7
			
 
				     movsxdifnidn  r2, r2d
			
 
				     movd          m2, r4m         ; x
			
 
				     movd          m3, r5m         ; y
			
@@ -203,8 +203,8 @@ cglobal %1_h264_chroma_mc4_10_%2, 6,6,7
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; void put/avg_h264_chroma_mc2(pixel *dst, pixel *src, int stride, int h, int mx, int my)
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-%macro CHROMA_MC2 2
			
 
				-cglobal %1_h264_chroma_mc2_10_%2, 6,7
			
 
				+%macro CHROMA_MC2 1
			
 
				+cglobal %1_h264_chroma_mc2_10, 6,7
			
 
				     movsxdifnidn  r2, r2d
			
 
				     mov          r6d, r4d
			
 
				     shl          r4d, 16
			
@@ -250,24 +250,24 @@ cglobal %1_h264_chroma_mc2_10_%2, 6,7
 
				 %endmacro
			
 
				 
			
 
				 %define CHROMAMC_AVG  NOTHING
			
 
				-INIT_XMM
			
 
				-CHROMA_MC8 put, sse2
			
 
				+INIT_XMM sse2
			
 
				+CHROMA_MC8 put
			
 
				 %if HAVE_AVX
			
 
				-INIT_AVX
			
 
				-CHROMA_MC8 put, avx
			
 
				+INIT_XMM avx
			
 
				+CHROMA_MC8 put
			
 
				 %endif
			
 
				-INIT_MMX
			
 
				-CHROMA_MC4 put, mmxext
			
 
				-CHROMA_MC2 put, mmxext
			
 
				+INIT_MMX mmx2
			
 
				+CHROMA_MC4 put
			
 
				+CHROMA_MC2 put
			
 
				 
			
 
				 %define CHROMAMC_AVG  AVG
			
 
				 %define PAVG          pavgw
			
 
				-INIT_XMM
			
 
				-CHROMA_MC8 avg, sse2
			
 
				+INIT_XMM sse2
			
 
				+CHROMA_MC8 avg
			
 
				 %if HAVE_AVX
			
 
				-INIT_AVX
			
 
				-CHROMA_MC8 avg, avx
			
 
				+INIT_XMM avx
			
 
				+CHROMA_MC8 avg
			
 
				 %endif
			
 
				-INIT_MMX
			
 
				-CHROMA_MC4 avg, mmxext
			
 
				-CHROMA_MC2 avg, mmxext
			
 
				+INIT_MMX mmx2
			
 
				+CHROMA_MC4 avg
			
 
				+CHROMA_MC2 avg
			
--- a/libavcodec/x86/h264_deblock.asm
+++ b/libavcodec/x86/h264_deblock.asm
@@ -282,8 +282,8 @@ cextern pb_A1
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; void deblock_v_luma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-%macro DEBLOCK_LUMA 1
			
 
				-cglobal deblock_v_luma_8_%1, 5,5,10
			
 
				+%macro DEBLOCK_LUMA 0
			
 
				+cglobal deblock_v_luma_8, 5,5,10
			
 
				     movd    m8, [r4] ; tc0
			
 
				     lea     r4, [r1*3]
			
 
				     dec     r2d        ; alpha-1
			
@@ -327,8 +327,8 @@ cglobal deblock_v_luma_8_%1, 5,5,10
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; void deblock_h_luma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-INIT_MMX
			
 
				-cglobal deblock_h_luma_8_%1, 5,9
			
 
				+INIT_MMX cpuname
			
 
				+cglobal deblock_h_luma_8, 5,9
			
 
				     movsxd r7,  r1d
			
 
				     lea    r8,  [r7+r7*2]
			
 
				     lea    r6,  [r0-4]
			
@@ -355,7 +355,7 @@ cglobal deblock_h_luma_8_%1, 5,9
 
				 %if WIN64
			
 
				     mov    [rsp+0x20], r4
			
 
				 %endif
			
 
				-    call   deblock_v_luma_8_%1
			
 
				+    call   deblock_v_luma_8
			
 
				 
			
 
				     ; transpose 16x4 -> original space  (only the middle 4 rows were changed by the filter)
			
 
				     add    r6, 2
			
@@ -384,26 +384,26 @@ cglobal deblock_h_luma_8_%1, 5,9
 
				     RET
			
 
				 %endmacro
			
 
				 
			
 
				-INIT_XMM
			
 
				-DEBLOCK_LUMA sse2
			
 
				+INIT_XMM sse2
			
 
				+DEBLOCK_LUMA
			
 
				 %if HAVE_AVX
			
 
				-INIT_AVX
			
 
				-DEBLOCK_LUMA avx
			
 
				+INIT_XMM avx
			
 
				+DEBLOCK_LUMA
			
 
				 %endif
			
 
				 
			
 
				 %else
			
 
				 
			
 
				-%macro DEBLOCK_LUMA 3
			
 
				+%macro DEBLOCK_LUMA 2
			
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; void deblock_v8_luma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-cglobal deblock_%2_luma_8_%1, 5,5
			
 
				+cglobal deblock_%1_luma_8, 5,5
			
 
				     lea     r4, [r1*3]
			
 
				     dec     r2     ; alpha-1
			
 
				     neg     r4
			
 
				     dec     r3     ; beta-1
			
 
				     add     r4, r0 ; pix-3*stride
			
 
				-    %assign pad 2*%3+12-(stack_offset&15)
			
 
				+    %assign pad 2*%2+12-(stack_offset&15)
			
 
				     SUB     esp, pad
			
 
				 
			
 
				     mova    m0, [r4+r1]   ; p1
			
@@ -417,7 +417,7 @@ cglobal deblock_%2_luma_8_%1, 5,5
 
				     movd    m4, [r3] ; tc0
			
 
				     punpcklbw m4, m4
			
 
				     punpcklbw m4, m4 ; tc = 4x tc0[3], 4x tc0[2], 4x tc0[1], 4x tc0[0]
			
 
				-    mova   [esp+%3], m4 ; tc
			
 
				+    mova   [esp+%2], m4 ; tc
			
 
				     pcmpgtb m4, m3
			
 
				     mova    m3, [r4] ; p2
			
 
				     pand    m4, m7
			
@@ -425,7 +425,7 @@ cglobal deblock_%2_luma_8_%1, 5,5
 
				 
			
 
				     DIFF_GT2 m1, m3, m5, m6, m7 ; |p2-p0| > beta-1
			
 
				     pand    m6, m4
			
 
				-    pand    m4, [esp+%3] ; tc
			
 
				+    pand    m4, [esp+%2] ; tc
			
 
				     psubb   m7, m4, m6
			
 
				     pand    m6, m4
			
 
				     LUMA_Q1 m0, m3, [r4], [r4+r1], m6, m4
			
@@ -433,7 +433,7 @@ cglobal deblock_%2_luma_8_%1, 5,5
 
				     mova    m4, [r0+2*r1] ; q2
			
 
				     DIFF_GT2 m2, m4, m5, m6, m3 ; |q2-q0| > beta-1
			
 
				     pand    m6, [esp] ; mask
			
 
				-    mova    m5, [esp+%3] ; tc
			
 
				+    mova    m5, [esp+%2] ; tc
			
 
				     psubb   m7, m6
			
 
				     pand    m5, m6
			
 
				     mova    m3, [r0+r1]
			
@@ -448,8 +448,8 @@ cglobal deblock_%2_luma_8_%1, 5,5
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; void deblock_h_luma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-INIT_MMX
			
 
				-cglobal deblock_h_luma_8_%1, 0,5
			
 
				+INIT_MMX cpuname
			
 
				+cglobal deblock_h_luma_8, 0,5
			
 
				     mov    r0, r0mp
			
 
				     mov    r3, r1m
			
 
				     lea    r4, [r3*3]
			
@@ -472,11 +472,11 @@ cglobal deblock_h_luma_8_%1, 0,5
 
				     PUSH   dword r2m
			
 
				     PUSH   dword 16
			
 
				     PUSH   dword r0
			
 
				-    call   deblock_%2_luma_8_%1
			
 
				-%ifidn %2, v8
			
 
				+    call   deblock_%1_luma_8
			
 
				+%ifidn %1, v8
			
 
				     add    dword [esp   ], 8 ; pix_tmp+0x38
			
 
				     add    dword [esp+16], 2 ; tc0+2
			
 
				-    call   deblock_%2_luma_8_%1
			
 
				+    call   deblock_%1_luma_8
			
 
				 %endif
			
 
				     ADD    esp, 20
			
 
				 
			
@@ -503,13 +503,13 @@ cglobal deblock_h_luma_8_%1, 0,5
 
				     RET
			
 
				 %endmacro ; DEBLOCK_LUMA
			
 
				 
			
 
				-INIT_MMX
			
 
				-DEBLOCK_LUMA mmxext, v8, 8
			
 
				-INIT_XMM
			
 
				-DEBLOCK_LUMA sse2, v, 16
			
 
				+INIT_MMX mmx2
			
 
				+DEBLOCK_LUMA v8, 8
			
 
				+INIT_XMM sse2
			
 
				+DEBLOCK_LUMA v, 16
			
 
				 %if HAVE_AVX
			
 
				-INIT_AVX
			
 
				-DEBLOCK_LUMA avx, v, 16
			
 
				+INIT_XMM avx
			
 
				+DEBLOCK_LUMA v, 16
			
 
				 %endif
			
 
				 
			
 
				 %endif ; ARCH
			
@@ -612,7 +612,7 @@ DEBLOCK_LUMA avx, v, 16
 
				     %define mask1p mask1q
			
 
				 %endmacro
			
 
				 
			
 
				-%macro DEBLOCK_LUMA_INTRA 2
			
 
				+%macro DEBLOCK_LUMA_INTRA 1
			
 
				     %define p1 m0
			
 
				     %define p0 m1
			
 
				     %define q0 m2
			
@@ -647,7 +647,7 @@ DEBLOCK_LUMA avx, v, 16
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; void deblock_v_luma_intra( uint8_t *pix, int stride, int alpha, int beta )
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-cglobal deblock_%2_luma_intra_8_%1, 4,6,16
			
 
				+cglobal deblock_%1_luma_intra_8, 4,6,16
			
 
				 %if ARCH_X86_64 == 0
			
 
				     sub     esp, 0x60
			
 
				 %endif
			
@@ -704,12 +704,12 @@ cglobal deblock_%2_luma_intra_8_%1, 4,6,16
 
				 %endif
			
 
				     RET
			
 
				 
			
 
				-INIT_MMX
			
 
				+INIT_MMX cpuname
			
 
				 %if ARCH_X86_64
			
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; void deblock_h_luma_intra( uint8_t *pix, int stride, int alpha, int beta )
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-cglobal deblock_h_luma_intra_8_%1, 4,9
			
 
				+cglobal deblock_h_luma_intra_8, 4,9
			
 
				     movsxd r7,  r1d
			
 
				     lea    r8,  [r7*3]
			
 
				     lea    r6,  [r0-4]
			
@@ -725,7 +725,7 @@ cglobal deblock_h_luma_intra_8_%1, 4,9
 
				 
			
 
				     lea    r0,  [pix_tmp+0x40]
			
 
				     mov    r1,  0x10
			
 
				-    call   deblock_v_luma_intra_8_%1
			
 
				+    call   deblock_v_luma_intra_8
			
 
				 
			
 
				     ; transpose 16x6 -> original space (but we can't write only 6 pixels, so really 16x8)
			
 
				     lea    r5, [r6+r8]
			
@@ -738,7 +738,7 @@ cglobal deblock_h_luma_intra_8_%1, 4,9
 
				     add    rsp, 0x88
			
 
				     RET
			
 
				 %else
			
 
				-cglobal deblock_h_luma_intra_8_%1, 2,4
			
 
				+cglobal deblock_h_luma_intra_8, 2,4
			
 
				     lea    r3,  [r1*3]
			
 
				     sub    r0,  4
			
 
				     lea    r2,  [r0+r3]
			
@@ -757,10 +757,10 @@ cglobal deblock_h_luma_intra_8_%1, 2,4
 
				     PUSH   dword r2m
			
 
				     PUSH   dword 16
			
 
				     PUSH   r0
			
 
				-    call   deblock_%2_luma_intra_8_%1
			
 
				-%ifidn %2, v8
			
 
				+    call   deblock_%1_luma_intra_8
			
 
				+%ifidn %1, v8
			
 
				     add    dword [rsp], 8 ; pix_tmp+8
			
 
				-    call   deblock_%2_luma_intra_8_%1
			
 
				+    call   deblock_%1_luma_intra_8
			
 
				 %endif
			
 
				     ADD    esp, 16
			
 
				 
			
@@ -779,18 +779,18 @@ cglobal deblock_h_luma_intra_8_%1, 2,4
 
				 %endif ; ARCH_X86_64
			
 
				 %endmacro ; DEBLOCK_LUMA_INTRA
			
 
				 
			
 
				-INIT_XMM
			
 
				-DEBLOCK_LUMA_INTRA sse2, v
			
 
				+INIT_XMM sse2
			
 
				+DEBLOCK_LUMA_INTRA v
			
 
				 %if HAVE_AVX
			
 
				-INIT_AVX
			
 
				-DEBLOCK_LUMA_INTRA avx , v
			
 
				+INIT_XMM avx
			
 
				+DEBLOCK_LUMA_INTRA v
			
 
				 %endif
			
 
				 %if ARCH_X86_64 == 0
			
 
				-INIT_MMX
			
 
				-DEBLOCK_LUMA_INTRA mmxext, v8
			
 
				+INIT_MMX mmx2
			
 
				+DEBLOCK_LUMA_INTRA v8
			
 
				 %endif
			
 
				 
			
 
				-INIT_MMX
			
 
				+INIT_MMX mmx2
			
 
				 
			
 
				 %macro CHROMA_V_START 0
			
 
				     dec    r2d      ; alpha-1
			
@@ -815,13 +815,13 @@ INIT_MMX
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; void ff_deblock_v_chroma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-cglobal deblock_v_chroma_8_mmxext, 5,6
			
 
				+cglobal deblock_v_chroma_8, 5,6
			
 
				     CHROMA_V_START
			
 
				     movq  m0, [t5]
			
 
				     movq  m1, [t5+r1]
			
 
				     movq  m2, [r0]
			
 
				     movq  m3, [r0+r1]
			
 
				-    call ff_chroma_inter_body_mmxext
			
 
				+    call ff_chroma_inter_body_mmx2
			
 
				     movq  [t5+r1], m1
			
 
				     movq  [r0], m2
			
 
				     RET
			
@@ -829,7 +829,7 @@ cglobal deblock_v_chroma_8_mmxext, 5,6
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; void ff_deblock_h_chroma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-cglobal deblock_h_chroma_8_mmxext, 5,7
			
 
				+cglobal deblock_h_chroma_8, 5,7
			
 
				 %if UNIX64
			
 
				     %define buf0 [rsp-24]
			
 
				     %define buf1 [rsp-16]
			
@@ -859,7 +859,7 @@ cglobal deblock_h_chroma_8_mmxext, 5,7
 
				     RET
			
 
				 
			
 
				 ALIGN 16
			
 
				-ff_chroma_inter_body_mmxext:
			
 
				+ff_chroma_inter_body_mmx2:
			
 
				     LOAD_MASK  r2d, r3d
			
 
				     movd       m6, [r4] ; tc0
			
 
				     punpcklbw  m6, m6
			
@@ -886,13 +886,13 @@ ff_chroma_inter_body_mmxext:
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; void ff_deblock_v_chroma_intra( uint8_t *pix, int stride, int alpha, int beta )
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-cglobal deblock_v_chroma_intra_8_mmxext, 4,5
			
 
				+cglobal deblock_v_chroma_intra_8, 4,5
			
 
				     CHROMA_V_START
			
 
				     movq  m0, [t5]
			
 
				     movq  m1, [t5+r1]
			
 
				     movq  m2, [r0]
			
 
				     movq  m3, [r0+r1]
			
 
				-    call ff_chroma_intra_body_mmxext
			
 
				+    call ff_chroma_intra_body_mmx2
			
 
				     movq  [t5+r1], m1
			
 
				     movq  [r0], m2
			
 
				     RET
			
@@ -900,15 +900,15 @@ cglobal deblock_v_chroma_intra_8_mmxext, 4,5
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; void ff_deblock_h_chroma_intra( uint8_t *pix, int stride, int alpha, int beta )
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-cglobal deblock_h_chroma_intra_8_mmxext, 4,6
			
 
				+cglobal deblock_h_chroma_intra_8, 4,6
			
 
				     CHROMA_H_START
			
 
				     TRANSPOSE4x8_LOAD  bw, wd, dq, PASS8ROWS(t5, r0, r1, t6)
			
 
				-    call ff_chroma_intra_body_mmxext
			
 
				+    call ff_chroma_intra_body_mmx2
			
 
				     TRANSPOSE8x4B_STORE PASS8ROWS(t5, r0, r1, t6)
			
 
				     RET
			
 
				 
			
 
				 ALIGN 16
			
 
				-ff_chroma_intra_body_mmxext:
			
 
				+ff_chroma_intra_body_mmx2:
			
 
				     LOAD_MASK r2d, r3d
			
 
				     movq   m5, m1
			
 
				     movq   m6, m2
			
--- a/libavcodec/x86/h264_deblock_10bit.asm
+++ b/libavcodec/x86/h264_deblock_10bit.asm
@@ -151,11 +151,11 @@ cextern pw_4
 
				 %endif
			
 
				 %endmacro
			
 
				 
			
 
				-%macro DEBLOCK_LUMA 1
			
 
				+%macro DEBLOCK_LUMA 0
			
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; void deblock_v_luma( uint16_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-cglobal deblock_v_luma_10_%1, 5,5,8*(mmsize/16)
			
 
				+cglobal deblock_v_luma_10, 5,5,8*(mmsize/16)
			
 
				     %assign pad 5*mmsize+12-(stack_offset&15)
			
 
				     %define tcm [rsp]
			
 
				     %define ms1 [rsp+mmsize]
			
@@ -210,7 +210,7 @@ cglobal deblock_v_luma_10_%1, 5,5,8*(mmsize/16)
 
				     ADD         rsp, pad
			
 
				     RET
			
 
				 
			
 
				-cglobal deblock_h_luma_10_%1, 5,6,8*(mmsize/16)
			
 
				+cglobal deblock_h_luma_10, 5,6,8*(mmsize/16)
			
 
				     %assign pad 7*mmsize+12-(stack_offset&15)
			
 
				     %define tcm [rsp]
			
 
				     %define ms1 [rsp+mmsize]
			
@@ -301,7 +301,6 @@ cglobal deblock_h_luma_10_%1, 5,6,8*(mmsize/16)
 
				     RET
			
 
				 %endmacro
			
 
				 
			
 
				-INIT_XMM
			
 
				 %if ARCH_X86_64
			
 
				 ; in:  m0=p1, m1=p0, m2=q0, m3=q1, m8=p2, m9=q2
			
 
				 ;      m12=alpha, m13=beta
			
@@ -339,8 +338,8 @@ INIT_XMM
 
				     SWAP         3, 9
			
 
				 %endmacro
			
 
				 
			
 
				-%macro DEBLOCK_LUMA_64 1
			
 
				-cglobal deblock_v_luma_10_%1, 5,5,15
			
 
				+%macro DEBLOCK_LUMA_64 0
			
 
				+cglobal deblock_v_luma_10, 5,5,15
			
 
				     %define p2 m8
			
 
				     %define p1 m0
			
 
				     %define p0 m1
			
@@ -377,7 +376,7 @@ cglobal deblock_v_luma_10_%1, 5,5,15
 
				     jg .loop
			
 
				     REP_RET
			
 
				 
			
 
				-cglobal deblock_h_luma_10_%1, 5,7,15
			
 
				+cglobal deblock_h_luma_10, 5,7,15
			
 
				     shl        r2d, 2
			
 
				     shl        r3d, 2
			
 
				     LOAD_AB    m12, m13, r2d, r3d
			
@@ -417,11 +416,11 @@ cglobal deblock_h_luma_10_%1, 5,7,15
 
				     REP_RET
			
 
				 %endmacro
			
 
				 
			
 
				-INIT_XMM
			
 
				-DEBLOCK_LUMA_64 sse2
			
 
				+INIT_XMM sse2
			
 
				+DEBLOCK_LUMA_64
			
 
				 %if HAVE_AVX
			
 
				-INIT_AVX
			
 
				-DEBLOCK_LUMA_64 avx
			
 
				+INIT_XMM avx
			
 
				+DEBLOCK_LUMA_64
			
 
				 %endif
			
 
				 %endif
			
 
				 
			
@@ -604,8 +603,8 @@ DEBLOCK_LUMA_64 avx
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; void deblock_v_luma_intra( uint16_t *pix, int stride, int alpha, int beta )
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-%macro DEBLOCK_LUMA_INTRA_64 1
			
 
				-cglobal deblock_v_luma_intra_10_%1, 4,7,16
			
 
				+%macro DEBLOCK_LUMA_INTRA_64 0
			
 
				+cglobal deblock_v_luma_intra_10, 4,7,16
			
 
				     %define t0 m1
			
 
				     %define t1 m2
			
 
				     %define t2 m4
			
@@ -655,7 +654,7 @@ cglobal deblock_v_luma_intra_10_%1, 4,7,16
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; void deblock_h_luma_intra( uint16_t *pix, int stride, int alpha, int beta )
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-cglobal deblock_h_luma_intra_10_%1, 4,7,16
			
 
				+cglobal deblock_h_luma_intra_10, 4,7,16
			
 
				     %define t0 m15
			
 
				     %define t1 m14
			
 
				     %define t2 m2
			
@@ -714,20 +713,20 @@ cglobal deblock_h_luma_intra_10_%1, 4,7,16
 
				     RET
			
 
				 %endmacro
			
 
				 
			
 
				-INIT_XMM
			
 
				-DEBLOCK_LUMA_INTRA_64 sse2
			
 
				+INIT_XMM sse2
			
 
				+DEBLOCK_LUMA_INTRA_64
			
 
				 %if HAVE_AVX
			
 
				-INIT_AVX
			
 
				-DEBLOCK_LUMA_INTRA_64 avx
			
 
				+INIT_XMM avx
			
 
				+DEBLOCK_LUMA_INTRA_64
			
 
				 %endif
			
 
				 
			
 
				 %endif
			
 
				 
			
 
				-%macro DEBLOCK_LUMA_INTRA 1
			
 
				+%macro DEBLOCK_LUMA_INTRA 0
			
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; void deblock_v_luma_intra( uint16_t *pix, int stride, int alpha, int beta )
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-cglobal deblock_v_luma_intra_10_%1, 4,7,8*(mmsize/16)
			
 
				+cglobal deblock_v_luma_intra_10, 4,7,8*(mmsize/16)
			
 
				     LUMA_INTRA_INIT 3
			
 
				     lea     r4, [r1*4]
			
 
				     lea     r5, [r1*3]
			
@@ -755,7 +754,7 @@ cglobal deblock_v_luma_intra_10_%1, 4,7,8*(mmsize/16)
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; void deblock_h_luma_intra( uint16_t *pix, int stride, int alpha, int beta )
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-cglobal deblock_h_luma_intra_10_%1, 4,7,8*(mmsize/16)
			
 
				+cglobal deblock_h_luma_intra_10, 4,7,8*(mmsize/16)
			
 
				     LUMA_INTRA_INIT 8
			
 
				 %if mmsize == 8
			
 
				     lea     r4, [r1*3]
			
@@ -797,16 +796,16 @@ cglobal deblock_h_luma_intra_10_%1, 4,7,8*(mmsize/16)
 
				 %endmacro
			
 
				 
			
 
				 %if ARCH_X86_64 == 0
			
 
				-INIT_MMX
			
 
				-DEBLOCK_LUMA mmxext
			
 
				-DEBLOCK_LUMA_INTRA mmxext
			
 
				-INIT_XMM
			
 
				-DEBLOCK_LUMA sse2
			
 
				-DEBLOCK_LUMA_INTRA sse2
			
 
				+INIT_MMX mmx2
			
 
				+DEBLOCK_LUMA
			
 
				+DEBLOCK_LUMA_INTRA
			
 
				+INIT_XMM sse2
			
 
				+DEBLOCK_LUMA
			
 
				+DEBLOCK_LUMA_INTRA
			
 
				 %if HAVE_AVX
			
 
				-INIT_AVX
			
 
				-DEBLOCK_LUMA avx
			
 
				-DEBLOCK_LUMA_INTRA avx
			
 
				+INIT_XMM avx
			
 
				+DEBLOCK_LUMA
			
 
				+DEBLOCK_LUMA_INTRA
			
 
				 %endif
			
 
				 %endif
			
 
				 
			
@@ -849,11 +848,11 @@ DEBLOCK_LUMA_INTRA avx
 
				     psraw       %1, 6
			
 
				 %endmacro
			
 
				 
			
 
				-%macro DEBLOCK_CHROMA 1
			
 
				+%macro DEBLOCK_CHROMA 0
			
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; void deblock_v_chroma( uint16_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-cglobal deblock_v_chroma_10_%1, 5,7-(mmsize/16),8*(mmsize/16)
			
 
				+cglobal deblock_v_chroma_10, 5,7-(mmsize/16),8*(mmsize/16)
			
 
				     mov         r5, r0
			
 
				     sub         r0, r1
			
 
				     sub         r0, r1
			
@@ -887,7 +886,7 @@ cglobal deblock_v_chroma_10_%1, 5,7-(mmsize/16),8*(mmsize/16)
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; void deblock_v_chroma_intra( uint16_t *pix, int stride, int alpha, int beta )
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-cglobal deblock_v_chroma_intra_10_%1, 4,6-(mmsize/16),8*(mmsize/16)
			
 
				+cglobal deblock_v_chroma_intra_10, 4,6-(mmsize/16),8*(mmsize/16)
			
 
				     mov         r4, r0
			
 
				     sub         r0, r1
			
 
				     sub         r0, r1
			
@@ -914,12 +913,12 @@ cglobal deblock_v_chroma_intra_10_%1, 4,6-(mmsize/16),8*(mmsize/16)
 
				 %endmacro
			
 
				 
			
 
				 %if ARCH_X86_64 == 0
			
 
				-INIT_MMX
			
 
				-DEBLOCK_CHROMA mmxext
			
 
				+INIT_MMX mmx2
			
 
				+DEBLOCK_CHROMA
			
 
				 %endif
			
 
				-INIT_XMM
			
 
				-DEBLOCK_CHROMA sse2
			
 
				+INIT_XMM sse2
			
 
				+DEBLOCK_CHROMA
			
 
				 %if HAVE_AVX
			
 
				-INIT_AVX
			
 
				-DEBLOCK_CHROMA avx
			
 
				+INIT_XMM avx
			
 
				+DEBLOCK_CHROMA
			
 
				 %endif
			
--- a/libavcodec/x86/h264_idct_10bit.asm
+++ b/libavcodec/x86/h264_idct_10bit.asm
@@ -72,25 +72,25 @@ SECTION .text
 
				     STORE_DIFFx2 m2, m3, m4, m5, %1, %3
			
 
				 %endmacro
			
 
				 
			
 
				-%macro IDCT_ADD_10 1
			
 
				-cglobal h264_idct_add_10_%1, 3,3
			
 
				+%macro IDCT_ADD_10 0
			
 
				+cglobal h264_idct_add_10, 3,3
			
 
				     IDCT4_ADD_10 r0, r1, r2
			
 
				     RET
			
 
				 %endmacro
			
 
				 
			
 
				-INIT_XMM
			
 
				-IDCT_ADD_10 sse2
			
 
				+INIT_XMM sse2
			
 
				+IDCT_ADD_10
			
 
				 %if HAVE_AVX
			
 
				-INIT_AVX
			
 
				-IDCT_ADD_10 avx
			
 
				+INIT_XMM avx
			
 
				+IDCT_ADD_10
			
 
				 %endif
			
 
				 
			
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; h264_idct_add16(pixel *dst, const int *block_offset, dctcoef *block, int stride, const uint8_t nnzc[6*8])
			
 
				 ;-----------------------------------------------------------------------------
			
 
				 ;;;;;;; NO FATE SAMPLES TRIGGER THIS
			
 
				-%macro ADD4x4IDCT 1
			
 
				-add4x4_idct_%1:
			
 
				+%macro ADD4x4IDCT 0
			
 
				+add4x4_idct %+ SUFFIX:
			
 
				     add   r5, r0
			
 
				     mova  m0, [r2+ 0]
			
 
				     mova  m1, [r2+16]
			
@@ -107,52 +107,52 @@ add4x4_idct_%1:
 
				     ret
			
 
				 %endmacro
			
 
				 
			
 
				-INIT_XMM
			
 
				+INIT_XMM sse2
			
 
				 ALIGN 16
			
 
				-ADD4x4IDCT sse2
			
 
				+ADD4x4IDCT
			
 
				 %if HAVE_AVX
			
 
				-INIT_AVX
			
 
				+INIT_XMM avx
			
 
				 ALIGN 16
			
 
				-ADD4x4IDCT avx
			
 
				+ADD4x4IDCT
			
 
				 %endif
			
 
				 
			
 
				-%macro ADD16_OP 3
			
 
				-    cmp          byte [r4+%3], 0
			
 
				-    jz .skipblock%2
			
 
				-    mov         r5d, [r1+%2*4]
			
 
				-    call add4x4_idct_%1
			
 
				-.skipblock%2:
			
 
				-%if %2<15
			
 
				+%macro ADD16_OP 2
			
 
				+    cmp          byte [r4+%2], 0
			
 
				+    jz .skipblock%1
			
 
				+    mov         r5d, [r1+%1*4]
			
 
				+    call add4x4_idct %+ SUFFIX
			
 
				+.skipblock%1:
			
 
				+%if %1<15
			
 
				     add          r2, 64
			
 
				 %endif
			
 
				 %endmacro
			
 
				 
			
 
				-%macro IDCT_ADD16_10 1
			
 
				-cglobal h264_idct_add16_10_%1, 5,6
			
 
				-    ADD16_OP %1, 0, 4+1*8
			
 
				-    ADD16_OP %1, 1, 5+1*8
			
 
				-    ADD16_OP %1, 2, 4+2*8
			
 
				-    ADD16_OP %1, 3, 5+2*8
			
 
				-    ADD16_OP %1, 4, 6+1*8
			
 
				-    ADD16_OP %1, 5, 7+1*8
			
 
				-    ADD16_OP %1, 6, 6+2*8
			
 
				-    ADD16_OP %1, 7, 7+2*8
			
 
				-    ADD16_OP %1, 8, 4+3*8
			
 
				-    ADD16_OP %1, 9, 5+3*8
			
 
				-    ADD16_OP %1, 10, 4+4*8
			
 
				-    ADD16_OP %1, 11, 5+4*8
			
 
				-    ADD16_OP %1, 12, 6+3*8
			
 
				-    ADD16_OP %1, 13, 7+3*8
			
 
				-    ADD16_OP %1, 14, 6+4*8
			
 
				-    ADD16_OP %1, 15, 7+4*8
			
 
				+%macro IDCT_ADD16_10 0
			
 
				+cglobal h264_idct_add16_10, 5,6
			
 
				+    ADD16_OP 0, 4+1*8
			
 
				+    ADD16_OP 1, 5+1*8
			
 
				+    ADD16_OP 2, 4+2*8
			
 
				+    ADD16_OP 3, 5+2*8
			
 
				+    ADD16_OP 4, 6+1*8
			
 
				+    ADD16_OP 5, 7+1*8
			
 
				+    ADD16_OP 6, 6+2*8
			
 
				+    ADD16_OP 7, 7+2*8
			
 
				+    ADD16_OP 8, 4+3*8
			
 
				+    ADD16_OP 9, 5+3*8
			
 
				+    ADD16_OP 10, 4+4*8
			
 
				+    ADD16_OP 11, 5+4*8
			
 
				+    ADD16_OP 12, 6+3*8
			
 
				+    ADD16_OP 13, 7+3*8
			
 
				+    ADD16_OP 14, 6+4*8
			
 
				+    ADD16_OP 15, 7+4*8
			
 
				     REP_RET
			
 
				 %endmacro
			
 
				 
			
 
				-INIT_XMM
			
 
				-IDCT_ADD16_10 sse2
			
 
				+INIT_XMM sse2
			
 
				+IDCT_ADD16_10
			
 
				 %if HAVE_AVX
			
 
				-INIT_AVX
			
 
				-IDCT_ADD16_10 avx
			
 
				+INIT_XMM avx
			
 
				+IDCT_ADD16_10
			
 
				 %endif
			
 
				 
			
 
				 ;-----------------------------------------------------------------------------
			
@@ -185,8 +185,8 @@ IDCT_ADD16_10 avx
 
				     mova [%1+%3  ], m4
			
 
				 %endmacro
			
 
				 
			
 
				-INIT_MMX
			
 
				-cglobal h264_idct_dc_add_10_mmx2,3,3
			
 
				+INIT_MMX mmx2
			
 
				+cglobal h264_idct_dc_add_10,3,3
			
 
				     movd      m0, [r1]
			
 
				     paddd     m0, [pd_32]
			
 
				     psrad     m0, 6
			
@@ -199,8 +199,8 @@ cglobal h264_idct_dc_add_10_mmx2,3,3
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; void h264_idct8_dc_add(pixel *dst, dctcoef *block, int stride)
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-%macro IDCT8_DC_ADD 1
			
 
				-cglobal h264_idct8_dc_add_10_%1,3,3,7
			
 
				+%macro IDCT8_DC_ADD 0
			
 
				+cglobal h264_idct8_dc_add_10,3,3,7
			
 
				     mov      r1d, [r1]
			
 
				     add       r1, 32
			
 
				     sar       r1, 6
			
@@ -214,45 +214,45 @@ cglobal h264_idct8_dc_add_10_%1,3,3,7
 
				     RET
			
 
				 %endmacro
			
 
				 
			
 
				-INIT_XMM
			
 
				-IDCT8_DC_ADD sse2
			
 
				+INIT_XMM sse2
			
 
				+IDCT8_DC_ADD
			
 
				 %if HAVE_AVX
			
 
				-INIT_AVX
			
 
				-IDCT8_DC_ADD avx
			
 
				+INIT_XMM avx
			
 
				+IDCT8_DC_ADD
			
 
				 %endif
			
 
				 
			
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; h264_idct_add16intra(pixel *dst, const int *block_offset, dctcoef *block, int stride, const uint8_t nnzc[6*8])
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-%macro AC 2
			
 
				-.ac%2
			
 
				-    mov  r5d, [r1+(%2+0)*4]
			
 
				-    call add4x4_idct_%1
			
 
				-    mov  r5d, [r1+(%2+1)*4]
			
 
				+%macro AC 1
			
 
				+.ac%1
			
 
				+    mov  r5d, [r1+(%1+0)*4]
			
 
				+    call add4x4_idct %+ SUFFIX
			
 
				+    mov  r5d, [r1+(%1+1)*4]
			
 
				     add  r2, 64
			
 
				-    call add4x4_idct_%1
			
 
				+    call add4x4_idct %+ SUFFIX
			
 
				     add  r2, 64
			
 
				-    jmp .skipadd%2
			
 
				+    jmp .skipadd%1
			
 
				 %endmacro
			
 
				 
			
 
				 %assign last_block 16
			
 
				-%macro ADD16_OP_INTRA 3
			
 
				-    cmp      word [r4+%3], 0
			
 
				-    jnz .ac%2
			
 
				+%macro ADD16_OP_INTRA 2
			
 
				+    cmp      word [r4+%2], 0
			
 
				+    jnz .ac%1
			
 
				     mov      r5d, [r2+ 0]
			
 
				     or       r5d, [r2+64]
			
 
				-    jz .skipblock%2
			
 
				-    mov      r5d, [r1+(%2+0)*4]
			
 
				-    call idct_dc_add_%1
			
 
				-.skipblock%2:
			
 
				-%if %2<last_block-2
			
 
				+    jz .skipblock%1
			
 
				+    mov      r5d, [r1+(%1+0)*4]
			
 
				+    call idct_dc_add %+ SUFFIX
			
 
				+.skipblock%1:
			
 
				+%if %1<last_block-2
			
 
				     add       r2, 128
			
 
				 %endif
			
 
				-.skipadd%2:
			
 
				+.skipadd%1:
			
 
				 %endmacro
			
 
				 
			
 
				-%macro IDCT_ADD16INTRA_10 1
			
 
				-idct_dc_add_%1:
			
 
				+%macro IDCT_ADD16INTRA_10 0
			
 
				+idct_dc_add %+ SUFFIX:
			
 
				     add       r5, r0
			
 
				     movq      m0, [r2+ 0]
			
 
				     movhps    m0, [r2+64]
			
@@ -265,46 +265,46 @@ idct_dc_add_%1:
 
				     IDCT_DC_ADD_OP_10 r5, r3, r6
			
 
				     ret
			
 
				 
			
 
				-cglobal h264_idct_add16intra_10_%1,5,7,8
			
 
				-    ADD16_OP_INTRA %1, 0, 4+1*8
			
 
				-    ADD16_OP_INTRA %1, 2, 4+2*8
			
 
				-    ADD16_OP_INTRA %1, 4, 6+1*8
			
 
				-    ADD16_OP_INTRA %1, 6, 6+2*8
			
 
				-    ADD16_OP_INTRA %1, 8, 4+3*8
			
 
				-    ADD16_OP_INTRA %1, 10, 4+4*8
			
 
				-    ADD16_OP_INTRA %1, 12, 6+3*8
			
 
				-    ADD16_OP_INTRA %1, 14, 6+4*8
			
 
				+cglobal h264_idct_add16intra_10,5,7,8
			
 
				+    ADD16_OP_INTRA 0, 4+1*8
			
 
				+    ADD16_OP_INTRA 2, 4+2*8
			
 
				+    ADD16_OP_INTRA 4, 6+1*8
			
 
				+    ADD16_OP_INTRA 6, 6+2*8
			
 
				+    ADD16_OP_INTRA 8, 4+3*8
			
 
				+    ADD16_OP_INTRA 10, 4+4*8
			
 
				+    ADD16_OP_INTRA 12, 6+3*8
			
 
				+    ADD16_OP_INTRA 14, 6+4*8
			
 
				     REP_RET
			
 
				-    AC %1, 8
			
 
				-    AC %1, 10
			
 
				-    AC %1, 12
			
 
				-    AC %1, 14
			
 
				-    AC %1, 0
			
 
				-    AC %1, 2
			
 
				-    AC %1, 4
			
 
				-    AC %1, 6
			
 
				+    AC 8
			
 
				+    AC 10
			
 
				+    AC 12
			
 
				+    AC 14
			
 
				+    AC 0
			
 
				+    AC 2
			
 
				+    AC 4
			
 
				+    AC 6
			
 
				 %endmacro
			
 
				 
			
 
				-INIT_XMM
			
 
				-IDCT_ADD16INTRA_10 sse2
			
 
				+INIT_XMM sse2
			
 
				+IDCT_ADD16INTRA_10
			
 
				 %if HAVE_AVX
			
 
				-INIT_AVX
			
 
				-IDCT_ADD16INTRA_10 avx
			
 
				+INIT_XMM avx
			
 
				+IDCT_ADD16INTRA_10
			
 
				 %endif
			
 
				 
			
 
				 %assign last_block 36
			
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; h264_idct_add8(pixel **dst, const int *block_offset, dctcoef *block, int stride, const uint8_t nnzc[6*8])
			
 
				 ;-----------------------------------------------------------------------------
			
 
				-%macro IDCT_ADD8 1
			
 
				-cglobal h264_idct_add8_10_%1,5,8,7
			
 
				+%macro IDCT_ADD8 0
			
 
				+cglobal h264_idct_add8_10,5,8,7
			
 
				 %if ARCH_X86_64
			
 
				     mov      r7, r0
			
 
				 %endif
			
 
				     add      r2, 1024
			
 
				     mov      r0, [r0]
			
 
				-    ADD16_OP_INTRA %1, 16, 4+ 6*8
			
 
				-    ADD16_OP_INTRA %1, 18, 4+ 7*8
			
 
				+    ADD16_OP_INTRA 16, 4+ 6*8
			
 
				+    ADD16_OP_INTRA 18, 4+ 7*8
			
 
				     add      r2, 1024-128*2
			
 
				 %if ARCH_X86_64
			
 
				     mov      r0, [r7+gprsize]
			
@@ -312,21 +312,21 @@ cglobal h264_idct_add8_10_%1,5,8,7
 
				     mov      r0, r0m
			
 
				     mov      r0, [r0+gprsize]
			
 
				 %endif
			
 
				-    ADD16_OP_INTRA %1, 32, 4+11*8
			
 
				-    ADD16_OP_INTRA %1, 34, 4+12*8
			
 
				+    ADD16_OP_INTRA 32, 4+11*8
			
 
				+    ADD16_OP_INTRA 34, 4+12*8
			
 
				     REP_RET
			
 
				-    AC %1, 16
			
 
				-    AC %1, 18
			
 
				-    AC %1, 32
			
 
				-    AC %1, 34
			
 
				+    AC 16
			
 
				+    AC 18
			
 
				+    AC 32
			
 
				+    AC 34
			
 
				 
			
 
				 %endmacro ; IDCT_ADD8
			
 
				 
			
 
				-INIT_XMM
			
 
				-IDCT_ADD8 sse2
			
 
				+INIT_XMM sse2
			
 
				+IDCT_ADD8
			
 
				 %if HAVE_AVX
			
 
				-INIT_AVX
			
 
				-IDCT_ADD8 avx
			
 
				+INIT_XMM avx
			
 
				+IDCT_ADD8
			
 
				 %endif
			
 
				 
			
 
				 ;-----------------------------------------------------------------------------
			
@@ -432,19 +432,19 @@ IDCT_ADD8 avx
 
				     STORE_DIFFx2 m0, m1, m6, m7, %1, %3
			
 
				 %endmacro
			
 
				 
			
 
				-%macro IDCT8_ADD 1
			
 
				-cglobal h264_idct8_add_10_%1, 3,4,16
			
 
				+%macro IDCT8_ADD 0
			
 
				+cglobal h264_idct8_add_10, 3,4,16
			
 
				 %if UNIX64 == 0
			
 
				     %assign pad 16-gprsize-(stack_offset&15)
			
 
				     sub  rsp, pad
			
 
				-    call h264_idct8_add1_10_%1
			
 
				+    call h264_idct8_add1_10 %+ SUFFIX
			
 
				     add  rsp, pad
			
 
				     RET
			
 
				 %endif
			
 
				 
			
 
				 ALIGN 16
			
 
				 ; TODO: does not need to use stack
			
 
				-h264_idct8_add1_10_%1:
			
 
				+h264_idct8_add1_10 %+ SUFFIX:
			
 
				 %assign pad 256+16-gprsize
			
 
				     sub          rsp, pad
			
 
				     add   dword [r1], 32
			
@@ -499,31 +499,31 @@ h264_idct8_add1_10_%1:
 
				     ret
			
 
				 %endmacro
			
 
				 
			
 
				-INIT_XMM
			
 
				-IDCT8_ADD sse2
			
 
				+INIT_XMM sse2
			
 
				+IDCT8_ADD
			
 
				 %if HAVE_AVX
			
 
				-INIT_AVX
			
 
				-IDCT8_ADD avx
			
 
				+INIT_XMM avx
			
 
				+IDCT8_ADD
			
 
				 %endif
			
 
				 
			
 
				 ;-----------------------------------------------------------------------------
			
 
				 ; h264_idct8_add4(pixel **dst, const int *block_offset, dctcoef *block, int stride, const uint8_t nnzc[6*8])
			
 
				 ;-----------------------------------------------------------------------------
			
 
				 ;;;;;;; NO FATE SAMPLES TRIGGER THIS
			
 
				-%macro IDCT8_ADD4_OP 3
			
 
				-    cmp       byte [r4+%3], 0
			
 
				-    jz .skipblock%2
			
 
				-    mov      r0d, [r6+%2*4]
			
 
				+%macro IDCT8_ADD4_OP 2
			
 
				+    cmp       byte [r4+%2], 0
			
 
				+    jz .skipblock%1
			
 
				+    mov      r0d, [r6+%1*4]
			
 
				     add       r0, r5
			
 
				-    call h264_idct8_add1_10_%1
			
 
				-.skipblock%2:
			
 
				-%if %2<12
			
 
				+    call h264_idct8_add1_10 %+ SUFFIX
			
 
				+.skipblock%1:
			
 
				+%if %1<12
			
 
				     add       r1, 256
			
 
				 %endif
			
 
				 %endmacro
			
 
				 
			
 
				-%macro IDCT8_ADD4 1
			
 
				-cglobal h264_idct8_add4_10_%1, 0,7,16
			
 
				+%macro IDCT8_ADD4 0
			
 
				+cglobal h264_idct8_add4_10, 0,7,16
			
 
				     %assign pad 16-gprsize-(stack_offset&15)
			
 
				     SUB      rsp, pad
			
 
				     mov       r5, r0mp
			
@@ -531,17 +531,17 @@ cglobal h264_idct8_add4_10_%1, 0,7,16
 
				     mov       r1, r2mp
			
 
				     mov      r2d, r3m
			
 
				     movifnidn r4, r4mp
			
 
				-    IDCT8_ADD4_OP %1,  0, 4+1*8
			
 
				-    IDCT8_ADD4_OP %1,  4, 6+1*8
			
 
				-    IDCT8_ADD4_OP %1,  8, 4+3*8
			
 
				-    IDCT8_ADD4_OP %1, 12, 6+3*8
			
 
				+    IDCT8_ADD4_OP  0, 4+1*8
			
 
				+    IDCT8_ADD4_OP  4, 6+1*8
			
 
				+    IDCT8_ADD4_OP  8, 4+3*8
			
 
				+    IDCT8_ADD4_OP 12, 6+3*8
			
 
				     ADD       rsp, pad
			
 
				     RET
			
 
				 %endmacro ; IDCT8_ADD4
			
 
				 
			
 
				-INIT_XMM
			
 
				-IDCT8_ADD4 sse2
			
 
				+INIT_XMM sse2
			
 
				+IDCT8_ADD4
			
 
				 %if HAVE_AVX
			
 
				-INIT_AVX
			
 
				-IDCT8_ADD4 avx
			
 
				+INIT_XMM avx
			
 
				+IDCT8_ADD4
			
 
				 %endif
			
--- a/libavcodec/x86/h264dsp_mmx.c
+++ b/libavcodec/x86/h264dsp_mmx.c
@@ -249,12 +249,12 @@ void ff_deblock_ ## DIR ## _ ## TYPE ## _ ## DEPTH ## _ ## OPT (uint8_t *pix, in
 
				                                                                 int alpha, int beta);
			
 
				 
			
 
				 #define LF_FUNCS(type, depth)\
			
 
				-LF_FUNC (h,  chroma,       depth, mmxext)\
			
 
				-LF_IFUNC(h,  chroma_intra, depth, mmxext)\
			
 
				-LF_FUNC (v,  chroma,       depth, mmxext)\
			
 
				-LF_IFUNC(v,  chroma_intra, depth, mmxext)\
			
 
				-LF_FUNC (h,  luma,         depth, mmxext)\
			
 
				-LF_IFUNC(h,  luma_intra,   depth, mmxext)\
			
 
				+LF_FUNC (h,  chroma,       depth, mmx2)\
			
 
				+LF_IFUNC(h,  chroma_intra, depth, mmx2)\
			
 
				+LF_FUNC (v,  chroma,       depth, mmx2)\
			
 
				+LF_IFUNC(v,  chroma_intra, depth, mmx2)\
			
 
				+LF_FUNC (h,  luma,         depth, mmx2)\
			
 
				+LF_IFUNC(h,  luma_intra,   depth, mmx2)\
			
 
				 LF_FUNC (h,  luma,         depth, sse2)\
			
 
				 LF_IFUNC(h,  luma_intra,   depth, sse2)\
			
 
				 LF_FUNC (v,  luma,         depth, sse2)\
			
@@ -276,24 +276,24 @@ LF_FUNCS( uint8_t,  8)
 
				 LF_FUNCS(uint16_t, 10)
			
 
				 
			
 
				 #if ARCH_X86_32 && HAVE_YASM
			
 
				-LF_FUNC (v8, luma,             8, mmxext)
			
 
				-static void ff_deblock_v_luma_8_mmxext(uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0)
			
 
				+LF_FUNC (v8, luma,             8, mmx2)
			
 
				+static void ff_deblock_v_luma_8_mmx2(uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0)
			
 
				 {
			
 
				     if((tc0[0] & tc0[1]) >= 0)
			
 
				-        ff_deblock_v8_luma_8_mmxext(pix+0, stride, alpha, beta, tc0);
			
 
				+        ff_deblock_v8_luma_8_mmx2(pix+0, stride, alpha, beta, tc0);
			
 
				     if((tc0[2] & tc0[3]) >= 0)
			
 
				-        ff_deblock_v8_luma_8_mmxext(pix+8, stride, alpha, beta, tc0+2);
			
 
				+        ff_deblock_v8_luma_8_mmx2(pix+8, stride, alpha, beta, tc0+2);
			
 
				 }
			
 
				-LF_IFUNC(v8, luma_intra,        8, mmxext)
			
 
				-static void ff_deblock_v_luma_intra_8_mmxext(uint8_t *pix, int stride, int alpha, int beta)
			
 
				+LF_IFUNC(v8, luma_intra,        8, mmx2)
			
 
				+static void ff_deblock_v_luma_intra_8_mmx2(uint8_t *pix, int stride, int alpha, int beta)
			
 
				 {
			
 
				-    ff_deblock_v8_luma_intra_8_mmxext(pix+0, stride, alpha, beta);
			
 
				-    ff_deblock_v8_luma_intra_8_mmxext(pix+8, stride, alpha, beta);
			
 
				+    ff_deblock_v8_luma_intra_8_mmx2(pix+0, stride, alpha, beta);
			
 
				+    ff_deblock_v8_luma_intra_8_mmx2(pix+8, stride, alpha, beta);
			
 
				 }
			
 
				 #endif /* ARCH_X86_32 */
			
 
				 
			
 
				-LF_FUNC (v,  luma,            10, mmxext)
			
 
				-LF_IFUNC(v,  luma_intra,      10, mmxext)
			
 
				+LF_FUNC (v,  luma,            10, mmx2)
			
 
				+LF_IFUNC(v,  luma_intra,      10, mmx2)
			
 
				 
			
 
				 /***********************************/
			
 
				 /* weighted prediction */
			
@@ -373,17 +373,17 @@ void ff_h264dsp_init_x86(H264DSPContext *c, const int bit_depth, const int chrom
 
				                 c->h264_idct_add8  = ff_h264_idct_add8_8_mmx2;
			
 
				             c->h264_idct_add16intra= ff_h264_idct_add16intra_8_mmx2;
			
 
				 
			
 
				-            c->h264_v_loop_filter_chroma= ff_deblock_v_chroma_8_mmxext;
			
 
				-            c->h264_v_loop_filter_chroma_intra= ff_deblock_v_chroma_intra_8_mmxext;
			
 
				+            c->h264_v_loop_filter_chroma= ff_deblock_v_chroma_8_mmx2;
			
 
				+            c->h264_v_loop_filter_chroma_intra= ff_deblock_v_chroma_intra_8_mmx2;
			
 
				             if (chroma_format_idc == 1) {
			
 
				-                c->h264_h_loop_filter_chroma= ff_deblock_h_chroma_8_mmxext;
			
 
				-                c->h264_h_loop_filter_chroma_intra= ff_deblock_h_chroma_intra_8_mmxext;
			
 
				+                c->h264_h_loop_filter_chroma= ff_deblock_h_chroma_8_mmx2;
			
 
				+                c->h264_h_loop_filter_chroma_intra= ff_deblock_h_chroma_intra_8_mmx2;
			
 
				             }
			
 
				 #if ARCH_X86_32
			
 
				-            c->h264_v_loop_filter_luma= ff_deblock_v_luma_8_mmxext;
			
 
				-            c->h264_h_loop_filter_luma= ff_deblock_h_luma_8_mmxext;
			
 
				-            c->h264_v_loop_filter_luma_intra = ff_deblock_v_luma_intra_8_mmxext;
			
 
				-            c->h264_h_loop_filter_luma_intra = ff_deblock_h_luma_intra_8_mmxext;
			
 
				+            c->h264_v_loop_filter_luma= ff_deblock_v_luma_8_mmx2;
			
 
				+            c->h264_h_loop_filter_luma= ff_deblock_h_luma_8_mmx2;
			
 
				+            c->h264_v_loop_filter_luma_intra = ff_deblock_v_luma_intra_8_mmx2;
			
 
				+            c->h264_h_loop_filter_luma_intra = ff_deblock_h_luma_intra_8_mmx2;
			
 
				 #endif
			
 
				             c->weight_h264_pixels_tab[0]= ff_h264_weight_16_mmx2;
			
 
				             c->weight_h264_pixels_tab[1]= ff_h264_weight_8_mmx2;
			
@@ -436,12 +436,12 @@ void ff_h264dsp_init_x86(H264DSPContext *c, const int bit_depth, const int chrom
 
				     if (mm_flags & AV_CPU_FLAG_MMX) {
			
 
				         if (mm_flags & AV_CPU_FLAG_MMX2) {
			
 
				 #if ARCH_X86_32
			
 
				-            c->h264_v_loop_filter_chroma= ff_deblock_v_chroma_10_mmxext;
			
 
				-            c->h264_v_loop_filter_chroma_intra= ff_deblock_v_chroma_intra_10_mmxext;
			
 
				-            c->h264_v_loop_filter_luma= ff_deblock_v_luma_10_mmxext;
			
 
				-            c->h264_h_loop_filter_luma= ff_deblock_h_luma_10_mmxext;
			
 
				-            c->h264_v_loop_filter_luma_intra = ff_deblock_v_luma_intra_10_mmxext;
			
 
				-            c->h264_h_loop_filter_luma_intra = ff_deblock_h_luma_intra_10_mmxext;
			
 
				+            c->h264_v_loop_filter_chroma= ff_deblock_v_chroma_10_mmx2;
			
 
				+            c->h264_v_loop_filter_chroma_intra= ff_deblock_v_chroma_intra_10_mmx2;
			
 
				+            c->h264_v_loop_filter_luma= ff_deblock_v_luma_10_mmx2;
			
 
				+            c->h264_h_loop_filter_luma= ff_deblock_h_luma_10_mmx2;
			
 
				+            c->h264_v_loop_filter_luma_intra = ff_deblock_v_luma_intra_10_mmx2;
			
 
				+            c->h264_h_loop_filter_luma_intra = ff_deblock_h_luma_intra_10_mmx2;
			
 
				 #endif
			
 
				             c->h264_idct_dc_add= ff_h264_idct_dc_add_10_mmx2;
			
 
				             if (mm_flags&AV_CPU_FLAG_SSE2) {