Просмотр исходного кода

avcodec/x86/audiodsp: add scalarproduct avx2

Paul B Mahol 2 лет назад
Родитель
Сommit
37a503ac87
2 измененных файлов с 24 добавлено и 0 удалено
  1. 18 0
      libavcodec/x86/audiodsp.asm
  2. 6 0
      libavcodec/x86/audiodsp_init.c

+ 18 - 0
libavcodec/x86/audiodsp.asm

@@ -44,6 +44,24 @@ cglobal scalarproduct_int16, 3,3,3, v1, v2, order
     movd   eax, m2
     movd   eax, m2
     RET
     RET
 
 
+%if HAVE_AVX2_EXTERNAL
+INIT_YMM avx2
+cglobal scalarproduct_int16, 3,3,2, v1, v2, order
+    add orderd, orderd
+    add v1q, orderq
+    add v2q, orderq
+    neg orderq
+    pxor    m1, m1
+.loop:
+    movu    m0, [v1q + orderq]
+    pmaddwd m0, [v2q + orderq]
+    paddd   m1, m0
+    add     orderq, mmsize
+    jl .loop
+    HADDD   m1, m0
+    movd   eax, xm1
+    RET
+%endif
 
 
 ;-----------------------------------------------------------------------------
 ;-----------------------------------------------------------------------------
 ; void ff_vector_clip_int32(int32_t *dst, const int32_t *src, int32_t min,
 ; void ff_vector_clip_int32(int32_t *dst, const int32_t *src, int32_t min,

+ 6 - 0
libavcodec/x86/audiodsp_init.c

@@ -24,6 +24,9 @@
 #include "libavutil/x86/cpu.h"
 #include "libavutil/x86/cpu.h"
 #include "libavcodec/audiodsp.h"
 #include "libavcodec/audiodsp.h"
 
 
+int32_t ff_scalarproduct_int16_avx2(const int16_t *v1, const int16_t *v2,
+                                    int order);
+
 int32_t ff_scalarproduct_int16_sse2(const int16_t *v1, const int16_t *v2,
 int32_t ff_scalarproduct_int16_sse2(const int16_t *v1, const int16_t *v2,
                                     int order);
                                     int order);
 
 
@@ -53,4 +56,7 @@ av_cold void ff_audiodsp_init_x86(AudioDSPContext *c)
 
 
     if (EXTERNAL_SSE4(cpu_flags))
     if (EXTERNAL_SSE4(cpu_flags))
         c->vector_clip_int32 = ff_vector_clip_int32_sse4;
         c->vector_clip_int32 = ff_vector_clip_int32_sse4;
+
+    if (EXTERNAL_AVX2_FAST(cpu_flags))
+        c->scalarproduct_int16 = ff_scalarproduct_int16_avx2;
 }
 }