各位路过帮忙优化一段C语言16字节左移一位的C代码

zzm24 · 发表于 2019-4-19 10:57:05

项目遇到一段调用非常多的代码,运算能力不足,各位路过帮帮看看怎么优化一下.
一段16字节整体左移一位,最后或上一位可变量C代码.跑在stm32或者arm9上.
改查表,汇编都行,谢过.代码如下

uint32_t* st;
st[3] = (st[3] << 1) | ((st[2] >> 31) & 1);
st[2] = (st[2] << 1) | ((st[1] >> 31) & 1);
st[1] = (st[1] << 1) | ((st[0] >> 31) & 1);
st[0] = (st[0] << 1) | v;

复制代码

lvfv · 发表于 2019-4-19 11:10:12

这代码用不了几个时钟周期吧，还是从别的地方着手吧。

tomzbj · 发表于 2019-4-19 11:14:06

<<1没啥好办法吧， >>31再&1这个，应该可以改用位段操作？不过stm32f0xx不能用

zzm24 · 发表于 2019-4-19 11:19:52

ARM9上IAR开最High speed优化的样子,还是太多指令
能不能汇编批量操作一波

NJ8888 · 发表于 2019-4-19 11:24:24

本帖最后由 NJ8888 于 2019-4-19 11:25 编辑

错了，删了

JasonGao · 发表于 2019-4-19 11:26:58

NJ8888 发表于 2019-4-19 11:24
错了，删了

注意审题要仔细啊

at90s · 发表于 2019-4-19 12:25:10

zzm24 发表于 2019-4-19 11:19
ARM9上IAR开最High speed优化的样子,还是太多指令
能不能汇编批量操作一波

生成的这个汇编指令基本是最优的了

wye11083 · 发表于 2019-4-19 12:29:17

没戏，arm竟没有rol，所以无解，编译器给出的效率是最高的。你要是右移，也得12个周期（ror a0，ror a1，ror a2， ror a3，4个ld，4个st），没省几个周期

hell-prototypes · 发表于 2019-4-19 12:51:22

16x8字节环形缓存，一个字节表示一个位，取终值时组装

lingdianhao · 发表于 2019-4-19 13:08:08

说明处理器主频不够用了，超下频看！

icoyool · 发表于 2019-4-19 13:18:02

直接用除法是不是一样？

nibia · 发表于 2019-4-19 13:27:18

说下整体的用法和代码量，最后的性能就差在这么一小段上？

abutter · 发表于 2019-4-19 13:34:20

为什么要做这样的操作？CPU 支持 ARM 的 DSP 指令吗？

zzm24 · 发表于 2019-4-19 15:10:11

放弃了,计算错误,以为性能差一点能达到的,原来性能还差2.5倍,ARM9架构要1.7G才达到....
实测用联合体会快一点点

typedef union {
uint64_t u64;
uint32_t u32[2];
uint16_t u16[4];
uint8_t uint8_t [8];
double f64;
float f32[2];
} av_alias64;
#define AV_RNA(s, p) (((const av_alias##s*)(p))->u##s)
#define AV_RN64A(p) AV_RNA(64, p)
#define AV_WNA(s, p, v) (((av_alias##s*)(p))->u##s = (v))
#define AV_WN64A(p, v) AV_WNA(64, p, v)
uint8_t *status = (uint8_t *)st;
//一楼代码改为下面两行
AV_WN64A(status + 8, (AV_RN64A(status + 8) << 1) | ((AV_RN64A(status) >> 63) & 1));
AV_WN64A(status, (AV_RN64A(status) << 1) | v);

复制代码

myxiaonia · 发表于 2019-4-19 15:21:48

wye11083 发表于 2019-4-19 12:29
没戏，arm竟没有rol，所以无解，编译器给出的效率是最高的。你要是右移，也得12个周期（ror a0，ror a1，ro ...

循环左移可以用循环右移搞定的

myxiaonia · 发表于 2019-4-19 15:25:36

这不是个移位寄存器么，用个cpld搞定？

wye11083 · 发表于 2019-4-19 15:42:30

myxiaonia 发表于 2019-4-19 15:21
循环左移可以用循环右移搞定的

还真是，中午精力不太好

不过再怎么优化也得12个周期保底，因为risc没有内存操作指令，只能先ld再st。

apple_eat · 发表于 2019-4-19 15:57:46

如果是右移可以加速,用寄存器缓存移位数据,连续16个RRX指令可以完成移位.

RRX 可提供经右移一位后的寄存器中的值。原先的进位标记将会移入位 [31]。如果有 S 后缀，则将原先的位 [0] 存入进位标记中。

复制代码

armstrong · 发表于 2019-4-19 17:17:35

本帖最后由 armstrong 于 2019-4-19 17:20 编辑

zzm24 发表于 2019-4-19 11:19
ARM9上IAR开最High speed优化的样子,还是太多指令
能不能汇编批量操作一波

可以看出，总共4个32位数据，结果却LDR了7次！要知道内存操作都是要2个指令周期的；如果不是片内SRAM，还需要更长时间。
由于是指针操作内存，编译器未能优化，LDR操作过于频繁降低了性能。你可以把4个32位数据一次加载到寄存器，再进行左移操作，最后再写一次回到数组。

armstrong · 发表于 2019-4-19 17:24:36

本帖最后由 armstrong 于 2019-4-19 17:30 编辑

比如这样，虽然看起来C语句更多，但其实性能更好。

uint32_t* st;
uint32_t a3, a2, a1, a0;
a3 = st[3];
a2 = st[2];
a1 = st[1];
a0 = st[0];
a3 = (a3 << 1) | ((a2 >> 31) & 1);
a2 = (a2 << 1) | ((a1 >> 31) & 1);
a1 = (a1 << 1) | ((a0 >> 31) & 1);
a0 = (a0 << 1) | v;
st[3] = a3;
st[2] = a2;
st[1] = a1;
st[0] = a0;

复制代码

如果能用汇编的LDM和STM就更好了！

补充，如果是在具备cache的CPU上，就把内存的读取和写入改为地址增序排列能发挥cache行的性能。无cache系统则无所谓。

gallle · 发表于 2019-4-19 17:29:17

查表会不会快

Gorgon_Meducer · 发表于 2019-4-19 17:42:10

楼主为啥不用 uint64_t ？感觉编译器获得的信息会多一点。至少stm32可能会产生比较优化的代码吧？

cloudboy · 发表于 2019-4-19 17:47:10

这种代码交给编译器，开优化，编译器会帮你优化的。这种移位操作什么的编译器一般都会考虑

Gorgon_Meducer · 发表于 2019-4-19 17:48:31

运算过程中用数组直接操作也不太好，编译器会尽可能遵循原意，这就导致生成了太多没必要的load store指令。可以尝试手工把16个字节按照两个uint64_t的方式读取到两个局部变量里，然后后续操作结束后再把局部变量的值存回数组。这样，至少中间的操作有可能会更多的使用通用寄存器。

Eworm001 · 发表于 2019-4-19 20:06:24

__asm void *test(void *st, uint32_t v)
{
push {r4-r7}
LDM r0,{r4-r7}
LSL r7,r7,#1
LSLS r6,r6,#1
ORRCS r7,#1
LSLS r5,r5,#1
ORRCS r6,#1
LSLS r4,r4,#1
ORRCS r5,#1
RORS r1,r1,#1
ORRCS r4,#1
STM r1,{r4-r7}
pop {r4-r7}
}

复制代码

Eworm001 · 发表于 2019-4-19 20:07:00

__asm void *test(void *st, uint32_t v)
{
push {r4-r7}
LDM r0,{r4-r7}
LSL r7,r7,#1
LSLS r6,r6,#1
ORRCS r7,#1
LSLS r5,r5,#1
ORRCS r6,#1
LSLS r4,r4,#1
ORRCS r5,#1
RORS r1,r1,#1
ORRCS r4,#1
STM r0,{r4-r7}
pop {r4-r7}
}

复制代码

huangqi412 · 发表于 2019-4-20 09:40:10

呼一下拖拉机大神dr2001吧

zzm24 · 发表于 2019-4-20 10:40:19

楼上代码都试了.效率最快的是转uint64*交给编译器优化

uint64_t* st;
st[1] = (st[1] << 1) | ((st[0] >> 63) & 1);
st[0] = (st[0] << 1) | v;

复制代码

Gorgon_Meducer · 发表于 2019-4-20 18:19:54

zzm24 发表于 2019-4-20 10:40
楼上代码都试了.效率最快的是转uint64*交给编译器优化

可以贴汇编出来看看

各位路过帮忙优化一段C语言16字节左移一位的C代码

阿莫论坛20周年了！感谢大家的支持与爱护！！

本帖子中包含更多资源