作者: xhackerustc@21ic
国庆前有一块RA生态工作室出品的RA8D1B-CPKCOR开发板到了,主控瑞萨RA8D1B MCU,基于Arm Cortex-M85,支持Helium 和 TrustZone,CPU频率高达480MHZ。似乎是世界第一款使用Cortex-M85的MCU?RA8D1集成2MB flash和1MB的SRAM,I/D-cache 32KB。集成一堆丰富外设主控,比如usb、eth、i2c、i3c、spi、sdhci、ospi、canfd、MIPI-DSI、CEU摄像头、2D图形、TFT显示控制等等,MCU功能已经非常强大。更有意思的是RA8D1B-CPKCOR板载了32MB SDRAM,16MB的QSPI flash,看到这些尤其是32MB的SDRAM笔者觉得这板子足够跑linux系统了,虽然Cortex-M85无MMU,但主线linux早已经支持NOMMU了。要说生态没有哪个RTOS能和linux比生态,在不要求硬实时的应用场景中利用linux系统的丰富生态能大大降低软件工作量。一个复杂MCU平台的软件工作量非常大,特别是集成M7、M85这样高性能的core(M7 coremark/MHZ超过A7)的MCU,外设通常也是比较丰富的,大多数系统还板载了SDRAM或PSRAM,如果再以裸机思维去做软件,软件复杂度大到不可想象。
那咱们就开始RA8D1B移植linux的旅程了:
初始化sdram,其实RA生态工作室其实做好了,直接把他们的board_sdram.c和board_sdram.h拷贝过来即可。这一步最好做下内存读写的压力测试,我没用他们的测试code,自己写了一份,为啥呢:linux下读写内存1字节、2字节、4字节都可能的,我想都测到,测试代码如下:
#define SDRAM_BASE_ADDRESS (0x68000000U) static void sdram_test(void) { int i; uint32_t addr; uint32_t t1; uint8_t testbuf[64]; void *p = (void *)SDRAM_BASE_ADDRESS; APP_PRINT("Writing SDRAM...\n"); printf("Writing SDRAM...\n"); for (addr = 0; addr < 32 * 1024 * 1024; ++addr) { uint8_t data = addr & 0xff; *(uint8_t *)(p + addr) = data; } APP_PRINT("Reading SDRAM...\n"); printf("Reading SDRAM...\n"); for (addr = 0; addr < 32 * 1024 * 1024; ++addr) { uint8_t data, expected; expected = addr & 0xff; data = *(uint8_t *)(p + addr); if (data != expected) APP_PRINT("SDRAM 8bit read failed at %lx (%x != %x)\n", addr, data, expected); } APP_PRINT("SDRAM 8bit read pass.\n"); printf("SDRAM 8bit read pass.\n"); for (addr = 0; addr < 32 * 1024 * 1024; addr += 2) { uint16_t data, expected; expected = (((addr + 1) & 0xff) << 8) | (addr & 0xff); data = *(uint16_t *)(p + addr); if (data != expected) APP_PRINT("SDRAM 16bit read failed at %lx (%x != %x)\n", addr, data, expected); } APP_PRINT("SDRAM 16bit read pass.\n"); printf("SDRAM 16bit read pass.\n"); for (addr = 0; addr < 32 * 1024 * 1024; addr += 4) { uint32_t data, expected; expected = (((addr + 3) & 0xff) << 24) | (((addr + 2) & 0xff) << 16) | (((addr + 1) & 0xff) << 8) | (addr & 0xff); data = *(uint32_t *)(p + addr); if (data != expected) APP_PRINT("SDRAM 32bit read failed at %lx (%lx != %lx)\n", addr, data, expected); } APP_PRINT("SDRAM 32bit read pass.\n"); printf("SDRAM 32bit read pass.\n"); memset(testbuf, 0x5a, sizeof(testbuf)); DWT_init(); t1 = DWT_get_count(); for (i = 0; i < 10000; ++i) { memcpy(p, testbuf, 64); } t1 = DWT_get_count() - t1; t1 = DWT_count_to_us(t1); t1 /= 1000; APP_PRINT("SDRAM write speed: %ld B/s.\n", 64 * 10000 * 1000 / t1); printf("SDRAM write speed: %ld B/s.\n", 64 * 10000 * 1000 / t1); t1 = DWT_get_count(); for (i = 0; i < 10000; ++i) { memcpy(testbuf, p, 64); } t1 = DWT_get_count() - t1; t1 = DWT_count_to_us(t1); t1 /= 1000; APP_PRINT("SDRAM read speed: %ld B/s.\n", 64 * 10000 * 1000 / t1); printf("SDRAM read speed: %ld B/s.\n", 64 * 10000 * 1000 / t1); for (;;) { APP_PRINT("SDRAM test done\n"); printf("SDRAM test done\n"); __WFI(); } }
这一步其实还有用FSP配置并生成项目工程,本人因习惯于Linux下开发,所以生成的是CMake工程。这一步网上测评很多铺天盖地,且FSP使用并非本次主目标,这里不再赘述。
加载内核image、dtb等可以从sd卡加载也可以从flash上加载,但bootloader不是本次主目标,能否偷懒呢?不要忘记板载的jlink,完全可以用jlink把内核image和dtb加载到SDRAM指定位置,jlink加载命令语法如下:
loadfile FILE address noreset
比如
loadfile /tmp/Image.bin 0x68008000 noreset
noreset意思是只加载后不要reset目标板,jlink loadfile默认是reset的。
加载解决了,跳转内核入口呢?easy,使用jlink的wreg命令即可,语法如下:
wreg rN value
建议segger这里做下简单更新,方便用户,毕竟打双引号再空格再括号相当繁琐。
32位arm对每款cpu都有一个所谓proc_info的结构体,成员包含cpu setup函数,cache操作函数,hwcaps变量等等,cortex-m85呢笔者做这个事情的时候主线linux中还没有这个结构体。经阅读cortex-m85 TRM可以知道就上述操作函数等来讲它和cortex-m55是兼容的,所以笔者打了个补丁如下:
--- a/arch/arm/mm/proc-v7m.S +++ b/arch/arm/mm/proc-v7m.S @[url=home.php?mod=space&uid=72445]@[/url] -194,6 +194,16 @[url=home.php?mod=space&uid=72445]@[/url] ENDPROC(__v7m_setup) .long \cache_fns .endm + /* + * Match ARM Cortex-M85 processor. + */ + .type __v7m_cm85_proc_info, #object +__v7m_cm85_proc_info: + .long 0x410fd230 /* ARM Cortex-M85 0xD23 */ + .long 0xff0ffff0 /* Mask off revision, patch release */ + __v7m_proc __v7m_cm85_proc_info, __v7m_cm7_setup, hwcaps = HWCAP_EDSP, cache_fns = v7m_cache_fns, proc_fns = cm7_processor_functions + .size __v7m_cm85_proc_info, . - __v7m_cm85_proc_info + /* * Match ARM Cortex-M55 processor. */
+++ b/arch/arm/include/asm/v7m.h @[url=home.php?mod=space&uid=72445]@[/url] -51,6 +51,7 @@ */ #define EXC_RET_STACK_MASK 0x00000004 #define EXC_RET_THREADMODE_PROCESSSTACK (3 << 2) +#define EXC_RET_FTYPE (1 << 4) /* Cache related definitions */ diff --git a/arch/arm/mm/proc-v7m.S b/arch/arm/mm/proc-v7m.S index ed7781c84341..fdae077d2654 100644 --- a/arch/arm/mm/proc-v7m.S +++ b/arch/arm/mm/proc-v7m.S @[url=home.php?mod=space&uid=72445]@[/url] -138,6 +138,7 @[url=home.php?mod=space&uid=72445]@[/url] __v7m_setup_cont: 1: cpsid i /* Calculate exc_ret */ orr r10, lr, #EXC_RET_THREADMODE_PROCESSSTACK + orr r10, #EXC_RET_FTYPE ldmia sp, {r0-r3, r12} str r5, [r12, #11 * 4] @ restore the original SVC vector entry mov lr, r6 @ restore LR
linux系统必有至少一个clockevent提供心跳中断,一个clocksource提供计时。其中clockevent必须的,clocksource可以由内核的jiffies代替,详细笔者就不赘述了,因为前前后后讲清楚它们可以长篇大论写两三篇大文章,linux内核这块其实还蛮复杂的,但对clockevent和clocksource驱动要提供的接口来说变简单了,以后有机会再写吧。对应到MCU来说,其实就是timer嘛,RA8D1B里集成的timer多的是,各种口味的都有。对着RA8D1B的手册写clockevent/clocksource驱动难度不大,但是,笔者这次想换个**,咱能不能利用arm自由的资源呢?我们知道arm M类cpu都有一个systick且支持中断,所以理论上可以把它抽象成一个clockevent的。目前linux内核主线中把这个systick当clocksource用的,不支持clockevent,它的代码在drivers /clocksource /armv7m _ systick.c。咱给它改造改造整个容,经笔者整容之后的armv7m _ systick.c眉清目秀,盘亮条顺。
要看基本linux启动成功可用,最简单的还是一个tty console。console用uart做比较简单,这个RA8D1B里也有好几个uart,而且特性丰富功能强大,而且似乎内核中有一个同出一门众芯片的串口驱动drivers/tty/serial/sh-sci.c,但似乎寄存器不是太一致,所以接下来咱就对着手册改写串口驱动吗?NoNoNo,一般来说特性丰富功能强大就暗示着还是蛮复杂的,不信你去读一读sh-sci.c,咱能否粗糙猛方式搞定linux呢?咱又看上jlink了,它不是有个RTT (Real Time Terminal)么,既然号称Real Time Terminal,代替个串口做console那是小菜一碟阿。但是Segger的RTT代码不能直接用,因为SDRAM有32MB,这么大空间都搜一遍么?而且别忘记Cortex-M85是可以带有D-cache的,恰好RA8D1B里的这个M85就配置了D-Cache, linux肯定开启cache了,RTT代码注释和文档里对使能了cache这块其实有很多的说明。笔者这>里换了一个思路,不要用SDRAM而是SRAM阿或者DTCM一部分来做RTT控制块,DTCM是不经cache的。另外为了通用性,咱们这里还需要使用DT(Device Tree)技术而不是hardcoding来设置RTT控制块的地址,然后通过如下命令告诉jlink到哪里去找RTT控制块:
exec SetRTTAddr 0x20000000
最后根据MCU和板级具体情况做个简单的dts,主要就是告诉SDRAM起始地址阿大小阿什么的,还有上面说的rtt的设备节点。
至此,linux内核层的事情搞定了,咱来搞定linux用户层。
buildroot对NOMMU Linux支持得非常好,基本是拿来就用,buildroot使用方法网上也是很多的,前后>讲完也是很费时的,这里笔者也不多着笔墨了,因为linux userspace也不是主要目标。这个步骤的输>出是一个用busybox做的简单rootfs,可以在内核编译时builtin进去省去加载initrd/rootfs的过程。
上述dts编译成一个dtb,重命名为dtb.bin,内核(带rootfs builtin)编译成一个Image,重命名为Image.bin。
板子上电,烧录前面讲的bootloader,重启板子,运行jlink挂上去,运行如下命令:
halt exec SetRTTAddr 0x20000000 loadfile /tmp/Image.bin 0x68008000 noreset loadfile /tmp/dtb.bin 0x68004000 noreset wreg "R15 (PC)" 0x68008001 wreg r0 0 wreg r2 0x68004000 go
第一个命令停止cpu,第二个命令是告诉jlink RTT控制块地址,后面是加载内核Image和跳转内核入口,至于为啥这么设置请参考arm linux内核启动协议,网上很多,笔者不再赘述了。
再起一个shell运行如下命令获得RA8D1B的linux shell
telnet 127.0.0.1 19021
最后运行NOMMU Linux的视频供参考:
全部0条评论
快来发表一下你的评论吧 !