前言:有幸能够收到一块梦寐以求的 AI 边缘计算开发板 OrangePi AIpro,非常感谢官方大大给予的宝贵机会。OrangePi AIpro是香橙派官方跟华为昇腾合作的新一代边缘计算产品,其使用华为昇腾 AI 技术路线,搭配集成图像处理器,拥有 8GB/16GB LPDDR4X,是一款非常优秀的 Artificial intelligence(AI) 开发板。 本篇博客将以 OrangePi AIpro 开发板进行全面测评与部署实战,希望帮助读者朋友去全面且深入了解这款强大的 AI 边缘计算开发板,加速推进 AI 部署国产化进程。
香橙派 AIpro实物:
香橙派 AIpro案例:
OrangePi AIpro资料推荐网址:
香橙派官网:香橙派(Orange Pi)-Orange Pi官网-香橙派开发板
昇腾官网:昇腾社区-官网丨昇腾万里 让智能无所不及 (hiascend.com)
一、香橙派 AIPro概述
1.1 香橙派 AIPro介绍
香橙派 AIpro是目前市场上首款搭载华为昇腾 AI 芯片的开发板,OrangePi AIpro拥有极佳的颜值与性能,其香橙派官方也给予了非常优秀的技术服务支持。搭载华为昇腾 AI 芯片的香橙派 AIpro拥有超强的 8/20 TOPS AI算力,能够满足各种人工智能算法部署的算力需求。8GB/16GB LPDDR4X 的运行内存,使得 OrangePi AIpro 可以满足长时间高性能的部署任务。其支持外接 32GB/64GB/128GB/256GB的 EMMC 模块,使得 OrangePi AIpro 满足超大数据与程序存储的需求。
OrangePi AIpro硬件总结:
1、CPU与AI算力:搭载 4 核 64 位处理器 + AI 处理器(华为自研的 Ascend310 芯片),提供 8/20TOPS 的AI算力,能够有效地加速目标识别、图像分类等 AI 应用。
2、内存和存储:支持 8/16GB LPDDR4X运行内存,并可以外接 32GB/64GB/128GB/256GB EMMC 模块。此外,香橙派AI Pro还支持 SATA/NVMe SSD 2280 的 M.2 插槽,提供更多的存储选项。
3、丰富的接口:包括两个 HDMI 输出、GPIO 接口、Type-C 电源接口、TF插槽、千兆网口、两个 USB3.0、一个 USB Type-C 3.0、一个 Micro USB(串口打印调试功能)、两个 MIPI 摄像头接口和一个 MIPI 屏接口。
4、操作系统支持:支持 Ubuntu 和 openEuler 操作系统,适合大多数AI算法原型验证和推理应用开发。
5、应用场景:适用于 AI 边缘计算、深度视觉学习、视频流 AI 分析、自然语言处理、智能小车、机械臂、人工智能、无人机、云计算、AR/VR、智能安防、智能家居等领域。
6、配套开发工具:提供 MindStudio 全流程开发工具链,以及一键镜像烧录工具和模型适配工具,方便开发者快速上手和使用。
1.2 香橙派 AIpro算力评估
算力测试:作者分别使用 ResNet50 和 Yolov8n 进行实验,这两种神经网络模型是图像识别和目标检测的热门模型。并分别在两台机器上部署 “INT8 量化的模型”,测试 NPU 的性能差异。此外还请出了 NVIDIA 的非常优秀的显卡产品 RTX2060,4年前的产品。如今NVIDIA RTX2060 在二级市场的售价与 香橙派 AIpro & RK3588 价值相当。
Artificial intelligence 模型推断速度:
香橙派 AIpro | RK3588 | RK3588(多任务) | RTX2060 | |
推理平台 | MindX(INT8) | RKNN(INT8) | RKNN | Tensorrt(fp16) |
NPU调用 | - | 第1个核心 | 3个核心 | - |
进程数 | 1 | 1 | 3进程任务分配 | 1 |
ResNet50速度 | 291 | 110 | 307 | 1034 |
Yolov8n速度 | 87 | 21 | 67 | 652 |
算力测试概述:
- 单任务场景下(用户一般场景),香橙派 AIpro 都比 RK3588 更快。此时 RK3588 只有 1 个 NPU 核心在运行。ResNet50 推断中,香橙派 AIpro 是 2.7x 速度提升;YOLOv8n 是 3.9x 速度提升(RK3588的单核心只有最高 2TOPS 算力)。
- 任务可以并行的情况,香橙派 AIpro 和 RK3588 各有胜负。RK3588 的 3 个 NPU 都充分利用。RK3588 在 Resnet50 中稍快,香橙派AI Pro在 YOLOv8n 快的更明显。
- YOLOv8n 的模型并没有满载香橙派 AIpro 和 RK3588 的NPU算力。两个机器的NPU利用率都卡在 30-55% 的瓶颈上,即使使用多线程加塞,也不能提升 NPU 利用率。 RTX2060 利用率任维持 90%。因此 NPU 的利用率上不去既有模型算法问题,也有平台原因。
- NVIDIA RTX2060 的推理速度相比于部署 AI 开发板快很多,是香橙派 AIpro 的 3.5x (Resnet)和 7.5x (YOLOv8n) 速度提升。此时 RTX2060 还没开启 INT8 量化,量化之后,领先的幅度可能会更拉开。作者搞不定 tensorrt 的量化,也就没进一步测试了。
1.3 香橙派 AIpro系统烧录
香橙派 AIpro 提供了两种烧录系统版本,作者这里使用 Ubuntu 版本进行烧录
Ubuntu:百度网盘(ubuntu) 请输入提取码 (baidu.com)
OpenEuler:百度网盘(OpenEuler) 请输入提取码 (baidu.com)
1、打开香橙派官网:
Orange Pi官网-香橙派(Orange Pi)开发板,开源硬件,开源软件,开源芯片,电脑键盘
2、打开香橙派 AIpro,这里的官方工具可以点击下载:
3、在该网址页面内,下载官方提供的 Ubuntu 系统;
4、打开刚刚下载的官方工具中的 BalenaEtcher;
5、将镜像系统文件 img 烧录到 SD 卡上,且插入香橙派 AIpro;
1.4 香橙派 AIpro初体验
1、香橙派 AIpro上电启动,稍等一会屏幕将被点亮,如下;
2、输入密码:Mind@123(默认密码);
3、打开香橙派 AIpro终端,输入以下代码:npu-smi info;
npu-smi info
利用 npu-smi info 可以查看昇腾芯片 NPU 卡的信息,上图显示,Device为310B4,芯片温度为47度,总内存为7.6G,已使用4.3G左右。
4、利用 ifconfig 可以查看到 有线网卡 eth0 的 IP 地址信息,也可以查到无线网卡 wlan0 的信息,并接入无线网;
5、利用 MobaXterm 连接该地址,从而实现远程登入开发板:
6、VNC Viewer图形化远程控制,操作如下;
使用Ubuntu Focal,VNC登录灰屏幕。原因是 Focal 默认图形界面是 gnome,和香橙派 AIpro官方镜像适配有所不同。
解决办法:
sudo apt-get install gnome-panel gnome-settings-daemon metacity nautilus gnome-terminalvim ~/.vnc/xstartup
添加以下内容:
#!/bin/bashexport $(dbus-launch) # 主要是这句export XKL_XMODMAP_DISABLE=1unset SESSION_MANAGER gnome-panel &gnome-settings-daemon &metacity &nautilus &gnome-terminal & # [ -x /etc/vnc/xstartup ] && exec /etc/vnc/xstartup# [ -r $HOME/.Xresources ] && xrdb $HOME/.Xresources xsetroot -solid greyvncconfig -iconic &x-terminal-emulator -geometry 80x24+10+10 -ls -title "$VNCDESKTOP Desktop" &gnome-session &
貌似香橙派 AIpro与传统的 VNC 远程图形化一直存在不适配问题,但是,如果一定想借助图形化操作的同学可以尝试使用 NoMachine 软件,这款远程图形化工具的适配性很好。
二、香橙派 AIpro外设
2.1 引脚功能介绍
香橙派 AIpro拥有非常强大的外设与引脚功能,包含 40 个Pin脚,如下图所示:
40 Pin接口使用注意事项如下所示:
(1)、40 Pin接口中总共有 26 个 GPIO 口,但 8 号和 10 号引脚默认是用于调试串口功能的,并且这两个引脚和 MicroUSB 调试串口是连接在一起的,所以这两个引脚请不要设置为 GPIO 等功能。
(2)、所有的 GPIO 口的电压都是 3.3v。
(3)、40 Pin接口中 27 号和 28 号引脚只有 I2C 的功能,没有 GPIO 等其他复用功能,另外这两个引脚的电压默认都为 1.8v。
香橙派 AIpro的 40 Pin引脚提供了丰富的外设资源,包含:GPIO、I2C、UART、SPI 和 PWM等功能。借助这 40 Pin引脚,各位创客或是工程师可以实现超级多的奇思妙想。Linux 镜像中预装了 gpio_operate 工具用于设置 GPIO 管脚的输入与输出方向,也可将每个 GPIO 管脚独立的设为 0 或 1。各位工程师朋友通过在官网下载香橙派 AIpro用户技术手册来运用 gpio_operate 工具进行高效开发。
2.2 香橙派 AIpro与STM32通信
工程案例:将香橙派 AIpro 与 STM32 进行串口通信操作
该案例是智能产品研发过程中常使用的框架,即 NPU+MCU 的黄金搭档组合,该框架下将充分发挥香橙派 AIpro的 AI 算力,并结合 STM32 这类微控制器的强大控制能力,能够研制出各种高科技产品。例如:SLAM小车、视觉机械臂、仿生机器人等。
1、首先确定香橙派 AIpro的 UART 是否正常,指令:ls /dev/ttyAMA*
2、进行 serial 程序测试,香橙派 AIpro拥有 3 个serial,普通使用者可以使用serial2和serial3;
sudo -icd/opt/opi_test/uart./serial/dev/ttyAMA1
作者这里使用ttyAMA1(UART2)与 STM32 进行通信 ;
代码重构,将官方提供的 serial 代码修改成需要的代码,操作如下:
上述红框区域是串口通信的设置,需要与下位机的 STM32 保持一致,我们让香橙派 AIpro持续打印196这个数值;
3、编写STM32端代码,本篇博客使用 STM32CubeMX 工具进行生成初始代码;
uart.h:
#ifndef __UART_H#define __UART_H #include "stm32f1xx_hal.h" extern UART_HandleTypeDef huart1; #define USART1_REC_LEN 600 extern int USART1_RX_BUF[USART1_REC_LEN];extern uint16_t USART1_RX_STA;extern int USART1_NewData; void HAL_UART_RxCpltCallback(UART_HandleTypeDef *huart); #endif
uart.c:
作者这里仅通过 STM32 的串口中断进行数据接收操作,且假设接收到的数据为
#include "uart.h"#include "oled.h" int USART1_RX_BUF[USART1_REC_LEN]; //目标数据uint16_t USART1_RX_STA=2;int USART1_NewData; extern int num; //百位extern int num2; //十位extern int num3; //个位 void HAL_UART_RxCpltCallback(UART_HandleTypeDef *huart){ if(huart ==&huart1) { USART1_RX_BUF[USART1_RX_STA&0X7FFF]=USART1_NewData; USART1_RX_STA++; if(USART1_RX_STA>(USART1_REC_LEN-1))USART1_RX_STA=0; //num = USART1_RX_BUF[USART1_RX_STA]; HAL_UART_Receive_IT(&huart1,(uint8_t *)&USART1_NewData,1); num = USART1_RX_BUF[USART1_RX_STA-1]; num2 = USART1_RX_BUF[USART1_RX_STA-2]; num3 = USART1_RX_BUF[USART1_RX_STA-3]; } }
2.3 香橙派 AIpro引脚功能演示
该应用案例是简单的香橙派 AIpro与STM32的简单通信,难度非常低,但是稍加改进就可以作为一个成熟的项目框架使用。综上所述,利用香橙派 AIpro与传统 MCU 进行联动是非常简单易操作的,这也极大地降低了利用香橙派 AIpro进行产品研发的难度。
三、香橙派 AIpro的AI部署实战
3.1 YOLOv5S概述
YOLOv5 网络模型算是 YOLO 系列迭代后特别经典的一代网络模型,作者为:Glenn Jocher。部分学者可能认为YOlOv5的创新性不足,其是否称得上 YOLOv5 而议论纷纷。作者认为 YOLOv5 可以算是对 YOLO 系列之前的一次集大成者的总结和突破,其属于非常优秀经典的网络模型框架,各种网络结构和 trick 是非常值得借鉴的!
代码地址:ultralytics/yolov5: YOLOv5 🚀 in PyTorch > ONNX > CoreML > TFLite (github.com)
Yolov5 官方代码中,给出的目标检测网络中一共有4个版本,分别是Yolov5s、Yolov5m、Yolov5l、Yolov5x四个模型。作者仅以 Yolov5s 的网络结构为对象进行讲解,其他版本的读者朋友可以参考其他博客!
Yolov5s 网络是 Yolov5 系列中深度最小(最适合 AI 部署的版本),特征图的宽度最小的网络。后面的 3 种都是在此基础上不断加深,不断加宽。Yolov5 的网络结构图如下:
上图即 Yolov5 的网络结构图,可以看出,还是分为Input、Backbone、Neck、Prediction四个部分。
(1)Input:Mosaic数据增强、自适应锚框计算、自适应图片缩放
(2)Backbone:Focus结构,CSP结构
(3)Neck:FPN+PAN结构
(4)Prediction:GIOU_Loss
上述四部分都是属于如今很常见的模块与Trick了,受限于博客篇幅,各部分的详解就不与读者朋友好好分析和交流了。建议对 YOLO 系列陌生的朋友可以去好好看看其他博主的博客亦或是去B站看视频教学!
下面丢上 Yolov5 作者的算法性能测试图:
到现在为止,Yolov5 已经更新迭代到 v7.0 版本了,科研学术圈以 Yolov5 为基础框架进行魔改的论文数不胜数。通过上述作者的概述读者朋友可能对 Yolov5 有了一个大致的了解,不难发现 Yolov5 是非常优秀的神经网络模型。
3.2 香橙派 AIpro的YOLOv5S部署
进入官方Gitee仓库地址:Ascend/EdgeAndRobotics (gitee.com)
本篇博客以 YOLOv5S 神经网络模型进行目标检测
一、执行准备
1. 确认已安装带桌面的镜像且HDMI连接的屏幕正常显示;
2. 以HwHiAiUser用户登录开发板;
3. 设置环境变量;
# 配置程序编译依赖的头文件与库文件路径export DDK_PATH=/usr/local/Ascend/ascend-toolkit/latest export NPU_HOST_LIB=$DDK_PATH/runtime/lib64/stub
4. 安装ACLLite库:ACLLite仓安装ACLLite库。
二、代码下载
1. 使用命令行方式下载
# 登录开发板,HwHiAiUser用户命令行中执行以下命令下载源码仓。 cd ${HOME} git clone https://gitee.com/ascend/EdgeAndRobotics.git# 切换到样例目录cd EdgeAndRobotics/Samples/YOLOV5USBCamera
三、 YOLOv5S代码修改与部署
1、下载官方的测试视频;
请从以下链接获取该样例的测试视频,放在data目录下;
cd ../datawget https://obs-9be7.obs.cn-east-2.myhuaweicloud.com/003_Atc_Models/yolov5s/test.mp4 --no-check-certificate
使用指令:ffplay -autoexit test.mp4 播放测试视频(利用该指令也可以测试ffmpeg是否正确安装)
注:**若需更换测试视频,则需自行准备测试视频,并将测试视频放到data目录下。
2、获取PyTorch框架的Yolov5模型(*.onnx),并转换为昇腾AI处理器能识别的模型(*.om);
★当设备内存小于 8G 时,可设置如下两个环境变量减少atc模型转换过程中使用的进程数,减小内存占用。
export TE_PARALLEL_COMPILER=1export MAX_COMPILE_CORE_NUMBER=1
★为了方便下载,在这里直接给出原始模型下载及模型转换命令,可以直接拷贝执行。
cd modelwget https://obs-9be7.obs.cn-east-2.myhuaweicloud.com/003_Atc_Models/yolov5s/yolov5s.onnx --no-check-certificatewget https://obs-9be7.obs.cn-east-2.myhuaweicloud.com/003_Atc_Models/yolov5s/aipp.cfg --no-check-certificateatc --model=yolov5s.onnx --framework=5 --output=yolov5s --input_shape="images:1,3,640,640" --soc_version=Ascend310B4 --insert_op_conf=aipp.cfg
atc命令中各参数的解释如下,详细约束说明请参见《ATC模型转换指南》。
--model:Yolov5网络的模型文件的路径。
--framework:原始框架类型。5表示ONNX。
--output:yolov5s.om模型文件的路径。请注意,记录保存该om模型文件的路径,后续开发应用时需要使用。
--input_shape:模型输入数据的shape。
--soc_version:昇腾AI处理器的版本。
3、编译样例源码。;
到这里 YOLOv5S 的部署准备工作就已经完成了,作者这里针对没有配备 USB 摄像头的读者朋友提供代码修改,直接对步骤 1 中下载的视频进行 YOLOv5S的目标检测,操作步骤如下:
使用 vim main.cpp 进行 main 函数的修改,将线程操作改为获取视频输入
接下重新编译代码, 执行以下命令编译样例源码。
cd ../scripts bash sample_build.sh
4、运行 YOLOv5S代码
bash sample_run.sh imshow
3.3 香橙派 AIpro的YOLOv5S演示
作者没有在香橙派 AIpro上安装视频剪辑和录像软件,故在 MobaXterm 软件上使用网络窗口拉取了 YOLOv5S 的推理情况。实际在香橙派 AIpro 接入的显示器上,运行的 YOLOv5S 模型推理帧率非常的高。
四、各种其他应用案例
4.1 香橙派 AIpro丰富案例
凭借华为昇腾 B310 芯片强大算力的加持下,香橙派 AIpro 可以满足各种各样的产品工程需求。例如:安全检查门、自动贩卖机、智能门锁、目标追踪飞行器、视觉机械臂以及SLAM小车等。
4.2 AI部署开发板综合评述
作者作为一名嵌入式工程师,如今手上的 AI 边缘计算开发板是非常多的,包括:香橙派 AIpro、RK3588、Jeston Nano、树莓派4B、RV1126、OpenMV以及K210等。
1、香橙派AIpro:这款边缘计算开发板是作者本人上手最舒服的,配套的资料完善,部署流程方便且快捷(得益于华为昇腾芯片)。8TOPS的强大算力,完全满足企业级产品亦或是个人创客作品研发的需求。香橙派 AIpro的售价也是非常香的,预算足够还是推荐大家首选 16GB 运行内存版本的香橙派 AIpro。更大的数据吞吐能力,可以得到更好的产品体验!
2、RK3588: 这款 AI 部署开发板可能是业内人员必接触的版型之一,但是相较于香橙派 AIpro的单线程推理算力可能稍逊,多任务推理下的表现情况依旧很好。
3、Jeston Nano:这款 AI 边缘计算开发板是 NVIDIA 家的常青树级别产品,市场普及度以及认可度非常高,CUDA硬件加速的适配促使这款产品在企业级产品中成为常客。但是,仅从算力方面来看,其表现远不如香橙派 AIpro。而算力高于香橙派 AIpro的Orin 系列,其售价高的惊人,一般也是极高端产品才会使用 Orin 系列。
4、树莓派4B:社区资料和氛围很好,各种各样的开源项目层出不穷。但是,售价偏高且固件封装太死导致产品研发具有一定局限性,且算力很低。YOLOv5S的帧率仅能维持在 8 FPS左右,难以满足实际工程项目中对视觉帧率的需求。
5、OpenMV与K210:只适合创客亦或是学生去实现自己的 DIY 产品,Python语言导致代码运行效率底下,算力表现非常一般。优点是容易上手,但其局限性也很大。
作者有话
综上所述,香橙派 AIpro是一款非常优秀 AI 边缘计算开发板,其推进了 AI 部署的国产化进程。香橙派 AIpro这款 AI 边缘计算开发板的算力是完全满足商业级产品需求的(利用视觉进行控制判断,需要每秒至少 25 帧以上,香橙派面对正常的多视频流推理依旧可以完美满足),作者将在未来的一段时间内,使用香橙派 AIpro与 STM32 进行联动开源一款视觉机械臂项目,感兴趣的朋友可以关注一下之后的昇腾社区与作者的博客!
实话实说,香橙派 AIpro这款新品 AI 边缘计算开发板真的让人眼前一亮。作者手上的 AI 部署开发板也不在少数,比如:树莓派5B,Jeston Nano以及RK3588。但香橙派 AIpro绝对是这类产品中的王者,超给力的算力搭配详细的技术手册,给予创客和工程师很大的个人发挥空间!
OrangePi AIpro 让 AI 创造无限可能!!!