研发部
随着chatgpt的发布,人工智能开始进入了大模型时代,2024年时毫无争议的AI应用元年,各种AI应用如雨后春笋般的产生。其中智能体技术堪称是开发的革命性技术,我们也由此推出了可能是首个专为智能体应用设计的物联网平台ruanrongman/IntelliConnect: A Powerful AI agent IoT platform core. 。但这物联网平台的落地远不是开发出来就结束,没有实际的落地应用就像设计精美但无人使用的操作系统一样没有任何价值。为此我们坚持与兴趣相投的各种组织开展各种合作活动,其中我们非常看重AI陪伴的未来价值,因此加入到了潦草小狗的开发计划中。详细可以观看:潦草小狗驱动开发入门教程 —— 发送外部音频数据至 CI1303 例程。
潦草小狗是陪伴型的桌面宠物,配合ic平台的功能,将有望能实现流畅的对话和各种控制和思考能力。ic平台和潦草小狗基本已经完成大半,目前最为困难的就是如何实现语音的双向传输,以及本地识别和云端能力的有机结合。为此我们选用了启英泰伦这款语音芯片,我们花了很多时间对其sdk进行仔细观看,按照如下方案启英泰伦 CI1303 算法 SDK 开发入门教程,对其进行配置,但播放功能一直出现芯片反复重启的问题,使用内部时钟源的时候, 开启播放外部音频宏, 自动校准波特率和开始两个中断会导致 flash 分配问题 芯片随即重启,我们对此非常困惑,最后rymcu的hugh大佬提出按如下修改了部分源码,该问题才得到一些改善,能够正常运行。


然而随即也开始面临芯片MP3解码的挑战,由于其仅支持16kbps,单声道串口传输。这种低码率的声音很少TTS模型能够支持,因而需要自行编写转换代码,测试了多种方案,目前仅如下方案,能够正常运作。使用pydub进行转码。
audio_segment = audio_segment.set_channels(1) audio_segment = audio_segment.set_frame_rate(16000) # 设置采样率为16 kHz audio_segment = audio_segment.set_sample_width(1) # 设置样本深度为8位(1字节)
但是较长语音问题仍旧非常困扰我们,猜测是解码器存在一些问题,我们将持续研究,期望能有所推进。
上述内容仅为本人实践日志,不涉及芯片本身的质量以及相关产品能力。
