面向边缘计算的多模态协同推理系统设计

发布时间:2025-05-16 12:04  浏览量:10

专题-9

面向边缘计算的多模态协同推理系统设计

(中山大学电子与信息工程学院,广东 广州 510006)

【摘 要】边缘计算作为一种新兴的计算范式,通过将计算资源和服务部署到靠近数据源或用户的网络边缘,具有低延时、高可靠性和隐私保护等优点,但也面临资源受限的挑战。针对边缘计算设备资源受限的特点,提出一种多模态基础模型协同推理框架,以提升智能语音交互系统的性能和效率。通过将语音合成模型从终端转移至边缘侧进行推理,并进行终端与边缘侧间的通信,实现协同推理。实验结果表明,该方法在保证了模型推理精度的同时,显著降低了系统的交互延时和显存占用,为边缘计算环境下的多模态应用提供了新的思路和技术方案。

【关键词】边缘计算;协同推理;多模态推理;语音克隆

doi:10.3969/j.issn.1006-1010.20250114-0005

中图分类号:TN929.5 文献标志码:A

文章编号:1006-1010(2025)03-0072-06

引用格式:李文韬,王玺钧,陈立. 面向边缘计算的多模态协同推理系统设计[J]. 移动通信, 2025,49(3): 72-77.

LI Wentao, WANG Xijun, CHEN Li. Design of a Multimodal Collaborative Inference System for Edge Computing[J]. Mobile Communications, 2025,49(3): 72-77.

0 引言

近年来,随着人工智能(AI, Artificial Intelligence)技术的迅速发展以及物联网(IoT, Internet of Things)设备的广泛普及,边缘计算逐渐成为智能系统中不可或缺的计算范式。相比传统的云计算模式,边缘计算具有低延时、高隐私保护以及强实时性等优势,在智能语音交互、无人驾驶、智能监控等场景中具有广阔的应用前景[1]。然而,边缘计算设备(如Jetson Orin Nano等嵌入式开发平台)通常面临资源受限的挑战,如有限的计算能力、显存容量和电源功耗等。这种资源限制使得在边缘设备上运行复杂的深度学习模型(尤其是多模态模型)变得异常困难,影响了系统的性能和用户体验。

多模态大模型已成为现代人工智能研究的核心方向之一,它能够结合不同模态(如文本、图像等)的数据进行联合处理,在人机交互领域发挥了重要作用。以智能语音交互系统为例,其通常由语音识别(ASR, Automatic Speech Recognition)模型、多模态大模型以及语音合成(TTS, Text-to-Speech)模型组成,这些模块需要深度神经网络进行高效推理。然而,完整的多模态系统在边缘设备上的运行会带来两方面的问题:一是由于模型体积较大,导致显存占用过高,严重制约了系统的并发能力;二是推理速度较慢,无法满足实时交互的需求。这种资源瓶颈在边缘计算场景中尤为突出,需要寻找一种有效的解决方案。

目前,解决这一问题的常见方法包括:将模型推理任务完全转移至云端,或通过模型压缩和剪枝等技术优化边缘设备的计算负担。然而,完全依赖云端推理虽然可以利用强大的计算能力,但会带来数据传输延时增加、频带不足、高能耗、维护费用高等问题,并伴随较高的隐私和安全风险[2-5]。另一方面,模型压缩和剪枝虽然能够降低模型复杂度,但也将不可避免地损失部分推理精度,难以满足高质量交互系统的需求。因此,如何在边缘计算场景中高效部署多模态基础模型,同时兼顾推理精度、实时性和资源利用率,成为当前研究的关键问题。为应对上述挑战,研究者们提出了多种协同推理技术,旨在通过终端与边缘设备或云端的协作,优化模型推理过程。例如,Galaxy系统通过在多个边缘设备之间分布式协同,实现了Transformer大语言模型的高效推理;与基准方法相比,延迟减少了最多达46%,显著降低了延时和资源消耗[6]。然而,现有研究大多集中于对单一模态大模型的优化,针对多模态基础模型的协同推理技术仍处于初步探索阶段,尤其是在资源受限的边缘计算场景下,如何实现多模态模型各模块之间的高效协同与资源优化分配,依然缺乏深入研究。

在此背景下,本文提出了一种面向资源受限边缘计算环境的多模态基础模型协同推理系统,与现有研究侧重于单一模态模型优化或理论探讨不同,本研究的创新之处在于构建了一个系统的多模态协同推理框架。该框架旨在解决边缘计算场景下,多模态基础模型部署所面临的资源约束与性能需求之间的矛盾。本文深入分析了多模态智能语音交互系统的特点,并以此为应用案例,提出了一种基于功能模块解耦的任务分配策略。该策略将语音交互系统中计算负载相对独立,但对终端资源敏感的TTS模块卸载至边缘侧,并设计了基于轻量级TCP(Transmission Control Protocol,传输控制协议)端口通信的终端-边缘协同机制,实现了终端与边缘计算资源的协同利用。实验结果验证了该方法的有效性,表明在保证多模态模型推理精度的前提下,该方法能够显著降低终端设备的计算负载和显存占用,提升边缘侧多模态应用的实时交互性能。本文提出的协同推理方法具有一定的通用性和扩展性,其核心思想与技术方案为资源受限边缘计算环境下复杂多模态系统的优化提供了一种系统化的解决思路。该方法有望应用于包括无人驾驶、智能监控、工业质检、XR智能终端等在内的多种边缘计算场景,为未来边缘智能系统的设计与部署提供参考。

1 协同推理框架

本文设计了一种协同推理的系统架构,用以优化智能语音交互系统的性能,尤其是在边缘设备资源受限的场景下。在该架构中,本文采用了协同推理的方式,将TTS模块部署在边缘侧运行推理,而ASR模块和多模态大语言模型运行在终端上。整个系统通过Wi-Fi网络建立边缘侧与终端之间的TCP通信连接,从而实现数据在不同设备间的实时传输。当用户通过系统输入语音时,ASR模块首先在终端执行语音识别,将语音信号转化为文本,并将文本结果传递给多模态大语言模型。多模态大语言模型接收文本并结合提取的视频帧进行推理,推理结果通过TCP协议发送至边缘侧的TTS模块执行推理任务,将文本转换为高质量的音频数据输出。生成的音频数据流随后通过同一通信通道传回终端,并由终端完成播放,从而实现系统的语音交互闭环。图1展示了本文设计的协同推理架构。

1.1 ASR模块

ASR模块是智能语音交互系统中的核心组件之一,其主要作用是将用户的语音输入转化为可供系统处理的文本信息,为后续的多模态推理和语音合成提供基础数据支持。在智能语音交互系统中,ASR模块的性能直接影响系统对语音指令的理解能力和响应速度。ASR模块需要从连续的语音信号中提取特征,结合语言模型和声学模型,对语音信号中的词语序列进行精确预测,从而生成语义清晰、符合上下文的文本结果。

ASR的工作原理可以划分为三个主要阶段:语音信号预处理、特征提取与解码,以及语言模型的后处理。首先,语音信号预处理阶段主要是对用户输入的连续语音信号进行分帧和窗口化操作,将长时间的语音信号划分为短时间段(通常为20~30 ms),以捕捉语音的动态变化特征。在特征提取阶段,对分帧后的信号进行进一步的处理,得到频谱图或其他可供机器学习模型输入的形式,例如常用的梅尔频率倒谱系数(MFCC, Mel Frequency Cepstral Coefficient)或对语音信号通过一个训练好的神经网络得到特征表示[7]。这些特征的提取旨在最大限度保留语音中的语义信息,同时剔除噪声或无关信息。在特征解码阶段,ASR通过声学模型将语音特征映射到语音基本单元(如音素或音节)。现代ASR系统通常采用深度学习技术,特别是基于卷积神经网络(CNN, Convolutional Neural Network)、循环神经网络(RNN, Recurrent Neural Network)或Transformer结构[8-10]的声学模型,这些模型能够有效学习语音信号和语义之间的复杂映射关系。例如,RNN适合处理时序数据中的动态特性,而Transformer模型则可以更高效地捕捉长时间语境信息。此外,解码过程中通常还会结合语言模型来预测最可能的词语序列,从而生成更符合语义逻辑的输出。

最后是语言模型的后处理阶段。在这一阶段,ASR模块将解码出的初步语音转文本的结果与语言模型结合,进一步优化文本的语义连贯性。语言模型通过统计或神经网络的方式学习语言结构中的概率分布,帮助ASR模块校正因声学特征模糊或识别错误引起的语义偏差。例如,对于同音字的区分或上下文的语法校正,语言模型能够提供准确的语境信息支持。

1.2 多模态大语言模型

多模态大语言模型(MM-LLMs, Multi-modal Large Language Models)是一种能够同时处理和生成多种模态数据(如文本、图像、语音、视频等)的人工智能模型。与传统的单模态模型不同,多模态模型能够融合不同模态的信息,通过联合学习和共享表示,更好地完成复杂任务。这种模型利用了模态之间的互补性,使得它们在理解世界时能够更接近人类的多感官交互。

多模态大模型的核心思想在于对不同模态的数据进行联合建模,主要依赖深度学习技术。其中,Transformer是目前最常用的框架之一,因为它能够很好地处理序列数据和长距离依赖。模型通常包括多个模态专属编码器,例如文本编码器(如BERT[11])和视觉编码器(如ViT[12]),通过融合模块将多模态特征映射到共享的语义空间,进而实现模态间的对齐和交互。目前的多模态大语言模型采取并联式的框架,以LLAVA为例,多模态数据送到各自模态的编码器后得到各自模态的编码,这些编码通过各自模态的输入转换器(Input Projection)后得到对齐到大语言模型的文本编码,经过大语言模型处理得到文本输出。 多模态大模型在许多领域都有广泛的应用。例如,文本到图像生成(如OpenAI的DALL·E[15])能够根据自然语言描述生成高度逼真的图片;跨模态检索(如CLIP[16])可以实现图文的相互搜索;在视频分析中,这些模型被用于字幕生成、事件检测等任务;在医疗领域,结合医学影像和报告的多模态模型正用于辅助诊断。此外,这些模型也在娱乐、教育、智能助手等场景中得到了成功应用,如智能机器人可以理解用户的图像、语音输入,并给出自然的多模态反馈。

1.3 TTS模块

TTS,即文本转语音,是一种将文本信息转换为语音信号的技术。这项技术使计算机能够模仿人类的说话过程,将文字以语音的形式输出。TTS模型的基本框架通常分为两个主要模块:文本分析、特征生成和语音生成。文本分析模块的主要任务是将原始的书面文字转化为适合生成语音的输入表示。这一过程包括文本的语言规范化(Text Normalization),如将数字、符号转化为可读的单词;词法分析、语法分析以及音位表示生成。这些步骤的核心目标是将输入文本映射为语音特征的序列表示,例如音素序列。

特征生成阶段将文本分析的结果转化为语音所需的特征。大多数现代TTS系统生成梅尔频谱图(Mel Spectrogram)等音频特征,这些特征包含了语音的频率信息,是合成语音的基础。此外,许多TTS模型还会生成音素级别的特征,决定语音的发音内容和韵律变化,从而进一步提高合成语音的自然性和准确性。

语音生成是TTS的核心任务,它将特征转换为实际的语音波形。传统的语音生成方法包括拼接合成和参数合成,拼接合成通过拼接预录制的语音片段来生成语音,而参数合成则通过生成语音的频率、振幅等参数来合成语音。然而,这些方法的灵活性和自然性较差。现代的深度学习方法,尤其是基于神经网络的模型,如WaveNet[17]和Tacotron[18],已经成为当前TTS领域的主流。如Tacotron通过先将文本输入转换为梅尔频谱图,再通过声码器(如WaveNet或HiFi-GAN[19])将频谱图转化为语音信号。

随着技术的不断进步,TTS模型面临的主要挑战包括如何在生成语音时表达情感和韵律的变化、如何适应不同说话人和语言的特点,以及如何在保证高质量语音的同时提高生成效率。现代TTS系统也越来越注重在多语种、跨领域和零样本学习的能力,能够在没有大量标注数据的情况下进行训练,并能够在不同的上下文中生成自然、流畅的语音。

2 协同推理演示系统

2.1 硬件配置

系统的硬件配置如图2所示。为了能在端侧部署完整的智能语音交互系统并实现低延时推理,本文选择了NVIDIA Jetson Orin Nano(8 GB版本)作为终端设备,同时以一台搭载RTX 3050 Ti显卡(4 GB显存)的个人计算机(PC, Personal Computer)作为边缘侧协同计算平台。Jetson Orin Nano是一款专为边缘计算设计的低功耗设备,其搭载32个Tensor Core的1 024核NVIDIA Ampere架构GPU,内置8 GB显存,算力达到40 TOPS,能够在有限的硬件资源下支持深度学习推理任务,并通过NVIDIA TensorRT等优化框架进一步提升运行效率。PC端的RTX 3050 Ti显卡具有2 560个CUDA核心和16.3 TFLOPS的浮点计算性能,通过其更强的计算能力,为需要高资源的语音克隆任务提供支持,进一步降低协同推理的延时。

系统音频输入通过一个USB麦克风摄像头采集,该摄像头支持720p分辨率,帧率为25fps,并配备降噪麦克风,可有效降低环境噪声对语音输入的干扰,确保输入语音的清晰度,为ASR模块提供高质量的音频数据支持。同时,系统的输出则通过外接USB声卡进行语音播放,从而满足语音交互的完整闭环需求。

2.2 模型选择

系统中三个模块的模型选择在表1中列出。为满足边缘计算环境中硬件资源受限的特点,同时兼顾模型推理的准确性与效率,在ASR模块中,选择了SenseVoice-Small模型。它采用非自回归端到端框架,在CommonVoice_zh-CN数据集上的词错率(WER, Word Error Rate)为10.78%,优于Whisper-Large-V3的12.55%。同时该模型的推理延迟极低,在参数量与Whisper-Small模型相当的情况下,比Whisper-Small模型推理速度快7倍,比Whisper-Large模型快17倍[20]。为了进一步降低模型的显存占用与推理时间,本文采用SenseVoice-Small的8比特量化版本,更适合Jetson Orin Nano这类边缘计算设备进行推理。多模态模型部分选择Qwen2-VL-2B-Instruct,该模型具备处理多模态任务(例如文本与图像结合推理)的能力。原始模型规模较大,但通过广义后训练量化(GPTQ, Generalized Post-Training Quantization)方法将其量化为Int4版本后,模型参数显著压缩,显存占用减少,使得其可以在Jetson Orin Nano的8 GB显存上流畅运行。同时,量化后的模型在推理速度方面有明显提升,推理延时显著缩短,确保了在边缘设备上多模态交互的可行性。尽管模型经过量化,但其在精度上仍然表现优异,在DocVQA_VAL(Document Visual Question Answering Validation)数据集上的准确率为87.21%,在MMBench_DEV_EN(Multimodal Benchmark Development in English)数据集上的准确率为70.87%[21],基本满足智能语音交互系统对推理结果的准确性要求。语音合成模块使用的是F5-TTS模型,该模型支持多语言合成,包括中文和英文,基于流匹配的非自回归生成方法,结合扩散变换器(DiT, Diffusion Transformer)技术,可以做到在没有额外监督的情况下,基于零样本学习快速生成自然、流畅且相似度高的语音,在Seed-TTS test-zh数据集上的WER只有1.56%[22]。与此同时,它的推理显存占用较小,只有1.5 GB,可以在较小的显存占用下生成相似度高的克隆音频,适合在端侧进行部署。

3 实验分析

3.1 实验设置

本文设计了一套完整的对比试验来验证协同推理架构在优化智能语音交互系统性能方面的有效性。具体而言,本文分别测试了两种系统架构:其一是将ASR模块、多模态推理模块和TTS模块全部运行在终端上的本地推理架构,如图3所示;其二是将ASR和多模态推理模块保留在终端上,而将TTS模块转移到边缘侧运行的协同推理架构。在这两种架构下,本文对系统的显存占用和响应时间进行了系统性的测试和对比。

在TTS推理部分,可以发现当多模态模型回答结果过长时,TTS模块的推理时延会显著提高,影响用户的交互体验。为了避免整个段落生成完成后再播放而导致长时间的等待,本文采用了一种切分处理策略,将输入的文本分割成多个短片段,并逐段输入到TTS模型中进行推理。在这种策略下,系统可以在生成下一段音频的同时播放上一段音频,实现流式生成与播放的效果。但在该策略的实际测试中,我们发现过小的切分长度会导致相邻两段音频播放间会出现停顿,很大程度上影响用户体验。为此,需要合理控制文本的切分长度,使得生成下一段音频所需的时间严格小于上一段音频的播放时间。为确定合适的切分长度,在PC端和Jetson Orin Nano开发板上分别测试了TTS模块在不同切分长度下的生成时间。实验过程中,将文本按字数划分为多个不同长度的片段,并记录每个片段对应的TTS推理时间,得到不同硬件设备上能够实现流式生成的最小切分长度。另外,在对TTS模块进行测试时,F5-TTS模型会将文本中的阿拉伯数字统一用英文读出,这并不符合默认的中文应用场景需求。为了解决这一问题,采取了文本归一化的技术。在文本归一化中,使用不同的正则表达式对多种场景下的阿拉伯数字进行提取,如日期、电话、百分数等,并将其替换为对应的中文表达,使交互系统能够生成符合使用场景的语音。

在完成切分策略测试后,进一步在两种系统架构下进行了综合性能的对比测试,记录不同系统架构的显存占用与响应时延。在测试响应时延的实验中,F5-TTS模型的输入文本以不同设备能够实现流式生成的最小切分长度进行划分,采用多组不同的用户输入文本,模拟实际语音交互场景下的任务处理流程,同时记录不同系统架构从接收用户输入到播放第一段音频的时间作为响应时延。

3.2 实验结果与分析

图4展示了两种硬件设备在不同切分长度下F5-TTS模型的推理时延以及不同切分长度对应的音频播放时间。实验结果表明,切分长度与TTS推理的时延之间存在明显的正相关关系,即随着切分长度的增加,推理所需时间也随之增加。然而,由于硬件性能的差异,PC端和Jetson Orin Nano在相同切分长度下的推理时延表现出显著不同。PC端的时延曲线显著低于Jetson Orin Nano,且增长幅度相对较平缓。与之相比,Jetson Orin Nano的性能限制显得尤为明显。不仅在所有切分长度下,Jetson Orin Nano的推理时间都远高于PC端,且随着切分长度增加,推理时延的增长幅度更加陡峭。这表明相比于Jetson Orin Nano,PC端的计算性能更强,能够以更短的时间完成TTS推理任务。

由图中曲线的交汇点可以看出,PC端能够流式生成的最小切分长度为7,这说明即便是在切分长度较短的情况下,PC端的推理时间也能够满足流式生成的要求。而Jetson Orin Nano能够流式生成的最小切分长度为54,意味着只有在较大切分长度的情况下,其推理时间才能低于上一段音频的播放时间,从而实现无卡顿的流式生成,但这样会使系统的整体响应时间增大。

在最小切分长度下的,对两种不同架构的显存占用与系统推理时延进行测试,表2展示了两种不同架构下的显存占用情况。表2反映出在仅加载模型而不进行推理时,两种架构的显存占用相当;而在推理时,Jetson Orin Nano单独推理的显存占用更高,出现这一差异的原因在于单独推理架构中,由于TTS模块的推理任务需要更长的最小切分长度(为54),直接导致了更高的内存开销。

为方便记录,对用于测试架构性能的不同问题进行编号,见表3图5展示了两种不同架构在推理不同问题时的响应时延。从柱状图中可以清晰地看出,协同推理架构在不同问题的推理过程中,其响应时延显著低于单独推理架构。无论问题的复杂程度如何,协同推理的响应时间始终保持较低水平,而单独推理架构的响应时间则显著更高,且随着问题复杂度的增加,差距进一步拉大。这充分体现了协同推理架构在降低时延方面的优势。具体来看,在问题“天空为什么是蓝色的”中,协同推理的响应时间为9.21 s,而单独推理架构则为19.83 s,协同推理架构将时延减少了一半以上。同样,对于“请描述一下你看到的环境”这一问题,协同推理耗时12.63 s,单独推理则耗时高达22.38 s,差距进一步扩大。这些问题相对复杂,需要多模态推理和语音生成的综合处理,单独推理架构的高时延表明 Jetson Orin Nano 的硬件资源已接近瓶颈,而协同推理架构通过将TTS任务卸载至PC端,显著分担了推理任务的计算负担,提升了整体响应速度。

综上来看,协同推理架构在消耗显存没有明显增大的条件下,通过将计算密集型的TTS任务从Jetson Orin Nano卸载至PC端运行,协同推理架构有效缓解了边缘设备的资源压力,在响应时延上展现了显著的优越性。实验结果证明,协同推理架构显著提升了系统的整体效率和用户体验,为边缘计算环境下的智能语音交互系统提供了有效的解决方案。

4 结束语

本文提出了一种基于协同推理的智能语音交互系统优化方法,通过将TTS模块从Jetson Orin Nano开发板迁移至PC端运行,在不额外增大显存占用的情况下显著降低了系统的响应时延。实验结果表明,协同推理架构相比单独推理架构,在显存占用更均衡的同时,有效缓解了边缘设备的资源瓶颈,并在复杂任务中实现了时延的显著缩短,最大程度提升了系统的实时性和交互体验。

参考文献:(上下滑动浏览)

[1] Shi W, Cao J, Zhang Q, et al. Edge Computing: Vision and Challenges[J]. IEEE Internet of Things Journal, 2016,3: 637-646.

[2] Jin H, Jia L, Zhou Z. Boosting Edge Intelligence with Collaborative Cross-Edge Analytics[J]. IEEE Internet of Things Journal, 2020,8: 2444-2458.

[3] Xiao Y, Jia Y, Liu C, et al. Edge Computing Security: State of the Art and Challenges[J]. Proceedings of the IEEE, 2019,107: 1608-1631.

[4] Wang Y, Yang C, Lan S, et al. End-Edge-Cloud Collaborative Computing for Deep Learning: A Comprehensive Survey[J]. IEEE Communications Surveys & Tutorials, 2024,26: 2647-2683.

[5] Jiang X, Shokri-Ghadikolaei H, Fodor G, et al. Low-latency Networking: Where Latency Lurks and How to Tame It[J]. Proceedings of the IEEE, 2018,107: 280-306.

[6] Ye S, Du J, Zeng L, et al. Galaxy: A Resource-Efficient Collaborative Edge AI System for In-situ Transformer Inference[C]//IEEE Infocom 2024-IEEE Conference on Computer Communications. IEEE, 2024.

[7] Hinton G, Deng L, Yu D, et al. Deep Neural Networks for Acoustic Modeling in Speech Recognition: the Shared Views of Four Research Groups[J]. IEEE Signal Processing Magazine, 2012,29.

[8] Graves A, Mohamed A, Hinton G. Speech Recognition with Deep Recurrent Neural Networks[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2013.

[9] Dong L, Xu S, Xu B. Speech-Transformer: A No-Recurrence Sequence-to-Sequence Model for Speech Recognition[C]//IEEE International Conference on Acoustics, Speech, and Signal Processing. IEEE, 2018: 5884-5888.

[10] Zhang Y, Chan W, Jaitly N. Very Deep Convolutional Networks for End-to-end Speech Recognition[C]//2017 IEEE International Conference on Acoustics, Speech And Signal Processing (ICASSP). IEEE, 2017.

[11] Devlin J, Chang M, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. 2019 Conference of The North American Chapter of The Association for Computational Linguistics: Human Language Technologies (NAACL HLT 2019). 2019.

[12] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale[J]. International Conference on Learning Representations, 2021.

[13] Zhang D, Yu Y, Dong J, et al. MM-LLMs: Recent Advances in MultiModal Large Language Models[J]. CoRR, 2024.

[14] Liu H, Li C, Wu Q, et al. Visual Instruction Tuning[J]. Advances In Neural Information Processing Systems 36 (NEURIPS 2023), 2023.

[15] Ramesh A, Pavlov M, Goh G, et al. Zero-Shot Text-to-Image Generation[J]. International Conference on Machine Learning, 2021: 8821-8831.

[16] Radford A, Kim J W, Hallacy C, et al. Learning Transferable Visual Models From Natural Language Supervision[J]. International Conference On Machine Learning, 2021,139: 8748-8763.

[17] van den Oord A R, Dieleman S, Zen H, et al. WaveNet: A Generative Model for Raw Audio[J]. SSW, 2016.

[18] Shen J, Pang R, Weiss R J, et al. Natural TTS Synthesis by Conditioning Wavenet on MEL Spectrogram Predictions[C]//2018 IEEE International Conference On Acoustics, Speech And Signal Processing(ICASSP). IEEE, 2018: 4779-4783.

[19] Kong J, Kim J, Bae J. HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis[C]//Advances In Neural Information Processing Systems 33, NEURIPS 2020. 2020: 33.

[20] An K, Chen Q, Deng C, et al. FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs[J]. CoRR, 2024.

[21] Wang P, Bai S, Tan S, et al. Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution[J]. CoRR, 2024.

[22] Chen Y, Niu Z, Ma Z, et al. F5-TTS: A Fairytaler That Fakes Fluent and Faithful Speech with Flow Matching[J]. CoRR, 2024. ★

陈立:教授,博士生导师,现任职于中山大学,从事纠错编码技术及其在数字通信系统中的应用。

李文韬:中山大学电子与信息工程学院在读本科生,从事边缘智能理论与技术研究。

★往期推荐

汇总| 2025下半年专题征稿链接

《移动通信》杂志由中国电子科技集团公司主管,中国电子科技集团公司第七研究所主办,是中国期刊方阵“双效期刊”、工业和信息化部精品电子期刊、中国科技论文统计源刊、中国通信学会《信息通信领域高质量科技期刊分级目录》入选期刊、中国电子学会《电子技术、通信技术领域高质量科技期刊分级目录》入选期刊、中国应用型核心期刊、日本JST收录期刊。国内连续出版物号:CN44-1301/TN,国际连续出版物号:ISSN1006-1010,邮发代号:46-181。

标签: 模态 推理 tts asr nano