人工智能时代的多模态话语研究:机遇与路径
发布时间:2025-06-05 08:01 浏览量:3
感谢您关注“永大英语”!
李战子 韩泽婷
摘要:随着生成式AI的发展,社会符号学视角下的多模态话语研究迎来了新的机遇与挑战。本文通过梳理国内外多模态研究的新进展,探讨AI技术在社会符号学研究中的应用及其影响。研究表明,AI在弥补多模态话语研究方法论不足的同时,有助于促进多模态语类创新,并推动社会符号学理论向注重传播各要素的意义交换过程的转向。面对AI在共情力和多模态理解方面的局限,未来应该通过构建和谐的人机协作关系,打破学科壁垒,丰富多模态话语理论的阐释。
关键词:社会符号学;人工智能;生成式AI;多模态话语;数字语类
0引言
随着新媒体发展日渐深入,人们越来越多地通过整合多模态符号资源和视听体验共同建构意义,交流不再依赖单一符号系统。人工智能的迅速发展,特别是生成式AI的崛起,进一步拓展了多模态话语的边界。ChatGPT颠覆了媒介生成的交互主体和生成方式,正重塑内容生态与媒介传播逻辑(胡易容等 2024),因此我们亟须重新思考人工智能时代多模态话语研究的挑战、机遇和发展路径。当下生成式AI技术显著提升,具备了撰写内容,生成图像、视频、代码和分析数据等功能。尽管生成式AI已在多模态话语领域展现出巨大潜力,但相关研究仍显稀缺,尤其是其对社会符号学的启发作用和影响尚未进行充分探讨。若将生成式AI视为新一轮技术革命,我们则需要探讨它在素材、方法和理论方面为社会符号学的发展提供的新契机。
本文将研究以下问题:(1)多模态研究有哪些新的热点和趋势?(2)AI生成内容(AI-generated content)、大数据、深度学习和大语言模型等新应用和新工具,为多模态话语研究带来了哪些机遇?(3)社会符号学与多模态应用之间如何相互促进,未来的研究有哪些发展路径?
1多模态研究前沿概览
术语“多模态”是一个宽泛概念。广义上,多模态不仅涵盖相关技术在不同领域的应用实践,还涉及意义生产与交换过程中所依托的符号学理论及话语理论。
2024年,在CSSCI期刊数据库中,以“多模态”为主题词的文献超过2100篇,通过对热点主题的分析,发现多模态研究呈现出较强的话题聚焦性,主要集中在多模态感知理解、生成交互与学习分析技术,“多模态+人机协同”辅助教学以及多模态话语分析这三个领域。研究对象由单一的图文关系拓展到多模态融合,关注社交媒体中新兴媒介现象的符号学分析。
1.1 教育人工智能与多模态教学法研究
近年来,随着教育人工智能的兴起,多模态在教学场景中的应用已不再限于课堂资源的视觉呈现,而是转向“智能交互”,聚焦多模态学习分析、适应性反馈和人机协同(陈凯泉等2019)。
多模态学习分析强调对学习过程中各类数据的全面收集、分析与应用;适应性反馈注重智能教育系统与学习者特征(如学习风格、动机)的动态匹配;人机协同则关注教师如何与智能教学系统配合,为个性化学习提供精准支持。在语音识别、仿生技术等智能技术的支持下,教育机器人可与学生进行语音、表情、动作等的交互。未来研究将更加关注教育机器人在情感交互中的角色(杨凝 2022)。
多模态大语言模型(Multimodal Large Language Models,简称为MLLMs)推动教学设计发生深远变化。以科学教育为例,该领域要求学生能熟练运用多模态资源来完成科学解释、分析可视化数据、构建概念模型等复杂任务。然而在实际的教学过程中,很多教师面临多模态素材供给不足的问题,导致学生缺乏高质量的多模态学习机会。多模态大语言模型可以生成丰富的模态素材,且已有研究表明,它能减少模态冗余,引导学生关注核心内容,建立知识关联,从而整体上提升学习效果(Bewersdorff et al. 2025)。欧志刚等(2024)构建了多模态教学资源的生成与评价框架,指出AI生成的教学资源拥有较好的图像和音频质量,能够多方面促进语言学习。
国内有关生成式AI的外语论文主要涉及ChatGPT在语言学研究、课程教学和教材编写等方面的运用(如刘海涛 2024; 袁毓林 2024;梅冰 2024)。然而,这类研究很少提及AI对多模态话语的影响。生成式AI的发展重构了教育目标,随着知识获取的即时化和泛在化,外语教育的核心应从知识记忆转向意义建构。如Pratschke(2024)提出的“布鲁姆4.0”模式所指出,AI时代的课程设计应坚持“主动”“社交”“协作”和“建构主义”的原则,鼓励学习过程中的意义建构与批判性参与。实现这些教育目标离不开对多模态话语的深度研究,多模态话语背后涉及社会符号学的理论支撑,能够帮助我们理解技术如何在实践活动中建构和传播意义。
1.2 “可供性”视角下的多模态话语研究
多模态话语研究中,最常见的是将Kress和van Leeuwen(1996)的视觉语法与批评话语理论相结合,以用于特定语篇和语类的分析。随着媒介技术深度嵌入文化实践,文本与话语设计、生产、分布、传播等的技术特征变得密不可分,学术界因此日益关注新技术环境下意义建构与交际模式的新特征。以我们熟知的社交媒体为例,其多模态性和广泛的用户参与使之成为话语研究的焦点。研究者常常结合可供性(affordance)视角与社会符号学理论,考察社交媒体平台的物质形态及技术特征如何影响用户的数字实践和话语表达,尤其是研究不同意义潜势的模态资源如何协同配合,以强化情感、建构群体身份认同(Shirahata et al. 2023)。一些学者则更关注社交媒体可供性在二语学习中的价值(Han & Smith 2023; Lee 2023),指出社交媒体提供的新兴符号资源能够增强二语学习的自主性,提高学习动机,促进个体发展,而学习者的学习体验主要取决于其对符号功能的认识和参与意义建构的能力。
社交媒体的多模态性也催生了大量新型数字语类(digital genres),这些新型语类的功能文体研究涵盖了多种文本形式,如Vlog日志、弹幕评论、聊天室会话、话题标签和短视频等。同时,越来越多的研究开始考察数字技术如何与符号模式相结合,创造出跨媒介、跨语类且高度连贯的多模态文本(Valeiras-Jurado & Bernad-Mechó 2022)。这里涉及再情景化(recontextualization)的问题,即把某一情境中的意义从其特定的机构背景和模态组合转移到另一情境中,传播所依赖的言语策略和符号模式必须随之调整,以适应新情境的需要,进而生成了新的多模态组合和语类结构。研究的难点在于设计有效的跨平台文本追踪方案。目前多模态话语研究仍侧重共时性分析,对于符号现象的历时演变缺乏系统的研究方法(Aiello & van Leeuwen 2023),而这恰好是AI可以大有作为的一个方面。
在数字文化时代,内容消费突出需求导向,人们对多媒体内容的深度理解有了更高的要求。在这种需求驱动下,多模态话语研究需突破单一学科的局限,构建统筹社会符号学、计算语言学和认知科学的跨学科分析框架。只有通过深度挖掘模态数据的符号潜能,合理配置符号资源,才能丰富意义的表达维度。这便需要我们把握话语与技术之间的互动关系,探讨AI为社会符号学研究带来了怎样的契机和挑战。
2AI赋能多模态话语研究
2.1 AI助力多模态理解与生成
多模态话语研究的一大难点是数据获取困难,处理复杂。诸如图像隐喻和反讽识别等分析任务仍主要依靠人工标注。手动标注不可避免地带来主观偏差,影响符号模式研究的客观性和代表性。另外,整合和管理多模态数据本身就较为烦琐,尤其多模态的时空对齐与语义关联分析通常需要算法支持,传统工具难以应对动态语料库的构建需求。手动分析还存在效率低下的问题,研究结果无法及时捕捉数字传播语境中的表达模式变化。
大数据和AI技术为社会符号学研究提供了新机遇,让研究者能够高效地采集多平台、多渠道的数据,丰富了数据来源和分析方法。通过语音识别、自然语言处理和计算机视觉技术,AI可自动标注多媒体内容,从而显著减少符号模式的手动分析,实现多模态数据的快速识别与深度挖掘。基于深度神经网络,AI能够提取图像的关键特征,对社交媒体内容、图像、标签进行有序管理和分类。预训练微调大模型还能通过持续优化自身性能,准确识别人脸、物体、文字和场景等复杂的视觉特征。此外,AI还支持跨模态检索功能,如以图像搜索文本、以语音搜索视频。作为一项基础的多模态理解任务,跨模态训练机器具备类人的推理能力,能够对不同形式的信息进行语义互补和对齐。这有助于观察和分析多模态中的文本、图像、视频、音频等多种信息,理解不同模态之间的意义关系。生成式AI还能自动生成多模态数据,方便研究者将人类语料与机器语料进行对比,总结符号规律。
更重要的是,AI能弥补前文所述的社会符号学在历时性研究上的方法缺陷,从大规模历史文本和档案中挖掘与符号资源相关的文化信息,利用多模态技术自动识别符号模式,并通过时间序列分析来预测这些模式在不同历史阶段的演变趋势。简而言之,AI在多模态理解与生成领域的应用,如情感分析、图像描述、视频分类、视觉问答、跨模态检索、图像生成等,为研究者在更大范围内探索和验证符号学规律提供了条件,帮助揭示符号变迁背后的社会、文化和技术动因。
2.2 AI改变话语形态和交互实践
AI技术对多模态话语研究的影响还体现在改变交互实践上。各种语音助手、AI主播、虚拟形象等新型交流方式与主体层出不穷;以多模态感知为特征、由算法和数据驱动的智能媒体平台迅速发展,推动传播主体多元化和交互方式的变革,正在重塑话语形态及其生产和传播逻辑。传统大众媒体时代的话语研究以作者为中心,关注作者的意图、观点和表达方式,主要涉及话语主体怎样使用社会符号资源传递知识和价值观念;如何通过表达对人或事的态度、推断、评价来建构身份角色,协商与先前话语和假定读者回应之间的对话关系;如何运用修辞策略增强表达效果,实现意识形态目标。在这一范式下,作者被视为信息的主要来源和控制者,交际活动的话语、设计、生产与分布实践均围绕其展开,也就是说,话语意义是从作者到读者的单向流动,传播主体与受众相分离。
然而随着媒介技术在话语生产传播中的作用日益突出,话语研究的重点由人转向媒介技术,以审视长期忽视的技术性要素对话语意义的影响。如我们所知,韩礼德将语言意义分为概念意义、人际意义和语篇意义。在生成式AI、多模态交互和各类数据技术蓬勃发展的当下,人类已迎来多种媒介类型组合转换而成的多模态、跨模态内容体验与生成时代,话语的三大元功能意义也发生了深刻转变。具体来说,过去基于页面和单帧截屏的静态视觉语法分析逐渐被数字时代的多模态实践所取代,研究兴趣更多集中在动态的、流动的、视听融合的话语语义层面。全息媒体利用元宇宙脑机接口和多感官技术,实现超现实的全感交互,这就使概念意义中的经验意义超越了人和物质世界的范畴,将关注点转移到人与媒体之间的超现实体验。
AI也深刻改变着文化实践者的主体性和主体间性。网络化环境下,传播者和受众的角色可以随时发生流转,受众不再被动地接收信息,而是主动介入内容的搜寻、分享和再生产,这些用户反馈又被算法收集,进而反向构筑意义,为后续的内容生成提供数据创作的资源。从专家到公众,从人到机器,从本地到全球的多维度信息参与,人机共创,推动“传播主体从专业化到大众化再到机器化,传播动机从事实呈现到社交体现再到价值实现”(胡钰 2020)。由此,话语的人际意义从对作者和读者、文本创造者和文本接收者二元关系的描述转向由多元主体信息互动所构建的新型人际意义范式。
再者,全息媒体通过图文、声音、视频、VR、AR等模态的交叉综合,立体化呈现信息,使话语的语篇意义也变得更加丰富、多维。除全息媒体自身的呈现形态外,全程媒体的深度介入以及全效媒体内嵌的大数据AI技术,将各类应用聚合于平台上,能够同时实现移动化、分众化、碎片化融合传播,语篇意义由此出现分层建构特征,具体由三个不同的层级体现;一是通过多模态协同以实现文本组织结构的“基础层次”;二是结合数据挖掘获得隐含信息和意义的“中间层次”;三是通过分众化和个性化传播,顺应不同受众的语境和需求的“高层次”。这种意义建构机制的变化,推动社会符号学研究从狭义的内容文本分析向关注传播诸要素和整体意义交换过程的文化研究范式转变(胡易容等 2024)。
2.3 AI促进多模态语类创新
纵观人类信息传播,从书写到印刷,再从纸张到屏幕,每次媒介技术的革新都带来符号系统的变革,AI时代也是如此。继ChatGPT生成文本之后,大型模型Sora可以一键生成画面逼真、逻辑连贯的长视频文本,且在强劲算力和知识数据的支持下,具备了良好的多模态转译和泛化能力。AIGC大量浮现于社交媒体,极大丰富了多模态话语研究的素材,由此带来两个问题:机器是否能创造新的符号系统和多模态语类?语言学研究该以何模式应对智能生成内容?
AI在语类创新中的作用更多是通过组合、重构和扩展现有符号系统来实现。根据系统功能语言学的观点,情境类型(situation type)决定语言使用,它不单单是持续出现的视觉和听觉元素的集合,而是一种“符号结构”(Halliday 1978:122)。特定符号结构由其语场、语旨和语式的独特配置实现,在语义系统中产生“共鸣”,从而激活特定的语义选项。因此,理论上任一语域要素的改变均可催生新的语类形态。在人机协同下,生成式AI展现出强大的多模态学习能力,以“从有到有”的形式整合人类的集体智慧,重构出新的、多层次的符号表达形式,如带有视觉效果的叙事文本和互动式漫画等。这些内容虽然基于已有的网络数据,但其情节、视角和细节仍可以展现独特的创意。相比之下,人类的优势在于情感和不受束缚的创造力,能够实现“从无到有”——人拥有元叙述的能力,永远都在追求规则之外的叙事可能性。
当下生成式AI正在将文本生成转化为一种概率性产出,它利用人类语料库和故事库,基于模型和既定体裁惯例生成文本,同时更多地依赖计算机内部的数字控制,而非直接与现实世界发生联系,导致共情力、创造力不足。AIGC的背后隐藏着同质化倾向,因此尽管AI具备生成创新内容的潜力,囿于训练数据和语境的限制,它很难真正突破既有的社会文化框架(Westberg & Kvȧle 2024),这些局限更加突显了社会符号学研究的价值。研究者应运用对符号本质、意义变化、社会文化语境的理解,结合对符号使用和传播规律的认识,发挥创作优势,为AI提出创意需求;巧妙使用智能工具,不断测试、迭代新的表达模式,模拟人类交流的过程;利用大数据分析技术,更好地把握符号过程的受众反馈和传播效果,推动符号体系和语类资源库的持续完善。
同时,我们也应清醒地认识到话语研究仍依赖于高质量的真实语料来分析和理解交际现象,大量机造语料开始进入互联网文本,真伪难辨,为语料的真实性和质量以及研究结果的可靠性带来挑战。训练数据的偏见和算法黑箱问题也增加了大模型传播刻板印象和虚假信息的风险。在未来,AIGC治理及其与人类语料的系统对比研究或将成为语言学和工程应用的重要领域。
3AI时代多模态研究的趋势与展望
3.1 消弭学科壁垒,重新理解多模态
多模态是人文科学、自然科学与工程技术领域的共同课题。随着多个学科的发展进入“多模态阶段”(Bateman 2022),多模态的内涵得到了极大的拓展。由于学界尚未形成一个整合的超学科理论体系,国际多模态研究受到学科壁垒以及研究者关注点差异的影响,存在相关概念的混用。例如在研究论文中“图片模态”“视觉模态”等术语交替出现,“多模态”与“多媒体”“多感官”多重概念混用或叠加,在使用过程中发生意义迁移,导致多模态的内涵不清晰。Stöckl(2020)指出,多模态研究“缺乏对理论核心的关注,且倾向于重新制造和定义已有的概念和知识”。因此,应努力打通因学科差异造成的概念意涵区隔,重新理解多模态,以实现跨学科的有效协作,推动多模态理论在不同领域的应用。
目前来看,计算机科学和工程技术都倾向将多模态视为数据输入、输出的多渠道和多形式,是一种具体的研究方法,或者说一个应用的领域,并没有形成独立的学科。而人文学科已深入到多模态现象的本质,形成了较为系统的理论和共识。社会符号学范式强调多模态是设计一个符号产品或事件过程中所选用的若干符号模态,以及这些模态的组合方式(Kress & van Leeuwen 2001);社会互动范式认为多模态是社会活动的交际方式,强调以中介行动为基本单位观察不同类型活动中的模态使用规则;认知范式认为多模态是携带意义的感知,强调其作为感官系统与外部环境互动的方式;传播符号学则关注多模态传播的载体、渠道以及技术手段,对符号资源的媒介、受众、效果展开分析多模态话语研究似应整合这些不同的视角。
AI新科技浪潮的引领下,多模态被应用于各种场景和活动的交流互动,这就使其意义超越了“符号资源的混合叠加”,而形成一种真正意义上的“融合”。如我们所知,符号过程,无论通过何种媒介、采用何种表述模式或行动,其表述的内容和方式都是密不可分的。多模态知识蕴含在参与者与指涉物的在场、多模态与多媒体运用、模态间的关系及其处理方式、模态变换过程、表现与反馈方式等整个多模态呈现的过程之中(王建民、曹静 2020)。在全新模态不断加入的时空中,生成式AI、聊天机器人、人机交互等技术深刻影响着人类的意义实践,使多媒介、多感官、多数据模式“共在”。审视人机互动如何重塑多模态的表意机制和体验感知路径,为多媒介和跨语类文本提供新的话语阐释方法,是迫在眉睫的研究论题。
3.2 多模态交互、数据分析和AIGC应用齐头并进
当下多模态应用领域突出三个新的发展趋势。一是多模态人机交互表现瞩目。传统的人机交互依靠安装大量传感器或键盘、鼠标等单一方式,存在单模态性和符号表征性和离身性的局限,导致机器表达不连贯、不自然,反应被动。而AI赋予机器通感感知能力,利用语音、手势、表情等不同感知模态信息之间的协同来全面理解人类的行为意图,通过“感知—表达”一体化和强化学习,生成丰富的交互经验,使机器能够更自然、更直观地与人类交流,有效解决人机交互中的不协调问题(崔中良 2024)。
二是多模态数据分析技术多维纵深发展。面对海量的文本、音视频和复杂数据,分析型AI通过多模态融合方法和对齐技术,利用模态间的相关性与互补性,提升预测和推理能力。这些技术展现了广泛的应用潜力,比如在网络情感治理中,多模态情感分析技术不仅分析文本中的情感词汇,还考虑图像中的面部表情和音频中的语调等,不同模态的特征形成信息互补,有助于识别反讽和其他复杂的低文本资源情感(张敏等 2024),从而细颗粒地捕捉公众情感生成的连续性和深层动因,实现有效的审核内容和用户管理。
三是融合知识驱动和数据驱动的AIGC应用百花齐放。AIGC之“新”就在于以大语言模型为基础,依托深度学习技术,采用“大数据预训练+小数据微调”的方式,实现类自然内容的自动化生成。各种数字孪生、智能编辑和AI创作,推动多模态技术与其他应用领域的跨界融合,如AI支持将2D课本转换为3D课本,并可根据课本内容制作历史人物形象,提升学习过程的趣味性。
这些新变化不仅丰富了社会文化的表达形式,引发技术行业的变革,更在改写AI乃至整个科学领域的研究范式。各界正从不同维度构建以多模态内容为核心的生态体系,加速模态间的知识迁移与互联互通,以提供海量、丰富、动态、开放的科学体验路径(钱锋等 2023)。
3.3 以多学科视角破解跨模态映射难题
多模态信息融合的难点之一是解决跨模态映射问题,比如将视觉图像转换为语言描述时,如何保持和转换意义。目前的符号学分析以及计算机处理多模态的方式中,都倾向于将多模态信息拆解为多个单一模态来理解,这一做法默认不同模态之间存在着明确的界限,在表意中各自承担独立的功能。比如,文字的作用是锚定语境、突出语义焦点,图像表征行为,声音提供临场感,音乐营造氛围和渲染情绪。事实上,在社会符号学的理论框架中,它们共享一定的规则来统辖符号资源及模式的配置,模态之间的关系并不都是泾渭分明的,模态表意机制的关键不是符号资源的简单组合,不是有主次之分的等级结构关系,而是不同模态的合作与协同(赵星植 2021)。
多模态信息的全面理解需要综合考虑话语语义、语境和社会文化等因素。机器识别往往只考虑对单模态数据的特征进行孤立分析,因此需要深入理解不同模态之间的复杂映射关系,探索新的多模态信息融合方法。Polli和 Sindoni(2024)提出,未来在大模型的建设中,应吸纳社会符号学对多模态信息的解释,使得多模态的转录和解释能够尽可能覆盖模态复合体中的更多要素,消除由符号资源间的互动所带来的模糊歧义,以及明显矛盾的图文组合意义。同时,大模型还需依赖文化知识的阐释,从而提高其分类和预测能力。
4结语
生成式AI与多模态技术为社会符号学范式下的多模态话语研究带来前所未有的机遇,尤其是在教育人工智能与数字语类创新等领域,其积极影响体现在提供更高效的数据分析方法,丰富了表达手段和话语研究素材,推动话语理论从以文本和作者为中心的传统视角,向更广泛地关注符号、感知和技术等传播要素的范式转变,强调它们在话语语义及整体意义交换过程中的作用。
人工智能弥补了社会符号学在历时性研究上的方法论不足,而社会符号学对文化语境和模态间关系的丰富阐释为解决多模态理解和对齐的难题提供思路。面对生成式AI在语义理解、数据偏见、模态融合和情感表达方面的创作局限,本文认为关键在于整合多学科理论,构建和谐的人机协作关系。今后多模态研究将在技术融合与创新上取得突破,进一步推动社会符号学理论的发展,同时也将实现实践应用与社会价值的结合,为解决复杂的社会问题提供有效方法。
(本文首次发表在《当代外语研究》2025年第3期)