马里兰大学团队:如何将随机文本拼接成连贯故事?

发布时间:2025-06-07 21:23  浏览量:3

研究背景:论文《拼接随机文本片段成长篇叙事》的作者与发表信息

2025年5月,来自马里兰大学学院公园分校的Chau Minh Pham、Jenna Russell和Mohit Iyyer,以及麻省大学阿默斯特分校的Dzung Pham发表了一篇名为《拼接随机文本片段成长篇叙事》的研究论文。这篇论文已于2025年5月29日在arXiv平台上发布,编号为arXiv:2505.18128v2,有兴趣的读者可以通过该编号在arXiv网站上访问完整论文。

"弗兰肯文本":一种全新的文本创作方式

你还记得玛丽·雪莱的经典小说《弗兰肯斯坦》吗?在那个故事里,科学家维克托·弗兰肯斯坦从各种尸体碎片中拼凑出了一个生物并赋予它生命。虽然这个生物是由不同的部分拼凑而成,但它却展现出惊人的智慧和表达能力。

受这个故事的启发,研究团队创造了一个全新概念——"弗兰肯文本"(Frankentexts)。想象一下,如果我们让人工智能大语言模型(LLM)在一个极端的限制条件下创作:绝大部分文本(比如90%)必须原封不动地从人类已有的写作中复制,只允许添加极少量的连接文字。这就像是把不同的人类文本片段"缝合"起来,创造一个全新的、连贯的故事。

这个任务看似简单,实则极具挑战性。它不仅测试了AI的受控生成能力,还考验了模型是否能够在满足严格的逐字复制约束的同时,创作出符合特定写作提示且保持全局连贯性的叙事。要知道,这些被拼接的文本片段原本毫不相关,根本不是为了放在一起而创作的。这需要模型具有高级的指令遵循能力、长文本处理能力以及创造力。

与传统的受控生成任务相比,这是一个根本性的新挑战。以前的方法可能会软性地执行高级大纲(如Fan等人2018年的研究)或词汇约束(Sun等人2021年的工作),而"弗兰肯文本"要求在大规模上重用实际的人类撰写的段落,这是一个全新的挑战。据研究团队所知,这项工作是首次系统研究这种生成范式。

"弗兰肯文本"的更广泛意义

"弗兰肯文本"存在于一个模糊的作者身份灰色地带:它们由AI安排,但主要由人类撰写的文本组成。这打破了当今AI文本检测器所假设的"AI vs人类"二元分类。事实上,研究显示,"弗兰肯文本"经常被误分类为完全由人类撰写,这暴露了一个新的攻击向量(例如,在学术诚信方面),用户可以构建高质量的"弗兰肯文本"来逃避检测。

这种检测失败突显了需要适应这种新型生成范式的检测工具。值得一提的是,研究团队的管道合成地提供了这些检测器所缺乏的监督:每个"弗兰肯文本"都带有标记,标明哪些段落是复制的,哪些是LLM生成的,从而为混合作者身份检测提供了廉价、大规模的训练来源。

同时,这种可控的构建过程为研究人类-AI协同写作提供了一个可调节的沙盒:通过操纵人类摘录的比例、长度和主题多样性,研究人员可以对风格混合和修订动态进行系统实验,这是协作写作研究(如Akoury等人2020年、Lee等人2022年、Yuan等人2022年的工作)在大规模上很少能做到的。

如何生成"弗兰肯文本"

研究团队开发了一个基于提示的管道来生成"弗兰肯文本":首先,一个LLM通过选择提供的人类撰写的片段并将它们整合到自己生成的文本中,起草一个故事。然后,LLM反复精炼草稿以修复矛盾或不流畅之处。在这两个阶段中,LLM都被指示遵循一个约束条件,即指定比例的文本应该从人类撰写的片段中逐字复制。

具体来说,这个过程包括两个主要阶段:

第一阶段是获取第一稿。研究人员会给LLM一个写作提示和大约1,500个人类撰写的段落(大约10万个BPE词元)。LLM需要在这个提示下起草一个故事,并确保指定比例(如90%)的内容是直接从这些人类段落中逐字复制的,其余部分则是连接词和过渡短语。研究团队还可以选择添加另一个编辑步骤,通过使用ROUGE-L这样的归因度量或AI文本检测器本身来增加逐字复制率。

第二阶段是润色草稿。第一稿可能包含写作问题,包括矛盾(如角色特质、描述、事实或视角)、连续性错误(如与先前行动冲突的行动)、不相关内容(如未过滤的引用或填充文本)和机械问题(如语法、措辞或代词不匹配)。为解决这些问题,研究团队使用同一个LLM来识别并应用最小的编辑,以在尊重逐字复制规则和写作提示的同时提高连贯性。他们最多重复这个步骤三次,一旦模型返回"无需编辑"(表示草稿已经连贯),就停止。

实验设置

研究团队的管道针对故事生成进行了优化,这是一项同时需要强大指令遵循和高级文本生成能力的任务。因此,他们选择了专注于创意写作的数据集,使用了具有强大推理和指令遵循能力的模型,并设计了一个内在评估设置,以突出"弗兰肯文本"的可行性和价值。

在数据集方面,研究团队从Mythos数据集(Kumar等人,2025年)中获取写作提示,这是一个包含3,200个最近发布在Reddit的r/WritingPrompts上的提示集合,以减轻潜在的数据污染问题。研究团队从中选择了100个具有代表性的提示进行实验。

在模型方面,研究团队包括了来自五个家族的模型,这些模型因其在指令遵循和创意文本生成方面的表现而闻名:Gemini-2.5-Pro(exp-03-25检查点)、Claude-3.7-Sonnet(启用思考)、o4-mini(2025-04-16检查点,推理努力设置为高)、DeepSeek R1和Qwen3-32B(思考和非思考版本)。研究团队指示这些模型生成包含约500字的"弗兰肯文本",其中90%的文本从提供的人类样本中逐字复制。

除了"弗兰肯文本"外,研究团队还生成了"普通"输出作为基线。在这个基线设置中,每个模型都给予相同的写作提示,并指示生成等效长度的输出,但没有额外的约束或过滤。

评估方法

研究团队开发了一套内在评估指标,基于三个关键维度评估生成的文本:写作质量(连贯性)、对指令的遵循(相关性、字数、复制率)和可检测性(AI文本检测器结果)。

在连贯性方面,研究团队报告了连贯"弗兰肯文本"的百分比。具体来说,他们使用GPT-4.1提供二元判断(是/否),确定文本是否包含任何连贯性问题,如果不解决,这些问题会显著影响读者理解的能力。这些连贯性问题包括情节或事件、角色、空间关系、主题和表面级细节的不一致。

在相关性方面,研究团队报告了忠于写作提示的"弗兰肯文本"的百分比。类似于连贯性评估,他们使用GPT-4.1评估每个"弗兰肯文本"是否完全遵循提示,且没有引入任何冲突细节。

在复制率方面,研究团队报告了平均复制率,捕捉"弗兰肯文本"中从给定人类撰写内容复制的比例。这个指标还允许他们跟踪文本的哪些部分是AI或人类撰写的。他们首先将生成过程中包含的人类撰写片段中的每个词元级三元组映射到其源文本。然后,使用"弗兰肯文本"中的三元组,他们检索所有共享至少4个三元组的人类片段,以减少误报。然后,他们按共享的三元组计数对候选片段进行排名,并过滤掉那些三元组已被排名更高的片段覆盖的片段。最后,他们重新排序匹配的人类撰写内容,使其与"弗兰肯文本"中的内容一致,并计算"弗兰肯文本"和组合候选片段之间的ROUGE-L分数。

在可检测性方面,研究团队报告了被三种最先进的AI文本检测器确定为AI生成文本的"弗兰肯文本"的百分比: - Pangram(Emi和Spero,2024年)是一个闭源检测器,使用经过硬负面挖掘和合成数据训练的Transformer分类器。 - Binoculars(Hans等人,2024年)是一个开源检测器,使用两种语言模型的交叉困惑度。 - FastDetectGPT(Bao等人,2024年)是一个开源方法,对文本扰动进行评分以估计条件概率曲率。

此外,研究团队还进行了两项人类评估研究,共有3名评估员对30个Gemini"弗兰肯文本"进行评估,以进一步了解人类对写作质量和可检测性的感知。第一项是单故事评估,评估"弗兰肯文本"的连贯性、相关性和人类可检测性,以及识别潜在的局限性。第二项是成对评估,研究"弗兰肯文本"与"普通"生成的比较。

实验结果:令人惊讶的高质量"弗兰肯文本"

尽管设置复杂,"弗兰肯文本"却出人意料地连贯且忠于写作提示,这引发了对人类作品的版权和敌对性侵占的严重关切。鉴于它们高比例的人类撰写材料,"弗兰肯文本"大多被二元检测器(如Binoculars和FastDetectGPT)误分类为人类撰写。Pangram虽然能检测混合作者身份,但表现更好,但仍然漏掉了59%的情况,突显了需要适应这种新型生成范式的检测工具。人类评估揭示了未来LLM可以改进的领域,特别是在处理突兀的过渡和语法问题方面。研究团队还展示了"弗兰肯文本"在各种设置中的多功能性,包括更具体的提示、不同级别的逐字复制和对非小说文本的适用性。

### "弗兰肯文本"对二元检测器的挑战,同时保持连贯且与故事前提相关

在所有三个内在评估标准(可检测性、指令遵循和写作质量)方面评估时,Gemini作为该任务的顶级执行模型脱颖而出。总体上,"弗兰肯文本"显示出两个关键趋势:

强大的连贯性和相关性:大多数模型,除了o4-mini和Qwen3-32B-thinking外,生产的"弗兰肯文本"超过90%的相关性和70%的连贯性,考虑到任务的复杂性,这令人惊讶且印象深刻。Gemini特别展示了强大的指令遵循和写作质量。它的"弗兰肯文本"紧密匹配500字的目标字数,并达到75%的最高复制率,意味着75%的内容可以追溯到人类撰写的源材料。然而,这仍低于提示要求的90%逐字复制,表明指令遵循方面仍有改进空间。

较低的可检测性:虽然大多数普通生成被标记为AI生成,但来自专有模型(Gemini、o4-mini和Claude)的"弗兰肯文本"通常被误认为是人类写作,特别是通过二元检测器如Binoculars和FastDetectGPT。Binoculars和FastDetectGPT检测到这些输出中不到20%,表明它们在处理混合作者身份内容时有困难。相比之下,Pangram可以检测到高达37%的Gemini"弗兰肯文本"和47%的Claude"弗兰肯文本"为"混合"。然而,Pangram将超过74%的来自DeepSeek R1和Qwen的"弗兰肯文本"标记为高度可能或可能是AI生成的,这表明当前的混合作者身份检测器可能仍需改进,而这些开源模型可能缺乏生产令人信服的混合文本所需的指令遵循能力。

### 人类可以识别"弗兰肯文本"中的AI参与

大多数评估员在识别"弗兰肯文本"中的AI参与方面比自动检测器表现更好。在用于人类评估的子集中,人类评估员平均识别出56%的"弗兰肯文本"可能是AI撰写的,而Pangram将33%检测为混合或AI生成,Binoculars或FastDetectGPT都没有识别任何AI生成内容。评估员还在个别样本中捕捉到混合作者身份的迹象。他们的判断通常取决于表面级不一致,如突然的音调转变或不自然的标点,这些是人类作者通常会修改的。由于"弗兰肯文本"包括人类写作的逐字摘录,这对严重依赖表面特征的二元检测器构成了特殊挑战。研究团队认为,未来的检测器应该考虑更深入的语义分析和其他上下文线索,以有效识别这种新类型的AI参与文本。

### "弗兰肯文本"主要在叙事过渡和语法方面挣扎

研究团队的单故事人类评估发现,71%的"弗兰肯文本"输出是连贯的,91%与提示相关,84%是新颖的。评估员赞赏"弗兰肯文本"的发明性前提、生动描述和干幽默,注意到一些输出有独特的声音或情感钩子,使它们"感觉像人类",尽管是AI生成的。然而,他们还识别了关键问题:突然的叙事转变(50%)、语言不流畅(43%)、令人困惑的段落(40%)和事实错误(24%)。成对评估进一步显示,"弗兰肯文本"比普通生成更不连贯(4%的胜率),但更不可能被确定为AI生成文本(40%对22%)。这些挑战可能源于拼接非同一LLM撰写的段落的困难,这可以通过改进指令遵循和语法校正来缓解。

### 更高的复制率降低连贯性但使检测更具挑战性

研究团队探索了改变提示中要求的逐字人类撰写文本百分比对Gemini的影响,从默认的90%降至75%、50%和25%。随着人类撰写内容比例的增加,可检测性下降,表明人类内容和检测率之间存在反比关系。连贯性也随着人类撰写内容的增加而下降,表明在整合更多人类文本和保持连贯性之间存在权衡。另一方面,增加人类文本比例导致更高的复制率,表明Gemini通常可以遵循复制指令。

作为混合作者文本中人类写作比例的代理,在90%逐字复制设置中观察到的75%复制率对应于AI-人类协同写作数据集中发现的比例,其中约66%的内容是人类撰写的,14%由AI编辑的段落组成(Lee等人2022年;Richburg等人2024年)。虽然Lee等人(2022年)的CoAuthor设置只研究了LLM可以向人类文本添加句子的设置,但"弗兰肯文本"还考虑了不同粒度的AI生成内容,包括词级和句子级,如图1所示。此外,CoAuthor花费约3,613美元生成1,445个文本,每个2.50美元,而研究团队只需132.38美元就能生成100个"弗兰肯文本"(每个1.32美元),无需复杂设置。这突显了"弗兰肯文本"作为协作写作任务的合成数据的廉价、有效来源的潜力,其中AI可能在多个组合级别上增强人类写作。

### 特定写作提示需要更多AI文本,导致更高的可检测性

Reddit的r/WritingPrompts上的写作提示通常只提供一个一般性故事,而不是严格的约束。但如果我们通过这些写作提示向"弗兰肯文本"引入额外约束会发生什么?研究团队在"Tell Me a Story"数据集(Huot等人,2025年)的100个提示上运行了Gemini的"弗兰肯文本",这些提示包括更多具体要求,如强制故事元素和视角。他们发现,随着提示复杂性增加,复制率从74%略微下降到68%,而Pangram确定的平均AI比例上升了7%。这些趋势表明,为了满足更复杂的约束,模型需要为故事贡献更多原创内容。尽管如此,它们仍然能够在不同的提示设置下表现良好。

### 非小说领域仍有改进空间

研究团队探索了"弗兰肯文本"对非小说文本的泛化能力,使用来自HUMAN DETECTORS语料库(Russell等人,2025年)的1,500个人类撰写的新闻文章段落。他们为100个新闻写作提示生成"弗兰肯文本",这些提示由从2025年5月新闻文章收集的标题和副标题组成。尽管领域转变,所得的"弗兰肯文本"保持72%的连贯性和95%对提示的忠实度,复制率为66%。值得注意的是,它们对自动检测器仍然构成挑战:41%被Pangram标记为混合或AI生成,而Binoculars或FastDetectGPT都没有识别。仔细查看,"弗兰肯文本"展示了准新闻叙事的特点,如详细场景描述和频繁的轶事引述,使"弗兰肯文本"更像故事而非直接的新闻文章。因此,可能需要进一步的提示工程或检索来获得高质量、真实的非小说"弗兰肯文本"。

未来展望与局限性

虽然"弗兰肯文本"展示了令人印象深刻的结果,但研究团队也坦诚地指出了一些局限性。首先,"弗兰肯文本"假设有一个大型的高质量、领域内人类文本池。许多语言、体裁(如技术手册)和低资源领域缺乏这样的语料库,限制了即时可移植性。此外,复制率可能低估了最终生成中包含的人类撰写文本的确切百分比。

研究团队的工作故意暴露了一个新的攻击面(AI能够将大量逐字人类散文编织成流畅叙述的容易程度),以促进混合作者身份检测器和其他防御措施的开发。然而,他们没有提出或评估任何针对"弗兰肯文本"攻击的具体防御措施;他们的贡献是诊断性的,将检测或缓解策略的设计留给未来的工作。

在伦理考量方面,Books3包含仍在版权保护下的作品。研究团队的使用严格限于非商业研究,他们不支持将其用于模型预训练。"弗兰肯文本"本质上模糊了作者身份边界。研究团队不将这种技术视为真正作者身份或创意写作的替代品。随着LLM的改进,二元AI与人类检测器将失效,大量逐字摘录可能会使原作者未获得认可。强大的溯源工具和透明度将是必不可少的。他们认识到类似技术可能被用于抄袭或混淆。他们的研究旨在为更好的溯源跟踪和归因工具的开发提供信息,并支持教育或分析用例,而不是替代真正的人类写作或启用欺骗性做法。

结语

研究团队将"弗兰肯文本"的构建框定为一项测试可控生成极限的新型指令遵循任务。他们的论文专注于内在属性(连贯性、指令遵循、可检测性)作为追求有意义的下游应用的先决条件。通过发布他们的代码和评估套件,他们希望促进关于细粒度检测混合来源文本的未来研究,并为人类-AI协同写作研究提供一个试验场。

正如研究团队所言,这项工作应该转变我们对AI生成文本的思考方式,从简单地问"这是由AI撰写的吗?"到更细致入微的询问:"我们正在阅读谁的话,它们从哪里开始,又在哪里结束?"随着AI技术的发展,这种对文本来源的更细致理解将变得越来越重要。