图文实录｜澜舟科技合伙人李京梅：基于预训练模型的 AIGC 技术与应用实践

2,088 0

2023年1月6日，由稀土掘金技术社区与 Intel 联合发起的第一届「掘金未来大会」在北京成功举行。

大会上，澜舟科技合伙人、首席产品官李京梅介绍了澜舟科技的孟子轻量化预训练模型，及其已经在 GitHub、 Hugging Face 以及 ModelScope 等多个社区开源，提供近 20 个模型，涉及阅读理解、文本生成、多模态、金融等等各个方面，企业均可以下载使用。

此外，李京梅通过营销文案写作、文学辅助写作、基于情节配图三大场景进一步展现基于预训练模型的 AIGC 技术的实践应用。她表示，

人类应持续提升创造力，AI 将通过提升产业效率的方式来帮助人类更好地创造价值

。

以下为澜舟科技合伙人、首席产品官李京梅演讲全文：

预训练模型标志着 NLP 进入了工业化实施阶段

澜舟科技正式成立于 2021 年 6 月，是一家初创企业，基于预训练模型做 NLP 的技术创新，驱动在各个垂直领域落地。今天也将重点聚焦泛互联网领域，尤其是现在较火的 AIGC，看看大模型在具体领域中可以做哪些事情。

技术发展之上是一个简单的时间轴。80 年代，是一个基于符号、统计等等相关模型的时代，到了 2010 年，开始进入深度学习时代。在 NLP 自然语言处理的领域中，一个最大的技术突破是 2017 年谷歌出现了 Transformer 技术，一切就开始变得不一样了。再到 2019 年，阅读理解 AI 第一次超越人类，以及后来出现的一些大模型，包括目前广泛应用的 OpenAI GPT-3，以及预期 2023 年 GPT-4 什么时候会出现等等。

从最早的运算智能，如大数据、云计算等等都属于刚需了，以及感知智能，像视觉、语音都已经非常成熟。但现在为什么又谈认知智能？认知智能，是你看到了，听到了，有没有懂？有没有理解？是不是能够思考？能够做决策？……如今，谈到 AIGC ，就是 AI 创作内容，你能不能看到了，听懂了，也理解了，更能创造内容了。因此，

现在是从感知智能演变到认知智能，甚至是创造智能的阶段

。

此次提到的大模型是一个预训练模型。什么是预训练？就是对互联网公开的、海量的数据去做无监督的训练，从而让模型对特定任务的学习变得轻松。而不是传统的靠人去做标注。好处在于，模型的水平已经提得很高，落地时就会基于某一个垂直领域的数据，或者某一客户的数据，只需做微调，落地就非常敏捷了，这时候客户要提供的数据比传统机器学习从 0 开始做一个模式要更快。也就是说，

预训练模型标志着 NLP 进入了工业化实施阶段，可以核算成本，也可以作为生意，客户也能看到价值

。

澜舟科技有一个技术品牌叫孟子，专注于中国的客户、市场以及中文，在基础模型上，自研了一个孟子轻量化预训练模型。简单来讲，做了三件事：

一是

模型优化

。在模型的架构上做了性能优化、任务构造等等；
二是

知识增强

。虽然是个预训练，但在不同的领域需要具备一定的领域的知识，因此基于知识图谱、语言学等方面做知识增强；
三是

数据增强

。虽然这是一个通用预训练，但还是会有一些任务，比如阅读理解、分类、长短文本理解等等，还是会在一定的大范围内做相关的数据增强。

因此，孟子轻量化预训练模型不仅是一个模型，还是一系列的若干模型。2022年，孟子轻量化技术迈上新台阶：登顶 ZeroCLUE 和 FewCLUE 榜单，这使得孟子预训练模型是轻量化的，真正落地的体积要求的数据量都会小，经济且快速地适配。

除此之外，孟子轻量化多任务模型已经在 GitHub、 Hugging Face 以及 ModelScope 等多个社区开源，提供近 20 个模型，涉及阅读理解、生成、多模态、金融等等各个方面，企业均可以下载使用。

面向三大场景的 AIGC 应用

虽然澜舟科技有大模型、NLP 等相关技术，但却十分注重在垂直领域或是场景化的前提下进行落地。此次分享则聚焦营销文案写作、文学辅助写作、基于情节配图这 3 个场景展开 AIGC 应用：

1、文学辅助写作场景

。澜舟与中文在线、17K 小说等网文平台合作过程中听到许多实际的需求，为此，澜舟也提供了 4 类服务：

续写

。用户开头写前文，机器往下续写，这是一种很常见的交互式写作；
基于关键字生成

。比如用户语文不太好，但想出了许多辞藻，一定要放到作文中，却串不成句子，那么基于关键词就可以让 AI 帮助润色，语法也十分通顺；
实体渲染

。这是网文创作中刚需的需求，这里的实体指的是一个人物、物体等等，比如，现代男性、古代美女、或者一种法器，基于关键词描写实体；
自定义模板

。基于用户自定义模板做完型填空、填词造句。

实际上，澜舟所提供的能力已经在中文在线和 17K 小说平台落地实现，赋能平台作者写作能力。比如，澜舟的能力开放在 17K 小说的作者写作界面中，是一个非常跨界的应用，都是基于孟子预训练模型中的文本生成的能力，以及利用网文的相关语料的落地，同时，交付也非常轻，就是一个接口，然后集成到 17K 的作者平台上。

澜舟还做了一个 To C 的小程序，叫熊猫小说家，实际上就是故事接龙。用户作为一个发起者先要创建故事，构思情节给到一个故事梗概，然后再给出一些关键词，就可以随机生成文字。如果用户属于社牛型，还可以把小说公开到广场，谁想来一起往下写都可以。可以说，澜舟在文学辅助写作上的 AIGC 的能力放到了小程序中，有兴趣的都可以试一试。

2、营销文案写作场景

。营销文案其实是澜舟做得较早的一个落地应用，目前聚集

美妆

和

汽车

领域。用户可以从两个领域中进行选择，系统中有写内容、生成题目、改写等等方面，但都需要用户给到一定的关键字。到这里，大家会发现对于模型、技术而言，写什么都比较类似，关键在于在不同领域中，澜舟有不同的数据，所以关键词不一样，也就很快能适配到不同的应用的领域，但背后的技术是相通的，不用重新做一个完全不同的技术体系。比如，汽车领域中，可能涉及到一些专业的知识图谱，有品牌、有款型等等，当然，这只是一个体验，依然有不足指出，但如果有定制合作的需求，效果肯定比线上的试用 demo 更好。

一年前，澜舟与数说故事开展合作，数说故事做前台，澜舟做背后的引擎，打造了一款自动化写作产品，名为 http://content-note.com 智能文案，分成 “选择模板-输入关键词-生成结果” 三个步骤走。此外，还有澜舟论文助写（LPA），主要是基于用户提供的关键词生成完整的句子，以及根据前文生成下一个句子供作者参考，现在澜舟还将其拓展到人工智能的英文论文写作，参加 NLP 、 ACL 等领域顶会的研究人员使用，与 ChatGPT 相比，写出的内容更具论文范。

以上两个场景都是文本生成类应用，可以看到澜舟科技作为一个平台，它的底层是大模型以及算法、技术和数据等等，在具体领域中落地时，会有不同垂直领域的数据，这时候就出现了分支，还有一些针对文本生成相关的句子，最后都会归纳成澜舟文本生成平台。

同时，整个文本生成引擎功能有 6个特点：

多属性可控文本生成

，通过关键字、主题、完型填空、实体渲染等控制属性达成 AI 可控性的目的；
多样化的文本生成形式

，基于已有文本的续写，以及基于关键词、标题、表格数据的文本扩写，使用更加灵活；
基于知识图谱的文本生成

，用户可以自定义知识图谱，提高生成内容的事实正确性；
内容和风格定制化

，基于用户数据构建专属文本生成引擎；
文本自动评测系统

，可以评测文本正确性、逻辑连贯性等等；
多行业领域支持

，比如营销、金融、新闻、医疗、教育等众多行业。

3、基于情节配图

。虽然澜舟科技主打不是做图，但文、图有很多相通性，尤其是在模型底层向量化之后，无论是文字、语音还是图片，可比性和相似度变得非常的容易。澜舟科技在文-图生成模型 Stable Diffusion 基础上进一步做垂直领域的落地，这里面分了几个模型，有图像编码、解码以及中间去噪的一个模型。如下图所示，左边是一个飞马，右边一个飞着的斑马，中间加的字就是飞在天上的斑马，最后飞马身长多出来“黑色条纹”变成了斑马，因此，文字进来也会进行编码，进去到去噪的模型中，大概就是这么一个原理。

那么，澜舟科技具体在 Stable Diffusion 基础上做了什么？首先是文到图生成，比如，给小说中的一段话配图；其次是以图生图，比如，一位小朋友想要画这样一幅画：一只蜗牛，背上背着一栋房子，天上有彩虹。但小朋友画不好，那么，基于小朋友的画可能有不同画风的 AI 生图；最后是以文控图，比如，先生成一张“一个穿裙子的小女孩”的图片，在此基础上，还可以是在唱歌、在跳舞、在拉小提琴等等，通过文字再次控制原图片生成。

以上都是 Stable Diffusion 已经开源的模型以及常见的一些场景，其中还有在产品化、工具化以及标准化方面需要澜舟科技发力的地方，而且已经有许多场景接近于可以对公众发布。

那么，澜舟 AI 文图生成技术主要有几个特点：

中文优化更可控

；
智能提示生成

，众所周知，Stable Diffusion 基于 prompt （提示），而普通用户只会讲自然语言，如何把它翻译成更好的模型，可以理解的 prompt ，以及可能会适当添加用户并没有输入的内容，这些都是澜舟需要做工作之一；
概念构建一致性

，这里的概念可能是一个小说里的人物、法器或者其他的物件等等，让它们在一个小说故事中保持一致性，也是一个挺大的挑战；
个性化定制训练

，AI 不能随机定制，比如小说故事中的人物，AI 定制的人物形象从始至终必须保持一直；
推理加速提升体验

，包括降低成本，毕竟商业化付费时对业务是有价值的。

目前，澜舟科技也有一些初步的研究成果，比如可控的文图生成的风格控制，举个例子，生成一种国画风，也是用到 Stable Diffusion，但中间也会做一些训练进行反哺，就是有一个 Discriminator 判别器，中间有人员参与挑选生成的图片，然后告知模型生成的图片中有哪些是符合国画风的，哪些是不符合的，即把正确的结果再反哺给 Stable Diffusion ，如此训练出来的模型再去推理时，效果就会接近想要的风格。再比如，一张女孩子的图片，还可以指定风格生成二次元、国画、赛博朋克等不同风格的需求。

再拿形象控制来说，比如小说故事中的人物必须长成描述的样子，给定目标形象，但训练时也怕会出现拟合，需要把一些泛化的形象塞到模型中。为此，澜舟采用的是 DreamBooth 的方法，即拿一个字符去代表某一种男孩的形象进行训练，当进行推理时，只要告诉模型要推理这个字符形象的男孩，就能得到想要的效果。比如，一个男生走进便利店，他会出现在询问店员、拿商品以及结账等场景中，当然现在还会有一些瑕疵需要后续不断完善。

最后，澜舟科技未来能做的事情还有很多，也十分看重应用场景的切实落地，过程中还有许多问题亟待解决：

一是长文本生成的可控性

，AI 写几百字的文本还可以，但如果是上千字，可控性就没有那么强；

二是篇章和上下文一致性

，比如熊猫小说中的故事接龙，涉及上千篇章或节，以及将前面的摘要融合到上一篇或者上一节内容，都是需要去探索的地方；

三是常识与事实合理性

，这方面可能就要引入知识图谱，比如让机器晓知天文地理，对时间地点、人物关系等合理性描述；

四是，个性化敏捷定制

，比如，用户有一个固定的人物形象或是一个插画，究竟如何去做个性化定制都需要后续探索。