AI 自动写作 · 产品调研

最近在做 AI 生成童谣的小项目,一直在做校对,对文本生成领域还不太熟悉,调研了一下这方面的产品在其业务需求下的技术底层逻辑。

AI 自动写作的产品已经又好几家,从内容层面,我分为两种不同的稿件类型:

  • 第一种是AI新闻时事类写作,核心场景是在内容平台通过人-机混编的方式,机器帮助编辑(内容创作者)减少重复劳动,提高生产效率,主要调研了今日头条的xiaomingbot、腾讯的Dreamwriter、百度的writing-bots。
  • 第二种是AI人文类写作,目前比较成熟的是写诗,主要调研的有微软的对联、诗人小冰、还有清华研究的「薇薇」,科幻小说,恐怖故事Shelly。从目前的AI作诗产品本身的应用来看,几乎没有更近一步的商业想象空间,感觉是停留在技术探索的阶段。

今日头条 xiaomingbot

现状和问题:

大部分的文章阅读次数比较少,少量的文章被阅读的次数非常非常多。

文章创作需要投入不小的精力,但很多内容,阅读量非常少可能不会超过 1000 次,这样的内容投入产出效率可能比较低。用机器创作的话,成本就会小很多。

选择的内容类型:

一开始是做奥运会的赛事文章撰写。它包含三方面的输入——实时比分、实时图片数据,以及热门比赛的文字直播。包括 NBA、CBA、欧洲五大联赛、中超,以及国庆期间的中网等等。

产品价值

做好内容引擎有四个环节:

内容的创作、内容的推荐以及围绕内容的讨论还有内容的审核。

将内容创作和交流的效果提高:为每个人推荐他最喜欢的内容。技术需要做到:

  1. 理解人。我们要用机器学习技术去理解用户的兴趣爱好,他的年龄、性别,他过去读了哪些文章等等,把这些组合起来刻画出他的兴趣方面完整的画像。
  2. 理解内容。内容不单单是图文,也可以是视频,内容的主题是什么?关键词是什么?热度是什么?这些会决定推荐质量的好坏。
  3. 环境特征。在北京还是在上海还是在苏州,白天还是晚上,要因地制宜推荐不同的内容。

业务逻辑和底层技术

Xiaomingbot 主要涉及的技术包括以下方面:

  1. 是关于比赛的实时比分的数据通过文法结构和模板生成。
  2. 关于图片,我们通过计算机视觉分析图片内容,将它和文字结合匹配出
  3. 方面是知识库的建立,像比赛球队的历史、球员信息,作为额外信息补充进去。
  4. 是网上有一些直播文字抓取过来的信息,通过机器学习里排序学习的技术去挑选最重要的内容,融合进文章中。

网上的直播文字信息其实非常复杂,有不重要的信息,甚至会夹杂网友的评论。我们在生成新闻的时候希望把比赛最重要的环节,像进球、判罚等等给找出来;另外,需要考虑挑选出来的句子相互之间相似度要尽量小,但涵盖信息量又尽量大。通过 DPP 算法可以有效找出直播中的重点信息且涵盖最大的信息量。

如何评价今日头条研发的写稿机器人Xiaomingbot? - 知乎

自动写作机器人,或者广义的说 文本生成,分为”模板填充式“,”抽取(chao xi)式”和“生成”式。模板填充式最好理解,有个模板往里面填项目,运动员比分就行。

技术困难和挑战。

一是深度内容自动生成有难度。算法能否自动从深度内容中学出模板以及良好的写作风格?

二是机器写作不能仅关注生成,难点更在于对数据的分析和理解,比如哪些数据重要、数据之间的因果关系。这需要更好的算法来提高计算机的推理能力以及理解自然语言。

三是目前写作还不能针对不同读者做到个性化。皇马和巴萨比赛,我是皇马球迷,你是巴萨球迷,我们关注的点可能不一样,我希望看到更多皇马的描述,你希望看到更多巴萨的细节。未来机器写作还需要做到个性化。


腾讯 Dreamwriter

刘康认为,“机器写作从 0 到 1 大家都可以有,但从 1 到 2、到 3 要花费相当大的精力。”他表示“今天的数据量非常细,我们可以描述到每一个数据的颗粒还原。”

他举例此前奥运期间的一篇跳水的稿件。“因为跳水是一个评分制的比赛,比如说我现在是评委,大家在进行比赛,我要给每个动作打分,这些打分都是记录在数据库里的,比如走板、空中姿态、落水姿态、水花这些都是有详实的数据的,它会被录进数据库。然后我们再怎么写它呢?这些数据会被我们通过一定的算法和机器自己的识别,我们先让机器跑几十万篇的数据,跑一个规则出来,它会自己把这些数据重新还原。因为每一个分数都可以还原成一个动作,这样通过一定的算法把它还原成原先的场面。”

但是要做的很好,就非常难。刘康解释到,像财经和体育两个领域都难,但又不难。这是因为,财经本身有强烈的规则和算法模型,做简单的报道没有太多的技术含量,而难在对数据的解读、认知需要一套模型来判断它,甚至将来的预测。至于体育,关于球队比分可以从数据里抓取,但难在描述本身,“只有表示精彩才会看,如果不够精彩我会想去看视频。”


百度智能写作机器人 Writing-bots

需要解决的问题

智能写作机器人与内容生产者之间主要有两层关系:

一是「代替」,将作者的重复性、规范性写作和客观数据聚合类劳动用机器进行替代,让作者可以更好的投入到深度文章的创作。

二是「服务」,人工智能可以通过大数据帮助编写深度文章的作者,进行语料、素材的高效率搜集与初级加工工作,

同时也可以基于行业的深度结构化数据完成基础数据分析及文章生成工作,服务于内容生产者,提升他们的写作效率。

而这也正是我们智能写作的未来的发展目标——人机混合编辑

业务逻辑和底层技术

基本的创作流程是什么:

其中核心流程「自动写稿」部分通常还包括文档规划(document planning)、微观规划(micro-planning)和表层实现 (surface realization) 三个阶段,分别解决稿件写什么、怎么写以及如何润色呈现的问题。比如文档规划,需要确定写什么内容,采用什么结构来写,微观规划则更加细致化,具体要确定怎么来写每个段落、每个句子、每个标题以及内部的结构组织等。表层生成,则是对文章整体的润色和改写,比如如何调整文章格式、给文章配图等。

从技术方案上看,主要分为两类:

一类是基于结构化数据、知识库或优质资源直接生成的文章。速报和大部分知识类文章是基于这类技术方案。这类文章因为直接从数据通过分析聚合或知识推理生成原始稿件,因此可以说是原创。

另一类是在已有稿件的基础上通过内容分析聚合生成的新的文章。大部分资讯聚合类文章,如话题盘点、事件脉络、热门要闻回顾等都属于此类。因为是基于已有稿件内容创作新的稿件,因此可以看作是二次创作。当然,我们也可以在一篇文章的生成中结合上述两种技术,进行混合创作。

以资讯聚合类文章生成为例:

首先,聚合类文章的话题选择和资讯内容获取是基于内容理解和用户理解技术。利用百度自建的关注点图谱(主题、实体、事件标签以及标签间的关系)和标签预测技术,我们为每篇资讯内容打上关注点标签,同时根据用户的搜索或阅读行为可以获得用户的关注点标签,即用户的兴趣点。

这样就获得了用户感兴趣的话题,同时基于内容标签可以获得相关话题的资讯内容。

其次,基于内容理解和生成技术对于同一话题的内容进行压缩和聚合,相关技术包括:事件分析,话题聚类,事件脉络抽取,自动摘要,标题生成、结构生成等,而机器学习和知识推理是这些技术实现的基本方法。

技术挑战

智能写作技术上最大的难点是什么:

人类作者在撰写文章时通常会对数据、内容和话题进行深入理解,并可以进行演绎、推理和联想,从而完成更深入的报道,充分表达自己的观点和立场。

而相比之下,机器则更长于数据分析和规范的写作,在自然语言深入理解,以及让稿件具有观点和立场等方面还有很大的提升空间

在深度文章写作方面,我们也在做一些探索和尝试,比如情感分析等研究,力图让机器写作更贴近人类,甚至希望有一天它能有自己的立场和观点,更加人性化。

但就目前而言,我们的智能写作机器人会更聚焦用户需求,偏重数据分析和客观文章的撰写,致力于帮助内容创作者减少重复劳动,节省更多精力去撰写更加优质的深度内容。


微软 AI 对联&诗歌

微软对联

微软对联是由微软亚洲研究院自然语言计算组研发的计算机自动对联系统。当用户给定上联,它能够自动提供若干下联供用户选择; 并且当用户确定一副对联后,它还能够生成若干四字横批供用户参考

对联:

诗歌:

AI 九歌机器人

九歌——计算机古诗创作系统


AI 科幻小说

他们的程序可以从大量文本中识别的几十种结构和内容风格上的细节,如果你想要写一个故事,你可以先给它一系列已经写好的、伟大的故事,程序就能够识别出那些伟大故事中的共同之处。

哈蒙德和布鲁克创建了一个基于Web的界面,通过这个界面,他们名为SciFiQ的算法可以从文本的“原子层面”上告诉我,我写的每一个细节与我最喜欢的50个作品中的细节相匹配的程度如何。(我所说的“原子层面”,指的是“每100个词中应该有多少名词”。)当我输入一个单词或短语时,只要和SciFiQ的想法有点不同,界面会亮起红色或紫色。当我修正这个词或短语时,界面会变绿。

大多数作家和读者所说的风格(一种可识别的语言方式)和算法所考虑的风格不一样。它的风格就是平均每个句子和段落长度的差异、每100个单词中的动词数量,以及我的故事必须遵循的许多其他的统计数据和模式。


AI 恐怖故事

Shelly 能够写出让人恐怖的故事。不过,它真正吸引人之处在于,这些故事不仅仅是算法的产物。在这个过程中,AI 强化和补充了人类的能力,而非替代人类的能力。Shelly 把人类思维融入到 AI 设计之中。

Shelly 的开发团队从 reddit 的恐怖故事板块提取了 1.4 万个恐怖故事,用来训练神经网络


附:AI 自动写作 相关阅读&论文

机器写诗


  • update,180420
  • created,180302
这是我的原创文章,如果觉得不错,可以打个赏~