为进一步提升快手直播的影响力,同时帮助用户快速消费直播中的精彩内容,快手MMU推出一套自研直播高光智能成片解决方案,首先利用语音、视觉等音视频多模态AI技术识别出直播内容的高光片段,再通过智能剪辑技术确定精确的高光时刻起止时间,最后再根据视频内容理解结果智能选择自动字幕、配音配乐、音乐卡点、混剪转场、特效渲染等创作方式,实现一站式全自动智能生成精美的高光短视频。该技术覆盖秀场、游戏、电商等直播场景下30+个细分垂类直播的高光剪辑,既为广泛的创作者制作短视频提供便利,又让用户高效消费直播的精彩瞬间,有效促进了直播高光视频的生产和传播。
前言
快手是一个短视频社区,不仅有海量的短视频内容,还有非常丰富的直播内容。我们知道,直播是即时性内容,需要用户长时间集中精力来消费。为了方便用户快速消费直播中的精彩内容,快手MMU团队自研了一套直播高光智能成片解决方案,利用音频、视觉、NLP等多模态AI技术将直播的高光瞬间智能剪辑生成精美短视频。
目前业界对高光剪辑和视频摘要已有较多的研究和实现,如2019年国庆阅兵中,央视将阅兵直播的精彩瞬间剪辑成短视频发布;咪咕视频把世界杯赛事直播自动剪辑出进球、射门、犯规、过人等精彩片段。可以看出,业界主要针对单一特定直播垂类进行精彩剪辑,而快手的直播内容非常丰富,形成了秀场、电商、游戏、蓝领招聘、影视综等多个场景的直播生态,细分垂类更是丰富多样,如唱歌、舞蹈、乐器演奏、游戏、闲聊、二次元、影视综等等。我们知道,不同垂类直播内容存在明显的差异,这对直播高光剪辑提出非常大的挑战,比如,如何定义不同垂类直播的高光时刻、如何识别不同垂类直播的高光片段、如何对不同垂类直播高光片段进行剪辑和创作、以及如何为不同主播的直播高光片段的质量进行分级等。针对这些挑战和问题,快手MMU团队利用音频、视觉、NLP和跨模态检索等多模态AI技术建设了一套直播高光智能成片解决方案,从高光识别到智能创作实现一站式全自动生成精美的高光短视频,覆盖快手秀场、游戏、电商等直播场景下近30个细分垂类直播。直播高光短视频可以让用户快速消费直播精彩瞬间,有效为直播间进行引流,助力快手直播的有效传播和影响力的提升。
快手直播高光智能成片解决方案
在介绍高光智能成片的解决方案之前,我们先来看看直播高光时刻的定义。
直播高光时刻如何定义?
对于直播高光时刻,不同场景不同垂类直播的高光定义不同,如秀场直播,将直播中主播唱歌、跳舞、搞笑聊天、互动性好等直播片段定义为高光时刻;游戏直播,将游戏直播中的各种击杀事件(三杀、四杀、五杀等)、各种击杀程度(锋芒必露、横扫千军等)以及助攻死亡等定义为高光片段;电商直播,将带货直播中主播介绍商品的片段定义为高光片段。另外,根据不同垂类的特点还将进行多个高光片段的卡点混剪,形成高光集锦,如游戏直播,将多个击杀事件和击杀程度混剪成一个完整的精彩击杀集锦。
直播高光智能成片解决方案
解决方案技术框图如下所示:
直播高光智能成片方案是以图像识别、音频识别和检测等人工智能技术,设计开发了直播垂类划分(分类)、高光片段识别(粗裁)、高光片段剪辑(精裁)、智能视频创作(智创)四大智能处理流程,实现一站式全自动智能高光成片能力。
直播垂类划分(分类)
利用语音、视觉和文字等多模态技术对直播进行分类处理,处理流程如下:
- 将直播进行切片,每分钟切成一个视频片段;
- 对每一个视频片段利用多模态算法划分成不同的垂类类别,如才艺、闲聊、游戏等垂类;
- 将每个片段的结果进行融合处理,修正直播间开播至当前时刻的垂类类别,直至直播结束,得到最终的直播垂类类别。
高光片段识别(粗裁)
如前面介绍,不同垂类直播的高光瞬间的定义不同,所以,针对不同垂类直播,分别利用不同的语音、视觉等多模态AI技术对直播内容进行理解分析,如才艺类直播则识别直播切片中是否在唱歌、跳舞等,语言类直播则识别是否有语音、有互动等,游戏类直播则识别击杀、助攻和死亡等,再根据直播垂类类别进行直播高光片段的粗裁聚合,将相同垂类且相邻的高光片段聚合在一起,形成各个垂类直播的粗裁高光片段。
高光视频剪辑(精裁)
快手直播的玩法多种多样,使得直播内容也是非常丰富多样,这就会造成粗裁高光视频片段通常会含有各种非高光成分,如唱歌片段不是主播自己唱,而是放着原唱;粗裁片段的留白过长,也就是说包含一些不精彩的内容,如跳舞片段,视频开始没有直接跳舞,而是播放背景音乐等。针对各垂类的粗裁视频片段的非高光问题,我们利用音频事件检测、原唱检测、跨模态检索、人脸识别、唇动检测等多模态音视频技术进行精细化裁剪,即精裁处理,得到精确的直播高光瞬间的时间边界信息,有效去除原唱、长留白等非高光成分。
由于主播的水平参差不齐,其唱功、表演水平也是有很大的差别,这里,我们对高光片段的表演水平、和粉丝互动、直播间的氛围进行评分,去除表演水平低、动作单一和互动差的片段。此外,还对视频的质量,如清晰度、直播环境等进行评分,保证精裁高光视频的质量和观感效果。
智能视频创作(智创)
为了生成精美的直播高光短视频,我们还利用AI技术对精裁片段进行智能编辑和创作,提升高光视频的质量和观感。针对精裁高光片段,我们从智能文字生成、智能音频生成、视觉创作、视频特效四个方面分别进行智能美化和渲染:
- 智能文字生成:即利用AI技术为高光视频自动添加标题和字幕,如对于唱歌高光视频,利用音乐识别和语音识别技术自动为其添加歌名和歌词作为标题和字幕;对其他垂类,则分别利用NLP智能标题技术和语音识别技术对高光视频添加标题和字幕
- 智能音频生成:即为高光视频智能添加配音和配乐,采用语音合成、智能配乐等音频生成技术,为高光视频进行智能配音,并根据视频内容智能配上不同风格和情感的背景音乐
- 视觉创作:利用AI技术进行混剪、音乐卡点以及转场特效处理生成高光视频集锦,同时根据音效检测添加视频贴纸
- 视频特效:针对不同垂类建设素材库、音乐库、特效库,然后利用AI技术对高光视频进行特效渲染,以及添加礼物特效,进一步提升视频的观感效果
直播高光智能成片效果
为了验证直播高光智能成片视频的效果,团队针对不同垂类直播的高光成片视频进行QA评测,评测结果显示各个垂类的高光成片视频的优质率达到95%以上。下面给出直播高光智能成片技术生成的短视频效果,分别为唱歌、舞蹈、乐器、戏曲和游戏垂类的直播高光瞬间。
唱歌垂类:
舞蹈垂类:
乐器垂类:
戏曲垂类:
游戏垂类:
总结
快手MMU自研的直播高光智能成片解决方案,利用AI技术对直播内容的高光瞬间进行识别,并智能生成精美的高光短视频。下面总结该技术方案的优势和业务落地。
高光智能成片的优势
- 是一套完备的一站式全自动化解决方案,涉及直播垂类分类、高光识别、高光剪辑、智能创作等一系列智能化处理过程
- 直播垂类分类:利用音频、文字、视觉多模态技术有效划分直播间垂类类别
- 高光识别与剪辑:采用多模态内容理解技术对直播进行分析,去除非高光片段或视频片段中的非高光成分,精准有效的剪辑出直播中的真正高光片段。
- 智能创作:对直播高光片段,进行智能编辑,涉及到智能封面、标题、自动字幕、智能配乐、智能贴纸、卡点混剪、转场等创作方式。而且,对不同垂类直播的高光视频还会进行个性化的特效渲染以及礼物特效,进一步提升高光视频的精致感。
- 覆盖的直播垂类广,支持各种直播场景的高光剪辑
- 才艺类直播:唱歌、跳舞、乐器演奏等
- 语言类直播:闲聊互动、电商直播、招聘直播等
- 科普教学类直播:义务教育、专业学科等教学
- 游戏类直播:王者荣耀、和平精英等游戏
- 延展性强,可快速拓展支持影视综、体育赛事以及长视频等的智能拆条和高光剪辑
高光智能成片的业务落地
- 高光视频为直播间进行引流,提升直播间的曝光和消费指标
和直播业务团队合作,利用直播高光智能成片生成的高光视频作为living photo,为主播的直播间引流,提升直播间的曝光和消费效果。从对直播的引流效果拉看,在单列场景下live-photo CTR、进入直播间的次均观看时长、打赏效率等指标都显著优于大盘。
- ToB业务
目前该技术方案也考虑用于ToB业务,且高光成片效果得到客户的高度认可。
作者:MMU
来源:微信公众号:快手技术团队
出处:https://mp.weixin.qq.com/s/5zh8lCXLxAJ3gmE8A-SPag
创业项目群,学习操作 18个小项目,添加 微信:jjs406 备注:小项目!
如若转载,请注明出处:https://www.xmfxquan.com/6173.html