(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210284151.9
(22)申请日 2022.03.22
(71)申请人 西安知了科技有限公司
地址 710075 陕西省西安市高新区高新 一
路创新大厦S61 1
(72)发明人 刘怀亮 杨帆 杨斌 赵舰波
(74)专利代理 机构 西安嘉思特知识产权代理事
务所(普通 合伙) 6123 0
专利代理师 李薇
(51)Int.Cl.
G06V 20/62(2022.01)
G06V 30/262(2022.01)
G06F 16/903(2019.01)
G06F 16/33(2019.01)
G06F 40/30(2020.01)G06F 40/205(2020.01)
G06F 40/242(2020.01)
G06F 40/284(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
H04N 21/466(2011.01)
(54)发明名称
一种视频播 放量预测方法
(57)摘要
本发明公开了一种视频播放量预测方法, 包
括: 获取待预测视频的历史播放量数据; 识别所
述待预测视频的封面文本; 分别获得视频标题文
本、 视频简介文本以及视频封面文本的情感值;
获得视频标题文本、 视频简介 文本和视频封面文
本的情感句向量; 对视频标题文本、 视频简介文
本和视频封面文本的情感句向量进行相似度计
算, 获得文本信息量; 构建视频播放量预测模型
并进行训练, 获得训练后的预测模型; 将视频时
长, 历史播放量数据, 视频标题文本、 视频简介文
本以及视频封面文本的情感句向量 以及文本信
息量输入到预测模型中, 获得待预测视频的预测
播放量。 本发 明能够捕捉更为全面的视频播放量
信息特征来预测视频播放量, 预测效率高且准确
率高。
权利要求书3页 说明书8页 附图2页
CN 114842461 A
2022.08.02
CN 114842461 A
1.一种视频播 放量预测方法, 其特 征在于, 包括:
获取待预测视频的历史播放量数据, 所述历史播放量数据包括待预测视频发布后若干
天的视频播 放量数据以及预测目标时间节点前若干天视频播 放量数据;
识别所述待预测视频的封面文本;
获得待预测视频的视频标题文本的情感值、 视频简介文本的情感值以及视频封面文本
的情感值;
获取所述视频标题文本的句向量、 所述视频简介文本的句向量和所述视频封面文本的
句向量, 并对所述句向量进行情感值加权, 获得所述视频标题文本的情感句向量、 所述视频
简介文本的情感句向量和所述视频封面文本的情感句向量;
对所有情感句向量进行相似度计算并根据相似度值获得文本信息量;
构建视频播放量预测模型和训练数据集, 并利用所述训练数据集对所述视频播放量预
测模型进行训练获得训练后的预测模型;
将待预测视频的视频时长、 历史播放量数据、 视频标题文本的情感句向量、 视频简介文
本的情感句向量、 视频封面文本的情感句向量以及文本信息量输入到所述预测模型中, 获
得待预测视频的预测播 放量。
2.根据权利要求1所述的视频播放量预测方法, 其特征在于, 识别所述待预测视频的封
面文本, 包括:
分别利用多种不同的OCR技术识别 待预测视频封面中的文本信息, 获得对应的多个OCR
识别文本;
对所述不多个OCR识别文本进行字符串比对, 选取出现相同次数最多的文本作为最终
的视频封面文本 。
3.根据权利要求2所述的视频播放量预测方法, 其特征在于, 对所述不多个OCR识别文
本进行字符串比对, 选取 出现相同次数最多的文本作为 最终的视频封面文本, 还 包括:
对所述多个OCR识别文本进行字符串比对, 若存在多个识别文本具有相同且最多的出
现次数, 则将相同且最多 出现次数的多个识别文本 分别与待 预测视频标题文本进 行相似度
计算, 并选取相似度最大的识别文本作为 最终的文本识别结果。
4.根据权利要求3所述的视频播放量预测方法, 其特征在于, 所述相似度计算的具体过
程包括:
将相同且最多出现次数的多个识别文本以及待预测视频标题文本通过预训练模型分
别转换成句向量;
利用相似度计算公式计算每个识别文本的句向量与视频标题文本的句向量之间的相
似度, 其中, 所述相似度计算公式为:
其中, A表示所识别文本的句向量, B表示视频标题文本的句向量, ai表示句向量A中的第权 利 要 求 书 1/3 页
2
CN 114842461 A
2i个元素, bi表示句向量B的第i个元 素, N表示句向量中元 素的个数;
选用相似度最大的句向量对应的识别文本作为 最终的文本识别结果。
5.根据权利要求1所述的视频播放量预测方法, 其特征在于, 获得待预测视频的视频标
题文本的情感值、 视频简介文本的情感值以及视频封面文本的情感值, 包括:
对所述视频标题文本、 所述视频简介文本和所述视频封面文本分别进行分词处理, 去
掉特殊字符, 得到各自的分词集 合;
查找所述分词集合中的所有情感词并获得情感词初始得分, 从每个情感词开始向前搜
索获得程度副词与否 定词, 并获得程度副词初始得分和否 定词初始得分;
根据分词集合中的情感词、 程度副词和否定词的数量及初始得分, 分别计算获得视频
标题文本的情感值、 视频简介文本的情感值和视频封面文本的情感值, 计算公式为:
情感值=(∑情感词初始得分*情感词数量)*
(∑程度副词初始得分*程度副词数量+∑否 定词初始得分* 否定词数量)。
6.根据权利要求1所述的视频播放量预测方法, 其特征在于, 对所有情感句向量进行相
似度计算并根据相似度值获得文本信息量, 包括:
将所述视频标题文本的情 感句向量、 所述视频简介文本的情 感句向量和所述视频封面
文本的情感句向量两两作余弦相似度计算, 得到三个相似度值; 将所述三个相似度值两两
作差, 并选取最大的差值作为所述文本信息量。
7.根据权利要求1所述的视频播放量预测方法, 其特征在于, 构建视频播放量预测模型
和训练数据集, 并利用所述训练数据集对所述视频播放量预测模型进 行训练获得训练后的
预测模型, 包括:
利用BP神经网络构建视频播放量预测模型, 其中, 所述视频播放量预测模型包括输入
层、 第一层、 第二层、 隐藏层和输出层;
获取训练数据集, 所述训练数据集中包括大量视频数据, 每个视频数据均包含其视频
时长、 历史播放量数据、 视频标题文本的情感句向量、 视频简介文本的情感句向量、 视频封
面文本的情感句向量以及文本信息量;
利用训练数据集对所述视频播放量预测模型进行训练和权值调整, 直至预测视频播放
量与真实视频播 放量的差值达 到阈值条件, 获得训练后的视频播 放预测模型。
8.根据权利要求7所述的视频播放量预测方法, 其特征在于, 所述输入层包括视频结构
化信息和视频文本非结构化信息, 所述视频结构化信息包括视频时长和历史播放量数据,
所述视频文本非结构化信息包括视频标题文本的情感句向量、 视频简介文本的情感句向
量、 视频封面文本的情感句向量以及文本信息量;
所述输入层中的视频结构化信 息全连接至所述第 一层, 并在所述第 一层中进行加权计
算, 所述输入层中的视频文本非结构化信息的三个情感句向量分别经过嵌入层进行降维,
并在降维后与所述文本信息量进行 特征拼接, 获得 特征拼接后的向量;
所述第一层的输出与 特征拼接后的向量同时作为第 二层的输入, 第 二层的输出通过权
重连接至隐藏层, 最终通过 所述输出层输出 预测的视频播 放量。
9.一种存储介质, 其特征在于, 所述存储介质中存储有计算机程序, 所述计算机程序用
于执行权利要求1至8中任一项所述视频播 放量预测方法的步骤。
10.一种电子设备, 其特征在于, 包括存储器和处理器, 所述存储器中存储有计算机程权 利 要 求 书 2/3 页
3
CN 114842461 A
3
专利 一种视频播放量预测方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:47:28上传分享