专利 一种视频播放量预测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210284151.9 (22)申请日 2022.03.22 (71)申请人西安知了科技有限公司地址 710075 陕西省西安市高新区高新一路创新大厦S61 1 (72)发明人刘怀亮　杨帆　杨斌　赵舰波　 (74)专利代理机构西安嘉思特知识产权代理事务所(普通合伙) 6123 0 专利代理师李薇 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/262(2022.01) G06F 16/903(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01)G06F 40/205(2020.01) G06F 40/242(2020.01) G06F 40/284(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) H04N 21/466(2011.01) (54)发明名称一种视频播放量预测方法 (57)摘要本发明公开了一种视频播放量预测方法，包括：获取待预测视频的历史播放量数据；识别所述待预测视频的封面文本；分别获得视频标题文本、视频简介文本以及视频封面文本的情感值；获得视频标题文本、视频简介文本和视频封面文本的情感句向量；对视频标题文本、视频简介文本和视频封面文本的情感句向量进行相似度计算，获得文本信息量；构建视频播放量预测模型并进行训练，获得训练后的预测模型；将视频时长，历史播放量数据，视频标题文本、视频简介文本以及视频封面文本的情感句向量以及文本信息量输入到预测模型中，获得待预测视频的预测播放量。本发明能够捕捉更为全面的视频播放量信息特征来预测视频播放量，预测效率高且准确率高。权利要求书3页说明书8页附图2页 CN 114842461 A 2022.08.02 CN 114842461 A 1.一种视频播放量预测方法，其特征在于，包括：获取待预测视频的历史播放量数据，所述历史播放量数据包括待预测视频发布后若干天的视频播放量数据以及预测目标时间节点前若干天视频播放量数据；识别所述待预测视频的封面文本；获得待预测视频的视频标题文本的情感值、视频简介文本的情感值以及视频封面文本的情感值；获取所述视频标题文本的句向量、所述视频简介文本的句向量和所述视频封面文本的句向量，并对所述句向量进行情感值加权，获得所述视频标题文本的情感句向量、所述视频简介文本的情感句向量和所述视频封面文本的情感句向量；对所有情感句向量进行相似度计算并根据相似度值获得文本信息量；构建视频播放量预测模型和训练数据集，并利用所述训练数据集对所述视频播放量预测模型进行训练获得训练后的预测模型；将待预测视频的视频时长、历史播放量数据、视频标题文本的情感句向量、视频简介文本的情感句向量、视频封面文本的情感句向量以及文本信息量输入到所述预测模型中，获得待预测视频的预测播放量。 2.根据权利要求1所述的视频播放量预测方法，其特征在于，识别所述待预测视频的封面文本，包括：分别利用多种不同的OCR技术识别待预测视频封面中的文本信息，获得对应的多个OCR 识别文本；对所述不多个OCR识别文本进行字符串比对，选取出现相同次数最多的文本作为最终的视频封面文本。 3.根据权利要求2所述的视频播放量预测方法，其特征在于，对所述不多个OCR识别文本进行字符串比对，选取出现相同次数最多的文本作为最终的视频封面文本，还包括：对所述多个OCR识别文本进行字符串比对，若存在多个识别文本具有相同且最多的出现次数，则将相同且最多出现次数的多个识别文本分别与待预测视频标题文本进行相似度计算，并选取相似度最大的识别文本作为最终的文本识别结果。 4.根据权利要求3所述的视频播放量预测方法，其特征在于，所述相似度计算的具体过程包括：将相同且最多出现次数的多个识别文本以及待预测视频标题文本通过预训练模型分别转换成句向量；利用相似度计算公式计算每个识别文本的句向量与视频标题文本的句向量之间的相似度，其中，所述相似度计算公式为：其中， A表示所识别文本的句向量， B表示视频标题文本的句向量， ai表示句向量A中的第权　利　要　求　书 1/3 页 2 CN 114842461 A 2i个元素， bi表示句向量B的第i个元素， N表示句向量中元素的个数；选用相似度最大的句向量对应的识别文本作为最终的文本识别结果。 5.根据权利要求1所述的视频播放量预测方法，其特征在于，获得待预测视频的视频标题文本的情感值、视频简介文本的情感值以及视频封面文本的情感值，包括：对所述视频标题文本、所述视频简介文本和所述视频封面文本分别进行分词处理，去掉特殊字符，得到各自的分词集合；查找所述分词集合中的所有情感词并获得情感词初始得分，从每个情感词开始向前搜索获得程度副词与否定词，并获得程度副词初始得分和否定词初始得分；根据分词集合中的情感词、程度副词和否定词的数量及初始得分，分别计算获得视频标题文本的情感值、视频简介文本的情感值和视频封面文本的情感值，计算公式为：情感值＝(∑情感词初始得分*情感词数量)* (∑程度副词初始得分*程度副词数量+∑否定词初始得分* 否定词数量)。 6.根据权利要求1所述的视频播放量预测方法，其特征在于，对所有情感句向量进行相似度计算并根据相似度值获得文本信息量，包括：将所述视频标题文本的情感句向量、所述视频简介文本的情感句向量和所述视频封面文本的情感句向量两两作余弦相似度计算，得到三个相似度值；将所述三个相似度值两两作差，并选取最大的差值作为所述文本信息量。 7.根据权利要求1所述的视频播放量预测方法，其特征在于，构建视频播放量预测模型和训练数据集，并利用所述训练数据集对所述视频播放量预测模型进行训练获得训练后的预测模型，包括：利用BP神经网络构建视频播放量预测模型，其中，所述视频播放量预测模型包括输入层、第一层、第二层、隐藏层和输出层；获取训练数据集，所述训练数据集中包括大量视频数据，每个视频数据均包含其视频时长、历史播放量数据、视频标题文本的情感句向量、视频简介文本的情感句向量、视频封面文本的情感句向量以及文本信息量；利用训练数据集对所述视频播放量预测模型进行训练和权值调整，直至预测视频播放量与真实视频播放量的差值达到阈值条件，获得训练后的视频播放预测模型。 8.根据权利要求7所述的视频播放量预测方法，其特征在于，所述输入层包括视频结构化信息和视频文本非结构化信息，所述视频结构化信息包括视频时长和历史播放量数据，所述视频文本非结构化信息包括视频标题文本的情感句向量、视频简介文本的情感句向量、视频封面文本的情感句向量以及文本信息量；所述输入层中的视频结构化信息全连接至所述第一层，并在所述第一层中进行加权计算，所述输入层中的视频文本非结构化信息的三个情感句向量分别经过嵌入层进行降维，并在降维后与所述文本信息量进行特征拼接，获得特征拼接后的向量；所述第一层的输出与特征拼接后的向量同时作为第二层的输入，第二层的输出通过权重连接至隐藏层，最终通过所述输出层输出预测的视频播放量。 9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序用于执行权利要求1至8中任一项所述视频播放量预测方法的步骤。 10.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程权　利　要　求　书 2/3 页 3 CN 114842461 A 3

专利 一种视频播放量预测方法

专利一种视频播放量预测方法