安全公司报告
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111676820.9 (22)申请日 2021.12.31 (71)申请人 上海流利说信息技 术有限公司 地址 200090 上海市杨 浦区长阳路1687号 西1168幢 (C楼) 一层C2101室 (72)发明人 邢永伟  (74)专利代理 机构 上海知锦知识产权代理事务 所(特殊普通 合伙) 31327 代理人 吴凡 (51)Int.Cl. G06F 16/9535(2019.01) G06F 16/9538(2019.01) G06F 17/18(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06Q 50/20(2012.01) (54)发明名称 题目推荐方法及装置、 设备和存 储介质 (57)摘要 一种题目推荐方法及装置、 设备和存储介 质, 方法包括: 获取当前用户的答题日志、 以及根 据答题日志所 获得的当前用户的掌握度; 根据当 前用户的掌握度从题库中筛选出候选题目, 题库 中的每个题目具有近侧发展区间, 候选题目为与 掌握度相匹配的近侧发展区间所对应的题目; 将 候选题目输入至预先训练的强化学习模型中, 基 于最优推荐策略获得各个候选题目的推荐概率, 并筛选出推荐概率最大的候选题目或推荐概率 最大的前n个候选题目作为推荐题目并向当前用 户推荐。 本发 明基于题目的近侧发展区间筛选出 候选题目, 有利于提升用户的学习效率, 同时基 于强化学习的推荐算法从各用户的答题日志中 学习得到最优推荐策略, 从而满足与题目推荐相 关的各业 务指标。 权利要求书3页 说明书18页 附图3页 CN 114417147 A 2022.04.29 CN 114417147 A 1.一种题目推荐方法, 其特 征在于, 包括: 获取当前用户的答题日志、 以及根据当前用户的答题日志所获得的当前用户的掌握 度; 根据当前用户的掌握度从题库中筛选出候选题目, 所述题库中的每个题目具有对应的 近侧发展区间, 所述近侧发展区间用于表示能够提升用户的掌握度的题目掌握程度区间, 所述候选题目为与用户的掌握度相匹配的近侧发展区间所对应的题目; 将所述候选题目输入至预先训练的排序模型中, 所述排序模型基于最优推荐策略获得 各个候选题目的推荐概率, 并筛选出推荐概率最大 的候选题目或者推荐概率最大 的前n个 候选题目作为推荐题目, 并向当前用户推荐 所述推荐题目, 其中, 所述排序模型为通过从各 用户的答题日志中学习最优推荐策略的方式进行训练获得的。 2.如权利要求1所述的题目推荐方法, 其特征在于, 所述题目推荐方法还包括: 基于当 前用户对所述推荐题目的答题结果, 更新所述当前用户的掌握度。 3.如权利要求1所述的题目推荐方法, 其特征在于, 根据当前用户的掌握度从题库中筛 选出候选题目之前, 还包括: 构建题库, 使所述题库中的每个题目获得对应的近侧发展区 间, 所述构建题库包括: 对每一个题目进 行数据处理, 用于获得每一个题目对应的近侧发展 区间; 其中, 所述数据处理包括: 获取各个用户的答题日志; 利用各个用户的答题日志, 获取 所述题目对应的答题数据集合, 所述答题数据集合包括各个用户在不同时刻针对所述题目 进行答题后得到的多组数据对, 每一组所述数据对包括预测用户答对的概率、 以及用户对 题目的真实答题结果; 根据所述预测用户答对的概率, 并结合所述近侧发展区间的预设下限值和预设上限 值, 将所述答题数据集合分为第一数据集合、 第二数据集合和 第三数据集合, 所述第一数据 集合中的预测用户答对的概率高于所述预设上限值, 所述第三数据集合中的预测用户答对 的概率低于所述预设下限值, 所述第二数据集合中的预测用户答对的概率位于所述题目近 侧发展区间内; 分别计算所述第一数据集合的答题正确数量占比、 所述第 二数据集合中预测错误的概 率、 以及所述第三数据集合的答题错误数量占比, 分别作为第一比值、 第二比值和第三比 值; 获取使所述第 一比值、 第 二比值和第 三比值进行累乘 处理后获得的结果最大的一组预 设下限值和预设上限值, 作为所述题目的近侧发展区间的下限值和上限值。 4.如权利要求3所述的题目推荐方法, 其特征在于, 获取使如下公式的值最大的一组预 设下限值和预设上限值, 作为所述近侧发展区间的下限值和上限值: 其中, Li表示近侧发展区间的预设下限值, Ui表示近侧发展区间的预设上限值, CrDup表 示第一比值, (1 ‑ArDzpd)表示第二比值, WrDlow表示第三比值, ArDzpd表示所述第二数据集合中 预测准确的概率, 1 ‑ArDzpd表示所述第二数据集合中预测错误 的概率, D表示所述答题数据 集中的数据对的总数量, Dup表示第一 数据集合的数据对的总数量, Dzpd表示第二 数据集合的权 利 要 求 书 1/3 页 2 CN 114417147 A 2数据对的总数量, Dlow表示第三数据集 合的数据对的总数量。 5.如权利要求3或4所述的题目推荐方法, 其特征在于, 计算所述第二数据集合的预测 错误率包括: 确定基准 值, 所述基准 值位于所述近侧发展区间内; 在所述第二数据集合中, 统计预测用户答对的概率大于所述基准值的数据对中, 真实 答题结果为正确的数量, 作为第一数量, 统计预测用户答对的概率小于所述基准值的数据 对中, 真实答题结果 为错误的数量, 作为第二数量; 对所述第一数量和第 一数量求和后的结果, 与 所述第二数据集合中的数据对总数量相 除, 获得第二数据集 合中预测准确的概 率作为预测准确率; 将一减去所述预测准确率, 获得 所述第二数据集 合中预测错 误的概率。 6.如权利要求5所述的题目推荐方法, 其特征在于, 所述基准值为近侧发展区间的预设 下限值和预设上限值之和的一半。 7.根据权利要求1所述的方法, 其特征在于, 所述排序模型为强化学习模型, 所述强化 学习模型包括编 码层、 循环网络、 拼接层、 激活层、 行为网络和目标网络, 所述 强化学习模型 通过以下 方式训练得到: 将各用户的答题日志输入至编码层中, 将题目的编号 转化为题目embed ding向量特 征; 将所述题 目embedding向量特征输入至循环网络中, 通过循环网络获取当前时刻的用 户状态特 征; 采用拼接层对所述循环网络输出的用户状态特征、 以及通过答题日志获得的标签上下 文进行拼接; 采用激活层对拼接后的用户状态特 征、 以及标签上 下文进行非线性变换; 将所述激活层输出的信 息分别输入至所述行为网络和目标网络中, 对所述行为网络进 行训练, 用于拟合题目的推荐 策略, 作为所述行为网络的行为策略, 对所述目标网络进行训 练, 通过策略梯度上升迭代的方式更新所述 目标网络的目标策略的参数, 获得能够最大化 期望累计收益的最优的目标策略, 且在更新所述 目标网络的目标策略的参数 的过程中, 利 用所述行为策略进行修 正; 将所述候选题目输入至预先训练的排序模型中, 所述排序 学习模型基于最优推荐策略 获得各个候选题目的推荐概率, 并筛选出推荐概率最大的候选题目或者推荐概率最大的前 n个候选题目作为推荐题目的步骤包括: 通过所述目标网络, 获得各个候选题目的推荐概 率, 并筛选出推荐概 率最大的候选题目或者推荐概 率最大的前n个候选题目。 8.根据权利要求7所述的方法, 其特征在于, 通过策略梯度 上升迭代的方式更新所述目 标网络的目标 策略的参数的步骤中, 采用公式(1)至公式(3)更新所述目标 策略的参数: 其中, θ'表示更新后的参数, θ表示更新前的参数, 表示期望累计收益, λ表权 利 要 求 书 2/3 页 3 CN 114417147 A 3

.PDF文档 专利 题目推荐方法及装置、设备和存储介质

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 题目推荐方法及装置、设备和存储介质 第 1 页 专利 题目推荐方法及装置、设备和存储介质 第 2 页 专利 题目推荐方法及装置、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 00:20:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。