专利 题目推荐方法及装置、设备和存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111676820.9 (22)申请日 2021.12.31 (71)申请人上海流利说信息技术有限公司地址 200090 上海市杨浦区长阳路1687号西1168幢（C楼）一层C2101室 (72)发明人邢永伟　 (74)专利代理机构上海知锦知识产权代理事务所(特殊普通合伙) 31327 代理人吴凡 (51)Int.Cl. G06F 16/9535(2019.01) G06F 16/9538(2019.01) G06F 17/18(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06Q 50/20(2012.01) (54)发明名称题目推荐方法及装置、设备和存储介质 (57)摘要一种题目推荐方法及装置、设备和存储介质，方法包括：获取当前用户的答题日志、以及根据答题日志所获得的当前用户的掌握度；根据当前用户的掌握度从题库中筛选出候选题目，题库中的每个题目具有近侧发展区间，候选题目为与掌握度相匹配的近侧发展区间所对应的题目；将候选题目输入至预先训练的强化学习模型中，基于最优推荐策略获得各个候选题目的推荐概率，并筛选出推荐概率最大的候选题目或推荐概率最大的前n个候选题目作为推荐题目并向当前用户推荐。本发明基于题目的近侧发展区间筛选出候选题目，有利于提升用户的学习效率，同时基于强化学习的推荐算法从各用户的答题日志中学习得到最优推荐策略，从而满足与题目推荐相关的各业务指标。权利要求书3页说明书18页附图3页 CN 114417147 A 2022.04.29 CN 114417147 A 1.一种题目推荐方法，其特征在于，包括：获取当前用户的答题日志、以及根据当前用户的答题日志所获得的当前用户的掌握度；根据当前用户的掌握度从题库中筛选出候选题目，所述题库中的每个题目具有对应的近侧发展区间，所述近侧发展区间用于表示能够提升用户的掌握度的题目掌握程度区间，所述候选题目为与用户的掌握度相匹配的近侧发展区间所对应的题目；将所述候选题目输入至预先训练的排序模型中，所述排序模型基于最优推荐策略获得各个候选题目的推荐概率，并筛选出推荐概率最大的候选题目或者推荐概率最大的前n个候选题目作为推荐题目，并向当前用户推荐所述推荐题目，其中，所述排序模型为通过从各用户的答题日志中学习最优推荐策略的方式进行训练获得的。 2.如权利要求1所述的题目推荐方法，其特征在于，所述题目推荐方法还包括：基于当前用户对所述推荐题目的答题结果，更新所述当前用户的掌握度。 3.如权利要求1所述的题目推荐方法，其特征在于，根据当前用户的掌握度从题库中筛选出候选题目之前，还包括：构建题库，使所述题库中的每个题目获得对应的近侧发展区间，所述构建题库包括：对每一个题目进行数据处理，用于获得每一个题目对应的近侧发展区间；其中，所述数据处理包括：获取各个用户的答题日志；利用各个用户的答题日志，获取所述题目对应的答题数据集合，所述答题数据集合包括各个用户在不同时刻针对所述题目进行答题后得到的多组数据对，每一组所述数据对包括预测用户答对的概率、以及用户对题目的真实答题结果；根据所述预测用户答对的概率，并结合所述近侧发展区间的预设下限值和预设上限值，将所述答题数据集合分为第一数据集合、第二数据集合和第三数据集合，所述第一数据集合中的预测用户答对的概率高于所述预设上限值，所述第三数据集合中的预测用户答对的概率低于所述预设下限值，所述第二数据集合中的预测用户答对的概率位于所述题目近侧发展区间内；分别计算所述第一数据集合的答题正确数量占比、所述第二数据集合中预测错误的概率、以及所述第三数据集合的答题错误数量占比，分别作为第一比值、第二比值和第三比值；获取使所述第一比值、第二比值和第三比值进行累乘处理后获得的结果最大的一组预设下限值和预设上限值，作为所述题目的近侧发展区间的下限值和上限值。 4.如权利要求3所述的题目推荐方法，其特征在于，获取使如下公式的值最大的一组预设下限值和预设上限值，作为所述近侧发展区间的下限值和上限值：其中， Li表示近侧发展区间的预设下限值， Ui表示近侧发展区间的预设上限值， CrDup表示第一比值， (1 ‑ArDzpd)表示第二比值， WrDlow表示第三比值， ArDzpd表示所述第二数据集合中预测准确的概率， 1 ‑ArDzpd表示所述第二数据集合中预测错误的概率， D表示所述答题数据集中的数据对的总数量， Dup表示第一数据集合的数据对的总数量， Dzpd表示第二数据集合的权　利　要　求　书 1/3 页 2 CN 114417147 A 2数据对的总数量， Dlow表示第三数据集合的数据对的总数量。 5.如权利要求3或4所述的题目推荐方法，其特征在于，计算所述第二数据集合的预测错误率包括：确定基准值，所述基准值位于所述近侧发展区间内；在所述第二数据集合中，统计预测用户答对的概率大于所述基准值的数据对中，真实答题结果为正确的数量，作为第一数量，统计预测用户答对的概率小于所述基准值的数据对中，真实答题结果为错误的数量，作为第二数量；对所述第一数量和第一数量求和后的结果，与所述第二数据集合中的数据对总数量相除，获得第二数据集合中预测准确的概率作为预测准确率；将一减去所述预测准确率，获得所述第二数据集合中预测错误的概率。 6.如权利要求5所述的题目推荐方法，其特征在于，所述基准值为近侧发展区间的预设下限值和预设上限值之和的一半。 7.根据权利要求1所述的方法，其特征在于，所述排序模型为强化学习模型，所述强化学习模型包括编码层、循环网络、拼接层、激活层、行为网络和目标网络，所述强化学习模型通过以下方式训练得到：将各用户的答题日志输入至编码层中，将题目的编号转化为题目embed ding向量特征；将所述题目embedding向量特征输入至循环网络中，通过循环网络获取当前时刻的用户状态特征；采用拼接层对所述循环网络输出的用户状态特征、以及通过答题日志获得的标签上下文进行拼接；采用激活层对拼接后的用户状态特征、以及标签上下文进行非线性变换；将所述激活层输出的信息分别输入至所述行为网络和目标网络中，对所述行为网络进行训练，用于拟合题目的推荐策略，作为所述行为网络的行为策略，对所述目标网络进行训练，通过策略梯度上升迭代的方式更新所述目标网络的目标策略的参数，获得能够最大化期望累计收益的最优的目标策略，且在更新所述目标网络的目标策略的参数的过程中，利用所述行为策略进行修正；将所述候选题目输入至预先训练的排序模型中，所述排序学习模型基于最优推荐策略获得各个候选题目的推荐概率，并筛选出推荐概率最大的候选题目或者推荐概率最大的前 n个候选题目作为推荐题目的步骤包括：通过所述目标网络，获得各个候选题目的推荐概率，并筛选出推荐概率最大的候选题目或者推荐概率最大的前n个候选题目。 8.根据权利要求7所述的方法，其特征在于，通过策略梯度上升迭代的方式更新所述目标网络的目标策略的参数的步骤中，采用公式(1)至公式(3)更新所述目标策略的参数：其中， θ'表示更新后的参数， θ表示更新前的参数，表示期望累计收益， λ表权　利　要　求　书 2/3 页 3 CN 114417147 A 3

专利 题目推荐方法及装置、设备和存储介质

专利题目推荐方法及装置、设备和存储介质