(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111658180.9
(22)申请日 2021.12.3 0
(71)申请人 北京金堤科技有限公司
地址 100086 北京市海淀区知春路6 5号院1
号楼B座20层20 01号
(72)发明人 刘天宇
(74)专利代理 机构 北京合智同创知识产权代理
有限公司 1 1545
代理人 李杰
(51)Int.Cl.
G06Q 10/04(2012.01)
G06Q 10/06(2012.01)
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
企业属性数据预测方法、 装置、 电子设备及
存储介质
(57)摘要
本申请实施例提供了一种企业属性数据预
测方法、 装置、 电子设备及计算机存储介质, 主要
包括获取企业对象的给定属性; 并根据给定属
性, 利用属性数据预测模型预测企业对象的缺失
属性, 其中, 给定属性和缺失属性之间存在关联
关系, 属性数据预测模型是基于样 本企业的未遮
蔽属性和遮蔽属性所预先训练的。 借此, 本申请
可提高企业对象的数据画像的完整度。
权利要求书3页 说明书9页 附图4页
CN 114298427 A
2022.04.08
CN 114298427 A
1.一种企业属性数据预测方法, 其特 征在于, 包括:
获取企业对象的给定属性; 以及
根据所述给定属性, 利用属性数据预测模型预测所述企业对象的缺失属性, 其中, 所述
给定属性和所述缺失属性之 间存在关联关系, 所述属性数据预测模型是基于样本企业的未
遮蔽属性和遮蔽属性所 预先训练的。
2.根据权利要求1所述企业属性数据预测方法, 其特 征在于,
所述给定属性包括所述企业对象的各所述非结构化企业属性数据, 或包括所述企业对
象的各所述非结构化企业属性数据与至少一个结构化企业属性数据;
所述缺失属性包括所述企业对象的至少一个所述结构化企业属性数据。
3.根据权利要求1所述的企业属性数据 预测方法, 其特征在于, 通过以下步骤训练所述
属性数据预测模型:
针对样本企业的各结构化属性数据与各非结构化属性数据 执行特征提取, 获取包含各
结构化特 征向量与各非结构化特 征向量的特 征向量集;
针对所述特征向量集中的至少一个所述结构化特征向量执行遮蔽操作, 以确定所述特
征向量集的所述未遮蔽属性和所述遮蔽属性; 以及
构建属性数据预测模型, 将所述未遮蔽属性作为输入, 并将所述遮蔽属性作为输出, 以
训练所述属性数据预测模型。
4.根据权利要求3所述的企业属性数据 预测方法, 其特征在于, 所述针对样本企业的各
结构化属性数据与各非结构化属性数据执行特征提取, 获取包含各结构化特征向量与各非
结构化特 征向量的特 征向量集包括:
基于预设结构化特征提取规则, 针对各所述结构化属性数据执行特征提取, 获取各所
述结构化特 征向量:
基于预设非结构化特征提取规则, 针对各所述非结构化属性数据执行特征提取, 获取
各所述非结构化特 征向量;
根据各所述结构化特征向量与各所述非结构化特征向量, 生成所述样本企业的特征矩
阵。
5.根据权利要求4所述的企业属性数据 预测方法, 其特征在于, 所述基于预设结构化特
征提取规则, 针对各 所述结构化属性数据执 行特征提取, 获取 各所述结构化特 征向量包括:
根据所述结构化属性数据对应的各候选分箱编码, 从各所述候选分箱编码中确定所述
结构化属性数据的真实分箱编码;
根据预设特 征映射规则, 将所述真实分箱编码映射 为所述结构化特 征向量。
6.根据权利要求4或5所述的企业属性数据预测方法, 其特征在于, 所述基于预设非结
构化特征提取规则, 针对各所述非结构化属 性数据执行特征提取, 获取各所述非结构化特
征向量包括:
利用自注意力 机制的语言模型识别所述非结构化属性数据, 获取所述非结构化属性数
据的所述非结构化特 征向量。
7.根据权利要求6所述的企业属性数据预测方法, 其特征在于, 所述语言模型包括BERT
模型、 RoBERTa模型、 T5模型中的一个。
8.根据权利要求3至6中任一项所述的企业属性数据预测方法, 其特征在于, 各所述结权 利 要 求 书 1/3 页
2
CN 114298427 A
2构化特征向量与各 所述非结构化特 征向量具有相同的向量长度。
9.根据权利要求3至6中任一项所述的企业属性数据预测方法, 其特征在于, 所述针对
所述特征向量集中的至少一个所述结构化特征向量执行遮蔽操作, 以确定所述特征向量集
的未遮蔽属性和遮蔽属性包括:
针对所述特征向量集中的各所述结构化特征向量中的至少一个执行遮蔽操作, 以基于
被遮蔽的至少一个所述结构化特征向量, 生成所述遮蔽属 性, 且基于未被遮蔽的至少一个
所述结构化特 征向量与所有所述非结构化特 征向量, 生成所述未遮蔽属性; 或者,
针对所述特征向量集中的所有所述结构化特征向量执行遮蔽操作, 以基于被遮蔽的所
有所述结构化特征向量, 生 成所述遮蔽属性, 且基于所有所述非结构化特征向量, 生成所述
未遮蔽属性。
10.根据权利要求5所述的企业属性数据预测方法, 其特征在于, 所述将所述未遮蔽属
性作为输入, 并将所述遮蔽属性作为输出, 以训练所述属性数据预测模型包括:
利用所述属性数据预测模型, 基于所述未遮蔽属性针对所述遮蔽属性中被遮蔽的所述
结构化特 征向量执 行预测, 获得被遮蔽的所述结构化特 征向量的预测特 征向量;
根据所述预测特征向量与被遮蔽的所述结构化特征向量的各所述候选分箱编码对应
的各所述结构化特征向量, 计算所述预测特征向量与各所述候选分箱编码之间的相似度,
获得各所述候选分箱编码对应的各相似值;
根据各所述候选分箱编码对应的各所述相似值, 确定被遮蔽的所述结构化特征向量的
预测分箱编码;
根据被遮蔽的所述结构化特征向量的所述真实分箱编码与所述预测分箱编码, 优化所
述属性数据预测模型。
11.根据权利要求10所述的企业属性数据预测方法, 其特 征在于, 所述方法还 包括:
根据被遮蔽的所述结构化特征向量的所述真实分箱编码与所述预测分箱编码, 获取所
述属性数据预测模型的损失函数;
基于所述损失函数迭代优化所述属性数据 预测模型, 直至所述损失函数满足预设 收敛
条件;
其中, 所述损失函数表示 为:
其中, 所述
表示所述损失函数; 所述y表示被遮蔽的所述结构化特征向量的
所述真实分箱编码; 所述
表示被遮蔽的所述结构化特征向量的所述预测分箱编码; 所述n
表示被遮蔽的所述结构化特 征向量包 含的所述 候选分箱编码的类别数量。
12.根据权利要求3所述的企业属性数据预测方法, 其特 征在于, 所述方法还 包括:
利用随机梯度 下降算法迭代更新所述属性数据预测模型, 以训练所述属性数据 预测模
型。
13.一种企业属性数据预测装置, 其特 征在于, 包括:
获取模块, 用于获取企业对象的给定属性; 以及权 利 要 求 书 2/3 页
3
CN 114298427 A
3
专利 企业属性数据预测方法、装置、电子设备及存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 20:28:59上传分享