安全公司报告
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111566872.0 (22)申请日 2021.12.20 (71)申请人 北京华云安信息技 术有限公司 地址 100094 北京市海淀区丰豪东路9号2 号楼10层4单 元1001 (72)发明人 王闰婷 白兴伟 (74)专利代理 机构 北京华专卓 海知识产权代理 事务所(普通 合伙) 11664 代理人 王一 (51)Int.Cl. H04L 9/40(2022.01) G06F 16/955(2019.01) G06K 9/62(2022.01) (54)发明名称 钓鱼网站检测模型的训练方法、 装置、 设备 及存储介质 (57)摘要 本公开的实施例提供了一种钓鱼网站检测 模型的训练方法、 装置、 设备及存储介质。 该方法 包括: 获取网站数据集, 网站数据集包括钓鱼网 站样本集和非钓鱼网站样本集, 钓鱼网站样本集 和非钓鱼网站样本集中的样 本的特征包括URL特 征、 异常操作特征、 脚本特征和域名特征; 对网站 数据集中的样本进行特征预处理; 对 特征预处理 后的样本进行特征提取; 采用特征提取后的样本 对钓鱼网站分类器进行训练, 得到钓鱼网站检测 模型。 以此方式, 可 以采用经过数据加工的样本 来快速训练钓鱼网站分类器, 得到检测能力较强 的钓鱼网站 检测模型, 进而基于该模 型快速精确 地检测待检测网站是否是钓鱼网站, 提高检测效 果。 权利要求书2页 说明书10页 附图3页 CN 114363019 A 2022.04.15 CN 114363019 A 1.一种钓鱼网站检测模型的训练方法, 其特 征在于, 所述方法包括: 获取网站数据集, 其中, 所述网站数据集包括钓鱼网站样本集和非钓鱼网站样本集, 所 述钓鱼网站样本集和所述 非钓鱼网站样本集中的样 本的特征包括URL特征、 异常操作特征、 脚本特征和域名特 征; 对所述网站数据集中的样本进行 特征预处理; 对特征预处理后的样本进行 特征提取; 采用特征提取后的样本对钓鱼网站分类 器进行训练, 得到钓鱼网站检测模型。 2.根据权利要求1所述的方法, 其特 征在于, 所述获取网站数据集, 包括: 分别获取钓鱼网站和 非钓鱼网站的URL并提取所述钓鱼网站和所述非钓鱼网站的URL 特征; 分别爬取 所述钓鱼网站和所述非钓鱼网站的URL对应的网页代码; 根据所述钓鱼网站和所述非钓鱼网站的网页代码, 分别提取所述钓鱼网站和所述非钓 鱼网站的异常操作特 征、 脚本特 征和域名特 征; 分别对所述钓鱼网站和所述非钓鱼网站进行标注, 得到所述钓鱼网站和所述非钓鱼网 站的标签。 3.根据权利要求1所述的方法, 其特征在于, 所述对所述网站数据集中的样本进行特征 预处理, 包括: 对所述网站数据集中的样本对应的特 征列进行 数据清洗; 对数据清洗后的特 征列进行归一 化处理。 4.根据权利要求1所述的方法, 其特征在于, 所述对特征预处理后的样本进行特征提 取, 包括: 计算特征预处理后的样本对应的多个特征列与特征预处理后的样本对应的标签列的 相关系数; 按照相关系数从小到大的顺序对特 征预处理后的样本对应的多个特 征列进行排序; 将排序后的多个特征列划分为M ‑N+1个特征组, 其中, 第i个特征组包括前i+N ‑1个特征 列, i∈[1,M ‑N+1], M表示特 征预处理后的样本对应的特 征列的个数, N≤ M且为正整数; 采用每个特征组中的特征列与所述标签列训练基线模型, 得到每个特征组对应的评估 指标; 保留特征预处理后的样本对应的多个特征列中在评估指标最高的特征组中存在的特 征列。 5.根据权利要求1 ‑4中任一项所述的方法, 其特征在于, 所述网站分类器包括SVM和随 机森林; 所述采用特征提取后的样本对钓鱼网站分类器进行训练, 得到钓鱼网站检测模型, 包 括: 将所述特 征提取后的样本按照预设比例划分为训练集和 测试集; 采用训练集中的样本分别对SVM和随机森林进行训练, 得到目标SVM和目标随机森林; 采用测试集中的样本分别 对目标SVM和目标随机森林进行测试, 得到目标SVM和目标随 机森林的评估指标; 选择评估指标最高的一方为钓鱼网站检测模型。权 利 要 求 书 1/2 页 2 CN 114363019 A 26.一种钓鱼网站检测方法, 其特 征在于, 所述方法包括: 获取待检测网站的特 征; 基于钓鱼网站检测模型对所述特征进行检测, 确定所述待检测网站是否为钓鱼网站, 其中, 所述钓鱼网站检测模型基于权利要求1 ‑5中任一项所述的钓鱼网站检测模型的训练 方法得到 。 7.一种钓鱼网站检测模型的训练装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取网站数据集, 其中, 所述网站数据集包括钓鱼网站样本集和非钓鱼 网站样本集, 所述钓鱼 网站样本集和所述 非钓鱼网站样本集中的样本的特征包括URL特征、 异常操作特 征、 脚本特 征和域名特 征; 预处理模块, 用于对所述网站数据集中的样本进行 特征预处理; 提取模块, 用于对特 征预处理后的样本进行 特征提取; 训练模块, 用于采用特征提取后的样本对钓鱼网站分类器进行训练, 得到钓鱼网站检 测模型。 8.一种钓鱼网站检测装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取待检测网站的特 征; 检测模块, 用于基于钓鱼网站检测模型对所述特征进行检测, 确定所述待检测网站是 否为钓鱼 网站, 其中, 所述钓鱼 网站检测模型基于权利要求 1‑5中任一项 所述的钓鱼 网站检 测模型的训练方法得到 。 9.一种电子设备, 其特 征在于, 所述设备包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器执行权利要求1 ‑6中任一项所述的方法。 10.一种存储有计算机指令的非瞬时计算机可读存储介质, 其特征在于, 所述计算机指 令用于使计算机执 行权利要求1 ‑6中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114363019 A 3
专利 钓鱼网站检测模型的训练方法、装置、设备及存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 23:36:53
上传分享
举报
下载
原文档
(496.0 KB)
分享
友情链接
GB-T 17901.1-2020 信息技术 安全技术 密钥管理 第1部分:框架.pdf
DB6301-T 4-2023 住宅物业星级服务规范 西宁市.pdf
DB14-T 712-2018 高速公路施工驻地、场站、工地试验室 建设指南 山西省.pdf
GB-T 30732-2014 煤的工业分析方法 仪器法.pdf
GB-T 34112-2022 信息与文献 文件 档案 管理体系 要求.pdf
嘶吼 网络安全服务市场洞察报告 2023.pdf
GB-T 31436-2015 节水型卫生洁具.pdf
GB-T 42875-2023 城市公共设施 城市家具 分类.pdf
T-CAS 600—2022 经营者公平竞争合规管理体系建设.pdf
T-CADERM 6006—2023 动态监护与自动生命支持一体机.pdf
GB-T 33667-2017 高校毕业生就业指导服务规范.pdf
GB-T 13344-2019 潜孔冲击器和潜孔钻头.pdf
GB-T 41263-2022 工控系统动态重构主动防御体系架构规范.pdf
DB23-T 3277—2022 数字化农业服务信息系统建设规范 黑龙江省.pdf
YD-T 2703-2014 电信网和互联网安全防护基线配置要求及检测要求-web应用系统.pdf
T-CTSS 3—2019 茶艺职业技能竞赛技术规程.pdf
T-CAGHP 016—2018 地质灾害监测仪器物理接口规定 试行.pdf
GB-T 39412-2020 信息安全技术 代码安全审计规范.pdf
GB-T 33009.2-2016 工业自动化和控制系统网络安全 集散控制系统 DCS 第2部分:管理要求.pdf
邢台市工业企业大气污染防治条例.pdf
交流群
-->
1
/
3
16
评价文档
赞助2元 点击下载(496.0 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。