| 微信搜一搜中的智能 问答技术 姓名 杨韬(腾讯TEG AI平台部) 目录 CONTENT 01 背景介绍 02 基于图谱的问答 03 基于文档的问答 04 未来展望 | 01 背景介绍 智能信息获取:从搜索到问答 ◼ 传统网页搜索对问答型Query的局限: ◼ 智能问答的优势: • 传统搜索只能返回TopK的网页,无法给出更精准的答案 • 直接返回精准、可靠、便捷的答案 • 对用户:需要自己从网页中分析甄别答案,搜索体验较差 • 对用户:帮助用户最快时间获取到答案,搜索体验好 • 传统搜索引擎只是去做“匹配”,NOT“理解” • 对内容方:答案首条置顶展示,可以获得更多曝光和流量 精准化 Answer 3 人工分析整理 1 query 2 10 links 1 query 2 Answer 搜索场景下的用户问答需求 问题类型 占比 答案形式 事实型短答案 观点型短答案 摘要型长答案 列表型长答案 Query示例 单/多实体: 刘德华的妻子 事实型 (factoid) 15% 短答案 (实体短语) 中国四大名著 时间/数字: 曹操有几个儿子 刘德华哪天出生的 观点型 (opinion) 摘要型 (abstract) 列表型 (list) 6% 64% 15% 短答案 (Yes/No) 长答案 (多句摘要) 长答案 (列表) 高铁可以逃票吗 月经期可以吃榴莲吗 张学友是水平座吗 为什么会脑缺血 苹果手机电池掉得快怎么办 太阳能热水器工作原理 按揭房抵押贷款办理流程 有哪些 银行修改密码有哪些步骤 答案知识来源 来源二:非结构化-通用文本库 来源一:结构化数据 ◼ 数据源 • ◼ 百科、豆瓣等网站的结构化infobox 优点 • ◼ ◼ • • ◼ 质量高,易于获取和加工 缺点 ◼ 百科、公众号等互联网网页文本库 优点 • ◼ 只覆盖头部知识,覆盖率不够 数据源 来源三:非结构化-专业垂类站点问答库 知识覆盖面广 缺点 文本质量参差不齐 • 对专业领域知识的覆盖度和权威度不够 • 专业领域的垂类站点的问答数据 • 页面一般以(问题,段落)这样的问答 对的形式存在 ◼ • 数据源 优点 • 知专业领域知识覆盖广、权威度高 Q:易建联的身高 Q:谁发动了陈桥兵变 Q:无间道 1的导演是谁 Q:胫骨骨折一般多久长骨痂 技术路线 KBQA(基于图谱的问答) ◼ ◼ 优点 • 扩展性强,能查询实体的各种属性 • 支持推理,可以解析复杂查询 关键技术 • 语义解析 查询 Q:姚明的老婆有多高 图谱构建:schema自动构建、实体挖掘、 关系抽取、开放信息抽取 • 问题解析:实体链接、基于Semantic Parsing的方法、基于检索的方法 DocQA(基于文档的问答) ◼ ◼ 优点 • 知识覆盖面广,能覆盖更多中长尾问题 • 能解决一些KBQA难以解析回答的问题 Q:胫骨骨折一般多久长骨痂 Q:谁发动了陈桥兵变 语义检索 TopN文档 关键技术 • 阅读理解(MRC) • 开放域问答(OpenQA) 阅读理解 | 02 基于图谱的问答 什么是KBQA 给定自然语言问题,通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案 问句 姚明的老婆哪里出生的? 语义 解析 语义表示 语义匹配、 查询、推 理 上海 ◼ 难点 • 开放领域知识库中存在⼤量的歧义实体,如“长城”、“苹果” • 属性数量众多:4000+ • 问法多样:同一个属性不同问法 VS 同一个问法针对不同的属性 KBQA技术方案 方案一:Information Retrieval-Based ◼ 将Query和候选答案表征为向量计算相似度 ◼ 优点 ◼ 缺点 • 可端到端训练 • 可解释性和扩展性差 • 难以处理限定、聚合等复杂类型query 方案二:Semantic Parsing-Based ◼ 将Query解析成可查询的结构化表示 ◼ 优点 • ◼ 可解释性强,符合图谱的显式推理过程 缺点 • 依赖高质量的解析算法 KBQA整体流程 Q:张艺谋的长城女主角是谁? 实体链接 关系识别 Entity=张艺谋, Type=导演 问题/关系 匹配 Entity=长城, Topic实体识别 关系得分 实体 重排序 条件/约束识别 Condition: 性别=女 查询推理 <Subject=长城(电影), Relation=主 演, Object=?, Condition: 性别=女> Type=电影 Relation=主演 Subject=长城 Relation=作品 Subject=张艺谋 Relation=角色 … 景甜 彭于晏 张涵予 实体链接 从文本中识别出所有的实体mention,然后再把它们链接到相应的知识图谱上 query 2017版射雕英雄传主演是谁 mention识别 2017版射雕英雄传主演是谁 offset = 5, mention = “射雕英雄传” 射雕英雄传 射雕英雄传(金庸创作长篇武侠小说) 射雕英雄传(2003年内地版李亚鹏、周迅主演电视剧) 射雕英雄传(2008年胡歌林依晨主演电视剧) 射雕英雄传(2017年蒋家骏执导的电视剧) … 实体消歧 射雕英雄传 射雕英雄传(2017年蒋家骏执导的电视剧) 射雕英雄传(金庸创作长篇武侠小说) 射雕英雄传(2003年内地版李亚鹏、周迅主演电视剧) 射雕英雄传(2008年胡歌林依晨主演电视剧) … Top1验证 射雕英雄传(2017年蒋家骏执导的电视剧) 最终结果 射雕英雄传(2017年蒋家骏执导的电视剧) 候选实体召回 知识图谱 Topbase confidence score: 0.8 0.9 0.5 0.3 0.2 实体链接-知识图谱Topbase Topbase是由TEG-AI平台部构建并维护的一个专注于通用领域知识图谱 数据层面 • 50+领域、300+实体类型、亿级 实体、十亿级三元组 技术层面 • 完善的图谱自动构建流程,增量数 据及时更新入库 • 具备非结构化数据抽取能力 • 连续两次获得国际知识图谱顶级赛 事KBP大奖: ✓ KBP 2017 实体链接任务冠军 ✓ KBP2019 细粒度实体识别任务 第二名 实体链接-候选实体召回 ◼ 人物类_人物 实体词表召回的问题 盐城宝龙 • 词表不完整,导致召回低 • 召回候选实体多,消歧时间长,方差大 盐城宝龙城市广场 第八代索纳塔 13年现代索八 商业类_商业人物 爱情公寓张伟 人物类_虚拟人物 …… 解决方案:向量召回模型 ◆ 将query和实体直接表征成向量 query:爱情公寓张伟 向量空间 Vquery 岳 飞 张伟 (爱情公寓男主角) 张伟, 《爱情公寓》系 列男主之一,由内地男 演员李佳航饰演 张伟 (配音演员) 张伟,男,《熊出没》熊 大、李老板配音演员 双塔匹配模型 Ventity ◆ Ventity 马 云 张 飞 负样本采样问题:随机采样导致大部分负样本都很简单,困难负样本学得不好 胡 斐 太 阳 迭代加入 困难负例 随机采样 Top10 Recall对比 实体链接-实体消歧 ◼ 模型:交互式BERT匹配模型 • ◼ Query + 实体类型+简介 消歧模型 实体简介包含的消歧信息有限 • Bert输入长度有限,无法将所有属性输入模型,如何选择属性 ? • 解决方案:使用上下文和属性值的相似度来选择消歧属性 Query: [Mention + 上下文] Doc: [候选实体简介+关键属性] 长泽雅美 刘昊然 上下文: 所有属性 长泽雅美 相似度匹配 ✓ 唐人街探案3 王宝强 佟丽娅 肖央 唐人街探案1 关系识别 识别出这个问题问的是实体的哪一个关系或者属性 ➢ 关系的模板挖掘:从各种文本中去挖掘关系的各种“问法” 基于问法Patten的扩展 基于种子三元组的回标 • 利用关系的种子三元组去回标问答对 种子三元组:<张杰,星座,射手座> • 利用同义匹配模型从query log中检索出同义的扩 展问法 ➢ 可以利用query点击日志或者开源数据集训练模型 刘德华的星座 匹配 Querylog 刘德华星座是什么 0.9 刘德华是什么座的 0.5 刘德华具体是哪个座的 0.4 ……. 人工+机器验证 关系识别 Q:刘德华是啥座的? [PERSION]是啥座的 关系匹配模型 [PERSION][Rel:星座] 关系表示: • Predicate-level: 每个关系独立 one-hot表示 • Token-level: 每个关系的字符串 拆分成文本token • 还可以增加新的特征用于丰富 关系的表示,例如关系的类型, 关系的预训练表示向量等 关系识别 模型鲁棒性较差 ◼ • 用户Query经常很短,而且表达多样 • Query表达的细小改变容易导致模型预测错误 赛车总动员的出品公司 出品公司 孙中山的主要成就有哪些 主要成就 解决方案:引入对抗学习 ◼ ◼ 样本测 • 通过多种方式生成更多的“对抗样本” • 通过样本增强,来提升模型鲁棒性和泛化能力 训练测 • 赛车总动员哪个公司出品的 在训练过程中加入扰动,隐式构造“对抗样本” 孙中山有哪些伟大贡献 √ × √ × 复杂查询解析 ◼ 关系识别模型难以解析复杂Query 复杂Query 多跳 刘德华妻子的舅舅是谁 蒋介石的儿子是什么时候去世的 刘德华和梁朝伟共同出演的电影 多限定 无间道中的主演中同时是歌手的 人有哪些? 村上春树的哪部作品出版于2007 年以前? 序数 是否 计数 刘德华演的电影有哪些 谁是新中国的第一任国家主席 清华大学第一人任校长是谁 姚明是上海人么? 刘德华的星座是处女座么? 毛主席有几个孩子 李娜获得过几次冠军 Query Graph举例 刘德华黄秋生主演庄文强编剧的作品 有哪些 复杂查询解析 实体消歧 候选路径生成 词汇增强的 NER方法 候选实体 召回 基于模板的 查询子图生成 词典辅助 mention识别 文本匹配式 候选实体排序 Mention识别 预处理 问句 召回
腾讯 杨韬 微信搜一搜中的智能问答技术
文档预览
中文文档
35 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共35页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 路人甲 于 2022-08-13 07:15:47上传分享