首页 > 算法公示
 搜狗首页
 更多功能
 帮助中心
 广告服务
 关于搜狗
 搜狗大全
 免责声明
 算法公示
 用户协议
 隐私政策
 算法公示

拟公示算法机制机理内容

算法名称 

搜狗信息检索算法

算法基本原理

       信息检索算法,是基于一定的数据,通过一些数学计算方式,对互联网或产品内资源和内容进行搜索召回整理,最终向用户呈现与其输入的查询词最相关的检索结果。

算法运行机制

       信息检索算法的运行机制可简要分为“分析用户输入的关键词––寻找相应查询匹配的内容––反馈最终结果”几个阶段。

       当用户在搜索栏中输入查询词后,算法会对查询词进行分析,提取关键词及查询意图;并在互联网或产品内通过标题、内容等关键维度寻找包含与用户输入的查询词相匹配的网页和信息;为评估内容的相关性,算法系统会不同的计算因素进行加权,并计算出最佳结果,将最符合需求的网页和内容向用户优先展示。

算法应用场景

搜狗网页搜索

算法目的意图

从互联网网页当中,检索召回当前用户搜索词的相关结果。

算法公示情况

备案编号:440305295988704230029号

算法名称 

腾讯内容安全算法

算法基本原理

腾讯内容安全算法主要用到图像文字识别算法(OCR)、语音识别算法(ASR)以及语义概念识别算法(NLP)三种算法。OCR 算法是将图像中的文本识别为可编辑的文字,以便于智能化处理的技术。ASR 算法是将语音中的说话内容识别为可编辑的文字,以便于智能化处理的技术。NLP 算法是一种分类算法,输入为一段语言文字,输出为语义标签,代表是否是目标的语义类型。

算法运行机制

1、为了更精准地提升自然场景下的文字识别精准度,OCR 算法会先检测普通图片或者视频拆帧图片中的文字,之后通过文字检测算法和文字识别算法来进行文本检测识别文字。

2、ASR 算法一般会先对语音进行特征提取,然后使用事先训练好的声学模型和语言模型进行解码,识别出文字,再进行加标点等后处理。对于识别出的结果,结合关键词或 NLP相关的技术,决定处理策略。

3、关于 NLP 算法,文本会先进入轻模型进行初筛,通过初筛的文本进一步进入重模型进行语义判断。

算法应用场景

微信、QQ、腾讯视频、腾讯新闻、微视等腾讯产品的图片、文字、 语音、视频处理场景。

算法目的意图

更精准地进行图片中的文字信息识别、语音内的文字识别、和语义判断等。

算法公示情况

备案编号:440305295988705230017号