首页 > 学术研究

元宇宙法律篇(四十一)—— 算法备案与算法透明度

    【学科类别】民商法学
    【出处】微信公众号:德和衡律师
    【写作时间】2022年
    【中文摘要】元宇宙时代的来临,算法已经广泛应用于在线社交、游戏、媒体、学习、医疗、教育、工作、生活等诸多元宇宙场景,全面渗透于人们的现实世界和虚拟世界。算法,源自计算机科学的一个概念,是执行预定良好计算过程的计算机代码或指令,基于原始数据的输入通过自动化决策产生结果数据的输出。算法的出现和使用,是为了执行大规模重复的任务和计算,是为了实现商业上高效快速的交易,是为了实现公权力具有广度、深度和效率的运行。算法,已经不是纯粹的的计算机代码或指令,不再是简单的数据处理工具,而是被政府机构、社会团体、商业平台等预设了其利益或偏见的不透明自动化决策系统。算法治理就是要实现算法的透明度和可解释性,算法备案就是实现算法透明度的事前披露,是实现算法透明度的重要举措。
    【中文关键字】元宇宙;算法透明度;个性化推送
    【全文】

      一、算法透明度
     
      2017年,美国计算机协会公共政策委员会发布《关于算法透明性和可问责性的声明》,指出应当在系统开发和部署的每个阶段应用算法透明和可问责性的原则。2018年5月,欧盟出台《通用数据保护条例》,首次在立法中提出和创设了算法解释权,并试图通过算法解释权来确保算法透明原则的实现。2019年4月,欧洲议会研究服务机构发布《算法问责及透明度监管框架》,就算法及其在自动化决策系统中的应用快速增长提出了全面的监管框架。2020年12月,欧盟公布了《数字服务法案》草案,要求提高在线平台透明度,对平台推荐算法进行审核,防止滥用平台权利。2021年,美国参议院出台《算法正义和互联网平台透明度法案》,提出一系列措施确保平台在算法使用过程中履行审核和透明度义务。2022年,欧盟《数字服务法》要求在线平台采取广泛的透明度措施包括推荐算法的透明度,让用户更好地了解平台是如何向他们推荐内容。《互联网信息服务算法推荐管理规定》第四条规定,提供算法推荐服务应当遵循公正公平、公开透明的原则;第七条规定,算法推荐服务提供者应当制定并公开算法推荐服务相关规则;第十二条规定,鼓励算法推荐服务提供者优化检索、排序、选择、推送、展示等规则的透明度和可解释性;第十六条规定,算法推荐服务提供者应当以显著方式告知用户其提供算法推荐服务的情况,并以适当方式公示算法推荐服务的基本原理、目的意图和主要运行机制等。
     
      算法透明度,即算法服务提供者应当公开披露其算法的基本原理、逻辑、操作规则、运作过程及决策方式。《最高人民法院关于审理侵犯商业秘密民事案件适用法律若干问题的规定》将算法列入商业秘密保护客体。因此,算法的公开和透明度应当在一个适度的范围内,既要保护企业的商业秘密,又要维护用户的合法权益。2021年11月,英国内阁办公厅中央数字和数据办公室(Central Digital and Data Office,CDDO)发布算法透明度标准(Algorithmic Transparency Standard)。该标准由两个层次构成。第一层次主要是对算法工具的简要介绍,包括如何使用、为何使用等;第二层次涉及算法工具具体如何工作的信息、训练模型的数据集以及对人力监测的要求等。虽然只区分了两个层级,但基本涵盖了数据的采集方式与分析方法、模型的设计逻辑与变量优化、各项参数权重、生成决策的判断依据、算法运行的正常与报错、人力干预的公开与公正等环节,贯穿算法的业务流程。[1]笔者以为,算法透明度标准如下:1、首先对算法应用场景进行区分,数字平台公开算法透明度标准与其涉及民生及广大公众利益的广度和深度呈正相关关系,也就是与其公共属性呈正相关关系,比如滴滴打车、今日头条等用户数量越大公共属性就越强,其让用户充分了解其优化检索、排序、选择、推送、展示等规则的义务就越高;2、算法公开的透明度应当以社会公众的感知、明白和了解为标准,而不是对源代码的彻底公开,因为这样不仅会侵害企业的商业秘密,而且有可能会对公众利益造成损害,比如:谷歌曾经公开一种叫作PageRank的算法的META标签、关键字等参数,结果导致很多网站就开始利用此类算法以达到提高网站在谷歌搜索结果页面排名靠前的目的;3、算法公开应当涵盖数据的采集与分析、模型的设计与优化、决策的判断依据的全过程,以及各项参数权重和人工干预的途径,说明算法如何工作的全流程;4、涉及公众利益的算法代码应当适度开源,进行事前披露、事后解释,并定期接受公众的质询。
     
      二、算法备案
     
      《关于加强互联网信息服务算法综合治理的指导意见》提出:利用三年左右时间,逐步建立治理机制健全、监管体系完善、算法生态规范的算法安全综合治理格局;创新性地构建形成算法安全风险监测、算法安全评估、科技伦理审查、算法备案管理和涉算法违法违规行为处置等多维一体的监管体系。《互联网信息服务算法推荐管理规定》第二天规定,本法所称应用算法推荐技术,是指利用生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等算法技术向用户提供信息;第二十四条规定,具有舆论属性或者社会动员能力的算法推荐服务提供者应当在提供服务之日起十个工作日内通过互联网信息服务算法备案系统填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息,履行备案手续。算法推荐服务提供者的备案信息发生变更的,应当在变更之日起十个工作日内办理变更手续。算法推荐服务提供者终止服务的,应当在终止服务之日起二十个工作日内办理注销备案手续,并作出妥善安排;第二十五条规定,国家和省、自治区、直辖市网信部门收到备案人提交的备案材料后,材料齐全的,应当在三十个工作日内予以备案,发放备案编号并进行公示;材料不齐全的,不予备案,并应当在三十个工作日内通知备案人并说明理由;第二十六条规定,完成备案的算法推荐服务提供者应当在其对外提供服务的网站、应用程序等的显著位置标明其备案编号并提供公示信息链接。
     
      根据上述法条规定,具有舆论属性或者社会动员能力的生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等算法技术提供者应当在提供服务之日起十个工作日内通过互联网信息服务算法备案。另根据《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》第二条,具有舆论属性或社会动员能力的互联网信息服务,包括下列情形:(一)开办论坛、博客、微博客、聊天室、通讯群组、公众账号、短视频、网络直播、信息分享、小程序等信息服务或者附设相应功能;(二)开办提供公众舆论表达渠道或者具有发动社会公众从事特定活动能力的其他互联网信息服务。
     
      个性化推送类,《互联网信息服务算法推荐管理规定》第十条规定,算法推荐服务提供者应当加强用户模型和用户标签管理,完善记入用户模型的兴趣点规则和用户标签管理规则,不得将违法和不良信息关键词记入用户兴趣点或者作为用户标签并据以推送信息。第十七条规定,算法推荐服务提供者应当向用户提供不针对其个人特征的选项,或者向用户提供便捷的关闭算法推荐服务的选项。用户选择关闭算法推荐服务的,算法推荐服务提供者应当立即停止提供相关服务。第十八条规定,算法推荐服务提供者向未成年人提供服务的,应当依法履行未成年人网络保护义务,并通过开发适合未成年人使用的模式、提供适合未成年人特点的服务等方式,便利未成年人获取有益身心健康的信息。算法推荐服务提供者不得向未成年人推送可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好等可能影响未成年人身心健康的信息,不得利用算法推荐服务诱导未成年人沉迷网络。第十九条规定,算法推荐服务提供者向老年人提供服务的,应当保障老年人依法享有的权益,充分考虑老年人出行、就医、消费、办事等需求,按照国家有关规定提供智能化适老服务,依法开展涉电信网络诈骗信息的监测、识别和处置,便利老年人安全使用算法推荐服务。因此,个性化推送类算法是以用户模型和用户标签管理向用户提供新闻、广告、视频、文章等推荐服务;排序精选类,《互联网信息服务算法推荐管理规定》第十一条规定,算法推荐服务提供者应当加强算法推荐服务版面页面生态管理,建立完善人工干预和用户自主选择机制,在首页首屏、热搜、精选、榜单类、弹窗等重点环节积极呈现符合主流价值导向的信息。第十四条规定,算法推荐服务提供者不得利用算法虚假注册账号、非法交易账号、操纵用户账号或者虚假点赞、评论、转发,不得利用算法屏蔽信息、过度推荐、操纵榜单或者检索结果排序、控制热搜或者精选等干预信息呈现,实施影响网络舆论或者规避监督管理行为。第二十一条规定,算法推荐服务提供者向消费者销售商品或者提供服务的,应当保护消费者公平交易的权利,不得根据消费者的偏好、交易习惯等特征,利用算法在交易价格等交易条件上实施不合理的差别待遇等违法行为。因此,排序精选类算法是在首页首屏、热搜、精选、榜单类、弹窗等重点环节提供符合主流价值导向的的版面页面管理;检索过滤类,《互联网信息服务算法推荐管理规定》第十四条规定,算法推荐服务提供者不得利用算法虚假注册账号、非法交易账号、操纵用户账号或者虚假点赞、评论、转发,不得利用算法屏蔽信息、过度推荐、操纵榜单或者检索结果排序、控制热搜或者精选等干预信息呈现,实施影响网络舆论或者规避监督管理行为。因此,检索过滤类算法不得利用算法屏蔽信息、过度推荐、操纵榜单或者检索结果排序等服务或行为;生成合成类,《互联网信息服务算法推荐管理规定》第十三条规定,算法推荐服务提供者提供互联网新闻信息服务的,应当依法取得互联网新闻信息服务许可,规范开展互联网新闻信息采编发布服务、转载服务和传播平台服务,不得生成合成虚假新闻信息,不得传播非国家规定范围内的单位发布的新闻信息。因此,生成合成类算法包括利用深度学习、虚拟现实等技术生成合成文字、图像、音频、视频等信息;调度决策类,《互联网信息服务算法推荐管理规定》第二十条规定,算法推荐服务提供者向劳动者提供工作调度服务的,应当保护劳动者取得劳动报酬、休息休假等合法权益,建立完善平台订单分配、报酬构成及支付、工作时间、奖惩等相关算法。因此,调度决策类算法主要规范工作调度服务,如外卖、网约车等。
     
      三、备案实务
     
      本次公布的30条备案信息中,包含微信、淘宝、天猫、抖音、优酷、微博、美团、快手、抖音、小米等平台,其中:个性化推送类17个、检索过滤类4个、排序精选类4个、调度决策类3个、生成合成类2个等多个类型。
     
      1、个性化推送类
     
      1)算法名称 网易传媒信息推送算法
     
      算法基本原理
     
      网易传媒信息推送算法通过用户群体对通知栏推送内容的点击行为建模,采用召回(内容类召回、协同过滤类召回和综合两者的召回)和排序(粗排、精排)的方式给用户推送个性化的内容。其本质是通过推送的历史点击行为和用户匹配标签给用户推送感兴趣的内容。
     
      算法运行机制
     
      个性化推送算法主要分为内容标签系统、用户画像系统和推荐引擎三大功能系统。
     
      一、 内容标签系统
     
      内容标签系统通过多种机器学习算法的方式,将文章以多种方式进行分类,如兴趣点(POC,POW)和标签(TAG)。
     
      二、 用户画像系统
     
      用户画像系统是通过分析用户行为结合内容标签生成用户偏好和向量表征。在推送场景中,主要用到了用户的兴趣点(POC,POW)和标签(TAG)两种匹配方式。
     
      三、 推荐引擎系统
     
      该系统包含主要的推送算法,其作用是通过召回、过滤、粗排、精排、重排几大流程筛选出个性化内容推送给用户:
     
      1.召回流程
     
      在推荐引擎中,召回流程主要通过各视角的筛选方法从内容池中筛选出几百篇文章;召回算法主要有基于内容类召回、协同过滤类召回和综合两者的召回。
     
      基于内容的召回主要有基于点击率的召回,基于热门内容的召回。
     
      基于点击率的召回是通过用户的历史点击行为,召回出用户感兴趣的内容。
     
      基于热门内容的召回,主要是通过当前的热点事件从召回源中召回文章。
     
      基于模型的协同过滤召回方法主要通过 MF 模型和 DSSM 模型,学习用户历史点击行为,通过模型预测所有用户和所有内容之间可能的交互行为。
     
      2.过滤流程
     
      功能是过滤掉客户端推荐过的和通知栏推送过的、重复、相似或需要过滤的内容等。
     
      3.粗排流程
     
      通过 DCN 模型对候选内容进行排序,从召回的几百篇文章中选出十到二十篇文章进入下一环节。DCN 模型会考虑内容和用户的匹配度,保证内容的质量和推送的精准性。
     
      4.精排流程
     
      通过 FM 模型对候选内容进行打分排序。此流程中的模型会采用较全面的用户兴趣点特征、内容相关特征、用户和内容的匹配特征、上下文相关特征以及用户的交互特征构建训练样本。
     
      5.重排流程
     
      通过动态阈值过滤的方式,将精排模型中打分比较低的文章,不推送给用户。用来保证个性化内容的精准性,保证用户较好的使用体验。
     
      算法应用场景 网易新闻客户端
     
      算法目的意图
     
      采用个性化推送算法,将用户感兴趣的内容快速及时的推送给用户,以便用户能够及时地获取到有用的以及感兴趣的内容。
     
      2)算法名称 一点资讯个性化内容推荐算法
     
      算法基本原理
     
      本算法主要应用于用户使用信息流产品时向用户推荐其感兴趣的内容。被推荐的内容包括图文、短视频、小视频、音频。推荐的原理是将内容库中的内容与用户的兴趣进行匹配,并选择与用户兴趣最相关的内容展示给用户。用户的兴趣是通过对授权用户在信息流产品上的行为日志(点击、观看时长)挖掘产生。
     
      算法运行机制
     
      本算法通过以下机制实现:
     
      (1)计算用户兴趣画像:通过用户的历史行为计算用户的兴趣偏好;
     
      (2)内容召回:从内容库中筛选出匹配用户兴趣偏好的内容;
     
      (3)内容排序:预估用户对召回内容的点击率和消费时长,综合点击率预估值和时长预估值对内容进行排序;
     
      (4)内容重排:对排序的内容进行多样性调整,保证相似内容打散;
     
      算法应用场景
     
      算法目的意图
     
      向用户推荐其感兴趣的内容
     
      3)算法名称 凤凰网个性化推荐算法
     
      算法基本原理
     
      凤凰网个性化推荐算法使用深度神经网络,根据用户的行为历史数据加以训练和计算,发掘出用户可能的兴趣并推荐感兴趣的内容,提高用户体验。
     
      算法运行机制
     
      凤凰网个性化推荐算法利用神经网络强大的计算能力和拟合能力,使用用户行为数据训练,从用户历史数据挖掘出用户感兴趣的内容,学习用户更高阶、抽象的兴趣属性,具备预测用户和内容的匹配度,从而将可能感兴趣的内容及时推送给用户。训练完成后即可更新到线上模型服务,进行在线打分和排序。
     
      算法应用场景
     
      凤凰网个性化推荐算法应用于凤凰新闻和凤凰视频客户端的内容推荐,从海量内容里挑选数十条用户可能感兴趣的内容,并展示给用户。
     
      算法目的意图
     
      凤凰网个性化推荐算法预测用户对每篇内容可能点击的概率,按照概率值进行排序,这样保证用户最大可能点击的内容能排在前面,展示给用户阅读,无需用户手动搜索,过滤用户不感兴趣内容,提高用户获取信息的质量和效率。
     
      4)算法名称 智联首页职位推荐算法
     
      算法基本原理
     
      智联首页职位推荐算法主要使用树模型(LambdaMart)。通过使用智联用户发布的职位信息和用户简历信息,以及用户在智联选择、填写的相关条件,用户在智联的点击、投递、聊天等行为作为模型的输入,为用户提供其所感兴趣的相关职位,根据以上数据进行相关性排序,把用户更感兴趣的职位排在更前面。
     
      算法运行机制
     
      本算法主要分为召回、排序和重排三个主要流程:在召回阶段以用户在产品中的用户行为(如点击、发起聊天、回复等)作为衡量用户兴趣的输入,以此来训练树模型,从内容庞杂的候选集合中,召回出少量用户可能感兴趣的项目。在排序阶段,排序模型从召回阶段召回的内容中,根据用户和职位的属性信息,召回阶段对职位的相关性打分,推荐结果的多样性以及推荐职位的热门程度等因素,返回召回结果中职位的点击率预期值,从而对召回职位进行排序,并返回推荐结果。重排是基于相关业务场景的理解对排序后的结果做最终的一些策略调整。
     
      算法应用场景 该算法用于智联 APP 首页职位推荐 TAB 页
     
      算法目的意图
     
      1、让用户更感兴趣的职位排在前面
     
      2、用户投递过、点击过的职位进行过滤
     
      3、给用户展示多样性结果
     
      5)算法名称 微博个性化推送算法
     
      算法基本原理
     
      微博个性化推送算法主要依据用户历史浏览行为,通过历史行为数据推导用户个性化兴趣,并根据不同用户的差异化兴趣,在微博内容库里匹配满足用户兴趣及消费需求的微博内容,以此达到“千人千面”的个性化推送效果。
     
      算法运行机制
     
      对于用户发布的微博,首先对违规违法等高危内容进行审核过滤,之后进一步进行质量优选,将优质物料存入推荐物料库,推荐的物料范围限制在推荐物料库范围内。
     
      整个推荐系统由微博内容理解模块、用户兴趣画像模块以及推荐系统模块构成。微博内容理解给微博打上正确的内容标签,以体现微博表述的内容。用户兴趣画像算法基于用户的行为(包括对微博内容的点击、转评赞等)过微博的内容标签,使用一些推导算法,聚合出每个用户对于各个标签的兴趣强度,以此来表征用户兴趣。推荐模块通过对用户兴趣以及微博内容等特征进行匹配计算,推送给用户感兴趣的微博内容。推荐模块由召回、粗排以及精排三个环节构成,召回和粗排环节的目的是从海量内容粗筛出部分用户可能感兴趣的候选推荐项集合,以减少后续精排阶段的计算数量。精排环节则根据用户兴趣对推荐项目排序,找出用户最感兴趣的项目推荐给用户。在精排结束后,采用去重、打散等干预策略对内容进行重新排序,作为最终结果推送给用户。
     
      算法应用场景
     
      目前个性化推送算法的主要应用场景:微博 App 首页“推荐流”以及各个“频道流”:推荐流及频道流以推荐算法为主,是个性化推荐产生的微博信息流。
     
      算法目的意图
     
      作为“社交媒体”平台,微博平台每日由用户产生大量高价值内容,同时,每个微博用户有个性化的内容消费需求。微博个性化推送算法旨在通过高效率算法,将两者进行精准匹配,为每个用户推送高质量个性化的“千人千面”内容。一方面满足不同用户个性化的内容消费需求,另一方面使得优质内容获得更多曝光机会,促进优质内容生产者的创作积极性,以达成促进平台生态正向循环以及增加内容分发效率的目标。
     
      6)算法名称 优酷个性化推送算法
     
      算法基本原理
     
      为向优酷平台用户展示视听内容或服务信息,我们会收集和使用用户提供的基础信息(性别、年龄、地域等)以及在用户访问或使用优酷时的观看记录、搜索记录。我们会通过算法模型预测人群偏好特征。我们会基于人群偏好特征在优酷及其他第三方应用程序向相关人群推送可能感兴趣的视听内容及其他信息,或者商业性信息。
     
      算法运行机制
     
      个性化推送类算法会基于模型预测人群偏好特征,匹配人群可能感兴趣的视听内容、服务或其他信息,对展示的视听、服务或其他信息进行排序。我们会根据用户使用产品过程中的浏览行为,对推送模型进行实时反馈,不断调整优化推送结果。为满足多元需求,我们会在排序过程中引入多样性打散机制,拓展推送的内容,避免同类型内容过度集中。如用户想管理我们为其推送的个性化内容,可以在“我的-设置-其他设置”中进行设置。
     
      算法应用场景 优酷平台视听内容展示,例如:猜你在追、播放页周边视频等
     
      算法目的意图 向用户展示视听内容
     
      7)算法名称 快手个性化推送算法
     
      推荐算法的基本原理是通过对作品集(即快手短视频作品)与用户的特征分析,向用户推荐感兴趣的短视频作品。快手个性化推送算法结构采取任务共享神经网络结构,通过网络自适应学习,建立用户兴趣特征表征向量,在召回阶段过滤掉用户已经浏览过的视频内容,同时根据视频内容的相似度过滤掉高度同质的视频内容。通过不断获取用户反馈,积累规则,优化排序结果。
     
      算法运行机制
     
      该算法落地在快手 APP 短视频推荐功能,用户在浏览视频进行刷新时,根据用户的历史浏览习惯,包括点击、评论、转发等,结合长期与近期的兴趣以及当前热点内容召回作品集,经过粗排、精排后展示给用户,根据用户浏览的反馈,调整下一次推荐的内容。同时该算法自动减少分发用户明确反馈不感兴趣的内容,满足用户需求。
     
      算法应用场景 快手 APP 精选视频
     
      算法目的意图
     
      该算法致力于为快手用户提供具有个性化、多样性、高质量的视频推荐服务,提升用户满足感、幸福感。
     
      8)算法名称 新浪新闻个性化推荐算法
     
      算法基本原理
     
      使用基于 snvd 日志、apache 日志、画像团队 offline 特征日志、nlp/cv 内容理解特征日志和推荐引擎 snapshot 日志数据生产的特征样本,利用画像召回模型、协同召回模型、双塔召回模型和 deepfm 模型等多种模型,根据 ctr、时长、互动等多个目标进行模型训练,通过 tf-serving 服务进行部署,实现针对 app用户的实时新闻个性化推荐功能
     
      算法运行机制
     
      基于微博热度、运营专题、优质账户、渠道唤起、端内高转化等 多维度信号,建立新闻时效热点内容的分层分发体系,结合优质 内容+动态热度变化,分兴趣层次递进分发,基于画像召回、行为 协同、i2i 召回、双塔召回、知识图谱相关等多种召回角度,上线了兴趣匹配、热榜相关、热评热议、渠道相关等多路召回模型; 同时,以 online learning+分钟级增量导出的深度排序模型为基础, 将内容质量分、内容热度值、热点项目/人物等多维度信息引入排 序模型学习,基于 GPU 分布式训练迭代,实现上百 T 量级模型 的单日训练迭代更新和实验上线,为热点分发提效赋能; 同时,基于深度学习推理能力提供实时推荐服务,多种算法模型根据不同的推荐机理灵活设置差异化的更新机制,召回算法模块小时更新,排序算法模块分钟级更新。
     
      算法应用场景 新浪新闻 app 的信息流新闻推荐业务场景
     
      算法目的意图 探索并学习用户兴趣,兴趣分发精细化精准化,提高用户推荐体验,提高用户粘性的同时提升用户的 app 时长和留存率。
     
      9)算法名称 抖音个性化推荐算法
     
      算法基本原理
     
      抖音个性化推荐算法基于系统收集的用户设备信息、位置信息以及在使用产品时的行为信息(行为信息包括用户在访问/使用产品时的点击、关注、收藏、搜索、查询、浏览、下载、分享及交易的操作相关记录),通过对上述信息进行自动分析和计算,根据计算结果从信息候选池中筛选出用户可能更感兴趣的内容进行推送。
     
      抖音个性化推荐算法会根据用户在使用产品过程中的浏览行为对推荐模型进行实时反馈,不断调整优化推荐结果,更好地向用户提供优质内容。
     
      算法运行机制
     
      抖音个性化推送算法主要是基于用户历史的点击、时长、点赞、评论、分享、转发、不喜欢等行为数据,通过深度学习技术框架建立模型,预估用户对某个内容产生互动的概率,针对预估内容使用排序、打散、干预等机制和策略后,再向用户进行推荐。
     
      用户行为参考<用户,内容,互动>三个维度作为样本进入机器学习模型里训练,训练的结果用于更新用户模型和推荐新的内容。为了避免“信息茧房”问题的出现,抖音个性化推荐算法专门设计了“兴趣探索”机制。一方面每次推荐都会选择用户过去不常观看的内容类目进行一定比例的推荐。另一方面每次获取推荐内容的过程中会特别增加一条随机内容来保障用户可见内容的多样性。
     
      算法应用场景 主要用于抖音短视频、今日头条、西瓜视频等产品的图文或视频、商品及服务(广告)等内容的推荐。
     
      算法目的意图 帮助用户提高获取优质信息的效率
     
      10)算法名称 小米浏览器内容推荐算法
     
      算法基本原理
     
      本算法主要应用于用户使用信息流产品时向用户推荐其感兴趣的内容。被推荐的内容包括图文、短视频、小视频、音频。推荐的原理是将内容库中的内容与用户的兴趣进行匹配,并选择与用户兴趣最相关的内容展示给用户。用户的兴趣是通过对授权用户在信息流产品上的行为日志(点击、观看时长)挖掘产生。
     
      算法运行机制
     
      (1)计算用户兴趣画像:通过用户的历史行为计算用户的兴趣偏好;
     
      (2) 内容召回:从内容库中筛选出匹配用户兴趣偏好的内容;
     
      (3)内容排序:预估用户对召回内容的点击率和消费时长,综合点击率预估值和时长预估值对内容进行排序;
     
      (4) 内容重排:对排序的内容进行多样性调整,保证相似内容打散;
     
      算法应用场景
     
      小米浏览器首页资讯内容推荐,底部 tab 视频内容推荐
     
      算法目的意图
     
      向用户推荐其感兴趣的内容,为用户提供集资讯和视频内容推荐服务于一体的浏览器工具
     
      11)算法名称 亲宝宝育儿推荐算法
     
      算法基本原理
     
      通过对用户的历史浏览行为以及用户基本属性数据(年龄、地域以及设备信息)对用户进行标签分类,利用算法模型对不同标签用户进行育儿资讯、话题推荐。
     
      算法运行机制
     
      为向用户提供更高效、便捷的育儿推荐服务,展示符合用户需求的相关内容、话题,基于深度学习计算用户行为与内容、话题相关性。当用户标签与内容、话题属性重合度越高,相关性越强。同时根据育儿内容、话题的点击率、评论数来计算育儿内容、话题热度和时效性,并结合运营策略把相关性高,热度高的育儿内容、话题优先展现给用户。
     
      算法应用场景 亲宝宝 APP 内育儿资讯、话题内容推荐
     
      算法目的意图
     
      亲宝宝育儿推荐算法使用于亲宝宝 APP 育儿服务,会通过用户的行为数据及用户画像进行智能内容推荐,提升与用户需求匹配度,优化用户的使用体验。
     
      12)算法名称 淘宝推荐算法
     
      算法基本原理
     
      为向淘宝平台电商用户展示商品或服务信息,包括用户的访问足迹、历史搜索情况,我们会收集和使用用户在访问或使用淘宝时的浏览、搜索记录。我们会结合依法收集的设备信息、服务日志信息,以及其他取得用户授权的信息,通过算法模型预测人群偏好特征。我们会基于人群偏好特征在淘宝及其他第三方应用程序向相关人群推送可能感兴趣的商业广告及其他信息,或者商业性短信息。
     
      算法运行机制
     
      个性化推荐类算法会基于模型预测人群偏好特征,匹配人群可能感兴趣的商品、服务或其他信息,对展示的商品、服务或其他信息进行排序。我们会根据用户使用产品过程中的浏览行为,对推荐模型进行实时反馈,不断调整优化推荐结果。为满足多元需求,我们会在排序过程中引入多样性打散机制,拓展推荐的内容,避免同类型内容过度集中。如用户不想看到我们在首页或支付完成页面等推荐的商品或服务,用户可以通过长按被推荐的商品或服务图片,在随后出现的弹窗中根据提示选择屏蔽类似商品或者商品或服务所属的类目;如用户想管理我们为其推送的个性化内容,可以在“我的淘宝-设置-隐私设置-推荐管理”中进行设置。
     
      算法应用场景 淘宝平台首页、逛逛、支付完成页面等的商品或服务信息展示
     
      算法目的意图 向用户展示商品或服务信息
     
      13)算法名称 聚好看音视频内容推荐算法
     
      算法基本原理
     
      通过采集用户行为日志,挖掘用户兴趣特征、活跃度特征及其他特征,基于用户特征将用户可能感兴趣的内容自动推荐并展示给用户,提高推荐点击率。
     
      算法运行机制
     
      算法运行包括召回、排序和业务规则干预三个阶段,召回阶段是从候选集中通过最新、最热、兴趣标签、U2I2I 四路召回,召回后的待推荐列表包括约 200 个内容;在排序阶段,通过DeepFM 和 MOE 排序模型对 200 个内容进行精细化排序生成排序列表;在业务规则干预阶段,通过去重、打散机制对排序列表进行过滤和重排,并将最终结果推荐展示给用户。
     
      算法应用场景
     
      推荐算法应用于智能电视相关视听服务领域。
     
      算法目的意图
     
      推荐算法用于在为用户提供视听服务时,提升用户内容观看体验。
     
      14)算法名称 苏宁易购个性化商品推荐算法
     
      算法基本原理
     
      针对苏宁易购的用户,使用用户在苏宁易购上偏好商品行为(点击、收藏、加购、购买、搜索等)数据和易购商品销量、点击率等基本信息作为输入,借鉴推送 push 策略、深度学习和决策树算法模型优势,预测用户点击购买意图,为用户做个性化精准推荐。
     
      算法运行机制
     
      数据层:利用 spark、hivesql 等大数据技术收集清洗数据,基于redis、hbase 等存储数据。
     
      离线层:基于 tensorflow 深度学习框架训练模型
     
      在线层机制:易购用户在苏宁易购上有行为触发算法运行---从易购商品池捞取用户感兴趣的商品---做负反馈/敏感性等过滤---读取用户行为数据和商品基本信息作为输入---加载离线层训练模型进行预测---按照预测的得分排序给用户展示这些商品---用户对这些商品做反馈(是否点击/是否购买等)
     
      算法应用场景 苏宁易购 app、苏宁易购网站相关推荐场景
     
      算法目的意图 提升用户购物需求满意度、提高用户留存及促进商品点击转化
     
      算法公示情况 我的易购→设置→隐私设置→推荐管理
     
      15)算法名称 富途牛牛内容推荐算法
     
      算法基本原理
     
      根据用户在软件内的行为(包括自选、搜索、浏览、点击、关注、评论、分享、收藏、不感兴趣、黑名单设置),个人设置,日志信息,IP 地址,设备信息(包括设备型号、设备环境),进行综合统计、分析从而提取用户的偏好特征。基于内容排序、召回模型,对内容进行打分排序,向用户推荐最可能感兴趣的文章、资讯内容,改善用户的内容体验。
     
      算法运行机制
     
      1.根据用户在行情、内容浏览过程中产生的交互行为,以及对内容进行挖掘提取标签,统计用户感兴趣的个股、内容标签,构建个股、内容偏好权重。
     
      2.通过用户长期和短期关注个股、浏览个股、浏览内容,构建多样化的召回策略,对内容构建索引,召回可能感兴趣的内容。
     
      3.对召回的内容,根据用户拉黑的作者、内容,结合用户浏览历进行过滤。采用线性加权、业界主流的机器学习模型等方法进行排序打分,并且叠加基于作者、话题、内容类型等打散策略,在保证内容多样性的同时将打分排名靠前的内容推送给用户。
     
      算法应用场景
     
      富途牛牛 APP
     
      开启【设置-隐私-个性化推荐开关】时,在以下场景应用:
     
      1. 资讯 tab-要闻栏目
     
      2. 社区 tab-推荐栏目
     
      3. 发现 tab-资讯-要闻栏目
     
      4. 发现 tab-社区-推荐栏目
     
      算法目的意图
     
      给用户推荐可能感兴趣的优质内容,过滤低质内容,提高用户满意度。
     
      16)算法名称 微信看一看个性化推送算法
     
      算法基本原理
     
      为提升用户体验,微信看一看个性化推送算法会从精选内容库中个性化地选取用户可能感兴趣的内容来推送给用户,以丰富用户多样化的精神需求。该算法基于用户浏览记录、关注公众号、用户在看内容等数据,通过机器学习 AI 算法,综合筛选用户可能感兴趣的内容,以实现信息个性化推荐。
     
      算法运行机制
     
      微信看一看个性化推送算法基于用户浏览记录、关注公众号、用户在看内容等数据进行用户建模。当用户使用服务时,基于算法运行机制 机器深度学习等模型召回推荐候选集,经过安全过滤、生态保障、内容去重、兴趣打散、社交推荐等干预机制后,提供图文、视频推荐列表。
     
      算法应用场景 微信看一看推荐。
     
      算法目的意图 满足用户对信息消费的个性化需求。
     
      2、检索过滤类
     
      1)算法名称 网易传媒信息搜索算法
     
      算法基本原理
     
      网易传媒信息搜索算法通过对搜索词和内容建模,展示给用户想要了解的新闻资讯。其本质是理解搜索词、理解内容以及度量好搜索词和内容的匹配程度。
     
      算法运行机制
     
      搜索算法主要分为内容标签系统和搜索引擎两大功能系统。
     
      一、 内容标签系统
     
      对搜索入库的内容进行内容理解,内容发布者可以选择相关标签信息,如分类、关键词等。同时内容标签系统使用多种机器学习算法提取标签信息,如兴趣点、实体词等,模型后续会基于高质量的人工和模型数据持续进行模型训练提升模型的准确性。
     
      内容标签系统主要提取图文和视频内容的标签信息,这些标签信息后续可用于召回和排序等环节,优化用户的搜索体验。
     
      二、 搜索引擎
     
      搜索引擎为搜索算法核心环节,其作用是通过意图识别、召回、排序几大流程筛选出符合用户预期的内容展示给用户:
     
      1.意图识别
     
      通过对搜索词比较完整的算法分析,体会用户的搜索意图。意图识别算法模块包括分词、词权重计算、意图分类等。模块以统计机器学习模型为主,为后续召回、排序等环节提供基础数据信息。
     
      2. 召回
     
      在搜索引擎中,召回流程主要通过倒排索引的方式从内容池中筛选出粗略的万级别数量的内容。搜索引擎以传统基于字面召回为主要召回手段,并增加同义词召回等扩充召回方式,一定程度上解决字面召回缺乏语义理解的弊端。
     
      3.排序
     
      通过较为复杂的模型对候选内容进行打分排序。该环节中的模型会采用较全面的内容特征、搜索词和内容的匹配特征以及搜索词特征构建训练样本,采用决策树模型训练并用于在图文和视频内容上的预测打分。
     
      算法应用场景
     
      网易新闻客户端
     
      算法目的意图
     
      搜索算法是为了让用户通过搜索词搜索的方式快速找到想要消费的新闻资讯,增加用户对产品的满意度。
     
      2)算法名称 360 搜索信息检索算法
     
      算法基本原理
     
      根据用户输入的查询词,从百亿级网页库和合作方优质结构化数据中召回潜在满足用户查询需求的候选结果,按照相关性、时效性、权威性等多维度指标对所召回的网页进行打分排序,并将排序后的结果以列表的形式展现给用户。
     
      算法运行机制
     
      当用户在搜索框输入查询词(Query)并点击“搜索”按钮,系统将查询词发送给 Query 分析模块进行分词并对 Query 查询意图等进行预测和分析,之后将分词结果提交给检索模块,检索模块通过查询倒排索引得到潜在满足用户查询需求的候选结果列表并提交给排序模块,排序模块调用排序模型对候选结果列表进行打分并按照得分从高到低进行排序,然后进行合规过滤以及去重打散处理,最后将结果列表返回并展现给用户。
     
      算法应用场景 360 搜索
     
      算法目的意图 满足用户主动获取信息的需求
     
      3)算法名称 百度信息检索算法
     
      算法基本原理
     
      基于自然语言处理和深度学习技术,计算检索结果相关性,同时结合时效性、权威性等综合判断网页对用户输入的搜索词的满足情况。
     
      算法运行机制
     
      用户输入搜索词后,从相关性、时效性、权威性、页面质量等维度在网页候选库里找到更匹配用户搜索需求的检索结果集合,将检索结果返回,并在百度搜索结果页向用户进行排序展示,优化并提升用户的信息检索需求满足度。
     
      算法应用场景 百度搜索(网站)、hao123(应用程序)、百度(应用程序)
     
      算法目的意图
     
      优化并提升信息检索结果及效果对用户检索需求的满足程度
     
      4)算法名称 百度内容安全算法
     
      算法基本原理
     
      基于自然语言处理和深度学习技术,结合富媒体深度学习技术,构建多模态、多场景的网络信息内容安全风险识别模型。
     
      算法运行机制
     
      通过算法模型审核环节对用户发布的网络信息内容进行内容安全风险识别,如审核识别用户发布网络信息内容包含违法信息及不良信息,则立即停止传输并采取处置措施。算法模型审核识别结果将作为人工审核辅助。用户未通过审核的网络信息内容无法成功发布。
     
      算法应用场景
     
      百度知道(应用程序)、百度新闻 APP(应用程序)、好看视频 APP(应用程序)、百度搜索(网站)、百度新闻(网站)、百度贴吧(网站)、hao123(应用程序)、好看视频(网站)、百度(应用程序)、百度贴吧APP(应用程序)、百度百科 APP(应用程序)、百度百科(网站)
     
      算法目的意图 用于防范和抵制违法信息及不良信息的发布及传播。
     
      3、排序精选类
     
      1)算法名称 微博热搜算法
     
      算法基本原理
     
      微博热搜依据海量用户的真实行为进行计算,实时发现微博平台内真正收到广泛关注的热点内容,形成实时榜单。
     
      算法运行机制
     
      1、上榜规则
     
      热搜词条主要由网友搜索行为和讨论行为产生,或者由话题主持人产生;被大量网友搜索和讨论的关键词或者话题词,都可能成为热搜词。热搜算法会综合搜索量、发博量、阅读量、互动量等数据指标,建立搜索、讨论、传播三大热度模型,实时计算综合热度进行排序,生成 Top50 榜单。榜单算法中包含严格的排水军和反垃圾机制,以确保公正客观。
     
      2、排序规则
     
      热搜算法综合热点的搜索、讨论、传播等实时热度,热度计算公式:(搜索热度+讨论热度+传播热度)*互动系数。
     
      搜索热度:指搜索量,是基于搜索行为建立的热度模型;反映用户对热点的关注和探索程度。
     
      讨论热度:指讨论量,是基于原创和转发的发博行为建立的热度模型;反映用户热议和参与的热情。
     
      传播热度:指阅读量,是基于热搜结果的关联微博在全站的阅读量建立的热度模型;反映热点在微博体系内的传播情况。
     
      互动率:指用户在热搜结果页下转评赞等行为的互动比率,归因到[1-1.2]区间;反映用户消费内容的意愿。
     
      算法应用场景 微博发现-热搜榜
     
      算法目的意图 热搜致力于提供新鲜、热门、有料的资讯,提升用户发现微博热点的效率。
     
      2)算法名称 百度热搜榜排序精选算法
     
      算法基本原理
     
      基于自然语言处理和统计学习技术,挖掘全网热点事件,结合热点事件相关统计信息以及热榜上的用户行为数据,综合判断事件热度。
     
      算法运行机制
     
      从全网范围挖掘热点事件,以事件粒度将热点事件的资源进行聚合,筛选优质内容,将热点事件的资源形成结构化的事件描述和对应的待审核热词提供给运营编辑进行审核与修改生成优质的热词,然后根据热词的热度值进行排序,将排序结果在榜单中展示给用户。
     
      算法应用场景 百度搜索(网站)、百度(应用程序)
     
      算法目的意图
     
      提升热点事件挖掘覆盖并将头部优质热词展示给用户。
     
      3)算法名称 天猫商品排行算法
     
      算法基本原理
     
      手机天猫使用了商品点击、加购、销量数据,按照不同的商品类目/属性,使用商品的客观数据排序以及对客观数据加权平均,来对商品进行排序
     
      算法运行机制
     
      手机天猫商品排行数据是按照通过小时/天的级别,根据手机天猫用户对平台上商品的点击、加购、销量等客观数据进行统计,同时按相应商品的类目/属性进行汇总,然后对客观数据进行排序或者对客观数据加权平均排序
     
      算法应用场景 手机天猫首页的“商品排行”
     
      算法目的意图 希望通过平台客观的排行数据,帮助客户做购买决策
     
      算法公示情况(选填) 待公示
     
      4)算法名称 腾讯新闻要闻排序算法
     
      算法基本原理
     
      算法模型利用内容去重打散、排序打分等多种干预策略及干预方式,优化排序呈现方式,为用户优先展示更优质的精选内容,以提升新闻内容的排序质量和用户满意度。
     
      算法运行机制
     
      算法模型利用内容去重打散、排序打分等多种干预策略及干预方式,依次在召回、粗排、精排、重排等不同阶段进行排序打分,以优化排序呈现方式。用户通过主频道入口、视频频道及各二级频道入口、视频底层页入口等浏览消费资讯内容时,向上或向下刷新时触发排序精选服务,实现精选内容的优先展示,增强信息多样性,提升内容优质程度,并避免对用户产生不良影响。
     
      算法应用场景 腾讯新闻-要闻版块-新闻列表页
     
      算法目的意图 精选优质新闻信息,对其排序并向用户优先展示。
     
      4、生成合成类
     
      1)算法名称 快手短视频生成合成算法
     
      算法基本原理
     
      通过对用户上传的图片或者视频进行识别,将用户上传的图片或视频按照 APP 已有模板进行编辑和重新生成,输出相关的图片或短视频内容,包括人脸属性编辑、人脸动作迁移、人体动作迁移等。
     
      算法运行机制
     
      该算法落地在快手 APP 的拍摄、图片和视频编辑等功能上,使用用户上传的图片、视频等信息,利用生成对抗网络等生成式技术,将用户上传的图片或视频加以编辑和重新生成,然后以魔表特效和快闪 MV 模板的形式为用户提供特效生成服务,用于提升以人为中心的特效拍摄体验。
     
      算法应用场景 快手 APP 短视频制作
     
      算法目的意图
     
      该算法主要用于提升以人为中心的特效拍摄体验,实现功能包含常见人脸属性编辑、动作属性编辑和风格化转换等,为用户提供更高效优质的内容生产体验。
     
      2)算法名称 钉钉语音识别算法
     
      算法基本原理
     
      钉钉语音识别算法会对用户发送或接收的语音消息进行处理,将语音消息进行识别后转换为文字,满足用户不同场景的需求。
     
      算法运行机制
     
      钉钉用户发送或接收语音消息后,长按语音消息使用“转文字”功能,钉钉语音识别算法会提取语音消息中的声学特征,再结合语言模型进行解码打分策略,最终将得分最高的文本串作为语音的文本内容。转换为文本后,对话框底部会展示“DAMO 语音识别”字样。钉钉语音识别算法仅支持对用户主动选中的语音消息进行识别。在内容安全方面,如果识别到图片中的文字内容违反法律、行政法规等有关规定时,将依法及时采取拦截等处置措施。
     
      算法应用场景 钉钉即时通讯中的语音转文字功能
     
      算法目的意图 满足用户在不方便读取语音消息时查看消息的需求;也满足听障人士沟通交流的需求。
     
      5、调度决策类
     
      1)算法名称 美团配送调度决策算法
     
      算法基本原理
     
      美团配送调度决策算法基本原理包括订单分配、预估到达时间两部分。
     
      “订单分配”算法通过科学分配,帮助骑手在合理的劳动强度下获得更多的收入。当后台接到一个新订单时,“订单分配”算法会把订单分配给时间充裕、且更顺路的骑手。
     
      “预估到达时间”背后包含“模型预估时间”和“三层保护时间”,共4种测算方式,选取一个最长的时间值作为预估到达时间。
     
      算法应用场景
     
      用户使用美团APP下单时,调用本算法计算用户订单的预估到达时间,以及为订单匹配合适的骑手,骑手可以选择是否为该订单提供服务,且在订单列表页可以看到待接订单的顺序。
     
      算法目的意图
     
      以骑手、用户和商户三端的体验优化为目标,保障骑手配送安全、保障用户送达时间的准时率、为商户的订单分配最合适的骑手,提供稳定的外卖履约服务。
     
      2)算法名称 蜂鸟物流配送算法
     
      算法基本原理
     
      蜂鸟物流配送算法坚决落实“算法取中”的要求,绝不以最严算法、最低时限为导向,安全与公平是持续优化的方向。本算法包括配送时长预估算法、智能调度算法等。配送时长 预估算法基于配送员当前位置和现有订单量,充分考虑路况、环境等外部客观因素,预估配送时间;智能调度算法综合考虑配送时间、距离、快递员位置、背单量等因素把订单分配给时间充裕、更顺路的配送员进行选择。
     
      算法运行机制
     
      不采用最低配送时效,在地形复杂或交通特殊的城市,预估配送时间预留更长时间,避免过度追求时速。在复杂的配送场景,为骑士自动匹配灵活配送时间。调度系统感知到局部运力压力过大,也将自动触发保护方案。当出现突发异常时,骑士也可以通算法运行机制过人工报备的方式,申请灵活配送时间,保障安全。试点送达时间,调整为“时间段”显示。为前置预防风险,会参考一些历史数据,调整订单分配。基于实时精准的气象数据,对配送线路及配送时间进行优化。骑士可自主调解背单量。
     
      算法应用场景 蜂鸟众包 App 的配送场景
     
      算法目的意图 科学合理地为用户、商家、骑手提供配送相关服务,完成履约
     
      算法公示情况
     
      (选填) 《2022 蓝骑士发展与保障报告》
     
      3)算法名称 菜鸟包裹时效预测算法
     
      算法基本原理
     
      用户因寄件或因网购需要收件等而产生物流订单后,算法将根据历史包裹信息,如包裹出发地、目的地、派送路径以及派送时效,以及当前物流订单的状态,如包裹出发地、目的地、当前位置等信息,通过算法模型来预测此包裹未来将通过哪条路径进行派送,以及预测此包裹大致的送达时间。
     
      算法运行机制
     
      我们根据历史包裹事件数据以及包裹订单数据,通过我们的模型预测包裹从出发地到目的地将经过的路径,以及通过分布采样的方法计算包裹抵达收件地址的时效分布,即包裹送达的大致时间范围,最终生成时效预测结果,并转化为日常用语以物流详情的形式透传给用户。
     
      算法应用场景
     
      用户打开菜鸟客户端后(包括菜鸟 App、菜鸟小程序),在包裹订单列表中查看运输中的包裹时,向用户展示的包裹预计到达时间以及包裹派送路径将使用该算法。
     
      算法目的意图 告知用户其包裹的派送路径以及预计到达时间,为用户合理安排取件时间提供便利。

    【作者简介】
    黄斌,华中科技大学法律硕士,北京德和衡(深圳)律师事务所公司业务部律师,专利代理人。
    【注释】
    [1]百度,零壹财经,“算法新规”施行四个月后,我在“算法透明”上看到两个问题,https://baijiahao.baidu.com/s?id=1737669834216514784&wfr=spider&for=pc

    免责声明:

    1.本网内容注明授权来源,任何转载需获得来源方的许可!若未特别注明出处,本文版权属于山东华信清算重组集团有限公司,未经许可,谢绝转载!如有侵权,请立即联系我们,我们会在第一时间做相关处理!

    2.转载其它媒体的文章,我们会尽可能注明出处,但不排除来源不明的情况。网站刊登文章是出于传递更多信息的目的,对文中陈述、观点判断保持中立,并不意味赞同其观点或证实其描述。