云音乐FeatureStore建设与实践

图片来历:unsplash.com/photos/ZiQk…

作者:卡妙

概述

在机器学习全流程的生命周期中,Feature Store是衔接Data和Model之间的桥梁。他经过存储mysql基础命令和办理ML进程中的缓存的视频在哪数据集和数据管道,减少特征工程的重复工作,以完成高功率的特征数据开发,缩短模型迭代周期。

从ML-Ops到Feature-Ops

规范的机器学习体系由数据、模型、代码三个部分安排而成,其别离对应着特征工程模型练习模型布置三个阶段。他们互相相关和依赖,并在各自的阶段承当着重要的职责和功用,以完成整个机器学习进程的使命。

云音乐FeatureStore建造与实践

跟着AI运用的快速发展,并在人脸辨认、广告、查找、个性监控安装化推荐等范畴有了大规模运用后,人们开端重视AI体系才能的基础建造。各大云渠道厂商连续推出了一MySQL些通用监控拍下东航客机坠落瞬间的AI渠道来加快模型练习模型布置流程,例如:AWS SageMaker、Google Vertex AI、阿里PAI等,这块流程和体缓存视频变成本地视频系,咱们能够一致ios模拟器称之为ML-Ops1

the extensiMySQLon of the DevOps methodology to include Machine Learning缓存视频怎样转入相册 and Da缓存ta Science assets as first class citizens within the DevOps ecology.

跟着AI渠道的遍及ios应用商店和运用,模型练习模型布置功率得到了极大的提高,而特征工程作为整个机器学习流程的开端步骤,还停留在运用传统的数据开发流程阶段。为了满足机器学习对数据开发的各种定制化要求,AI范畴逐渐开端ios应用商店探索针对机器学习场景的数据开发解决计划,于是承接ML-Ops的Feaios15ture-Ops诞生了,业界随之也推出了一系列面向特缓存清理征工程的体系ios越狱,并称之监控安装流程为Feature Store,例如:Feast、Tecton、AiOSWS SageMaker Feature Stoios14.4.1更新了什么re、Databricks Feature Store。

Feature Store界说监控摄像头品牌排行

最早提出并明确Feature Store的概念mysql数据库,来自2017年Uber的Michelangelo Platform2。他描绘了Feature Store的首要目的是为了在机器学习进程中,促进特征的注册、发现以及复用,而且确保特征数据在离线批处理和在线运用程序读取时的一致性。其能够供给高功用、mysql数据库基础知识低推缓存视频合并迟的数据服务(面向在线的预估缓存的视频在哪场景)和高吞吐、大容量的数据服务(面向离线的练习和批猜测场景)以供模型运用。

一个简略而规范的Feature Store如下所示:

云音乐FeatureStore建造与实践

Music监控摄像头 FeatureBox

FeatureBox监控家用远程手机解决的问题

在云音乐,咱们经过辨认云音乐算法场景特有的事务问题,打造了云音乐自研的Feature Store – Music FeatureB监控安装ox。致力于解决以下问题:

  • 特征发现/办监控眼理/复用:没有中心化的办理,不同的算法团队一般无法复用特征数据,特征工程会占用算法工程师大量的时mysql数据库刻,且还会形成核算资源和存储资源的糟蹋。咱们经过完成特缓存英文征元数据的注册与中心化办理,ios模拟器来协助特征发现/办理监控可以保存多少天,以促进特征复用,加快机器学习进程中的特征工程功率。
  • 高功用的特征存储和服务:特征数据存储引擎在不同的场景有着完全不同的运用需求(练习/批预估需求扩展性好、存储空间大;实时预估需求低推迟、高呼应),咱们经过自研不同内核的存储引擎(MDB/RDB/FDB/TDB),并封装逻辑存储层来路由不同的物理存储引擎,在不同的场景运用不同的物理存储引擎来满足个性化的运用要求。
  • 模型练习/预估运用的特征数据一致性:用于练习和预估的特征数据往往由于不同的数据完成,而发生异构或许不一致,这会导致模型的预估发生误差。咱们在Datmysql基础命令ahub体系笼统出一层单一缓存文件夹名称的数据拜访层,将模型和物理存储阻隔并解耦。经过一致数据缓存文件夹名称拜访API和自动化数据同步使命,来确保练习/预估ios是苹果还是安卓运用的特征数据一致性。
  • 特征抽取&算子复用: 由于核算的环境和数据上下文有所不同,一般模型的离线练习和在线预估缓存视频合并app会各自完成一套特征的抽取逻辑,这样的做法不仅会带来额外的开发工作量,还会形成由于跨言语、跨环境等要素所引起的核算精度不一致、质量危险和保护成本添加等问题。咱们规划了一套跨言mysql索引语、跨渠道的算子库&特征抽取核算引擎,以达到一套算子代码库+一致的DSL语法装备能够在线上/线下各个核算环境中收效。
  • 练习样本出产/办理ios14.4.1更新了什么:从特征数据到终究喂给模型练习的样本数据集,往往会经过特征筛选、特征抽mysql数据库取、样本采样、样本拼接等进程,FeatureBox经过规范的API规范了该进程的输入和输出,并支撑自界说数据管道且托管了整个进程的数据管道使命,以完成特征数据和模型练习的无缝对接。
  • ios越狱征质量监控和剖析:机器学习体系发生的误差很大一部分是来自于数据的问题,mysql数据库命令大全FeatureBox能够经过核算存储和服务中的一些目标,来协助算法工程师发现和监控这些数据的质量问题。其间包括但不限于特征质量、特征重要性、服务的功用等。

综上所述,FeatureBox是一套针对机器学习场景定制的ios14.4.1更新了什么数据体系,用来解决Feature-Ops中所描绘的问题,首要包括以下三个方面:

  • 存储数据和办理元数据。
  • 创建和办理特征抽取管道。
  • 为模型练习/预估供给一致性的数据服务。

FeatureBox全体架构

FeatureBox并不是单一的服务或许代码库,而是一套完整的面向机器学习缓存视频合并流程的数据体系。

FeatureBox是依据云缓存音乐自研的数据服务办理体系 – “Datahub” 构建起来的,全体的架构图如缓存视频怎样转入相册下:

云音乐FeatureStore建造与实践

这儿面模块别离有什么缓存清理作用?他们之间的关系是怎么样的?下面咱们来对其间几个中心模块进行具mysql索引体的介绍:

Dmysql数据库基础知识atahub

“Datahub”是FeatureBox中最中心的模块,能够说是整个FeatureBox的柱石。他结构了一套笼统的特征元数据,而且封装各种不同物理存储的A缓存清理PI,将一切对物理数据的读写都笼统成对特征的操作。咱们监控可以保存多少天能够经过Datahub获取特征的Schema和Storagios系统e元数据,而且能监控拍下东航客机坠落瞬间够在任意言语和环境中运用Datahub API拜访到你需求的特征数据。经过Datahub,FeatureBox能够让算法工程师对特征数据的操作在离线/实时/在线等各种环境下,保持一致的体验ios14.4.1更新了什么

一起作为拜访Storage的Pios是什么意思roxy,Datahub也包含了序缓存是什么意思列化、压缩、埋点监控等切面化功用,以协助用户屏蔽一些技能优化项,完成更高的读写功率。此缓存清理外,Datahub还能作为数据和物理存储交互的拦截处理管道,添加各种自界说的缓存文件夹名称处理进程(语法ios模拟器过滤、安全处理、缓存优化等)。监控

云音乐FeatureStore建造与实践

Scios模拟器hema&序列化

​ 要想一切的存储数据都有元数据,首先缓存视频怎样转入相册要做的第一监控摄像头步便是规划一套规范的table schema,能够表达现在一切事务数据的格式。而关于schema完成来说,最重要的便是value的序列化计划选型,咱们需求考虑以下几点方针:

  • schema要mysql怎么读简略了解,能够便利的扩展字段
  • 支撑跨言语的序列化方法
  • 具有高效的MySQL编解码功用和高压缩比

​ 依据以上几ios模拟器点,咱们很简略想到缓存文件夹名称两个备选计划,一是json,二是p缓存视频合并approtobuff,这两个选型各有利弊,咱们来剖析一下监控系统

json

​ 长处 – 很简略了解,扩展性也十分好,能够缓存兼容各种言语。

机器学习 缺陷 – 是string明文存储,压缩比和编解码功用都不高。

protobuff缓存视频变成本地视频

​ 长处 – 作为google老牌序列化方法,具有十分好的编解码功用和压缩比,也有很好的跨言语支撑才能。

​ 缺陷 – 需求生成.protios模拟器o来保护schema,不利于字段缓存视频合并app动态扩展。(一个table添iOS加字段,可能触及线上运用、flimysql安装配置教程nk运用mysql数据库命令大全、etl运用、spark练习脚本等多个当地变更schema)。

那么有没有办法,即能具有pb的高mysql基础命令效功用,又能具有json的扩展才能呢?答案是必定mysql密码忘记了怎么办的!

​ 咱们调研监控系统经过PB库中的com.google.protobuf.Dynamios系统icMess机器学习agecom.google.protobuf.Descriptors.Descriptor类来完成依据protobuff的元缓存清理数据办理和转换,并经过开源iOS库protostuff来完成.proto文件的动态编译,然后将prot缓存文件夹名称obuff格式做到像json相同能够直接经过Map<String,Object>来操作的便利性,而且不用多端一起更新发布.proto文件。

​ 确定了value的序列化方法之后,构建table schema就简略多了。由于Datahub关于特征服务只供给KV/KKV的数据接口,那么咱们界说缓存的tabmysql基础命令le schema只要在添加最为pk和sk的列就能够了,剩余的列便是value的pb schema。这样咱们就能即确保存储引擎关于高效读写的要求,又确保了事务体系关于简略易用的要求。

​ 例子:music_alg:fm_dsin_user_缓存视频怎样转入相册static_ftr_dpb

云音乐FeatureStore建造与实践

自动生成protobuff监控可以保存多少天

syntax = "proto3";
package alg.datahub.dto.proto;
message UserStaticFeature {
  repeated float userTag = 1;
  repeated float userLan = 2;
  repeated float userRedTag = 3;
  repeated float userRedLan = 4;
  SparseVector userMultiStyleSparseVector = 5;
  repeated float userRedSongTimespan = 6;
  repeated int32 userBaseFeatureStr = 7;
  float userAgeType = 8;
  float userRank = 9;
  repeated float userSong2VectorEmbedding = 10;
  repeated float userChineseTag = 11;
  repeated float userTagPlayEndRate = 12;
  repeated float userLanPlayEndRate = 13;
  repeated float userPubTimePlayEndRateAll = 14;
  SparseVector artistPlayEndRatioSparseVector = 15;
  repeated float dsUserTag = 16;
  repeated float dsUserLan = 17;
  repeated float dsUserRedTag = 18;
  repeated float dsUserRedLan = 19;
  repeated float fatiRatio = 20;
}
message SparseVector {
  int32 size = 1;
  repeated int32 indices = 2;
  repeated double values = 3;
}

Transform

“Transform”是FeatureBox除Damysql数据库基础知识tahub外的另一中心模块,他首要办理从特mysql怎么读征读取到模型输入缓存视频在手机哪里找的整个进程,ios下载是机器学习体系中特征工程-模型工程衔接的枢纽。Transform是由FeatureBox中注册的Featurios是什么意思e元数据、算子元数据等编排装备而成,他能够跨言语、跨引擎的表达特征抽取的履行进程。

与业界的Transform界说不同,这儿的Transform仅仅一个自界说DSL的装监控可以保存多少天备描绘,他表明的是整个特征抽取的的核算进程,并不包括具体的使命和使命管道(相关部分在Job Generator和Web Console的使命办理缓存视频合并app功用中)。

Transform依据实践的运用场景不同,能够分为三种情况:

场景描绘监控安装特征获取算子言语缓存视频变成本地视频(兼容)输出类型
离线练习用于离线环境模型练习的批量Transform从Hive/Hdfs获取一个DataSetjava/scala/cios15++TFRecord文件
在线猜测用于在线环境模型猜测的指定特征调集的Trans缓存视频怎样转入相册form从Redis/Tair经过Key查询特征调集java/scala缓存是什么意思/c++Ve缓存视频变成本地视频ctor目标
实时特征(规划)用于实时特征出产的流式数据Transform从Kafka/Nydus获取Streaming数据java/sca监控拍下东航客机坠落瞬间la/c++动态ProtoBuf目标

咱们能够经缓存视频合并app过相同的Tr缓存视频在手机哪里找ansform语法(MFDL)来表达不同环境和核算引擎的特征核算履行进程,以产出终究需求特征值:监控系统

云音乐FeatureStore建造与实践

关于咱们Transform模块中的MFDL是如何完成mysql数据库命令大全和运用的,能够阅览上篇文章云音乐预估体系建造与实践的内容,其具体描绘了MFDios模拟器L在线上预估体系中的运用。

Monitomysql数据库r

当机器学习体系出现问题时,大部分的原因来自于数据问题。由于FeatureBox包含了一切的特征存储、特征元数据、特征服务信息等功用,所以ios应用商店他能成为一个十分好的特征监控中心服务,来协助整个机器学习流程定位和发iOS现各种特征数据问题。一般的情况下,咱们首ios应用商店要会核算和监控以下三缓存清理类目标:

  • 特征缓存视频合并app基础目标:“特征基础目标”是指依据存储引擎的特征数据的一些metrics核算,如特征覆盖度、存储容量、新鲜度、散布等。这些基础目标可用协助咱们快速了解一个特征的基本信息,以便利具体的算法工程师/数据开监控摄像头品牌排行发工程师来运用或运维该特征数据。
  • 特征服务目标:“特征服务目标”是指DataService/Stmysql怎么读orage等在线体系的实时运转信息,如存储目标(可用性/容量/利用率等)、服务目标(QPS/RT/错误率等)等相关目标。缓存是什么意思这些目标能够协助你实时调查和剖析当前整个Feamysql安装tureBox的在线体系是否安稳可用,以确保上游事务和APP供给的服务安稳可用。
  • 特征mysql安装配置教程/ios应用商店模型偏移目标:“特征/模缓存是什么意思型偏移目标”是指经过特征重要性、模型练习/猜测数据误差等目标来表达特征数据质量。由于跟着时刻的推移或许一些突发的外部事件,可能会形成线上布置的模型的练习数据和实践的猜测数据之间发生比较大的误差,然后形成模型作用下降,所以咱们需求核算“特征/模型偏移目标”来协助维持出产环境中机器学习模型的作mysql数据库基础知识用。

关于特征基础目标和偏移检测,FeatureBox的mysql面试题Moni缓存视频变成本地视频tor模块首要集成TFX中的Data Validation组件来完成对数据集的剖析和监控。咱们首要供给以下三种剖析和监控功用:

  • 针对静态监控可以保存多少天数据集核算的可视化剖析。
  • 依据先验期望Schema校验数据集核算剖析。
  • 选用双样本对比检测数据误差和漂监控系统移。

下图具体描绘Monitor模块在整个机器学习流程中的位置和作用。

云音乐FeatureStore建造与实践

示例:针对数据集的基础核缓存视频变成本地视频算信息和散布供给可视化的视图,以便利算法同学排查数据反常问题。(缓存原生的TFDV经过jupyter notebook履行脚本以生成可视化信息,咱们也能够经过采集每次核算的stats数据以展现到FeatureBox界面中)

核算视图会将特征分为连续值和离散值两类,两者都会有散布核算(连续值选用规范直方散布),mysql密码忘记了怎么办另外连续值会有中位数、方差、规范差等核算。

云音乐FeatureStore建造与实践

Storage

Storage“是FeatureBox中的物理存储层,负责存储实在的特征数据,并对上游的数据ios系统服务层供给数据的读写服务缓存视频合并app。依据不同的特征运用场景,Storage模块能够分为离线存储和在线存储。

离线存储:离线存储一般运用在练习或批猜测场景,存储近月/近年来TB级别的特征数据,供给小时级/天级的批量读写才能。常见的离线存储有HIVE/HDFS等。

在线存储:在ios系统线存储通用运用在实时猜测场景,只存储特征数据的最新值,并有着高呼应、低推迟的要求。常见的在线存储有Redis/Tair/MySQL等。在云音乐,咱们为监控了满足不同类型的特征存储要求和不同场景的呼应要求,还依据Tair架构定制了监控系统存储引擎内核,他们别离是:

  • MDB:依据内存Hash表的内存型缓存英文存储引擎,有着高呼应、低mysql密码忘记了怎么办推迟,mysql数据库基础知识存储资源价值高的特点,一般用于存储对呼应要求十分高的小容量特征数据的在线猜测场景。
  • RDB:依据RocksDB的磁缓存盘型存储引擎,呼应和推迟略不如MDB、但存储资源价值更低,能够支撑数据批量更新Bulkload,一般用于存储大容量特征数据的在ios是什么意思线猜测场景。具体内容能够阅览之前的文章:自研磁盘型特征存储引擎RDB在云音乐的实践。
  • FDB:依据FIFO Compaction策略的RocksDB存储引擎,由于FIFO Compaction所以很mysql怎么读适合存储日志型数据而不会带来写放大,一般用于存储Snapshot特征快照数据。
  • TDB:自研的时序存储引擎,能够依据不一起间粒度聚合核算数据,但呼应和推迟要低于MDB/RDB,一般用于存储带时刻字段聚合的核算型特征数据。

FeatureBox经过Datahub/DataService作为路由代理,将上层事务对特征缓存视频合并app数据的读写路由并缓存视频合并app转化到实践对应的St监控安装orage衔接进行操作。所以用户对底层的Storage的API和运维其实是不感知的,他们仅仅经过Web Comysql安装nsole来界说Schema与选择他们特征数据更监控系统适用的Storage。这也促成了Featumysql怎么读reBox能够让特征存储的办理、运维、数据迁移mysql数据库、快速失败、扩缩容等工作变得更加便利。

云音乐FeatureStore建造与实践

结语

以上便是本篇文章的全部内容,咱们简略的介绍了FeatureOps和FeatureStore的界说和他所解决的问题,并以此打开讲述了云音乐自ios是苹果还是安卓建Feature Store – FeatureBox的首要规划和模块功用,期望能给对特征工程感兴趣的小伙伴带来启发和协助。由于篇幅问题,在整个Featur Store中还有十分多的ios是什么意思细节没有打开,我们能够重视后续的文章。


  1. MLOps SIG↩
  2. Michelangelo Platform↩

发表评论

提供最优质的资源集合

立即查看 了解详情