摘要:跟着 AI 的快速展开,怎样快速预备许多高质量的数据现已成为 AI 开发进程中一个极具挑战性的问题!

本文同享自华为云社区《怎样快速预备高质量的AI数据?》,原文机器学习作者:徐波。

一、布景

一般来讲,AI 人工智能的三要素是数据、算法数据处理办法有哪些和算力。这三要素缺一不可,都是人工智能快速展开的必备条件。这一轮 A机器学习I 热潮得以快速展开,也正是得益于这三个要素现已预备就绪。数据的质量会影响模型的精度,一般来说,许多高质量的数据更有或许练习出高精度 AI 模型。现在许多算法运用常规数据能将精确率做到 85%或许 90%,而商业化运用往往要求更高,假定即将模型精度前进至 96%乃至 99%,则需求许多高质量的数据,这个时分也会要求数据愈加精细化、场景化、专业化,这往往也成为了 AI 模型打破瓶颈的关键性条件。

而在大多数人工智能和机器学习项目中,数据预备和工程使命占了 80%以上的时间,其Go间数据清洗和数据标明占了整个项意图 50%左右。而数据预备十人工智能al女神古力娜扎分消耗人力,怎样快速预备许多高质量的数据现已成为 AI 开发数据处理职作业难吗进程中一个极具挑战性的问题。

怎么快速预备高质量的 AI 数据?

ModelArts 是面向 AI 开发者的一站式开发平台,能够支撑开发者从数据到 AI 运用的全流程开发进程,包含数据处理、算法开发、模型练习、模型部署等操作。而且供给 AI G人工智能电影allery 功用,能够在市场内与其他开发者同享数据、人工智能能否替代人类算法、模型等。为了能帮用户快速预备许多高质量的数据,ModelArts算法剖析的意图是 数据管人工智能专业理供给了以下首要才华:

  • 供给了数据预览和多维挑选等功用便利 AI 开发者快速辨认数据;

  • 供给了数据校验、主动分组等数据处理功用加快数宫崎骏据清洗;

  • 供给了 12 种以上宫颈癌的标明东西来帮忙用户标明各个场景数据处理是什么作业的数据;

  • 供给了智能标明、团队标明等功用加快标明、保证标明质量。

更多功用请见ModelArts数据管理:

怎么快速预备高质量的 AI 数据?

ModelArts 数据管理为预备高质量的 AI算法设计与剖析 数据供给的才华

本事例将以交通数据处理的常用办法有标志辨认原始数据集为基础,将运用公积金 ModelAr人工智能技能应用ts 为您演示:

  1. 怎样运用数据校验功用快速对数据进行清洗;

  2. 怎样运用主动分组功用从众多数据中选出想要的数据;

  3. 怎样运用标明东西快速完毕数据处理职作业难吗标明;

  4. 怎样运用智能标明等功用加快数据标明。

用户只需求进行招认或许稍作调整即可完毕标明,能够大大进人工智能al女神古力娜扎步数据标明功率,节约用户标明时间。

当您完毕这个事例龚俊,您将掌握怎样运用 ModelArts 快速预备许多高算法的时间复杂度取决于质量的数据。

二、预备

在初步之前,数据处理是什么作业您需求进行相关的预备作业,包含注册华为云账号、实名认证、ModelArts 全局装备和 OBS 相关操作,具体请参阅此文档。

三、操作

本次事例首要分为以下几个进程:①从 AI Galler数据处理职作业难吗y 下载数据集到 Model枸杞Arts 数据管理,② 数据校验:处理不合法数据, ③主动分组:删去不想要的数据,④数据标明:对数据打标明,⑤智能标明:运用 AI 技能加快数据标明,⑥发布数据集:同享数据。

怎么快速预备高质量的 AI 数据?

操作流程图

1. 下载数据集

该事例的数据集称谓为“交通标志辨认原始数据集”,现已人工智能概念股上传到 AI Gallery,AI Gallery 地址为marketplace.huaweicloud.com/markets/aih…。进入 AI Gallery 后需求挑选数据栏,然后在AI Gallery查找数据集人工智能称谓“交通标志辨认原始数据集”,或许点击数据集链接下载。

怎么快速预备高质量的 AI 数据?

算法找数据集称谓“交通标志辨认原始数据集”

怎么快速预备高质量的 AI 数据?

“交通标志辨认原始数据集” 概略Go

挑选该数据集进人工智能换脸鞠婧祎郑爽行下载,装备数据集的政策方位(需求现在 OBS 创立桶和目录),修改称谓为“交通标志辨认”,能够依据自己的情况加上描绘。点击招认下载后,页面会跳转到“我的数据”页面,这个时分能够点击“我的下载”页面检查下载展开。

怎么快速预备高质量的 AI 数据?

下载“交通标志辨认原始数据集”

怎么快速预备高质量的 AI 数据?

下载展开

怎么快速预备高质量的 AI 数据?

数据集概略

2. 数据清洗

1)数据辨认

当完毕数据下载后,一般需求先进行数据辨认,检查数据的大致情况,比如有多少数据、数据是什么样的、是否需求清洗等。这个时分能够点击“初步标明”,能够对数据进行预览,能够看到数据集样本列表。一共 706 张图片:交通标志辨认数据 500 张,其间 100 张已标明,400 张未标明;植物 200 张;其他数据 6 张。样本列表中的图片也会展现标签信息,右侧有该数据集的悉数标签信息。现在已有的标签为:

怎么快速预备高质量的 AI 数据?

标签信息

怎么快速预备高质量的 AI 数据?

数据集样本列表

2) 数据挑选

进行数据检查时往往数据对数据进行挑选,挑选自己想看的数据。这个时分能够点击挑选条件右侧的翻开,挑选相关条件进行挑选。Model算法剖析的意图是Arts 数据管理支持对标签称谓、文件称谓、标明人、样本算法是什么特征、难例信息等进行挑选。也能够挑选多个挑选条件一起进行挑选。

怎么快速预备高质量的 AI 数据?

数据挑选

比如想检查标签名为“green_go”的样本列表信息,则能够直接挑选标签名进行检查。

怎么快速预备高质量的 AI 数据?

机器学习签名为“green_go”的样本列表。

实践运数据处理英文用场景中数据往往夹杂着不合法数据,需求对数据进数据处理是什么作业行清洗。该数据集也有相关不合法数据:编码过错 2 张(badencode1.j人工智能能否替代人类pg,badencode2.jpg机器学习)、图片后缀数据处理过错 2 张(badsuffix1.png,badsuffix2.png)、单通道 2 张(badchannel1算法.jpg,badch算法的时间复杂度是指什么annel龚俊2.jpg)。比如依据文件名“badencode1.jpg”检查不合法数据,能够看到图片加载异常,由于图片Go编码有问题。

怎么快速预备高质量的 AI 数据?

依据文件名“badencode1.jpg”检查不合法数据

3) 创立“数据校验”类型的数据处理作业

ModelgoogleArts数据处理供给了“数据校验”功用,能够对数据进行检查。能够去 ModelArts 主页下的数据处理页面创立数据处理作业。

怎么快速预备高质量的 AI 数据?

数据处理页面

创立数据处理作业时能够修改作数据处理职作业难吗业称谓为“datav人工智能的界说alidate”,挑选场景类别“物体检测”,数工商银行据处理类型为“数据校验”,输入为数据集“交通标志辨认数据处理英文”的 V001 版别,数据为数据集“交通标志辨认”V002 版别。

怎么快速预备高质量的 AI 数据?

怎么快速预备高质量的 AI 数据?

创立“数据校验”类型的数据处理作业

4)检查数据校验作业人工智能al女神古力娜扎作用

数据校验作用招认:等候数据处理作业完毕,估计需求几分钟。等候作业“dat算法设计与剖析avalidate”完毕后能够检查数据,挑选输出数据集为“交通标志辨认”V002 版别,这个时分会提示是否切换版别,点击是,会切换版别,而且跳转到数据集页面,展现数据处理的最小单位数据集概略。假定不切换版别,数据集展现的仍是数据校验前的数据,或许会工商银行导致后边的进程失利。检查作用,能够看到只要 704 张图片,2 张编码格式有问题的已删去,后缀不对的人工智能能否替代人类 2 张数据处理的最小单位和单通道的 2 张图片已数据处理名词解释修改工商银行。即现已对数据集完毕数据清洗。

怎么快速预备高质量的 AI 数据?

挑选检查输出数据集版别

怎么快速预备高质量的 AI 数据?

依据文件名“badencode1.jpg”检查,不合法数据已被清机器学习

3. 主动分数据处理英文

1) 建议使命

在对数据校验之后,发现数据中有 500 张交通标志的图片,200 张植物的图片,4 张其他的图片。假定数据处理前面数据未枸杞顺畅获取到,能够直接挑选从 AI Gallery 下载已枸杞进行数据校验的数据集:交通标志辨认已校验数据集 。可参阅下图下载对应阶段已处理好的数据:

怎么快速预备高质量的 AI 数据?

对应阶段已处理好的数据

这个时分假定一张一张去挑自己想标明的数据,数据处理的常用办法有或许删去不想要的数据,会很慢很耗时。 这个数据处理是什么作业时分能够挑选建议主动分组功用,对交通标明数据和植物数据进行分组。进入页面为悉数,然后点击主动分组就能够建议使命。

怎么快速预备高质量的 AI 数据?

建议主动分组使命进行数据挑选

建议主动分组使命时填入分组数为 3,特征称谓为 group(也能够自界说),点击招认,等候使命执行。主动分组使命会在右上角展现。

怎么快速预备高质量的 AI 数据?

建议主动分组使命,填入参数

怎么快速预备高质量的 AI 数据?

主动分组展开检查

2)人工智能专业 使命作用检查

主动分组作业完后,能够在悉数页签翻开挑选条件,挑选样本特征“grou数据处理的最小单位p”,再挑选特征值来检查作用人工智能al女神古力娜扎:样本特征为“g数据处理软件roup”,值为 0 和 1 的底子算法的时间复杂度取决于为交通标志辨认数据,区别在于两个摄影场景不一样。样本特征为“枸杞group”,值为 2 的底子为植物数据。

怎么快速预备高质量的 AI 数据?

样本特征为“grGooup”,值为 0 的挑选作用

怎么快速预备高质量的 AI 数据?

样本特征为“group”,值为 1 的挑选作用

怎么快速预备高质量的 AI 数据?

样本特征为“group”,值为 2 的挑选作用

3) 删去数据

这样数据就现已完毕分组,而且分组作用比较精确。咱们能够依据作用,将植物数据进行批量删去。点击图片列表右上角的“挑选当前页”,挑选全部数据,然后阅读一遍数据人工智能,假定发现已选的数据中有数据处理想要的数据,人工智能能否替代人类能够吊销挑选该图片,处理完后再点击“删去图片”,即数据处理办法有哪些可完毕批量图片删去。删去完毕后,底子只剩交通标志辨认的数据了。

怎么快速预备高质量的 AI 数据?

批量删去不想要的图片

4人工智能技能应用. 数据标明

在完毕数据清洗,删去不想要的数据后,需求对数据人工智能能否替代人类进行标明。此时数据还剩大约 500 张图片。假定前面数据未顺畅获取到,能够直接挑选从 AI Gallery 下载已进行数据清洗的数据集:交通标志辨认已清洗数据集

在数据集样本列表页面,数据处理是什么作业点击“未标明”页签,挑选条件中样本特征为“group”,值为 0,即可看到交通标志数据数据会集第一个场景的数据。更多运用信息能够检查用户攻略。

怎么快速预备高质量的 AI 数据?

“未标明”页签样本特征为“group”,值为 0 的样本列表

怎么快速预备高质量的 AI 数据?

标明东西说明

点击数据处理的特点任意一张图片即可进入样本概略页面进行标明,标明页面会有标明东西栏、图片概略展现、图片列表、标签列表、图片切换等功用,如下图所示人工智能机器人

怎么快速预备高质量的 AI 数据?

图片标明页面

挑选矩形框,左击制作挑选标明方位,然后枸杞挑选算法导论标签,即可完毕标明,点击下一张会主动保存标明作用。也能够运用快捷键 N 切换到下一张。

怎么快速预备高质量的 AI 数据?

进行数据标明

5. 智能标明

运用进程中能够感觉到物体检测使命的标明作业量很大,而且手动标明功率不高,这个时分就能够运用智能标明功用来加快。

智能标明会对用户未标明的数据进行主动标明,用户只需求进行招认或许稍作调整即可完毕标明。

智能标明主动学习的原理是运用已有的部分数据和 ModelAr人工智能机器人ts 内置算法来练习一个模型,然后运用模型对剩下未标明的图片进行猜测。其间快速型是监督算法,运用的是已标明数据进行练习,精准型为半监督算法,运用的是已标明和未标明的数据进行练习google。用户也能够挑选自己的模型进行智能标明,这个时分能够挑选智能标明的预标明功用,数据处理的特点相同能得到主动标明的猜测作用。猜测完毕后,人只需求对猜测作用进行精确性的检查,猜测精确的图片就直接运用算法标明的作用,猜算法的时间复杂度取决于想不精确的就人工修改一下标算法剖析的意图是明,这种人机协作的办法,就能大幅度前进标明功狗狗币率,节约用户标明时间。

1) 建议智能标明

建议智能标明前,主张每人工智能的界说个标签标 15 张以上,这样展开会更高。点击样本列表的右上角“建议智能标算法的三种根本结构明”,运用默许选项即可,点击提交即可初步智能标明。

怎么快速预备高质量的 AI 数据?

建议智能标明入口

怎么快速预备高质量的 AI 数据?

招认建议智能标明

2) 检查智能标明展开

提交智能标明使命之后即会跳转到智能标明展开页面,也能够点击“待招认”页数据处理的特点签检查使命展开。

怎么快速预备高质量的 AI 数据?

智能标明使命展开

3) 招认智能标明作用

智能标明作业完毕后,能够在“待招认”页签看宫颈癌疫苗到智能标明作用。

怎么快速预备高质量的 AI 数据?

智能标明作用列表

未标明 402 张,智能标明作用也是 4龚俊02 张。点击具体的图片进入概略页面供算法工程师认。招认标签精确性,假定精确,直接能够点击“招认标明”,假定发现不对,能够调整标明作用再点击“招认标明”。

怎么快速预备高质量的 AI 数据?

招认智能标明作用

6. 发布数据集

1) 发布数据集版别

完毕数据标明之后能够发布数据集版宫颈癌疫苗别,能够挑选数据切分和写入描绘,人工智能al女神古力娜扎也能够不选。

怎么快速预备高质量的 AI 数据?

发布数据集版别

发布完毕之后会出产固定化的版别,记载一共多少样本数据处理员是干什么的,已标明多数据处理是什么作业少样本。也会生成 manife数据处理英文st 文件。Manifest 里面会记载全部样本信息及其标明文数据处理职作业难吗件存储信息,关于物体检测,标明未见为 Pascal VOC算法是什么 方式的 XML 文件,具体描绘请见官方文档。

怎么快速预备高质量的 AI 数据?

版别概略

2) 发布数据集版别到 AI Gallery

在发布完数据集版别后,能够在 ModelArts 练习中挑选该版别进行练习,也能够将该数据集发布到 AI Gallery,同享给其他用宫崎骏户。进入 AI Gallery 下的数据页面,点击人工智能“发布”按钮,填写发布数宫颈癌据集的称谓,比如“HDC2021–交通标志辨认数据集”,挑选数据集称谓“交通标志识”和版别“V003”,挑选数据类型为图片,挑选许可类型。点击发布即可。

怎么快速预备高质量的 AI 数据?

AI Gallery 发布数据集

怎么快速预备高质量的 AI 数据?

发布数据集到 AI Gall算法是什么ery

发布完数据集之后能够点击修改按钮,完善数据集信息,包含数据集主页

怎么快速预备高质量的 AI 数据?

点击修改完善数据集信息

至此,本事例完毕。

点击重视,第一时间了解华为云新鲜技能~