比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

在快速发展的数据剖析范畴里,真正能够简化杂乱的剖析流程,让更多人都能像专家相同去而剖析数据的东西必定会在这个范畴发生革新性的影响。

ChatGPT和Noteable结合就能发生这样的影响!它结合了ChatGPT的自然语言处理才干和Noteable.io渠道的数据剖析笔记本的强壮功用,让人人都能成为专业的数据剖析师!

本文将经过实际事例,展现它怎么进行无代码数据剖析,主动生成赋有洞察力的可视化图表,机器学习建模,以及实时云协作等功用。让咱们一同了解 Noteable ChatGPT 插件怎么彻底改变数据剖析体会!

ChatGPT插件Noteable简介

Noteable ChatGPT插件是由协作数据笔记本渠道 (collaborative data notebook platform) Noteable.io开发的第三方ChatGPT插件。该插件将 ChatGPT 的自然语言处理功用与数据笔记本(Data Notebook)——Noteable.io 渠道的一项功用——无缝集成。

数据笔记本类似于Jupyter Notebook,是一个的 Web 应用程序,可让用户创立和同享文档,该文档能够包含实时代码、方程、可视化图表和注释性的文本。 它广泛应用于数据整理和转化、数据剖析、数值模拟、核算建模、数据可视化、机器学习等范畴。

借助Notable ChatGPT 插件,用户能够经过对话命令 ChatGPT 加载数据集、履行探究性数据剖析、创立可视化图表、运转机器学习模型等—一切这些都在可与其别人同享的 Jupyter 笔记本环境中进行。

这种集成不仅简化了数据剖析进程,而且降低了数据剖析的门槛。 即便你不明白编程,您也能够经过Notable ChatGPT 插件供给的直观的对话界面来进行专业的数据剖析。

ChatGPT插件Noteable的主要功用

  • 经过对话剖析数据: 不需求代码就能够辅导数据剖析的进程,只需求描绘你想要做什么或许你想要运用的技能,然后ChatGPT就会数据笔记以本及数据剖析成果的解说。
  • 数据可视化: 经过ChatGPT的对话进行数据剖析的进程中就能够主动生成可视化图表,当然也能够指定生成某种类型的图表。
  • 云端协作: 经过ChatGPT创立的Jupyter笔记本存储在Noteable渠道的云端,多人能够一同拜访和修改同一个笔记本,并不会因为ChatGPT会话被删去而消失。团队成员能够增加单元格、修改代码、增加谈论并具有一个综合视图,能够显现每个人的奉献。Noteable渠道管家谈天和谈论功用,能够在剖析数据时实时评论和对话。
  • 同享和导出: 经过ChatGPT创立的Jupyter笔记本能够导出,在线剖析或许无缝合并到其它剖析项目里。
  • 版别控制: 因为经过ChatGPT会把输出的成果存储到Noteable创立的数据笔记本的单元格,因而经过ChatGPT进行数据剖析的前史也能够在笔记本的前史中查看。在必要时也能够进行恢复。
  • 衔接各种数据源: Noteable能够衔接到多种数据源,如MySQL, Maria DB, PostgreSQL, BigQuery, Snowflake, Databricks等。一同也能够衔接到外部的API。

开端运用Noteable ChatGPT插件

装置Notable插件

首先,要确保你开通了ChatGPT的付费版别ChatGPT Plus,这样才干够运用ChatGPT4并装置插件。

登录ChatGPT Plus账号今后,查看是否现已激活了ChatGPT的插件功用。

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

然后去ChatGPT插件商铺查找插件进行装置。

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

查找 “Notable “并在Notable插件列表中点击 “装置”。

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

将Notable衔接到ChatGPT

点击“Install”按钮后,会弹出Noteable账户的登录页面你需求将你的Notable账户衔接到ChatGPT。

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

假如没有弹出登录页面,能够拜访Notable.io,注册一个免费账户。

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

创立Notable账户后,ChatGPT会主动激活Noteable插件,此刻挑选GPT版别的按钮下方会出现Noteable的logo。

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

假如Noteable插件没有被选中的话,能够在挑选GPT版别的按钮下方的插件列表里选中它。

创立Noteable项目

Noteable项目时在Noteable云端的空间里安排你的作业的一种方法。一个项目包含了一切的Jupyter笔记本、文件夹和文件。

为了充分展现Noteable的运用,我特地从Kaggle上找了一个数据集。这个数据集是关于奈飞 (Netflix) 8000多部电影和电视的数据,包含导演,艺人,评级,发布时刻,观看时刻,节目类型,节目描绘等数据。

为了剖析这个数据集,我输入以下Prompt来创立一个项目:

创立一个名为“Netflix 电影和电视节目”的新项目并将其设置为我的默许项目。

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

ChatGPT告诉我它创立好项目今后,我去Noteable.io的云空间发现该项目现已创立好了。

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

当然,也能够直接在Noteable的云空间里直接创立项目。

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

除了创立项目之外,我也让ChatGPT把新的项目设为默许项目。假如设置了默许项目,ChatGPT下次拜访该项目时就不必指定项目的途径。下次创立笔记本时,也不会再新建一个项目然后再新创立的项目里创立笔记本,而是在默许项目里创立,这样就避免了Noteable账户中的紊乱。

创立Noteable笔记本

要剖析数据,首先要创立一个Noteable笔记本。

Noteable笔记本就是一个运转在Noteable云端的笔记本,类似于Jupyter Notebook。它是一个Web文档,能够在笔记本里增加代码、解说性文本,以交互式的方法运转和测验代码,展现可视化图表。

经过Noteable ChatGTP插件,用户不明白代码也能够经过对话的方法让ChatGPT去创立和修改笔记本。创立笔记本能够运用如下Prompt:

创立一个名为“Test”的新笔记本,然后给我笔记本链接。

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

拜访ChatGPT给咱们的笔记链接就能够翻开Noteable云空间里的笔记本。

剖析数据集

从CSV, Excel, 数据库导入数据

Noteable能够让用户在笔记本中轻松导入各种来历的数据。你能够上传 CSV 文件、Excel 电子表格,并衔接到 Postgres 和 MySQL 等数据库。

你能够在Noteable云空间的项目或许笔记本界面导入数据。翻开方才ChatGPT给我的笔记链接,就到了笔记本的界面。

点击界面右上角的加号,在弹出的下拉菜单里挑选”Add files”。

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

将CSV或许Excel文件拖到虚线框中或许点击“Upload from computer”翻开本机的文件浏览器上传文件。你能够一次最多上传25个文件,每个文件在100M以内。

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

履行探究性数据剖析 (EDA)

EDA能够协助咱们了解数据集的大约姿态,就像当咱们旅游某个景区先看下它的地图相同。在开端之前,咱们一般要先进行数据清洗和预处理。

咱们要剖析的数据一般会包含一些过错值,重复值,缺失值或许异常值,这些值假如不经过清洗或许处理的话,会影响后续的剖析成果。

咱们能够让ChatGPT帮咱们:

  • 生成列的汇总核算信息
  • 查看缺失值
  • 查找异常数据点
  • 绘制列的散布

但在开端前,咱们先看看Noteable能否帮咱们履行以上进程。为此,我给ChatGPT提交了以下Prompt:

作为专业的数据剖析师,请遵循规范的数据剖析流程。 咱们来逐渐剖析netflix_titles.csv中的数据。

netflix_titles.csv就是我方才上传到Noteable云空间里的数据。

咱们来看下ChatGPT的处理进程:

我创立了一个代码单元来从“netflix_titles.csv”文件加载数据并显现前几行。 可是,发动内核好像存在问题。 让咱们再次测验运转该单元。

您能够经过此链接修改该单元。

数据已成功加载。 以下是数据集的前几行:

index show_id type title director cast country date_added release_year rating
0 s1 Movie Dick Johnson Is Dead Kirsten Johnson United States September 25, 2021 2020 PG-13
1 s2 TV Show Blood & Water Ama Qamata, Khosi Ngema, Gail Mabalane, Thabang Molaba, Dillon Windvogel, Natasha Thahane, Arno Greeff, Xolile Tshabalala, Getmore Sithole, Cindy Mahlangu, Ryle De Morny, Greteli Fincham, Sello Maake Ka-Ncube, Odwa Gwanya, Mekaila Mathys, Sandi Schul South Africa September 24, 2021 2021 TV-MA
2 s3 TV Show Ganglands Julien Leclercq Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabiha Akkari, Sofia Lesaffre, Salim Kechiouche, Noureddine Farihi, Geert Van Rampelberg, Bakary Diombera September 24, 2021 2021 TV-MA
3 s4 TV Show Jailbirds New Orleans September 24, 2021 2021 TV-MA
4 s5 TV Show Kota Factory Mayur More, Jitendra Kumar, Ranjan Raj, Alam Khan, Ahsaas Channa, Revathi Pillai, Urvi Singh, Arun Kumar India September 24, 2021 2021 TV-MA

数据会集的列包含:index、show_id、type、title、director、cast、country、date_added、release_year、 rating、duration、listed_in、description。

数据剖析进程的下一步一般是履行一些探究性数据剖析(EDA)以更好地理解数据。 您想持续吗?

剖析数据之前一般要看看数据的前几行,以便了解该数据集的大约状况。ChatGPT为我做了这项作业,十分棒,我不需求主动要求它进行。

当我拜访Noteable云空间的笔记本,就发现现已生成了几行代码:

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

ChatGPT最后问咱们是否要履行一些探究性数据剖析以更好地理解数据,那么咱们就让它持续吧。下面是ChatGPT的回复:

以下是探究性数据剖析的一些开始发现:

  1. 数据集包含8807行12列。
  2. 各列及其各自的数据类型如下:
数据类型
show_id object (方针)
type (类型) object
title (标题) object
director (导演) object
cast (艺人) object
country (国家) object
date_added (增加日期) object
release_year (发布年份) int64
rating (评级) object
duration (观看时长) object
  1. 数据会集存在缺失值。 以下是每列的缺失值计数:
专栏 缺失值
show_id 0
type (类型) 0
title (标题) 0
director (导演) 2634
cast (艺人) 825
country (国家) 831
date_added (增加日期) 10
release_year (发布年份) 0
rating (评级) 4
duration (观看时长) 3

下一步一般是数据整理,咱们处理这些缺失值。 您想持续吗?

ChatGPT为我输出了列的数据类型以及缺失值的数量,十分棒!接下去它说要处理这些缺失值,让它持续。

我已运用字符串“Unknown(不知道)”填充了“导演”、“艺人”、“国家/”、“增加日期”、“评级”和“观看时长”列中的缺失值。 现在,数据会集没有缺失值:

Column Missing Values
show_id 0
type 0
title 0
director 0
cast 0
country 0
date_added 0
release_year 0
rating 0
duration 0

数据剖析进程的下一步一般是履行一些描绘性核算以更好地理解数据。 您想持续吗?

ChatGPT帮咱们把一切缺失值都替换成”Unknown”。其实有些列中的缺失值很少,也能够删掉包含这些缺失值的行。这个操作能够经过跟ChatGPT对话进行,也能够在笔记本里修改代码。

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

咱们姑且就不修改了,让ChatGPT持续。

以下是该数据集的一些描绘性核算数据:

关于数字列 (release_year):

  • 数量:8807
  • 平均值:2014.18
  • 规范差:8.81931
  • 最低:1925
  • 第 25 个百分位:2013 年
  • 中位数:2017 年
  • 第 75 个百分位:2019 年
  • 最长:2021

关于分类(categorical)列:

  • “type(类型)”列有 2 个仅有值,其间“Movie(电影)”是最常见的。
  • 每行的“标题(title)”和“show_id”列都是仅有的。
  • “director(导演)”、“cast(艺人)”和“country(国家)”列有许多仅有值,其间“不知道”因为缺失值替换而最为常见。
  • “增加日期(date_added)”列有 1768 个仅有值,其间“January 1, 2020”是最常见的。
  • “rating(评级)”栏有 18 个共同的类别,其间“TV-MA”是最常见的。
  • “观看时长(duration)”列有 221 个仅有值,其间“1 Season”是最常见的。

数据剖析进程的下一步一般是履行一些数据可视化以更好地理解数据。 您想持续吗?

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

让ChatGPT持续:

以下是“type(类型)”列的计数图,显现数据会集电影与电视节目的数量:

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

正如咱们所看到的,数据会集的电影多于电视节目。

接下来,让咱们可视化“发布年份(release_year)”列的散布。 您想持续吗?

让ChatGPT持续。

以下是“发布年份(release_year)”列的直方图,显现了数据会集电影和电视节目的发行年份散布:

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

正如咱们所看到的,这些年来发布的数量一直在增加,其间最近几年发布的数量最多。

接下来,咱们能够剖析“评级”列,以查看电影和电视节目最常见的评级。 您想持续吗?

让ChatGPT持续:

这是“评级”列的计数图,显现每个评级的电影和电视节目的数量:

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

正如咱们所看到的,最常见的评级是“TV-MA”,其次是“TV-14”和“TV-PG”。

接下来,咱们能够剖析“country(国家)”列以查看内容最多的国家。 您想持续吗?

让ChatGPT持续。

以下是“国家“列的计数图,显现内容最多的前 10 个国家/区域:

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

咱们能够看到,美国的内容最多,其次是印度和英国。

开始的探究性数据剖析到此结束。 依据这些见地,咱们能够提出更详细的问题并进行进一步的剖析。 您是否有任何详细问题或想要对此数据集履行的剖析?

到此为止,ChatGPT主动帮我完结了开始的EDA,我没有任何干涉,基本都在说”Go ahead”。Noteable插件利用了ChatGPT自然语言的才干,为咱们选了4个视点进行了探究性剖析。

这些视点确实是很好的切入口,让咱们能很快地了解数据集的大约状况,为后面更深入的剖析做了铺垫。它还依据剖析方针主动生成了图表,并给出了剖析的定论,虽然咱们并没有要求它这么做。默许状况下,假如柱状图能够展现数据,它生成的就是柱状图,你也能够要求它换一种图表类型。

接下来咱们给它一些其它的剖析视角看看它的体现。

我:

剖析电影的持续时刻。

ChatGPT:

好像存在过错,因为“观看时长(duration)”列包含一些“Unknown(不知道)”值。 让咱们处理这些值并重试。

关于形成的紊乱,我深表歉意。 好像存在过错,因为“观看时长(duration)”列仍然包含“min”字符串。 让咱们删去该字符串并重试。

以下是电影时长的一些描绘性核算数据:

  • 数量:6128
  • 平均:99.58 分钟
  • 规范差:28.29 分钟
  • 最短:3 分钟
  • 第 25 个百分位数:87 分钟
  • 中位时刻:98 分钟
  • 第 75 个百分位数:114 分钟
  • 最长:312 分钟

这些核算数据使咱们能够很好地了解数据会集电影的典型持续时刻。

接下来,咱们能够可视化电影时长的散布。 您想持续吗?

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

我让ChatGPT持续。

这是“持续时刻”列的直方图,显现电影持续时刻的散布:

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

正如咱们所看到的,最常见的电影时长在 80 到 120 分钟之间。

电影时长的剖析到此结束。 您还有其他详细问题或想要对此数据集履行的剖析吗?

接下来还能够持续提问,让Noteable ChatGPT插件为咱们生成更多数据洞察。我在这里不再演示了,为了充分挖掘它的才干,我持续让它进行更高档的数据剖析。

高档数据剖析才干

除了规范的数据剖析和可视化,让咱们探究下Noteable插件高档数据剖析的才干。我测验了两个方面,自然语言处理和数据剖析建模。

自然语言处理 (NLP)

NLP是一个研究范畴,专心于使核算机能够理解人类语言并与之互动,其方法类似于咱们彼此之间的交流方法。它答应核算机处理、剖析并从很多的文本数据中取得洞察力。

比方我给它这样一个使命:

剖析标题中最频频的词并生成一个词云。

让咱们看下ChatGPT的输出:

以下是标题中最常见单词的词云:

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

词云中单词的巨细表明了它们的频率。 正如咱们所看到的,标题中最常见的一些词是“爱”、“男人”、“日子”、“世界”、“故事”等。

对标题中最常见单词的剖析到此结束。 您还有其他详细问题或想要对此数据集履行的剖析吗?

假如咱们剖析Noteable笔记本里生成的代码就能够明白ChatGPT结合Noteable的处理进程。

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

我仅仅让ChatGPT生成词云,它就知道应该装置pythonwordcloud库,并从该库里导入中止词。这些中止词是比较常用的,我还能够进一步让ChatGPT持续删去某些词,比方’little’等。

机器学习建模

数据剖析中的机器学习建模是指练习核算机算法主动学习模式并依据输入数据做出猜测或决议计划的进程。该模型能够对新的、未见过的数据进行归纳并做出精确的猜测。

咱们来看看Noteable ChatGPT插件能为咱们建哪些模型:

您能够为此数据集构建哪些机器学习模型?

来看看ChatGPT的回复:

鉴于数据集的性质,以下是一些能够构建的机器学习模型:

  1. 依据内容的引荐体系:运用有关电影和电视节目的信息,例如“导演”、“艺人”、“国家/区域”、“评级”、“时长”和“描绘”,咱们 能够构建一个依据内容的引荐体系,引荐与给定电影或电视节目类似的内容。
  2. 文本分类/情感剖析:假如咱们有电影和电视节目的用户谈论,咱们能够运用“描绘”和“标题”特征来构建文本分类模型来猜测谈论的情感。
  3. 时刻序列剖析/猜测:假如咱们有关于每部电影或电视节目增加时刻的更详细数据(例如每日数据),咱们能够履行时刻序列剖析以了解随时刻改变的趋势并或许猜测未来的增加 。
  4. 分类或回归模型:假如咱们有一个特定的方针变量,例如猜测电影或电视节目的“收视率”或“发行年份”,咱们能够别离构建分类或回归模型。 然而,考虑到当时的数据集,这些模型或许不是十分有意义或有用。

请注意,这些模型的有效性和可行性将取决于是否具有正确的数据并界说明晰的问题陈说。 您是否有想要进一步探究的特定机器学习模型或问题陈说?

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

我提交了如下Prompt:

利用文本数据(如标题和描绘)和分类数据(如导演、艺人、国家/区域和评级)构建依据内容的引荐体系。

ChatGPT的回复如下:

构建依据内容的引荐体系触及几个进程:

  1. 预处理:这触及整理文本数据并将其转化为可用于核算类似度的格式。 这一般触及标记化、词干化/词形复原和删去停用词等技能。
  2. 特征提取:这触及将文本数据转化为数字特征。 这能够运用 TF-IDF(词频-逆文档频率)等技能或 Word2Vec 或 BERT 等词嵌入来完结。
  3. 类似度核算:一旦咱们有了数值特征,咱们就能够核算不同电影/电视节目之间的类似度。 这能够运用余弦类似度或杰卡德类似度等度量来完结。
  4. 引荐:一旦咱们测量了不同电影/电视节目之间的类似性,咱们就能够向给定的电影/电视节目引荐类似的电影/电视节目。

让咱们首先预处理文本数据并运用 TF-IDF 提取特征。 咱们将要点重视“标题”、“描绘”、“导演”、“艺人”、“国家”和“评级”列。

我现已对文本数据进行了预处理并核算了余弦类似度矩阵。 下一步是创立一个函数,将电影或电视节方针题作为输入并输出类似电影或电视节目的列表。 让咱们这样做吧。

我创立了一个名为“get_recommendations”的函数,该函数将电影或电视节方针题作为输入,并依据内容输出前 10 名最类似的电影或电视节目的列表。

您现在能够输入标题并获取引荐。 例如,假如您想要依据电影“Inception”的引荐,您能够调用如下函数:get_recommendations('Inception')

您想测验运用特定的标题吗?

我让它调用引荐的函数看看模型的效果:

调用函数:get_recommendations('Inception')

于是乎,ChatGPT就为咱们生成了10个引荐的电影和电视:

以下是依据内容排名与《盗梦空间》最类似的 10 部电影和电视节目:

  1. 浴血黑帮 (Peaky Blinders)
  2. 洪水之前 (Before the Flood)
  3. 砖块 (Brick)
  4. 假如能够的话来找我 (Catch Me If You Can)
  5. 火星来袭!(Mars Attacks!)
  6. 一周内死亡(不然退款)
  7. 狙击手:遗产 (Sniper: Legacy)
  8. 大梦想,小空间 (Big Dreams, Small Spaces)
  9. 林肯 (Lincoln)
  10. 汤姆塞古拉:球霸 (Tom Segura: Ball Hog)

请注意,引荐依据电影和电视节目的内容,包含标题、说明、导演、艺人、国家/区域和评级。 类似度是运用 TF-IDF 和余弦类似度核算的,这或许并不总是反映语义类似度。

您想测验其他标题吗?或许您还有其他想做的作业吗?

咱们再来让它建一个模型:

依据导演、艺人、国家/区域、发行年份和类型等特征猜测电影的评级。

来看看ChatGPT的回复:

我为评级猜测模型创立了一个新笔记本。 您能够在此处跟进我的作业。

让咱们首先加载数据并履行一些初始预处理。

关于形成的紊乱,我深表歉意。 看来“netflix_titles.csv”文件在当时项目中不可用。 咱们需求将文件上传到新项目。 让咱们这样做吧。

看来“netflix_titles.csv”文件在当时项目中不可用。 咱们需求将文件上传到新项目。 您能够经过转到项目页面并单击“上传”按钮来完结此操作。

文件上传后,咱们就能够持续剖析。 上传文件后请告诉我。

Noteable插件为此创立了一个新的笔记本,因为新笔记本所在的环境中缺少数据集,我又从头上传并让它持续:

我现已加载了数据,挑选了特征,对分类特征进行了编码,并将数据分成练习集和测验集。

接下来,让咱们练习一个简单的逻辑回归模型作为基准。

逻辑回归模型现已过练习和评价。 分类陈述如下:

      precision   recall  f1-score  support

  66 min    0.00    0.00    0.00     1
     G    0.00    0.00    0.00     12
    NR    0.00    0.00    0.00     16
    PG    0.00    0.00    0.00     62
   PG-13    0.00    0.00    0.00     87
     R    0.28    0.09    0.14    163
   TV-14    0.51    0.05    0.08    414
   TV-G    0.00    0.00    0.00     43
   TV-MA    0.39    0.98    0.56    662
   TV-PG    0.00    0.00    0.00    185
   TV-Y    0.00    0.00    0.00     52
   TV-Y7    0.00    0.00    0.00     65

 accuracy              0.39    1762
macro avg    0.10    0.09    0.07    1762
weighted avg    0.29    0.39    0.24    1762

模型的整体精度为0.39,不是很高。 这或许是因为使命的杂乱性和逻辑回归模型的局限性。 或许需求更杂乱的模型或额外的特征工程来提高功用。

您想测验不同的模型,或许还有其他想做的作业吗?

我让ChatGPT引荐一些模型:

能够引荐一些模型吗?

ChatGPT如此回复:

绝对地! 以下是一些或许提高此使命功用的机器学习模型:

  1. 随机森林:这是一种集成学习方法,经过在练习时构建多个决议计划树并输出类(即各个树的类的模式(分类)或平均猜测(回归))来进行操作。 随机森林纠正决议计划树过度拟合练习集的习惯。
  2. 梯度提升:这是另一种集成机器学习算法,它结构新的猜测器,旨在纠正先前猜测器的残余误差,从而逐渐改善模型。 XGBoost 和 LightGBM 是流行的梯度增强库,以其功用和速度而闻名。
  3. 支撑向量机 (SVM) :SVM 关于某些类型的数据集十分强壮,尤其是在数据不太大且有明显别离余量的状况下。
  4. 神经网络:假如数据集庞大且杂乱,神经网络或许是一个不错的挑选。 它们能够捕获杂乱的模式和特征之间的交互,但它们需求更多的核算资源而且更难以解说。

请记住,模型的挑选一般取决于数据集的详细特征和当时问题。 测验多种模型并查看哪一种最适合您的特定用例一般是个好主意。

您想持续运用其间一种模型,或许您还想做其他作业吗?

我让ChatGPT创立随机森林的模型:

创立随机森林模型。

来看下它的回复:

随机森林模型现已过练习和评价。 分类陈述如下:

      precision   recall  f1-score  support

  66 min    0.00    0.00    0.00     1
  84 min    0.00    0.00    0.00     0
     G    0.33    0.17    0.22     12
    NR    0.00    0.00    0.00     16
    PG    0.47    0.44    0.45     62
   PG-13    0.43    0.40    0.42     87
     R    0.50    0.42    0.46    163
   TV-14    0.45    0.49    0.47    414
   TV-G    0.25    0.05    0.08     43
   TV-MA    0.59    0.70    0.64    662
   TV-PG    0.23    0.13    0.17    185
   TV-Y    0.43    0.46    0.44     52
   TV-Y7    0.56    0.62    0.58     65
  Unknown    0.00    0.00    0.00     0

 accuracy              0.50    1762
macro avg    0.30    0.28    0.28    1762
weighted avg    0.48    0.50    0.49    1762

该模型的整体精度为0.50,比逻辑回归模型有所改善。 然而,某些分类的体现仍然相当低。 这或许是因为多种原因形成的,例如类别不平衡、缺乏信息特征,或许模型不够杂乱,无法捕获数据中的模式。

您想测验不同的模型,或许还有其他想做的作业吗?

我让它测验支撑向量机模型(Support Vector Machines),下面是它的回复:

支撑向量机(SVM)模型现在正在练习中。 SVM 比其他一些模型核算量更大,因而练习或许需求一段时刻才干完结。 您能够在笔记本中查看模型练习的进度此处。 练习完结并有成果后,我会立即告诉您。

点击ChatGPT给咱们供给的笔记本的链接,就能够看它练习的进程。

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

上图的红框里显现了练习的时刻,花了2个半小时才完结了练习。假如要缩短练习的时刻,能够加入Waitlist获取更高的装备,比方GPU。

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

爬虫和API恳求

因为 Noteable 笔记本在衔接互联网的服务器上运转,因而你能够抓取网站并发出 API 恳求来提取外部数据。这大大拓展了ChatGPT的才干。Noteable能够下载装置必要的Python库来处理各种使命,不限于数据剖析。

比方我让它帮我生成一个维基百科机器学习页面的词云:

为此网页生成词云:en.wikipedia.org/wiki/Machin…

咱们来看下Noteable结合ChatGPT的处理成果:

要从网页生成词云,咱们需求履行以下进程:

  1. 获取网页内容。
  2. 解析 HTML 以提取文本。
  3. 整理文本(删去停用词、标点符号等)。
  4. 生成词云。

关于此使命,咱们需求运用多个 Python 库:“requests”用于获取网页,“BeautifulSoup”用于解析 HTML,“nltk”用于整理文本,“wordcloud”用于生成词云。

让咱们首先装置这些库并获取网页内容。

我已成功获取网页内容。 现在,让咱们解析 HTML 以提取文本。 为此,咱们将运用 BeautifulSoup。

HTML 已被解析而且文本已被提取。 现在,让咱们经过删去停用词和标点符号来整理文本。 为此,咱们将运用自然语言东西包 (NLTK)。

文本现已过删去停用词和标点符号进行整理。 现在,让咱们生成词云。 为此,咱们将运用“wordcloud”库中的“WordCloud”函数。

以下是依据机器学习维基百科页面上的文本生成的词云:

比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者

每个单词的巨细表明它在文本中出现的频率。 较大的单词被更频频地提及。

以上只是一个小小的实例,你还能够把要爬取的网页的链接放在一个表格乃至数据库里,然后经过跟ChatGPT对话的方法布置使命,批量爬取网页上的数据并存到另一个表格或许数据库里。而且,Noteable还供给调度功用,答应用户设置时刻表来运转笔记本,按小时、每天、每周或每月。

协作并同享成果

实时协作

Notable 供给了强壮的实时协作功用。用户可在运用 ChatGPT 生成的笔记本时加强团队协作:

一同修改: 多个协作者能够一同翻开同一个笔记本,修改内容会实时显现。 用户能够增加、修改、从头排列单元格,而其别人则能够看到实时的改动。

单元格确定: 用户能够确定他们正在处理的单元格,以避免其他用户意外地把改动覆盖掉。

集成谈天: Notable 具有内置谈天功用,协作者在评论时能够针对或引证特定的单元格。

@提及: 你能够在谈天中@特定用户以告诉他们或将他们的注意力链接到相关的内容。

这些功用的组合促进了数据剖析作业流程的协作。 团队成员能够在 ChatGPT 生成的笔记本上团体作业,实时改善和迭代,一同主动捕获前史记录和对话。 这有助于在整个安排中大规划释放对话剖析的力气。

导出和同享笔记本

已完结的笔记本能够经过多种方法同享和导出:

  • 与特定的Noteable用户同享笔记本或为空间或项目中的用户装备拜访权限
  • 下载Jupyter (.ipynb) 文件
  • 把笔记本导出为HTML, PNG, PDF, MD, RST, PY

总结

总归,Noteable ChatGPT 插件彻底改变了咱们处理数据剖析的方法。 它将自然语言处理与数据笔记本的强壮功用相结合,供给了一个更直观更开放的数据剖析渠道。 即便编码技能,任何人都能够深入研究杂乱的使命,例如探究性数据剖析、机器学习建模、网络抓取数据等。让咱们一同展望数据剖析的未来。

PS: 假如本文对您有协助,辛苦帮我点个赞哦