talkGPT4All: 基于GPT4All的智能语音聊天程序-六虎

1. 概述

TL;DR: talkGPT4All 是一个在PC本地运转的依据talkGPT和GPT4All的语音谈天程序，通过OpenAI Whisper将输入语音转文本，再将输入文本传给GPT4All获取答复文本，最终利用发音程序将文本读出来，构建了完好的语音交互谈天进程。

实践运用作用： talkGPT4All: 依据Whisper + GPT4All的语音谈天机器人

实践上，它只是几个工具的简易组合，没有什么立异的地方（乃至不支撑多轮谈天，只支撑英文），但 talkGPT4All 有下面几个比较好的特色：

一切算法本地运转，不触及API的调用，避免了国内无法拜访OpenAI API的问题
CPU 运转，无须 GPU 显卡
占内存小，实测8G内存就能够跑起来
速度还能够，测验8G Windows 一轮谈天小于1分钟， 16G Mac M1一轮谈天小于30秒
集成的AI还算智能，至少答能对题，答复看起来是符合英语语法的

目前支撑渠道和验证的状况如下:

Mac M1，现已验证可用
Windows，现已验证可用
Mac Intel，未验证
Linux，未验证

接下来对为什么造轮子和装置进程进行一步步地阐明。假如不想了解细节的话，能够直接跳转到第3部分开端上手装置。

2. 为什么造这个轮子

谈天机器人是我比较喜欢的一个运用，机器+人类的思想是一个很有意思的场景。另一方面，通过一个智能机器人来操练英语口语，也是一个很实践的运用。

一直以来，想要做一个含有智能的谈天机器人运用都是难度很大的，尤其是智能化的程度，受学术研究进展的限制，无法做到很高。但是近期的AI LLM大迸发，让开发一个真实智能的AI谈天机器人越来越简略。

最早看到的是依据whisper.cpp的talk.wasm, 一个依据Whisper+GPT-2的浏览器对话机器人，实践测验后发现GPT-2还不可智能，答复许多时分都答非所问。

然后是在ChatGPT出来后，我在想能不能做一个Whisper + ChatGPT的智能谈天机器人呢，搜索后发现whisper.cpp的讨论区现已有人在讨论这个工作，不过没看到制品。

在ChatGPT 敞开API后，有人做了一个MacOS上的依据OpenAI API的语音谈天机器人talkGPT，简略好用，仅有的问题是需求凭借OpenAI API，目前国内是不太好拜访的。

再然后是llama.cpp，通过量化和大量工程优化，让原本参数量很大的LLaMA模型能够跑在一般的笔记本上（现在乃至支撑在Android上运转！)，但实践测验通过量化后 LLaMA 7B 模型智能程度不太高，有时分会出错，而更大的LLaMA 15B 和 30B 在8GB内存的Windows 机器上跑起来就比较难了（最新进展：大小20GB的30B模型能够在8G的系统上运转了，拜见这个优化和这儿的讨论)。

这周又呈现了gpt4all，依据 LLaMA 7B模型，收集近80万的GPT-3.5-Turbo对话数据进行finetune，作用看起来比 LLaMA 7B 要好。作者发布了他们训练好的通过量化的模型，大小3.9G，以及能够直接在PC上运转的二进制谈天程序，能够直接在各个渠道运转。

然后长久以来的TODO 能够完成了，在缝合了talkGPT和GPT4All后，就有了talkGPT4All。简略来说，是把talkGPT的OpenAI API 换成了 GPT4All供给的本地能够运转的量化模型，也能够说是在GPT4All的基础上添加了语音转文本和文本转语音的功用。

那下面咱们来看看怎样装置和运转这个缝合怪吧。

3. 构建环境

由于整个程序设计到 Python 代码环境的建立、Whisper 语音转文本模型的下载、GPT4All 言语模型的下载、GPT4All 谈天程序的下载、文本转语音程序的下载，整体链路略长，下面分步骤分渠道分别进行具体阐明。

3.1 Python环境的建立

在不同渠道 Python 代码环境的建立是一致的。

推荐运用>= 3.8的Python版别，由于新版别的Python有必定的速度提高。低版别可能一些功用不支撑。首先clone代码:

git clone https://github.com/vra/talkGPT4All.git

后边假设代码库房的根目录为来进行指令阐明。

依据 Python自带的 venv 来建立阻隔的环境，并进行依靠装置:

cd <ROOT>
python -m venv talkgpt4all
source talkgpt4all/bin/activate
pip install -U pip
pip install -r requirements.txt

3.2 Whisper 语音转文本模型下载

Whisper 模型在调用时会自动下载，但有时分在指令行下载速度比较慢，咱们能够在浏览器中提前下载后放置到对应目录，解决这个问题。 Whisper 的一切模型地址拜见这儿，咱们用的是base.pt，地址是openaipublic.azureedge.net/main/whispe…，放置的目录是$HOME/.cache/whisper（Windows上是C:\Users\username.cache\whisper),通过浏览器或 wget 下载base.pt到这个目录就行。

3.3 GPT4All 言语模型的下载

言语模型放置目录是/models，依据 GPT4All 文档，下载方式包括 + 链接直接下载 + torrent下载

选择其中一种方式，将下载后的模型放置到/models目录下。

3.3 GPT4All 谈天程序下载

GPT4All 的作者打包了多渠道的二进制谈天程序，能够下载后直接运用，不必从源码编译 C++ 文件。

谈天程序的放置目录是/bin，不同渠道的下载地址如下：

Mac M1: raw.githubusercontent.com/nomic-ai/gp…
Mac Intel : raw.githubusercontent.com/nomic-ai/gp…
Linux : raw.githubusercontent.com/nomic-ai/gp…
Windows : raw.githubusercontent.com/nomic-ai/gp…

下载你的渠道的文件，放置到/bin。

3.4 文本转语音程序下载

在 Mac 下，自带say指令，能够将文本转语音，因此不需求额定装置工具。

在 Linux 下，有espeak指令能够来完成文本转语音，但需求额定装置，Ubuntu下的装置指令为sudo apt install espeak，别的发行版也能够用包办理装置。假如不可的话，尝试下载源码自行编译装置。

Windows 下有一个 say 指令的替代 wsay, 能够在这儿下载 wsay.exe，放置到/bin目录下。

4. 运用

装置完成后，进入目录，启用虚拟环境，运用python chat.py –platform 运转程序，分别是mac-m1, mac-intel, linux, windows。

Mac M1:

python chat.py --platform mac-m1

Mac Intel:

python chat.py --platform mac-intel

Linux:

python chat.py --platform linux

Windows:

python chat.py --platform windows

⚠️留意：目前只测验过 Mac M1 和 Windows，别的渠道未测验，如有问题，欢迎提 issue 和 PR 。

在 Mac 上运用作用如下:

编辑切换为居中

添加图片注释，不超过 140 字（可选）

也能够拜见本文开头的视频或这儿。

5. 后续改进思路

目前完成仍是比较粗糙，方案后续会增加下面的功用（按完成难度从低到高摆放）：

验证 Linux，Mac Intel 和 WSL2 下能否正常运转
增加多轮对话支撑
增加中文支撑
去掉编译好的二进制程序，包括 llama.cpp 源码，自行编译，支撑更灵活的运用
更多作用更好模型的添加

欢迎依据这个库房进行修改和代码分发，等待创造出更有新意、更有运用价值的东西～

本文正在参加人工智能创作者扶持方案

talkGPT4All: 基于GPT4All的智能语音聊天程序

1. 概述

2. 为什么造这个轮子

3. 构建环境

3.1 Python环境的建立

3.2 Whisper 语音转文本模型下载

3.3 GPT4All 言语模型的下载

3.3 GPT4All 谈天程序下载

3.4 文本转语音程序下载

4. 运用

5. 后续改进思路

作者信息

推广

talkGPT4All: 基于GPT4All的智能语音聊天程序

1. 概述

2. 为什么造这个轮子

3. 构建环境

3.1 Python环境的建立

3.2 Whisper 语音转文本模型下载

3.3 GPT4All 言语模型的下载

3.3 GPT4All 谈天程序下载

3.4 文本转语音程序下载

4. 运用

5. 后续改进思路

相关文章

Go 凭什么搞特殊？不用 yyyy-mm-dd，非得要 2006-01-02 15:04:05。。。

Next.js 13 实用进阶技巧【老王带你退休躺平第一篇】

现代化 Android 开发：组件化与模块化的抉择

12 张图看懂 CPU 缓存一致性与 MESI 协议，真的一致吗？

作者信息

推广