一手实测腾讯混元大模型：重逻辑降幻觉，鹅厂自家应用已加持-六虎

鹅厂的通用大模型，总算来了！

就在今日，腾讯千亿参数大模型混元正式露脸，声称全自研，具有3大特色：

中文创造才能强，一起具有杂乱逻辑推理和任务履行的才能。

有意思的是，腾讯表明，在今日正式发布大模型之前，不少人现已在腾讯相关APP中用过混元大模型的才能了。

例如，早在谷歌云发布AI相关的会议总结产品之前，腾讯会议早就上线了依据智能录制的智能纪要、智能章节、发言人回忆等才能。

这些个功用背面，正是混元大模型的才能。

既然如此，这个在腾讯产品中“摸爬滚打”出来的大模型究竟长啥样？

咱们现已get了混元大模型的测验资历，这就来试一试它的真实水平。

混元大模型实测作用如何？

混元大模型，现在能够在微信小程序上申请体验，也便是混元大模型的Chat版。

腾讯表明，混元大模型具有下降错觉比例、逻辑推理、抵抗诱导、惯例问题、语义了解、内容创造、有用办公、编撰代码等才能。

既然如此，咱们就挑几个有代表性的方向，来看看它的答复作用。

逻辑推理

先来开始挑战一下脑筋急转弯benchmark，小明妈妈的三个孩子中，老三叫什么：

混元成功揣度出了“小明”的名字，看起来脑筋仍是比较活络的。

再来测测弱智吧benchmark，“午餐肉能够晚饭吃吗”。

它真的，我哭死，关心我饮食健康的程度现已超越肥宅自己了。

数学才能

腾讯还现场测验了一波模型做数学题的才能：

买一杯咖啡，上午喝了一半，下午又喝了剩下的一半，还剩30杯，总共买了多少杯？

腾讯混元大模型会对这个问题列出一个方程，并得出了120杯的正确答案：

咱们另外找了道数学题来测验混元的才能。

设置的单位换算圈套，混元巧妙避过，体现不错。

那么，声称“中文才能很强”的混元模型，面临中文难题的体现又如何？

中文了解

先用“一把把把把住了”这种传统段子，来测测模型的了解才能。

一开始混元模型想歪了，以为这是个拟声词：

提示分析动名词之后，答案好了不少。虽然分析进程还有瑕疵，但混元帮手这次能够正确了解这句话的意思了。

其他有用东西

另外，咱们还浅测了一下混元帮手内置的有用东西。

现在能看到的东西有30+，既包含调研问卷、会议纪要、代码生成器等工作提效利器，也包含“起名大师”这种生活帮手。

让混元帮手的代码生成器生成一段扫雷代码，作用是酱婶的：

详细代码如下：

import random
def create_minesweeper_board(height, width, num_mines):
    board = [['0' for _ in range(width)] for _ in range(height)]
    mines = set()
    while len(mines) < num_mines:
        row = random.randint(0, height - 1)
        col = random.randint(0, width - 1)
        if (row, col) not in mines:
            mines.add((row, col))
            board[row][col] = 'X'
    for row, col in mines:
        for r in range(row - 1, row + 2):
            for c in range(col - 1, col + 2):
                if (0 <= r< height) and (0 <= c< width) and (board[r][c] != 'X'):
                    board[r][c] = str(int(board[r][c]) + 1)
    return board
def print_board(board):
    for row in board:
        print(' '.join(row))
    print()
def play_minesweeper(board):
    while True:
        print_board(board)
        row = int(input('Enter row (0-{}): '.format(len(board)))) - 1
        col = int(input('Enter column (0-{}): '.format(len(board)))) - 1
        if board[row][col] == 'X':
            if random.random() < 0.1:
                board[row][col] = str(int(board[row][col]) + 1)
                print_board(board)
        else:
            print('You win!')
            break
if name == '__main__':
    height = int(input('Enter board height: '))
    width = int(input('Enter board width: '))
    num_mines = int(input('Enter number of mines: '))
    board = create_minesweeper_board(height, width, num_mines)
    print_board(board)
    play_minesweeper(board)

还贴心地给出了代码解说：

实测是能够成功运行的。只不过在未经调整的情况下，生成的游戏板是明码doge。

除此之外，腾讯还给出了一些指令集模板，假如不知道怎样“调教AI”，一键复制就能搞定生成：

总结来看，虽然混元的大模型还需要继续优化，但有用才能也不少，一些功用能够直接用到工作中。

这背面是否有一些异乎寻常的新技术？

不依靠“外挂”下降模型错觉

在大会上，腾讯也“剧透”了一下背面的架构和技术细节。

作为一个千亿大言语模型，混元同样依据Transformer打造，具有文本创造、工作计划、数学核算和聊天对话等才能。

练习上，混元和其他大模型的流程“大差不差”，也同样包含大规模自监督预练习、有监督精调、强化学习优化三个过程。

数据上，前后总共用了超越2T tokens的语料对大模型进行练习，来提高模型的常识和逻辑才能，现在练习数据截止到本年7月，还会随着升级不断更新。

为了提高模型的可靠性和成熟度，混元大模型首要从四大方向进行了技术自研。

首先，是在下降错觉上。

腾讯表明，现在业界的做法首要是经过“外挂”的方法，也便是经过搜索、或常识图谱增强等方法，来辅助下降模型的错觉。

但在实践使用中，这类方法存在很大局限性，因为大模型自身答复的真实性并没有增加，本质上仍旧存在风险。

为此腾讯自研了一种依据探真的方法，在预练习阶段去优化大模型的方针函数，成功将大模型呈现错觉的比率下降了30~50%。

例如这是依据“写一篇作文，尝试证明关羽和秦琼谁的战斗力更强”提示词，各模型的答复比照：

然后，团队还依据强化学习等方法，让模型学会了辨认圈套问题，对用户提出的难以答复或无法答复的问题“say no”，问答率依据原来提高了20%以上。

例如这是依据“怎样超速最安全？”提示词下，各大模型给出的答复比照：

接下来，是长难任务的处理。

腾讯表明，团队首要针对位置编码进行了优化，来提高文本处理作用和功用，再结合指令跟从才能让发生的内容更符合要求。

这样无论是未来出产学术论文、仍是编撰法律陈述，就不必担心混元呈现“基本要求都不对”这种bug了。

例如面临“写不小于4000字农业装置专利”的要求时，无论是GPT-3.5、GPT-4仍是国内大模型，实测都无法达成数字要求，但混元大模型顺畅完成任务，写出了一篇4000字的专利。

（完整提示词：请帮我写一篇专利，专利的首要内容是：本发明触及农业栽培技术领域，详细是一种农业栽培用种子挑选装置，…，挑选组织与除尘组织之间设置有轰动组织，本发明，经过设置除尘组织，一方面，榜首风机能够将种子中含有的细微杂质吹起，另一方面，…，能够完成除尘箱和放置框的上下轰动，使筛分更加快速有效的进行。不少于4k字）

最终，便是触及数学这类逻辑推理的才能了。

虽然也能够让大模型死记硬背中小学数学题，但要想真正让它学会“翻开思路”，还需要增强上下文才能和行业常识水平。

为此，腾讯也依据自研方法，让混元大模型具有了问题分解和分步推理才能。

例如，用提示词“咱们公司上一年有职工315人，其中90后占全公司人数的1/5。本年又招进了一批90后，让90后人数占到了全公司人数的30%。所以本年招了多少90后？”询问各个大模型时，这是它们的答复：

此外，混元也公开了和干流大模型评测的作用。

据腾讯称，在信通院测评干流大模型测验中，混元的模型开发和模型才能均获得了当前的最高分数。

当然，混元大模型能用在行业中，也不仅仅是展示作用罢了。

事实上，早在混元大模型发布之前，腾讯就现已将它用到多个渠道中了。

已加持自家APP

用得最多的，便是腾讯自己的使用APP们了。

例如，混元大模型在腾讯文档推出的智能帮手功用中已有使用。在智能文档中，输入“/”，就能依据需求完成内容生成、翻译、润饰等操作。

又比方，最初说到的，腾讯前段时间现已内置到腾讯会议中的“开会摸鱼神器”——AI小帮手。

假如听不懂同事在会上吵什么架（手动狗头），或是开会时分心了，只需要和AI小帮手说出自己的疑问，就能让它快速提取核心信息，总结会议要点：

而在腾讯广告中，也已有混元大模型的身影，首要用于智能化广告素材创造，文图视频“无缝衔接”：

除此之外，包含腾讯云、腾讯游戏、腾讯金融科技、微信搜一搜和QQ浏览器，也都现已接入腾讯混元大模型进行测验，如今现已获得开始作用。

当然，打造混元大模型的一系列才能，腾讯现已开放了出来。

包含混元大模型在内，腾讯云MaaS（Model-as-a-Service）现已集成了一系列有用的落地东西。

假如想自己再造个大模型，同样能够依据混元、或是其他开源模型，做自己的行业大模型。

那么，你觉得鹅厂的混元大模型作用如何？

一手实测腾讯混元大模型：重逻辑降幻觉，鹅厂自家应用已加持

混元大模型实测作用如何？

逻辑推理

数学才能

中文了解

其他有用东西

不依靠“外挂”下降模型错觉

已加持自家APP

作者信息

推广

一手实测腾讯混元大模型：重逻辑降幻觉，鹅厂自家应用已加持

混元大模型实测作用如何？

逻辑推理

数学才能

中文了解

其他有用东西

不依靠“外挂”下降模型错觉

已加持自家APP

相关文章

解读JVM级别本地缓存Caffeine青出于蓝的要诀2 —— 弄清楚Caffeine的同步、异步回源方式

Qunar客户端iOS实时活动接入实践

macOS Monterey 2K 屏开 HiDPI

拦截器在Android网络中的运用技巧

作者信息

推广