通义千问开源长推理Test-Time Scaling模型QwQ，性能与openai o1 preview/mini相当

yesicant 发表于 2024-11-28 06:19

而且才32B(预计Deepseek r1更小)

相关博客：https://qwenlm.github.io/zh/blog/qwq-32b-preview/

演示demo：https://huggingface.co/spaces/Qwen/QwQ-32B-preview

开源权重https://huggingface.co/Qwen/QwQ-32B-Preview

演示样本：

yesicant 发表于 2024-11-28 06:25

补充：授权协议为apache-2.0

はちたや 发表于 2024-11-28 06:50

为什么第一个问题不能是红桃q?
这下还不如ai了orz

Sayuki1025 发表于 2024-11-28 07:01

QwQ

—— 来自 OnePlus GM1910, Android 12上的 S1Next-鹅版 v3.0.0.81-alpha

泰坦失足 发表于 2024-11-28 07:07

每日几问：盘古大模型那你benchmark分数呢，马斯克你Grok2开源权重呢，百度你大模型效果呢
感觉现在就Qwen Llama东西方唯二最好用更新最快，也没谁比谁先进的多，都是交叉着时间点训练评估发布出来。

小岛幸子 发表于 2024-11-28 07:17

はちたや发表于 2024-11-28 06:50
为什么第一个问题不能是红桃q?
这下还不如ai了orz

第3句Q45都可以，但要联系第4句来看，如果是红桃有Q4两个选择，方块只有5。只知道花色但又确定数值的只有方块。ai推理还是有问题的。

はちたや 发表于 2024-11-28 08:17

小岛幸子发表于 2024-11-28 07:17
第3句Q45都可以，但要联系第4句来看，如果是红桃有Q4两个选择，方块只有5。只知道花色但又确定数值的只有 ...

我知道了，我漏看了，看成红桃只有两个

Indolencoma 发表于 2024-11-28 08:22

AI对于P第2句和Q第2句的推理问题还是很大……

-v- 发表于 2024-11-28 08:27

淦，qwen什么时候才能破限啊，不能玩文爱好难受啊

芜湖挨宰 发表于 2024-11-28 08:40

这个能懂吗？问父亲崩溃原因。试过chatgpt不行
有一天，一个女孩参加数学考试只得了38分。她心里对父亲的惩罚充满恐惧，于是偷偷把分数改成了 88分。她的父亲看到试卷后，怒发冲冠，狠狠地给了她一巴掌，怒吼道:“你这8怎么一半是绿的一半是红的，你以为我是傻子吗?”女孩被打后，委屈地哭了起来，什么也没说。过了一会儿，父亲突然崩溃了。

星花发表于 2024-11-28 08:55

本帖最后由星花于 2024-11-28 08:59 编辑

海龟汤题目？如果是的话其实是要玩家不断猜的然后排除错误的。爸爸绿帽子，Ai能懂才怪了。

泰坦失足 发表于 2024-11-28 08:58

芜湖挨宰发表于 2024-11-28 08:40
这个能懂吗？问父亲崩溃原因。试过chatgpt不行

试了下o1
这个故事揭示了一个比最初冲突更深层的问题。一个女孩因为害怕父亲责罚自己数学考试只得了38分，便将分数改成了88分。然而，她在改分数时不小心用了两种不同颜色的墨水笔——一只红色，一只绿色。她的父亲发现了问题，因为两个“8”分别是红色和绿色各占一半，他便指责她试图欺骗自己。

当女孩开始哭泣却没有作出解释时，她的父亲意识到一个可能性：她可能是色盲，具体来说是无法分辨红色和绿色的色盲。这一状况可以解释为什么她在改分数时没有注意到墨水颜色的不同。由于对自己之前的严厉态度感到内疚，同时也为没有早些发现女儿的情况而自责，父亲最终崩溃了。

这个故事强调了家庭中理解和沟通的重要性，同时也引发了人们对色觉缺陷人士所面临的挑战的关注。

shikiki 发表于 2024-11-28 09:00

泰坦失足发表于 2024-11-28 08:58
试了下o1
这个故事揭示了一个比最初冲突更深层的问题。一个女孩因为害怕父亲责罚自己数学考试只得了38分 ...

这么理性的嘛，想到的还是色盲这种，而不是孩子改成绩的感性认识。

星花发表于 2024-11-28 09:02

本帖最后由星花于 2024-11-28 09:03 编辑

泰坦失足发表于 2024-11-28 08:58
试了下o1
这个故事揭示了一个比最初冲突更深层的问题。一个女孩因为害怕父亲责罚自己数学考试只得了38分 ...
好合理。🐮不过我觉得 88和爸爸发音相同绿色部分又正好在头部。

光影mk2 发表于 2024-11-28 09:04

泰坦失足发表于 2024-11-28 08:58
试了下o1
这个故事揭示了一个比最初冲突更深层的问题。一个女孩因为害怕父亲责罚自己数学考试只得了38分 ...

看到了第一层，然而没看到因为红绿色盲的遗传性导致的帽子问题，还需要进一步成长，不过也算很不错了。请问有网址吗，我想试试其他的海龟汤

芜湖挨宰 发表于 2024-11-28 09:12

泰坦失足发表于 2024-11-28 08:58
试了下o1
这个故事揭示了一个比最初冲突更深层的问题。一个女孩因为害怕父亲责罚自己数学考试只得了38分 ...

我就拿这个试的。没看出女儿不是亲生问题。

洛拉斯 发表于 2024-11-28 09:21

日常使用感觉易通千问还不如kimi或者文心一言

这个易通千问也没有会员之类的，我看给的大模型也是2.5版本的

楼主说的这个媲美o1的要怎么才能用到呢？

qratosones1337 发表于 2024-11-28 09:34

洛拉斯发表于 2024-11-28 09:21
日常使用感觉易通千问还不如kimi或者文心一言

这个易通千问也没有会员之类的，我看给的大模型也是2.5版本 ...

自己部署

—— 来自 HUAWEI HBN-AL80, Android 12上的 S1Next-鹅版 v2.5.4

yesicant 发表于 2024-11-28 11:03

本帖最后由 yesicant 于 2024-11-28 11:07 编辑

一些用例

卡米基 发表于 2024-11-28 11:04

外行不懂就问，阿里的通义现在是不是国内最强的大模型？

泰坦失足 发表于 2024-11-28 11:45

卡米基发表于 2024-11-28 11:04
外行不懂就问，阿里的通义现在是不是国内最强的大模型？

国内最强的大模型（有点疑问，但是别的大模型都是闭源的，核心目的都是卖解决方案所以也没人跑benchmark）
全球最强的开源大模型（Llama和qwen不相上下，不过meta/llama的名气大多了）
全球最强的开源中文大模型（毫无疑问）

泰坦失足 发表于 2024-11-28 11:46

光影mk2 发表于 2024-11-28 09:04
看到了第一层，然而没看到因为红绿色盲的遗传性导致的帽子问题，还需要进一步成长，不过也算很不错了。请 ...

网页版的chatgptplus，一周限50条o1来着。可以试试deepseek的R1 lite，对标o1 mini且免费。

大阪黑鸡 发表于 2024-11-28 16:08

泰坦失足发表于 2024-11-28 11:45
国内最强的大模型（有点疑问，但是别的大模型都是闭源的，核心目的都是卖解决方案所以也没人跑benchmark ...

全世界也是前五级别。御三家后第二档，和mate有来有回。

魔灵高达 发表于 2024-11-28 16:18

同问，我现在也是经常在用通义的网页版，但网页版就2.5说不上多领先，kimi还能搜索其实有时候更厉害点。

他这个开源的模型是会比网页那个更强大吗？在自家电脑上能跑不，我有4090

—— 来自鹅球 v3.1.91-alpha

qq2007ssy 发表于 2024-11-28 16:29

泰坦失足发表于 2024-11-28 08:58
试了下o1
这个故事揭示了一个比最初冲突更深层的问题。一个女孩因为害怕父亲责罚自己数学考试只得了38分 ...

我也试了下，提醒是智力题而不是实际情况还是能答出来的

tylunas 发表于 2024-11-28 16:32

替华子在3YC的POC上用过盘古，连指令跟随都做不好，难怪公开场合见不到了。

—— 来自鹅球 v3.0.0.82-alpha

小野賢章 发表于 2024-11-28 16:36

ollama pull qwq

osborn 发表于 2024-11-29 09:38

然而网页版的千问水平很一般，还不如kimi，难道自己部署会比他官方放做的网页版还强？话说回来，o1当初的卖点也是推理能力强，但据说因此稍微损害了语言处理方面的能力。单纯说语言能力，比如总结文章内容、生成规定格式的文本、翻译这些方面，最强的是否依然是4o？现在手头的工作试了一圈，感觉比较常见的几家里大概还是gpt比较好使……而如果考虑成本，要用次一级的模型，4o mini又是最便宜的，比百度阿里的都便宜……好像豆包更便宜，但豆包处理我这的任务效果甚至不如4o mini，不知是不是prompt写的不行

挖泥船 发表于 2024-11-29 10:07

osborn 发表于 2024-11-29 09:38
然而网页版的千问水平很一般，还不如kimi，难道自己部署会比他官方放做的网页版还强？话说回来，o1当初的卖 ...

强是指哪方面？这种大模型的网页版或app一般是个复杂的模型应用系统，专门针对性优化，有各种外部插件和搜索引擎支持。和单独模型的能力不能一概而论。

—— 来自鹅球 v3.3.92

页: [1]

Stage1st's Archiver

通义千问开源长推理Test-Time Scaling模型QwQ，性能与openai o1 preview/mini相当