yesicant 发表于 2024-11-28 06:19

通义千问开源长推理Test-Time Scaling模型QwQ,性能与openai o1 preview/mini相当


而且才32B(预计Deepseek r1更小)

相关博客:https://qwenlm.github.io/zh/blog/qwq-32b-preview/

演示demo:https://huggingface.co/spaces/Qwen/QwQ-32B-preview

开源权重https://huggingface.co/Qwen/QwQ-32B-Preview




演示样本:



yesicant 发表于 2024-11-28 06:25

补充:授权协议为apache-2.0

はちたや 发表于 2024-11-28 06:50

为什么第一个问题不能是红桃q?
这下还不如ai了orz

Sayuki1025 发表于 2024-11-28 07:01

QwQ

—— 来自 OnePlus GM1910, Android 12上的 S1Next-鹅版 v3.0.0.81-alpha

泰坦失足 发表于 2024-11-28 07:07

每日几问:盘古大模型那你benchmark分数呢,马斯克你Grok2开源权重呢,百度你大模型效果呢
感觉现在就Qwen Llama东西方唯二最好用更新最快,也没谁比谁先进的多,都是交叉着时间点训练评估发布出来。

小岛幸子 发表于 2024-11-28 07:17

はちたや 发表于 2024-11-28 06:50
为什么第一个问题不能是红桃q?
这下还不如ai了orz

第3句Q45都可以,但要联系第4句来看,如果是红桃有Q4两个选择,方块只有5。只知道花色但又确定数值的只有方块。ai推理还是有问题的。

はちたや 发表于 2024-11-28 08:17

小岛幸子 发表于 2024-11-28 07:17
第3句Q45都可以,但要联系第4句来看,如果是红桃有Q4两个选择,方块只有5。只知道花色但又确定数值的只有 ...

我知道了,我漏看了,看成红桃只有两个

Indolencoma 发表于 2024-11-28 08:22

AI对于P第2句和Q第2句的推理问题还是很大……

-v- 发表于 2024-11-28 08:27

淦,qwen什么时候才能破限啊,不能玩 文爱好难受啊

芜湖挨宰 发表于 2024-11-28 08:40

这个能懂吗?问父亲崩溃原因。试过chatgpt不行
有一天,一个女孩参加数学考试只得了38分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这8怎么一半是绿的一半是红的,你以为我是傻子吗?”女孩被打后,委屈地哭了起来,什么也没说。过了一会儿,父亲突然崩溃了。

星花 发表于 2024-11-28 08:55

本帖最后由 星花 于 2024-11-28 08:59 编辑

海龟汤题目?如果是的话其实是要玩家不断猜的 然后排除错误的。爸爸 绿帽子,Ai能懂才怪了。

泰坦失足 发表于 2024-11-28 08:58

芜湖挨宰 发表于 2024-11-28 08:40
这个能懂吗?问父亲崩溃原因。试过chatgpt不行

试了下o1
这个故事揭示了一个比最初冲突更深层的问题。一个女孩因为害怕父亲责罚自己数学考试只得了38分,便将分数改成了88分。然而,她在改分数时不小心用了两种不同颜色的墨水笔——一只红色,一只绿色。她的父亲发现了问题,因为两个“8”分别是红色和绿色各占一半,他便指责她试图欺骗自己。

当女孩开始哭泣却没有作出解释时,她的父亲意识到一个可能性:她可能是色盲,具体来说是无法分辨红色和绿色的色盲。这一状况可以解释为什么她在改分数时没有注意到墨水颜色的不同。由于对自己之前的严厉态度感到内疚,同时也为没有早些发现女儿的情况而自责,父亲最终崩溃了。

这个故事强调了家庭中理解和沟通的重要性,同时也引发了人们对色觉缺陷人士所面临的挑战的关注。

shikiki 发表于 2024-11-28 09:00

泰坦失足 发表于 2024-11-28 08:58
试了下o1
这个故事揭示了一个比最初冲突更深层的问题。一个女孩因为害怕父亲责罚自己数学考试只得了38分 ...

这么理性的嘛,想到的还是色盲这种,而不是孩子改成绩的感性认识。

星花 发表于 2024-11-28 09:02

本帖最后由 星花 于 2024-11-28 09:03 编辑

泰坦失足 发表于 2024-11-28 08:58
试了下o1
这个故事揭示了一个比最初冲突更深层的问题。一个女孩因为害怕父亲责罚自己数学考试只得了38分 ...
好合理。🐮不过我觉得 88和爸爸发音相同 绿色部分又正好在头部。

光影mk2 发表于 2024-11-28 09:04

泰坦失足 发表于 2024-11-28 08:58
试了下o1
这个故事揭示了一个比最初冲突更深层的问题。一个女孩因为害怕父亲责罚自己数学考试只得了38分 ...

看到了第一层,然而没看到因为红绿色盲的遗传性导致的帽子问题,还需要进一步成长,不过也算很不错了。请问有网址吗,我想试试其他的海龟汤

芜湖挨宰 发表于 2024-11-28 09:12

泰坦失足 发表于 2024-11-28 08:58
试了下o1
这个故事揭示了一个比最初冲突更深层的问题。一个女孩因为害怕父亲责罚自己数学考试只得了38分 ...

我就拿这个试的。没看出女儿不是亲生问题。

洛拉斯 发表于 2024-11-28 09:21

日常使用感觉易通千问还不如kimi或者文心一言

这个易通千问也没有会员之类的,我看给的大模型也是2.5版本的

楼主说的这个媲美o1的要怎么才能用到呢?

qratosones1337 发表于 2024-11-28 09:34

洛拉斯 发表于 2024-11-28 09:21
日常使用感觉易通千问还不如kimi或者文心一言

这个易通千问也没有会员之类的,我看给的大模型也是2.5版本 ...

自己部署

—— 来自 HUAWEI HBN-AL80, Android 12上的 S1Next-鹅版 v2.5.4

yesicant 发表于 2024-11-28 11:03

本帖最后由 yesicant 于 2024-11-28 11:07 编辑

一些用例













卡米基 发表于 2024-11-28 11:04

外行不懂就问,阿里的通义现在是不是国内最强的大模型?

泰坦失足 发表于 2024-11-28 11:45

卡米基 发表于 2024-11-28 11:04
外行不懂就问,阿里的通义现在是不是国内最强的大模型?

国内最强的大模型(有点疑问,但是别的大模型都是闭源的,核心目的都是卖解决方案所以也没人跑benchmark)
全球最强的开源大模型(Llama和qwen不相上下,不过meta/llama的名气大多了)
全球最强的开源中文大模型(毫无疑问)

泰坦失足 发表于 2024-11-28 11:46

光影mk2 发表于 2024-11-28 09:04
看到了第一层,然而没看到因为红绿色盲的遗传性导致的帽子问题,还需要进一步成长,不过也算很不错了。请 ...

网页版的chatgptplus,一周限50条o1来着。可以试试deepseek的R1 lite,对标o1 mini且免费。

大阪黑鸡 发表于 2024-11-28 16:08

泰坦失足 发表于 2024-11-28 11:45
国内最强的大模型(有点疑问,但是别的大模型都是闭源的,核心目的都是卖解决方案所以也没人跑benchmark ...

全世界也是前五级别。御三家后第二档,和mate有来有回。

魔灵高达 发表于 2024-11-28 16:18

同问,我现在也是经常在用通义的网页版,但网页版就2.5说不上多领先,kimi还能搜索其实有时候更厉害点。

他这个开源的模型是会比网页那个更强大吗?在自家电脑上能跑不,我有4090

—— 来自 鹅球 v3.1.91-alpha

qq2007ssy 发表于 2024-11-28 16:29

泰坦失足 发表于 2024-11-28 08:58
试了下o1
这个故事揭示了一个比最初冲突更深层的问题。一个女孩因为害怕父亲责罚自己数学考试只得了38分 ...

我也试了下,提醒是智力题而不是实际情况还是能答出来的

tylunas 发表于 2024-11-28 16:32

替华子在3YC的POC上用过盘古,连指令跟随都做不好,难怪公开场合见不到了。

—— 来自 鹅球 v3.0.0.82-alpha

小野賢章 发表于 2024-11-28 16:36

ollama pull qwq

osborn 发表于 2024-11-29 09:38

然而网页版的千问水平很一般,还不如kimi,难道自己部署会比他官方放做的网页版还强?话说回来,o1当初的卖点也是推理能力强,但据说因此稍微损害了语言处理方面的能力。单纯说语言能力,比如总结文章内容、生成规定格式的文本、翻译这些方面,最强的是否依然是4o?现在手头的工作试了一圈,感觉比较常见的几家里大概还是gpt比较好使……而如果考虑成本,要用次一级的模型,4o mini又是最便宜的,比百度阿里的都便宜……好像豆包更便宜,但豆包处理我这的任务效果甚至不如4o mini,不知是不是prompt写的不行

挖泥船 发表于 2024-11-29 10:07

osborn 发表于 2024-11-29 09:38
然而网页版的千问水平很一般,还不如kimi,难道自己部署会比他官方放做的网页版还强?话说回来,o1当初的卖 ...

强是指哪方面?这种大模型的网页版或app一般是个复杂的模型应用系统,专门针对性优化,有各种外部插件和搜索引擎支持。和单独模型的能力不能一概而论。

—— 来自 鹅球 v3.3.92
页: [1]
查看完整版本: 通义千问开源长推理Test-Time Scaling模型QwQ,性能与openai o1 preview/mini相当