通义千问开源长推理Test-Time Scaling模型QwQ,性能与openai o1 preview/mini相当
而且才32B(预计Deepseek r1更小)
相关博客:https://qwenlm.github.io/zh/blog/qwq-32b-preview/
演示demo:https://huggingface.co/spaces/Qwen/QwQ-32B-preview
开源权重https://huggingface.co/Qwen/QwQ-32B-Preview
演示样本:
补充:授权协议为apache-2.0 为什么第一个问题不能是红桃q?
这下还不如ai了orz QwQ
—— 来自 OnePlus GM1910, Android 12上的 S1Next-鹅版 v3.0.0.81-alpha 每日几问:盘古大模型那你benchmark分数呢,马斯克你Grok2开源权重呢,百度你大模型效果呢
感觉现在就Qwen Llama东西方唯二最好用更新最快,也没谁比谁先进的多,都是交叉着时间点训练评估发布出来。 はちたや 发表于 2024-11-28 06:50
为什么第一个问题不能是红桃q?
这下还不如ai了orz
第3句Q45都可以,但要联系第4句来看,如果是红桃有Q4两个选择,方块只有5。只知道花色但又确定数值的只有方块。ai推理还是有问题的。 小岛幸子 发表于 2024-11-28 07:17
第3句Q45都可以,但要联系第4句来看,如果是红桃有Q4两个选择,方块只有5。只知道花色但又确定数值的只有 ...
我知道了,我漏看了,看成红桃只有两个 AI对于P第2句和Q第2句的推理问题还是很大…… 淦,qwen什么时候才能破限啊,不能玩 文爱好难受啊 这个能懂吗?问父亲崩溃原因。试过chatgpt不行
有一天,一个女孩参加数学考试只得了38分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这8怎么一半是绿的一半是红的,你以为我是傻子吗?”女孩被打后,委屈地哭了起来,什么也没说。过了一会儿,父亲突然崩溃了。
本帖最后由 星花 于 2024-11-28 08:59 编辑
海龟汤题目?如果是的话其实是要玩家不断猜的 然后排除错误的。爸爸 绿帽子,Ai能懂才怪了。 芜湖挨宰 发表于 2024-11-28 08:40
这个能懂吗?问父亲崩溃原因。试过chatgpt不行
试了下o1
这个故事揭示了一个比最初冲突更深层的问题。一个女孩因为害怕父亲责罚自己数学考试只得了38分,便将分数改成了88分。然而,她在改分数时不小心用了两种不同颜色的墨水笔——一只红色,一只绿色。她的父亲发现了问题,因为两个“8”分别是红色和绿色各占一半,他便指责她试图欺骗自己。
当女孩开始哭泣却没有作出解释时,她的父亲意识到一个可能性:她可能是色盲,具体来说是无法分辨红色和绿色的色盲。这一状况可以解释为什么她在改分数时没有注意到墨水颜色的不同。由于对自己之前的严厉态度感到内疚,同时也为没有早些发现女儿的情况而自责,父亲最终崩溃了。
这个故事强调了家庭中理解和沟通的重要性,同时也引发了人们对色觉缺陷人士所面临的挑战的关注。 泰坦失足 发表于 2024-11-28 08:58
试了下o1
这个故事揭示了一个比最初冲突更深层的问题。一个女孩因为害怕父亲责罚自己数学考试只得了38分 ...
这么理性的嘛,想到的还是色盲这种,而不是孩子改成绩的感性认识。 本帖最后由 星花 于 2024-11-28 09:03 编辑
泰坦失足 发表于 2024-11-28 08:58
试了下o1
这个故事揭示了一个比最初冲突更深层的问题。一个女孩因为害怕父亲责罚自己数学考试只得了38分 ...
好合理。🐮不过我觉得 88和爸爸发音相同 绿色部分又正好在头部。 泰坦失足 发表于 2024-11-28 08:58
试了下o1
这个故事揭示了一个比最初冲突更深层的问题。一个女孩因为害怕父亲责罚自己数学考试只得了38分 ...
看到了第一层,然而没看到因为红绿色盲的遗传性导致的帽子问题,还需要进一步成长,不过也算很不错了。请问有网址吗,我想试试其他的海龟汤 泰坦失足 发表于 2024-11-28 08:58
试了下o1
这个故事揭示了一个比最初冲突更深层的问题。一个女孩因为害怕父亲责罚自己数学考试只得了38分 ...
我就拿这个试的。没看出女儿不是亲生问题。 日常使用感觉易通千问还不如kimi或者文心一言
这个易通千问也没有会员之类的,我看给的大模型也是2.5版本的
楼主说的这个媲美o1的要怎么才能用到呢? 洛拉斯 发表于 2024-11-28 09:21
日常使用感觉易通千问还不如kimi或者文心一言
这个易通千问也没有会员之类的,我看给的大模型也是2.5版本 ...
自己部署
—— 来自 HUAWEI HBN-AL80, Android 12上的 S1Next-鹅版 v2.5.4 本帖最后由 yesicant 于 2024-11-28 11:07 编辑
一些用例
外行不懂就问,阿里的通义现在是不是国内最强的大模型? 卡米基 发表于 2024-11-28 11:04
外行不懂就问,阿里的通义现在是不是国内最强的大模型?
国内最强的大模型(有点疑问,但是别的大模型都是闭源的,核心目的都是卖解决方案所以也没人跑benchmark)
全球最强的开源大模型(Llama和qwen不相上下,不过meta/llama的名气大多了)
全球最强的开源中文大模型(毫无疑问) 光影mk2 发表于 2024-11-28 09:04
看到了第一层,然而没看到因为红绿色盲的遗传性导致的帽子问题,还需要进一步成长,不过也算很不错了。请 ...
网页版的chatgptplus,一周限50条o1来着。可以试试deepseek的R1 lite,对标o1 mini且免费。 泰坦失足 发表于 2024-11-28 11:45
国内最强的大模型(有点疑问,但是别的大模型都是闭源的,核心目的都是卖解决方案所以也没人跑benchmark ...
全世界也是前五级别。御三家后第二档,和mate有来有回。 同问,我现在也是经常在用通义的网页版,但网页版就2.5说不上多领先,kimi还能搜索其实有时候更厉害点。
他这个开源的模型是会比网页那个更强大吗?在自家电脑上能跑不,我有4090
—— 来自 鹅球 v3.1.91-alpha 泰坦失足 发表于 2024-11-28 08:58
试了下o1
这个故事揭示了一个比最初冲突更深层的问题。一个女孩因为害怕父亲责罚自己数学考试只得了38分 ...
我也试了下,提醒是智力题而不是实际情况还是能答出来的 替华子在3YC的POC上用过盘古,连指令跟随都做不好,难怪公开场合见不到了。
—— 来自 鹅球 v3.0.0.82-alpha ollama pull qwq 然而网页版的千问水平很一般,还不如kimi,难道自己部署会比他官方放做的网页版还强?话说回来,o1当初的卖点也是推理能力强,但据说因此稍微损害了语言处理方面的能力。单纯说语言能力,比如总结文章内容、生成规定格式的文本、翻译这些方面,最强的是否依然是4o?现在手头的工作试了一圈,感觉比较常见的几家里大概还是gpt比较好使……而如果考虑成本,要用次一级的模型,4o mini又是最便宜的,比百度阿里的都便宜……好像豆包更便宜,但豆包处理我这的任务效果甚至不如4o mini,不知是不是prompt写的不行 osborn 发表于 2024-11-29 09:38
然而网页版的千问水平很一般,还不如kimi,难道自己部署会比他官方放做的网页版还强?话说回来,o1当初的卖 ...
强是指哪方面?这种大模型的网页版或app一般是个复杂的模型应用系统,专门针对性优化,有各种外部插件和搜索引擎支持。和单独模型的能力不能一概而论。
—— 来自 鹅球 v3.3.92
页:
[1]