找回密码
 立即注册
  • QQ空间
  • 回复
  • 收藏

阿里的新qwq32B

我的mac是24GB,使用qwq32B 3bit mlx版本,用llm studio(目前很多官方都用这个app,之前amd 7900 XTX对比4090时候使用这个软件)
内存/显存大约14-15GB,速度大约14-15token/s,能接受的速度,gpu跑满1.58g频率,核心功耗大约20w,峰值有25w左右
因为qwq有think,所以还是15t/s显得时间有些长,如果速度能翻倍的话感觉体验会好很多,随便瞎问了几个问题,代码因为可能3bit压缩的模型比较效果一般,其他问题感觉效果还不错,比之前的很多弱智的模型要好不少
不知道吧友是否有n卡大约对比速度试试,3bit用16GB显存卡应该就没啥问题,4bit就要大约20GB以上显存n卡和32GB的mac跑比较合适了

阿里的新qwq32B-1.jpg
阿里的新qwq32B-2.jpg
回复

使用道具 举报

大神点评(10)

我晚上用M2 Max跑一下看看
回复 支持 反对

使用道具 举报

大佬有镜像百度网盘吗?我这下载太慢了
回复 支持 反对

使用道具 举报

大佬 我下的是三个文件 打开报错怎么破
回复 支持 反对

使用道具 举报

我显卡没那么大显存诶,也许你发显卡吧看看可能多点用80和90的
回复 支持 反对

使用道具 举报

有空可以试着部署一下,但现在没啥空
阿里的新qwq32B-1.png
回复 支持 反对

使用道具 举报

m2p将将跑得动
回复 支持 反对

使用道具 举报

HerrMa 4 小时前 显示全部楼层
64g m4p速度还可以,gguf q4大概10tok,q8 7tok,mlx模版老报错不知为什么
回复 支持 反对

使用道具 举报

试了跑24t/s,等待时间也非常长,还是挂api得了
回复 支持 反对

使用道具 举报

3060表示几个问题后就不够用了
回复 支持 反对

使用道具 举报

我用的是8845hs的780m跑了q4的版本,显存占用大概23个G,不过生成速度太慢了
回复 支持 反对

使用道具 举报

说点什么

您需要登录后才可以回帖 登录 | 立即注册
HOT • 推荐