@dphnAI @Alibaba_Qwen Aaaaah I might have found the issue, I think it's being partially offloaded to CPU despite the model technically being under 24 GB
I guess I should need either the 9B or a 3-bit quant of the 35b?
면책 조항: 이 기사의 저작권은 원저자에게 있으며 MyToken을 대표하지 않습니다.(www.mytokencap.com)의견 및 입장 콘텐츠에 대한 질문이 있는 경우 저희에게 연락하십시오