如题
?
可以等 ktransformer 用 GPU+CPU混合跑MOE
可以在单机8卡H800/H20上部署int8/fp8计算精度下服务,可以在两机16卡H800/H20/A800机器上部署bf16计算精度下的服务,可以在单机8卡A800上部署int8计算精度的服务。各种精度下部署文档参见Tencent-Hunyuan-Large项目中的README
· Sign up or log in to comment