使用NVIDIA TensorRT-LLM支持CodeFuse-CodeLlama-34B上的int4量化和推理优化实践 CodeFuse是由蚂蚁集团开发的代码语言大模型,旨在支持整个软件开发生命周期,... 4 月前 0 0 326