模型文件

https://huggingface.co/Kijai/flux-fp8/blob/main/flux1-dev-fp8.safetensors
https://huggingface.co/Kijai/flux-fp8/blob/main/flux1-dev-fp8-e4m3fn.safetensors
https://huggingface.co/Kijai/flux-fp8/blob/main/flux1-dev-fp8-e5m2.safetensors

VAE

https://huggingface.co/black-forest-labs/FLUX.1-dev/blob/main/ae.safetensors

CLIP

https://huggingface.co/comfyanonymous/flux_text_encoders/blob/main/t5xxl_fp8_e4m3fn_scaled.safetensors

问答

Tesla T4适合哪个

对于 Tesla T4,它是一款专为深度学习推理而优化的 GPU,采用了 NVIDIA Turing 架构,并支持 FP16、FP32、INT8 和 INT4 等数据精度格式。在选择 FP8 格式(如 E4M3FNE5M2)时,关键在于兼容性和性能优化。

Tesla T4 的特点:

  • FP16(半精度)和 FP32(单精度) 是 Tesla T4 的原生支持精度。

  • Tensor Cores:这些核心支持混合精度计算,尤其对 FP16INT8 类型非常友好。

  • 支持低精度计算,如 INT8FP16,可以在推理任务中提高性能。

E4M3FN 和 E5M2 对 Tesla T4 的兼容性:

  • Tesla T4 主要优化了 FP16 精度,而 FP8 格式是相对较新的,尽管它支持较低精度的运算,但 Tesla T4 的硬件设计主要还是偏向 FP16INT8

  • E4M3FNE5M2 格式是为特定的量化模型设计的,并且可能不完全与 Tesla T4 的硬件兼容。特别是 E5M2 格式,它的 5 位指数 可能需要更多的硬件支持,Tesla T4 不一定能提供最佳的加速。

哪个格式更合适?

  • E4M3FN:由于 Tesla T4 更倾向于 FP16 处理,选择 E4M3FN(它的精度相对较高,适合接近零的权重)可能更适合,因为这种格式相对较轻,可能与 T4 的性能兼容性较好。

  • E5M2:如果模型需要处理更大范围的数值,并且能接受较低的精度,那么 E5M2 可能是一个选择,但它可能不会在 T4 上提供最优的性能,尤其是在对精度要求较高的任务中。

总结:

如果您使用 Tesla T4,建议优先考虑 E4M3FN 格式,因为它与 T4 的硬件支持和推理优化相对更兼容,能提供更好的性能。