Thông lượng Token $NVDA và $AMD trên mỗi GPU so với độ trễ đầu cuối (FP8). Điều này thật tàn nhẫn. Nguồn: SemiAnalysis.