llama.cpp vulkan vs cuda performance