Огромная база промптов для нейросетей

Как достичь 40tg/s на Qwen3.6 с GPU и настройками Turboquant

ChatGPT Программирование 2
herpnderpler

Автор промпта

@herpnderpler

Этот промпт поможет вам оптимизировать производительность Turboquant для достижения высоких показателей контекста на GPU. Вы узнаете, какие флаги компиляции использовать и как организовать процесс обработки запросов.

Как использовать этот промпт

"1. Скопируйте данный промпт. 2. Заполните переменные [СЕМЕЙСТВА_МОДЕЛЕЙ], [ТИПА_ГРАФИЧЕСКОЙ_КАРТЫ], [КОНФИГУРАЦИЯ_КОДА] и [ПАРАМЕТРЫ_ПРОЦЕССА] согласно вашим требованиям. 3. Получите результат и адаптируйте его в своей работе."

Пример ответа нейросети

""Чтобы достичь максимальной производительности на Qwen3.6 с использованием Turboquant и GPU, следуйте следующим шагам. При использовании видеокарты RTX 3080 и 12 ГБ видеопамяти, вы можете установить следующие параметры для оптимизации: \n\n1. Используйте флаги компиляции: -DGGML_CUDA=ON, -DGGML_CUDA_FA_ALL_QUANTS=ON и -DGGML_CUDA_F16=ON для активирования CUDA и улучшения обработки. \n2. Установите размер контекста в 260k и включите параметры управления, такие как --presence-penalty и --repeat-penalty в 0.0 и 1.0 соответственно, чтобы предотвратить избыточные повторения в ответах. Таким образом, ваш процесс будет более эффективным на всех этапах запроса.""

Вы недавно смотрели

Сохранено в браузере
🍪

Мы используем Cookies и LocalStorage

Это необходимо, чтобы сохранять вашу Историю просмотров, подставлять ваши данные в Конструкторе и добавлять промпты в Избранное. Мы не передаем эти данные третьим лицам.