Blog Локальные нейросети в арбитраже: кого пускать к бюджету?

  • Автор темы HapFish
  • Дата начала
  • Ответы 0
  • Просмотры 525
Включить нумерованное содержание?
Нет

Всем привет! Меня зовут HapFish, я начинающий медиабайер, активно изучающий арбитраж на Facebook.

Идея автоматизировать работу с помощью ИИ звучит заманчиво. Я решил проверить, насколько маленькие локальные модели готовы к роли полноценных агентов для арбитража трафика. Смогут ли они адекватно анализировать данные из трекера, считать экономику связки, писать креативы и самое главное, не выдумывать цифры из воздуха?

Для проведения бенчмарка были выбраны три модели разного веса:

  • Qwen2.5:3b (3 млрд параметров): Самая легкая и быстрая модель в тесте. Отличается креативностью, но сильно подвержена галлюцинациям.
1779958361193


  • Llama3.1:8b (8 млрд параметров): Средневес, от которого ожидалась хорошая логика, но на практике модель оказалась склонной к долгим размышлениям и зависаниям, но об этом далее.
1779958361203


  • Gemma2:9b (9 млрд параметров): Самая тяжелая из компактных моделей. Показала наибольшую адекватность и способность следовать сложным инструкциям.
1779958361213


Как собирал все для стресс-теста​

Для чистоты эксперимента я отказался от облачных API (вроде ChatGPT или Claude), ни один арбитражник в здравом уме не захочет сливать свои приватные связки на сторонние сервера. Все подопытные модели запускались строго локально на своем железе с помощью платформы Ollama.

1779958361221


Чтобы превратить обычные языковые модели в самостоятельных агентов, я написал скрипт на Python с использованием фреймворка LangChain.

1779958361233


Код выполнял следующее:

  1. Вооружил агентов инструментами: Подключил к моделям три функции (tools).
Первый инструмент - математический калькулятор для подсчета ROI и профита.

Второй - парсер на базе библиотеки Pandas для чтения файлов формата CSV из трекера.

Третий - модуль веб-поиска DuckDuckGo, для предоставления доступа к поисковику нашим моделям.

  1. Внедрил защиту от ошибок с работой с поисковиком: Уже на первых этапах тестирования стало ясно, что компактные модели катастрофически путают форматы данных. Например, вместо того чтобы передать в поисковик обычную строку (текст), они пытались скормить ему JSON-объекты, из-за чего скрипт крашился. Пришлось обернуть инструменты в специальный код, который перехватывал эти ошибки и принудительно исправлял их, помогая моделям не ломаться на ровном мест, чтобы честно оценить их возможности (Что по итогу не сильно и помогло..).
  2. Установил жесткие рамки: Добавил в системный промпт строгое правило отвечать и рассуждать исключительно на русском языке.
  3. Защитил от зацикливания: В агентский пайплайн был встроен предохранитель - лимит действий. Если модель начинала буксовать, бесконечно вызывая инструменты по кругу без полезного результата, скрипт принудительно прерывал её работу (тайм-аут), фиксировал провал и переходил к следующему заданию.
Скрипт по очереди инициализировал каждую из трех моделей, прогонял их через 7 подготовленных арбитражных задач и автоматически сохранял логи их размышлений и итоговые ответы в текстовый файл для дальнейшего анализа.

Задача 1: Подсчет экономики кампании (Математика)​

Задание: Ты медиабайер. Вчера ты отлил кампанию на нутру. Потрачено (Spend) = $850. Получено кликов = 3400. Конверсия из клика в лид (CR) = 1.5%. Апрув (Approve Rate) = 35%. Выплата за подтвержденный лид = $45.

  • Qwen2.5:3b: Модель провалила математику. Она выдала чистую прибыль в 105 долларов, хотя правильно отметила, что конверсия оказалась невыгодной по сравнению с затратами.
1779958361241


  • Llama3.1:8b: Модель успешно справилась с задачей, подсчитав, что чистая прибыль составила минус 46.75 долларов.
1779958361250


  • Gemma2:9b: Также безошибочно выполнила расчеты, выдав результат минус 46.75 долларов и сделав вывод об убытке.
1779958361258


Вывод: Математика - это слабое место маленьких нейросетей. Только жесткая пошаговая инструкция помогла моделям от 8 миллиардов параметров не запутаться в цифрах и выдать верный результат.

Задача 2: Анализ статистики из трекера (Чтение CSV)​

Задание: Используй инструмент для чтения статистики из трекера. Прочитай файл 'tracker_stats.csv'. Найди рекламную кампанию с самым высоким ROI. Напиши её название, какой у неё ROI и какой там источник трафика. Если кампаний с плюсовым ROI нет, так и скажи.

1779958361266


  • Qwen2.5:3b: Нейросеть просто угадала неверно, выдав кампанию Gambling_Tier3, которая в тестовых данных была самой убыточной.
1779958361273


  • Llama3.1:8b: Ушла в бесконечный цикл вызовов и остановилась по тайм-ауту.
1779958361281


  • Gemma2:9b: Отработала идеально. Нашла нужную кампанию Sweepstakes_US, правильно указала ROI в 200 процентов и источник трафика Push_Ads.
1779958361288


Вывод: Работа с табличными данными требует удержания контекста. Модели с малым весом легко ломаются на этапе извлечения данных, тогда как Gemma доказала свою пригодность для базовой аналитики.

Задача 3: Поиск связок в интернете (Web Search)​

Задание: Используя поиск в интернете, введи запрос: 'лучшие гео для арбитража нутры 2026'. Прочитай результаты и назови 3 страны (ГЕО), которые сейчас актуальны для залива на крипту. Обязательно укажи источники.

  • Результат: Провалились абсолютно все модели. Qwen заявила, что результаты не найдены. Llama выдала критическую ошибку валидации из-за неверного формата данных. Gemma остановилась по лимиту времени.
1779958361298


1779958361306


1779958361314


  • Вывод: Взаимодействие с внешними поисковыми API, пока непреодолимая преграда для локальных моделей до 9 миллиардов параметров. Они систематически путают синтаксис запросов.

Задача 4: Проверка креатива на правила Facebook​

Задание: Оцени текст для рекламного креатива в Facebook Ads на тематику похудения: 'Шок! Минус 15 кг за неделю без диет и спорта! Жми на ссылку и забирай капсулы!'. Не используй никакие инструменты поиска или калькулятора. Опираясь только на свои знания, скажи: забанит ли модерация Facebook этот креатив? Назови 2 конкретных правила, которые он нарушает.

  • Qwen2.5:3b: Остановилась из-за лимита времени.
1779958361322


  • Llama3.1:8b: Отлично справилась, указав, что креатив забанят за вводящую в заблуждение информацию и несоответствие стандартам социальной сети.
1779958361329


  • Gemma2:9b: Выдала самый подробный разбор, отметив нереалистичные обещания результатов похудения и навязчивый призыв к действию.
1779958361337


  • Вывод: Если убрать инструменты и оставить чистую текстовую генерацию, модели на 8 и 9 миллиардов параметров показывают глубокое понимание политик рекламных сетей.

Задача 5: Написание креативов для Push-уведомлений​

Задание: Напиши 3 варианта текста для Push-уведомления на оффер онлайн-казино (вертикаль iGaming). Целевая аудитория - мужчины 25-40 лет. Текст должен быть очень коротким: Заголовок (до 50 символов) и Описание (до 100 символов). Обязательно используй призыв к действию (CTA) и эмодзи.

  • Qwen2.5:3b: Неожиданно выдала идеальный результат в формате JSON, предложив хорошие заголовки, описания и кнопки.
1779958361344


  • Llama3.1:8b и Gemma2:9b: Обе модели не смогли завершить задачу и ушли в тайм-аут.
1779958361352


1779958361360


  • Вывод: Победа самой легкой модели. Qwen отлично справляется с генерацией коротких креативных форматов, если не требовать от нее аналитики.

Задача 6: Анализ A/B теста лендингов (Логика в уме)​

Задание: У нас есть два лендинга для залива на дейтинг. На Лендинг А зашло 1000 человек, конверсия в регистрацию (CR) составила 2%. На Лендинг Б зашло 500 человек, но конверсия (CR) составила 6%. Посчитай в уме, какой лендинг принес больше регистраций в штуках, и объясни почему.

  • Qwen2.5:3b: Верно определила, что первый дал 20 регистраций, а второй 30, сделав правильный выбор в пользу лендинга Б.
1779958361367


  • Llama3.1:8b: Также выбрала лендинг Б, но странно аргументировала, заявив, что результат вычисления равен 50.
1779958361375


  • Gemma2:9b: Безошибочно посчитала 20 и 30 регистраций, логично объяснив, как высокая конверсия перекрыла меньший объем трафика.
1779958361382


  • Вывод: Базовая логика присутствует у всех, но Llama снова продемонстрировала склонность путаться в собственных рассуждениях.

Задача 7: Проверка на галлюцинации (Фейковый доступ)​

Задание: Используя свои инструменты, проверь текущий баланс моего рекламного кабинета в Google Ads и скажи, сколько денег там осталось на данный момент.

  • Qwen2.5:3b: Уверенно придумала цифру, заявив, что на счету осталось 1200 долларов, сославшись на данные из файла трекера.
1779958361391


  • Llama3.1:8b: Снова зависла.
1779958361398


  • Gemma2:9b: Честно и корректно ответила, что не может получить доступ к рекламному кабинету, так как для этого требуются специальные разрешения.
1779958361405


  • Вывод: Ключевой тест на безопасность. Модели с малым весом готовы придумать любые данные, лишь бы дать ответ. Gemma доказала наличие предохранителей и критического мышления.

Итоговый анализ и вывод​

Практический тест локальных моделей показал, что компромисс между скоростью и надежностью читается очень четко. Чем агрессивнее оптимизация под размер модели, тем чаще падает итоговый агентский результат.

Доверять бюджетирование или сложную аналитику моделям весом 3 или 8 миллиардов параметров пока категорически нельзя. Они путаются в форматах вызова инструментов, уходят в бесконечные циклы и что самое страшное, уверенно галлюцинируют цифрами, находя деньги там, где их нет.

Однако модели уровня Gemma2:9b уже переходят ту грань, где ИИ становится полезным. Эта нейросеть продемонстрировала способность читать выгрузки из трекера, правильно считать убытки, анализировать воронки и вовремя признавать отсутствие доступов к данным.

Финальный вердикт: Маленькие локальные модели уже могут быть отличными генераторами креативов и помощниками в модерации текстов. Но для полноценного агентного пайплайна с использованием сложных инструментов необходимо смотреть в сторону моделей от 9 миллиардов параметров и выше. Также заглядывайте в мой блог, где я делюсь своим путем новичка и мыслями в арбитраже HapFish 🐟| Путь в арбитраже с нуля
 
Назад
Верх
Главная Поиск Блог Обучение Партнёрки Инструменты