Telegram Group & Telegram Channel
#клиентспросил Кейс про товары, которые невозможно найти.

Недавно сдали новый кейс. С сюжетным поворотом и двумя языковыми моделями. #case

Проблема. У клиента магазин на сорок тысяч продуктовых позиций, а поиск там хромает. Пользователи не находят товары на свои запросы и уходят с сайта. Выручка страдает.

Отдел маркетинга пытается исправлять ситуацию дописыванием ключевых слов вручную на 10k активных позиций, но не успевает. Vector search пока не могут по ряду причин. Они попросили помочь.

Решение. Отправили им выгрузку с ключевыми фразами на каждый из их активных продуктов. Ключевые фразы, по 5-7 на продукт, идентифицируют разные сценарии, в которых человеку понадобится именно этот продукт.

Если загрузить эти слова как дополнительный индекс в их систему поиска, то запрос про “дырку на 8мм” теперь покажет дрели и сверла на 8мм. Это лучшее, что тут можно было предложить без смены системы поиска.

Под капотом

Клиент прислал дамп из продуктовой БД в виде SQL queries на 250 мегабайт. Дамп в формате Oracle, а сами таблицы и колонки на иностранном языке (не английский), да еще и нормализованы в 8 таблиц с триггерами. Продуктовые описания, естественно, тоже не на английском.

Решение было в два захода

Сначала конвертировали эти дампы в маленькую и читаемую SQLite БД. ChatGPT-4 написал скрипт, который бы конвертировал абстрактные Oracle SQL Create/Insert statements (скрипты для создния с нуля БД Oracle) в аналогичные для SQLite.

А потом попросили ChatGPT-4 еще и переименовать все таблицы и колонки из странного наречия в удобоваримый английский.

Получилась удобная и понятная БД, которую можно как смотреть локально, так и вызывать из скриптов.

На этом этапе ChatGPT-4 видел схему базы данных (что не являлось секретом), но не видел самих данных.

Потом просто прогнали по каждому продукту скрипт, который собирал промпт с полным описанием продукта и просил языковую модель сформулировать ключевые слова для поиска. Использовали Mistral 7B OpenChat-3.5, которая на сервере с NVidia 3090 отрабатывала по 15 продуктов в секунду.

Результаты сравнили на небольшой выборке продуктов вручную с GPT-4, принципиальной разницы в качестве не было.

Клиенту не было важно использовать локальные модели, но благодаря им получилось быстро получить результаты, не беспокоиться о бюджете, не тратить время на борьбу с сетевыми ошибками и rate limits (что бывает с ChatGPT).

Оценка Mistral 7B OpenChat-3.5 в данной задаче: 5 из 5. Будем использовать снова!


Update от 5 декабря 👋: клиенту не понравилась часть генерируемых ключевых слов. Для улучшения качества я использовал последние наработки из других проектов (см кейс про агента-писателя и про агента, который программирует себя). Тут:

- ChatGPT прошелся по истории слов и документам поисковой системы, и сжал всю информацию в компактную методичку для написания ключевых слов
- OpenChat-3.5 по этой методичке нагенерировал тестовых слов
- ChatGPT аккуратно просмотрел результаты, оценил их и написал вторую методичку. Она была про то, как выявлять плохие слова и улучшать типичные косяки, которые допускает OpenChat-3.5
- В рабочей системе слова генерируются теперь в два прохода Mistral-7B OpenChat-3.5, который работает по инструкциям от ChatGPT

Результат проверяли вручную, система пока работает лучше человека. Предварительный второй отзыв клиента - годится.

Но если вдруг будут еще пожелания по улучшению, я просто перепишу методички с нуля с учетом новых фактов. "

ChatGPT, перепиши мне методичку с учетом новых отзывов от клиента! Внимательно прочитай все документы, которые прикреплены ниже.

- Исходная методичка для переписывания
- Новые отзывы от клиента
- Краткое описание проекта и продукта (JTBD)
- Исходная таблица с примерами продуктов и сгенерированных ключевых слов
- Описание pipeline продукта и краткие заметки про типичные косяки Mistral 7B OpenChat


Ваш, @llm_under_hood 🤗

---
PS: Другие посты из серии #клиентспросил:
- Кейс с ChatGPT про 10.000 € в месяц
- Нишевый lead generator для B2B продаж
- Платформа для автоматизации бизнес-процессов в компании
🔥30👍52🎉1



tg-me.com/llm_under_hood/201
Create:
Last Update:

#клиентспросил Кейс про товары, которые невозможно найти.

Недавно сдали новый кейс. С сюжетным поворотом и двумя языковыми моделями. #case

Проблема. У клиента магазин на сорок тысяч продуктовых позиций, а поиск там хромает. Пользователи не находят товары на свои запросы и уходят с сайта. Выручка страдает.

Отдел маркетинга пытается исправлять ситуацию дописыванием ключевых слов вручную на 10k активных позиций, но не успевает. Vector search пока не могут по ряду причин. Они попросили помочь.

Решение. Отправили им выгрузку с ключевыми фразами на каждый из их активных продуктов. Ключевые фразы, по 5-7 на продукт, идентифицируют разные сценарии, в которых человеку понадобится именно этот продукт.

Если загрузить эти слова как дополнительный индекс в их систему поиска, то запрос про “дырку на 8мм” теперь покажет дрели и сверла на 8мм. Это лучшее, что тут можно было предложить без смены системы поиска.

Под капотом

Клиент прислал дамп из продуктовой БД в виде SQL queries на 250 мегабайт. Дамп в формате Oracle, а сами таблицы и колонки на иностранном языке (не английский), да еще и нормализованы в 8 таблиц с триггерами. Продуктовые описания, естественно, тоже не на английском.

Решение было в два захода

Сначала конвертировали эти дампы в маленькую и читаемую SQLite БД. ChatGPT-4 написал скрипт, который бы конвертировал абстрактные Oracle SQL Create/Insert statements (скрипты для создния с нуля БД Oracle) в аналогичные для SQLite.

А потом попросили ChatGPT-4 еще и переименовать все таблицы и колонки из странного наречия в удобоваримый английский.

Получилась удобная и понятная БД, которую можно как смотреть локально, так и вызывать из скриптов.

На этом этапе ChatGPT-4 видел схему базы данных (что не являлось секретом), но не видел самих данных.

Потом просто прогнали по каждому продукту скрипт, который собирал промпт с полным описанием продукта и просил языковую модель сформулировать ключевые слова для поиска. Использовали Mistral 7B OpenChat-3.5, которая на сервере с NVidia 3090 отрабатывала по 15 продуктов в секунду.

Результаты сравнили на небольшой выборке продуктов вручную с GPT-4, принципиальной разницы в качестве не было.

Клиенту не было важно использовать локальные модели, но благодаря им получилось быстро получить результаты, не беспокоиться о бюджете, не тратить время на борьбу с сетевыми ошибками и rate limits (что бывает с ChatGPT).

Оценка Mistral 7B OpenChat-3.5 в данной задаче: 5 из 5. Будем использовать снова!


Update от 5 декабря 👋: клиенту не понравилась часть генерируемых ключевых слов. Для улучшения качества я использовал последние наработки из других проектов (см кейс про агента-писателя и про агента, который программирует себя). Тут:

- ChatGPT прошелся по истории слов и документам поисковой системы, и сжал всю информацию в компактную методичку для написания ключевых слов
- OpenChat-3.5 по этой методичке нагенерировал тестовых слов
- ChatGPT аккуратно просмотрел результаты, оценил их и написал вторую методичку. Она была про то, как выявлять плохие слова и улучшать типичные косяки, которые допускает OpenChat-3.5
- В рабочей системе слова генерируются теперь в два прохода Mistral-7B OpenChat-3.5, который работает по инструкциям от ChatGPT

Результат проверяли вручную, система пока работает лучше человека. Предварительный второй отзыв клиента - годится.

Но если вдруг будут еще пожелания по улучшению, я просто перепишу методички с нуля с учетом новых фактов. "

ChatGPT, перепиши мне методичку с учетом новых отзывов от клиента! Внимательно прочитай все документы, которые прикреплены ниже.

- Исходная методичка для переписывания
- Новые отзывы от клиента
- Краткое описание проекта и продукта (JTBD)
- Исходная таблица с примерами продуктов и сгенерированных ключевых слов
- Описание pipeline продукта и краткие заметки про типичные косяки Mistral 7B OpenChat


Ваш, @llm_under_hood 🤗

---
PS: Другие посты из серии #клиентспросил:
- Кейс с ChatGPT про 10.000 € в месяц
- Нишевый lead generator для B2B продаж
- Платформа для автоматизации бизнес-процессов в компании

BY LLM под капотом


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/llm_under_hood/201

View MORE
Open in Telegram


telegram Telegram | DID YOU KNOW?

Date: |

Tata Power whose core business is to generate, transmit and distribute electricity has made no money to investors in the last one decade. That is a big blunder considering it is one of the largest power generation companies in the country. One of the reasons is the company's huge debt levels which stood at ₹43,559 crore at the end of March 2021 compared to the company’s market capitalisation of ₹44,447 crore.

Telegram Gives Up On Crypto Blockchain Project

Durov said on his Telegram channel today that the two and a half year blockchain and crypto project has been put to sleep. Ironically, after leaving Russia because the government wanted his encryption keys to his social media firm, Durov’s cryptocurrency idea lost steam because of a U.S. court. “The technology we created allowed for an open, free, decentralized exchange of value and ideas. TON had the potential to revolutionize how people store and transfer funds and information,” he wrote on his channel. “Unfortunately, a U.S. court stopped TON from happening.”

telegram from tw


Telegram LLM под капотом
FROM USA