Telegram Group & Telegram Channel
KV-cache для больших промптов в Gemini

Гигантский контекст Gemini 1.5 в 2 миллиона токенов имеет уйму применений, но цена и скорость таких огромных промптов оставляет желать лучшего. Даже со всеми современными оптимизациями, на обработку запроса, использующего все 2m контекста, нужны десятки секунд и несколько долларов ($1.4 Flash/$14 Pro), даже если нужно всего несколько предложений аутпута. Инпут токены хоть и дешевле, но с таким размером контекста их обычно в разы больше чем аутпут токенов.

Google обещает решить эту проблему новой фичей, context caching, которая разрешает переиспользование KV кэшей для больших промптов. Если кэшировать промпты, то задержка обработки запросов уменьшается в десятки раз, а инпут токены становятся в два раза дешевле. Хранение кэша будет платным, с почасовой оплатой, но даже с ней это стаёт выгоднее начиная с трёх запросов к промпту в час.

Кстати, если вы ещё не пробовали Gemini 1.5 - обязательно попробуйте (щедрые лимиты, но нужен VPN), возможность закинуть всю кодбазу в контекст и задавать о ней вопросы ощущается магической.

Неплохо было бы иметь такую фичу в API GPT-4o и Claude.
_______
Источник | #ai_newz
@F_S_C_P

Генерируй картинки с ⛵️MIDJOURNEY в Telegram



tg-me.com/F_S_C_P/106212
Create:
Last Update:

KV-cache для больших промптов в Gemini

Гигантский контекст Gemini 1.5 в 2 миллиона токенов имеет уйму применений, но цена и скорость таких огромных промптов оставляет желать лучшего. Даже со всеми современными оптимизациями, на обработку запроса, использующего все 2m контекста, нужны десятки секунд и несколько долларов ($1.4 Flash/$14 Pro), даже если нужно всего несколько предложений аутпута. Инпут токены хоть и дешевле, но с таким размером контекста их обычно в разы больше чем аутпут токенов.

Google обещает решить эту проблему новой фичей, context caching, которая разрешает переиспользование KV кэшей для больших промптов. Если кэшировать промпты, то задержка обработки запросов уменьшается в десятки раз, а инпут токены становятся в два раза дешевле. Хранение кэша будет платным, с почасовой оплатой, но даже с ней это стаёт выгоднее начиная с трёх запросов к промпту в час.

Кстати, если вы ещё не пробовали Gemini 1.5 - обязательно попробуйте (щедрые лимиты, но нужен VPN), возможность закинуть всю кодбазу в контекст и задавать о ней вопросы ощущается магической.

Неплохо было бы иметь такую фичу в API GPT-4o и Claude.
_______
Источник | #ai_newz
@F_S_C_P

Генерируй картинки с ⛵️MIDJOURNEY в Telegram

BY FSCP


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 280

Share with your friend now:
tg-me.com/F_S_C_P/106212

View MORE
Open in Telegram


FSCP Telegram | DID YOU KNOW?

Date: |

Traders also expressed uncertainty about the situation with China Evergrande, as the indebted property company has not provided clarification about a key interest payment.In economic news, the Commerce Department reported an unexpected increase in U.S. new home sales in August.Crude oil prices climbed Friday and front-month WTI oil futures contracts saw gains for a fifth straight week amid tighter supplies. West Texas Intermediate Crude oil futures for November rose $0.68 or 0.9 percent at 73.98 a barrel. WTI Crude futures gained 2.8 percent for the week.

The STAR Market, as is implied by the name, is heavily geared toward smaller innovative tech companies, in particular those engaged in strategically important fields, such as biopharmaceuticals, 5G technology, semiconductors, and new energy. The STAR Market currently has 340 listed securities. The STAR Market is seen as important for China’s high-tech and emerging industries, providing a space for smaller companies to raise capital in China. This is especially significant for technology companies that may be viewed with suspicion on overseas stock exchanges.

FSCP from us


Telegram FSCP
FROM USA