Telegram Group Search
Forwarded from Dendi Math&AI (Денис Димитров)
Вышла новая китайская модель для генерации видео по тексту 可灵 (или просто Kling)!

Выпустила её Kuaishou Technology — китайская компания, которая разрабатывает одноимённую платформу для коротких видео (и довольно популярна в Китае).

Как заявляют авторы:
👉 модель представляет собой Diffusion Transformer (DiT), работающий в латентном пространстве закодированных видео (при этом при обучении DiT берутся видео разного разрешения и соотношения сторон);
👉 в качестве автоэнкодера видео используется специально обученный 3D VAE;
👉 модель может генерировать Full HD видео (разрешение 1920 х 1080) длинной до 2 минут с частотой 30 кадров в секунду (время, за которое модель генерирует такое видео, авторы не уточняют); при этом Sora за один проход умеет генерировать только минутное видео.

Как водится в последнее время, авторы Kling утверждают, что модель способна отлично имитировать физические характеристики реального мира и создавать видеоролики, соответствующие законам физики (что сейчас так или иначе является целью каждой команды, которая создает собственные text-to-video модели). Хотя всё ещё видны артефакты генерации (даже на представленных черри-пиках).

Концептуально в этом подходе к генерации видео нет ничего нового по сравнению с последними сравнимыми по качеству моделями такими как Sora (OpenAI), Vidu (Tsinghua University and ShengShu Technology), Veo (DeepMind). Очень большую роль играют и значимо влияют на финальное качество:
👉 данные, на которых обучалась модель, их количество и, самое главное, качество (в случае Kling эта информация неизвестна - как и в случае большинства других моделей генерации видео);
👉 количество compute, затраченного на обучение (то есть фактически спецификация и размер кластера и время обучения); в частности, авторы Kling специально подчёркивают большую отдачу (с точки зрения финального качества модели) от масшабирования архитектуры и процесса оптимизации её обучения.

Модель Kling закрытая, есть только статья с примерами в блоге и ссылка на бета-тестирование (правда чтобы в нём поучаствовать, нужен китайский номер 😄)

@dendi_math_ai
У тетриса юбилей, оказывается: стукнуло сорок лет. Поздравления Алексею Пажитнову!
Что-то долгое писать не хочется, просто хочется удивляться, как живуча оказалась гениально простая штука, несмотря на всю сверхбыструю изменчивость цифрового мира.
А вот фильм, который в заметке хвалят, мне совсем не понравился.
https://venturebeat.com/business/tetris-turns-40-with-a-grand-old-party-the-deanbeat/
Apple в своих коммуникациях очередной раз красавчики;))) Они же несколько лет сопротивлялись ИИ-хайпу и категорически избегали использования словосочетания artificial intelligence в любых своих материалах. Недавно сдались — стало невозможно избегать AI и не прослыть совсем уж отсталыми.
Но выкрутились! Все утечки твердят: в понедельник нам представят Apple Intelligence, теперь AI в линейке бренда где-то рядом с Apple Watch;)))
Apple — знатные тролли. За первые шестьдесят шесть минут презентации — ни единого упоминания ИИ, почти косметические улучшения своих продуктов в новых версиях всех ОС. Народ в коментах разных канальчиков весь желчью изошелся, комментируя отсталость и отстойность Apple. Честно скажу — сам на силе воле дотерпел до этой 66-минуты.
Но зато последующие 36 были целиком только про AI, который в этом контексте теперь исключительно Apple Intelligence, а не Artificial.
Главные пункты все те, которые были в утечках: и про альянс с ChatGPT, когда требуется что-то серьезное на серверной стороне, и про упор на приватность — из которого вытекает масса фич, реализованных прямо на устройстве.
Но мы узнали много деталей про Сири, и она действительно становится такой умной хозяйкой устройства, которая помогает им управлять, которая имеет доступ внутрь приложений, держит контекст диалога, которая — очень простая вроде бы, но очень сильная фишка — олицетворяет интерактивный саппорт, может подсказать что угодно про работу с устройством и приложениями, как бы коряво не был сформулирован вопрос. Понятно, что в таком сценарии нет никаких галлюцинаций, зато это очень хорошо приучает к новому типу интерфейса. Красивый первый шаг на пути к новым интеллектуальным интерфейсам.
Но все это не завтра. Часть фичей раскатят до конца года, а, например, неанглийские языки — и вовсе в следующем году.
Но теперь за эволюцией эппловой экосистемы станет сильно интересно следить: если сдержат все обещания — это действительно принципиальное обновление работы с устройствами и новый лидер.
И да, в итоге это лучший киноут WWDC за много лет:)
https://www.macrumors.com/2024/06/10/apple-intelligence-generative-personal-ai-unveiled-for-iphone-ipad-and-mac/
Вообще, спасибо Apple, может больше начнет публика обращать внимание, что прогресс ИИ — это вовсе не гонка языковых моделей, и не бесконечные чат-боты, — а сложная, медленная, глубокая интеграция новых алгоритмов в самые разные продукты.
Вот, кстати, два почти совпавших по времени интересных материала на тему «ИИ в образовании».
В Индии создали то, что без лишней скромности обозвали the world’s first autonomous AI university professor. Эта довольно милая дама, рожденная в стартапе HaiVE, от языковых моделей взяла умение общаться, но информацией оперирует не из интернета вообще, а из всего корпуса инженерных курсов университета. Как и в случае с поиском, это решает проблему галлюцинаций, а контекст и индивидуальная история каждого студента обеспечивает вожделенную персонализацию. (Если вспомнить сегодняшнюю презентацию Apple, Malar — такая Сири, сведущая не в операционках, а в учебных материалах по определенным дисциплинам). Как и должно быть, под капотом работает не одна модель, а ансамбль специализированных. Стартап хвастается, что у него почти 200 000 пользователей при DAU в 30 000: очень достойно для локального применения в одном университете.
Но локальность — это черта конкретного продукта. А вообще, как замечает колумнист Форбса, умный EdTech позволит избавиться от троечников — в том смысле, что их успехи сильно вырастут, ибо сейчас их неуспеваемость часто связана с недостатком персонального внимания и единым темпом прохождения материала. «Автономные профессора» с этим помогут разобраться в любых масштабах, которые готова принять академическая среда.
Forwarded from Грокс (Ilya Pestov)
Кажется, китайцы первыми добьются коммерческого успеха в роботакси, причём сделает это не DiDi, а Baidu. Представители последней заявили, что подразделение Apollo Go в следующем году станет прибыльным. За последний квартал 2023 году Apollo Go осуществила более 839 000 поездок, при этом около 45% заказов в Ухане были полностью беспилотными. Компания объявила, что роботакси Apollo 6-го поколения будет стоить около 200 000 юаней (28 169 долларов США) — или менее половины стоимости предыдущего поколения. «Благодаря снижению затрат и увеличению заказов юнит-экономика Apollo Go приближается к точке безубыточности, ожидается, что она достигнет баланса в четвертом квартале 2024 года и станет прибыльной к 2025 году», — говорится в пресс-релизе Baidu. Важно подчеркнуть, что успех китайцев обусловлен не только технологическими инновациями, но и законодательными — если не выпускать беспилотники в города и обучать их строго на автодромах, то ездить в реальных условиях они не научатся.

https://www.cnbc.com/2024/05/15/baidus-robotaxi-unit-expects-to-turn-profitable-next-year.html
Впечатляющий макроэффект производства микропроцессоров:) Intel строит новый свой завод в Огайо, а оборудование для производства оказывается весьма громоздким, весит сотни тонн — и одновременно хрупкое. В результате его транспортировка где возможно идет по воде, но в итоге приходится все же последние 150 миль от речного порта везти по шоссе.
Грузовики с негабаритным грузом движутся со скоростью 10-15 км/час, собирая за собой многокилометровые пробки: на двухполосной трассе такой груз занимает обе полосы.
Проблемы у тамошних водителей продлятся 9 дней, а вот потом штат получит немало выгод от такого производства на своей территории.
https://www.tomshardware.com/pc-components/cpus/intel-is-trucking-a-916000-pound-super-load-across-ohio-to-its-new-fab-spawning-road-closures-over-nine-days
Промпт-инженеры как отдельная профессия вряд ли появятся, а вот умение работать с промптами уже стало полезным и массово востребованным навыком, и как минимум какое-то время таковым останется.
Как любой навык, его надо практиковать и оттачивать регулярными тренировками, но все ж и теорию немного знать полезно хотя бы ради того, чтоб знать, куда при нужде подглядывать.
Посему вот вам довольно фундаментальный труд, собравший a comprehensive vocabulary of 33 vocabulary terms, a taxonomy of 58 text-only prompting techniques, and 40 techniques for other modalities. We further present a meta-analysis of the entire literature on natural language prefix-prompting.
Семьдесят шесть страниц текста, богатая библиография; разок полезно самому прочитать, а дальше пусть с ним любимая модель работает, когда вопрос возникает.
https://arxiv.org/abs/2406.06608
Про китайские технологические достижения пишут относительно много (хотя все равно, на мой взгляд, недостаточно), а вот когда речь заходит про китайскую науку, то, оказывается, многие считают, что как ее покалечила культурная революция, так она и не оправилась. Да и до того была, мол, не сильно заметна в мире.
Поэтому очень полезно почитать статью в не самом, мягко выражаясь, дружелюбно к Китаю настроенном издании The Economist. Партийные задачи, как выясняется, реально смогли сильно стимулировать работу китайских ученых по ряду направлений. Задача достижения продовольственной безопасности страны привела, например, ко многим фундаментальным достижениям в биологии.
И это касается многих областей науки: достижения и публикации там не для галочки, и Китай вырвался в лидеры по High impact papers и уважаемому индексу журнала Nature (картинка прямо здесь в посте). Короче:
Chinese scientists recently gained the edge in two closely watched measures of high-quality science, and the country’s growth in top-notch research shows no sign of slowing. The old science world order, dominated by America, Europe and Japan, is coming to an end.
https://www.economist.com/science-and-technology/2024/06/12/china-has-become-a-scientific-superpower
Когда-то давно в Австралии на океанском мелководье я гладил громадных скатов (они чудесны несмотря на длинный и опасный шип на хвосте) — и восхищался грацией их движений.
Видимо, такие водоплавающие формы не меня одного очаровали: появились первые фотки и видео, а не просто рендеры, подводного дрона Manta Ray — форма его полностью соответствует названию. Новаций в этом красавце много — Northrop Grumman, во-первых, хвалится, что это результат целиком цифрового дизайна с нуля (что бы это ни означало), а во-вторых демонстрирует нетривиальную систему, приводящую эту махину в движение: помимо пары винтов, этот скат может двигаться за счет погружений и всплытий под правильными углами (плавучесть для этого регулируется наполнением балластных емкостей).
A glider has a really intriguing propulsion mechanism, falling forward [with purpose] through the water all the time, both upward and downward. When Manta Ray needs to go up or down, it changes buoyancy by pumping sea water to change the weight of the vehicle.
В общем, красивая штука, хотя и вряд ли мирная.
https://newatlas.com/military/manta-ray-sub-videos/
Очередное чтиво на выходные: интересная статья про эволюцию идеи геймификации, которая практически является ровесницей века.
Вначале, как обычно, были обещания, что состояние “блаженной производительности”, в котором пребывают истовые игроки, позволит людям трудиться с таким же удовольствием и эффективностью в реальном мире — если мир сделать прохожим на видеоигру.
By making the real world more like a video game, we could harness the blissful productivity of millions of people and direct it at some of humanity’s thorniest problems
Но, как обычно, “мир оказался прочней”:)
Instead of liberating us from drudgery and maximizing our potential, gamification turned out to be just another tool for coercion, distraction, and control. 
В итоге играть люди стали как никогда много. А геймификация стала — и остается — одной из многочисленных манипулятивных техник современности. Автор мрачно сравнивает происходящее с превращением нас всех в NPC в чужой игре.
Не склонен разделять пессимизм автора, но ведь не обязательно соглашаться с прочитанным, можно просто самому подумать — для этого статья годная.
This media is not supported in your browser
VIEW IN TELEGRAM
2024/06/17 01:20:53
Back to Top
HTML Embed Code: