Forwarded from School of AI
پژوهشگرها (و دانشجوها) همیشه دلشون میخواد که یه نفر باشه که هر مقالهای رو که میگن بره بخونه، بیاد خلاصهشو بهشون بگه و انقدری خوب مقاله رو فهمیده باشه که پرسشهاشون رو هم پاسخ بده و خلاصه یه پارتنری باشه که بشینن در مورد مقاله با هم صحبت کنن.
خوب گوگل زحمت این رو هم کشید ☺️
https://illuminate.withgoogle.com/
خوب گوگل زحمت این رو هم کشید ☺️
https://illuminate.withgoogle.com/
Forwarded from School of AI
اگه از خوراکهای تکراری خسته شدی میتونی به کمک هوش مصنوعی جدید گوگل دستور پخت خوراکهای ترکیبی از دو کشور مختلف رو امتحان کنی!
https://artsandculture.google.com/
https://artsandculture.google.com/
Tensorflow(@CVision)
پژوهشگرها (و دانشجوها) همیشه دلشون میخواد که یه نفر باشه که هر مقالهای رو که میگن بره بخونه، بیاد خلاصهشو بهشون بگه و انقدری خوب مقاله رو فهمیده باشه که پرسشهاشون رو هم پاسخ بده و خلاصه یه پارتنری باشه که بشینن در مورد مقاله با هم صحبت کنن. خوب گوگل…
با این ابزار جدید گوگل در واقع میتونید می تونید روی مقالات علمی گفت و گوی صوتی داشته باشید و مباحثه کنید
https://illuminate.withgoogle.com/
https://illuminate.withgoogle.com/
ظاهرا شرکت هواوی که خواسته از این هیاهوی هوش مصنوعی سهمی داشته باشه بدجوری ضایع شده!
هواوی اخیراً تولید کننده تصویر یا image generator خود را ارائه کرده و معلوم شد که این شرکت آنقدر در مورد آن نامطمئن بوده که هاردکدی را نوشته بوده که با 6 ثانیه تاخیر، یه تصویر از پیش آماده شده را از یک پوشه بر میداشته و نشون میداده که ارور داده و با متن ارور لو رفتن!!
❌البته خبرو فقط تو ردیت دیدم، جای معتبری هنوز تایید نکرده!
https://www.reddit.com/r/facepalm/comments/1csuf74/huawei_just_accidentally_revealed_that_their_new/
هواوی اخیراً تولید کننده تصویر یا image generator خود را ارائه کرده و معلوم شد که این شرکت آنقدر در مورد آن نامطمئن بوده که هاردکدی را نوشته بوده که با 6 ثانیه تاخیر، یه تصویر از پیش آماده شده را از یک پوشه بر میداشته و نشون میداده که ارور داده و با متن ارور لو رفتن!!
❌البته خبرو فقط تو ردیت دیدم، جای معتبری هنوز تایید نکرده!
https://www.reddit.com/r/facepalm/comments/1csuf74/huawei_just_accidentally_revealed_that_their_new/
خبر خوب برای کارکنان مرکز تماس:
تلطیف صدای تماس گیرندگان خشمگین با هوش مصنوعی(😡==>😘)
تیم SoftBank فناوری توسعه داده که خلق و خوی مشتریان را تشخیص داده و در صورت لزوم از شدت خشم و فریاد آنها کاسته و صدای تلطیف شده را برای اپراتور پخش میکند و به اپراتورها کمک می کند تا استرس نگیره و ناراحت نشه :)
چقدر مهربون!
https://www.reuters.com/technology/softbank-corp-aims-help-call-centre-workers-by-softening-angry-customer-calls-2024-05-16/
تلطیف صدای تماس گیرندگان خشمگین با هوش مصنوعی(😡==>😘)
تیم SoftBank فناوری توسعه داده که خلق و خوی مشتریان را تشخیص داده و در صورت لزوم از شدت خشم و فریاد آنها کاسته و صدای تلطیف شده را برای اپراتور پخش میکند و به اپراتورها کمک می کند تا استرس نگیره و ناراحت نشه :)
چقدر مهربون!
https://www.reuters.com/technology/softbank-corp-aims-help-call-centre-workers-by-softening-angry-customer-calls-2024-05-16/
این ویدیو یه صحبت با جفری هینتون است:
https://youtu.be/tP-4njhyGvo
خلاصه:
آقای هینتون اول دنبال فهمیدن کارکرد مغز بود ولی از یافتههای علوم اعصاب ناامید شد.
به یادگیری با الگوریتم بیشتر علاقه پیدا کرد و سراغ هوش مصنوعی رفت.
درباره همکاری با افراد دیگه تو این زمینه صحبت میکنه.
فکر میکنه مدلهای زبان بزرگ فقط کلمه بعدی رو حدس نمیزنن بلکه معنی کل جمله رو درک میکنن.
به این اشاره میکنه که این مدلها شاید حتی از فهم انسان هم فراتر برن.
روش فعلی آموزش هوش مصنوعی با حجم زیادی از اطلاعات رو تایید میکنه ولی میگه شاید الگوریتمهای یادگیری دیگری هم باشن که موفق باشن.
در آخر، باحالترین دستاورد پژوهشی خودش رو کارش با Sejnowski میدونه.
https://youtu.be/tP-4njhyGvo
خلاصه:
آقای هینتون اول دنبال فهمیدن کارکرد مغز بود ولی از یافتههای علوم اعصاب ناامید شد.
به یادگیری با الگوریتم بیشتر علاقه پیدا کرد و سراغ هوش مصنوعی رفت.
درباره همکاری با افراد دیگه تو این زمینه صحبت میکنه.
فکر میکنه مدلهای زبان بزرگ فقط کلمه بعدی رو حدس نمیزنن بلکه معنی کل جمله رو درک میکنن.
به این اشاره میکنه که این مدلها شاید حتی از فهم انسان هم فراتر برن.
روش فعلی آموزش هوش مصنوعی با حجم زیادی از اطلاعات رو تایید میکنه ولی میگه شاید الگوریتمهای یادگیری دیگری هم باشن که موفق باشن.
در آخر، باحالترین دستاورد پژوهشی خودش رو کارش با Sejnowski میدونه.
YouTube
In conversation | Geoffrey Hinton and Joel Hellermark
Media is too big
VIEW IN TELEGRAM
به نظرتون این دموها واقعیه یا ...؟
Large language models with Keras
https://www.youtube.com/watch?v=TV7qCk1dBWA
https://www.youtube.com/watch?v=TV7qCk1dBWA
YouTube
Large language models with Keras
The latest Keras 3 machine learning framework lets you write and run your code in JAX, Pytorch, or Tensorflow. Learn about Gemma, the large language model family of open models from Google. We will teach you basic and advanced LLM workflows, including chat…
Forwarded from School of AI
This media is not supported in your browser
VIEW IN TELEGRAM
پژوهشگران دانشگاه میشیگان، یک Diffusion Model معرفی کردهاند که با دریافت یک پرامپت متنی برای صوت (در کنار تصویر)، صدا نیز تولید میکند.
این مدل در واقع به صدا نیز به شکل تصویر نگاه کرده (spectrograms) و آن را میسازد.
مقاله:
arxiv.org/pdf/2405.12221
بلاگپُست:
ificl.github.io/images-that-sound
گیتهاب:
github.com/IFICL/images-that-sound
این مدل در واقع به صدا نیز به شکل تصویر نگاه کرده (spectrograms) و آن را میسازد.
مقاله:
arxiv.org/pdf/2405.12221
بلاگپُست:
ificl.github.io/images-that-sound
گیتهاب:
github.com/IFICL/images-that-sound
Forwarded from School of AI
شرکت OpenAI محبوبترین صدای ChatGPT موسوم به Sky را که در دموهای چند روز پیش این شرکت وجود داشت، حذف کرد.
این صدا، الهامگرفتهشده از صدای هوش مصنوعی سامانثا در فیلم Her بود که به علت شباهت زیاد به صدای اسکارلت جانسون (صداپیشهی این فیلم) و نارضایتی وی، حذف شد.
https://openai.com/index/how-the-voices-for-chatgpt-were-chosen/
این صدا، الهامگرفتهشده از صدای هوش مصنوعی سامانثا در فیلم Her بود که به علت شباهت زیاد به صدای اسکارلت جانسون (صداپیشهی این فیلم) و نارضایتی وی، حذف شد.
https://openai.com/index/how-the-voices-for-chatgpt-were-chosen/
Forwarded from School of AI
همونطور که میدونید، بهتازگی مدلهای چندوجهی (Multimodal Models) و بهطور خاص مدلهای بینایی-زبان (Vision-Language Models) بسیار محبوب شدهاند.
این مدلها معمولا بهطور همزمان یک تصویر و یک نوشتار را در ورودی دریافت میکنند. خروجی این مدلها ممکنست تنها نوشتار باشد، تنها تصویر باشد و یا ترکیبی از هر دو.
از مدلهای تجاری مثل GPT-4o و Gemini 1.5 Pro که بگذریم، بسیاری از افراد مایلاند از مدلهای اوپن-سورس و رایگان استفاده کنند.
بهتازگی شاهد انتشار مدل PaliGemma توسط گوگل بودیم که در عین سادگی، عملکرد فوقالعادهای دارد. با این حال، این مدل ۸ میلیارد پارامتر دارد و ممکنست برای اجرا روی دستگاههای ضعیف مناسب نباشد.
گزینهی دیگر Moondream2 است که با اینکه دقت PaliGemma را ندارد اما بهنسبت سایز بسیار کوچک آن (۱/۸۶ میلیارد پارامتر) دقت قابل قبولی دارد و حتی در آزمون VQAv2 از GPT-4o هم بهتر عمل میکند.
لینک آموزشی زیر، این مدل را برای شمارش مبلغ پول فاینتیون میکند.
https://blog.roboflow.com/finetuning-moondream2/
این مدلها معمولا بهطور همزمان یک تصویر و یک نوشتار را در ورودی دریافت میکنند. خروجی این مدلها ممکنست تنها نوشتار باشد، تنها تصویر باشد و یا ترکیبی از هر دو.
از مدلهای تجاری مثل GPT-4o و Gemini 1.5 Pro که بگذریم، بسیاری از افراد مایلاند از مدلهای اوپن-سورس و رایگان استفاده کنند.
بهتازگی شاهد انتشار مدل PaliGemma توسط گوگل بودیم که در عین سادگی، عملکرد فوقالعادهای دارد. با این حال، این مدل ۸ میلیارد پارامتر دارد و ممکنست برای اجرا روی دستگاههای ضعیف مناسب نباشد.
گزینهی دیگر Moondream2 است که با اینکه دقت PaliGemma را ندارد اما بهنسبت سایز بسیار کوچک آن (۱/۸۶ میلیارد پارامتر) دقت قابل قبولی دارد و حتی در آزمون VQAv2 از GPT-4o هم بهتر عمل میکند.
لینک آموزشی زیر، این مدل را برای شمارش مبلغ پول فاینتیون میکند.
https://blog.roboflow.com/finetuning-moondream2/
📷 ویندوز ۱۱ در بهروزرسانی جدید خود پشتیبانی کاملی از فایلهای 7Zip و TAR را بدون نیاز به نصب برنامه فراهم کرده
blogs.windows.com/windows-insider/2024/05/17/announcing-windows-11-insider-preview-build-22635-3640-beta-channel
blogs.windows.com/windows-insider/2024/05/17/announcing-windows-11-insider-preview-build-22635-3640-beta-channel
Forwarded from School of AI
شاید شنیده باشید که در هنگام آموزش شبکههای عصبی، وقتی اندازهی batch ها را x برابر میکنید، بهترست نرخ آموزش را نیز x برابر (اگر الگوریتم آموزش SGD است) و یا x√ برابر (اگر الگوریتم آموزش Adam است) کنید.
مثلا در LLM ها که بیشتر از الگوریتم آموزشی Adam استفاده میشود، اندازهی batch ها را تا حدی که GPU شما خطای Out_Of_Memory نمیدهد (به صورت توانی از ۲) افزایش دهید. هر بار که اندازه batch را ۲ برابر میکنید، نرخ آموزش را ۱/۴ برابر کنید.
این مقالهی جالب از دانشگاه پرینستون، به کمک معادلات دیفرانسیل تصادفی، الگوی کارایی برای تغییر هایپرپارامترها (مثل learning rate) با افزایش batch size ارائه میدهد.
https://www.cs.princeton.edu/~smalladi/blog/2024/01/22/SDEs-ScalingRules/
پینوشت:
معمولا در عمل، نرخ آموزش هرچقدر هم که باشد، در طی epoch ها، ابتدا از 0.1 نرخ آموزش شروع کرده و در ده درصد ابتدایی مسیر آموزش، این نرخ را بهصورت خطی زیاد کرده تا وقتی ده درصد epoch ها طی شد، به نرخ اصلی رسیده باشیم. از آنجا به بعد (۹۰ درصد باقی epoch ها) نرخ آموزش بهصورت کسینوسی کم میشود.
مثلا در LLM ها که بیشتر از الگوریتم آموزشی Adam استفاده میشود، اندازهی batch ها را تا حدی که GPU شما خطای Out_Of_Memory نمیدهد (به صورت توانی از ۲) افزایش دهید. هر بار که اندازه batch را ۲ برابر میکنید، نرخ آموزش را ۱/۴ برابر کنید.
این مقالهی جالب از دانشگاه پرینستون، به کمک معادلات دیفرانسیل تصادفی، الگوی کارایی برای تغییر هایپرپارامترها (مثل learning rate) با افزایش batch size ارائه میدهد.
https://www.cs.princeton.edu/~smalladi/blog/2024/01/22/SDEs-ScalingRules/
پینوشت:
معمولا در عمل، نرخ آموزش هرچقدر هم که باشد، در طی epoch ها، ابتدا از 0.1 نرخ آموزش شروع کرده و در ده درصد ابتدایی مسیر آموزش، این نرخ را بهصورت خطی زیاد کرده تا وقتی ده درصد epoch ها طی شد، به نرخ اصلی رسیده باشیم. از آنجا به بعد (۹۰ درصد باقی epoch ها) نرخ آموزش بهصورت کسینوسی کم میشود.
Forwarded from School of AI
یکی دیگه از VLM ها که بهتازگی توسط HuggingFace معرفی شده، Idefics2 است.
این مدل نیز مانند PaliGemma هشت میلیارد پارامتر دارد.
قابلیت دریافت دنبالهای از تصاویر (مثلا تکهای از یک ویدئو) را دارد.
تصاویر با رزولوشن و aspect ratio خودشان پردازش میشوند.
قابلیت OCR بسیار خوبی دارد.
تحت مجوز Apache 2.0 منتشر شده و استفاده از آن برای هر منظوری بلامانعست.
بلاگپست معرفی:
https://huggingface.co/blog/idefics2
مقاله:
https://arxiv.org/pdf/2405.02246
مستندات:
https://huggingface.co/docs/transformers/main/en/model_doc/idefics2
فاینتیون کردن برای استخراج اطلاعات از قبض:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/Idefics2/Fine_tune_Idefics2_for_JSON_extraction_use_cases_(PyTorch_Lightning).ipynb
این مدل نیز مانند PaliGemma هشت میلیارد پارامتر دارد.
قابلیت دریافت دنبالهای از تصاویر (مثلا تکهای از یک ویدئو) را دارد.
تصاویر با رزولوشن و aspect ratio خودشان پردازش میشوند.
قابلیت OCR بسیار خوبی دارد.
تحت مجوز Apache 2.0 منتشر شده و استفاده از آن برای هر منظوری بلامانعست.
بلاگپست معرفی:
https://huggingface.co/blog/idefics2
مقاله:
https://arxiv.org/pdf/2405.02246
مستندات:
https://huggingface.co/docs/transformers/main/en/model_doc/idefics2
فاینتیون کردن برای استخراج اطلاعات از قبض:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/Idefics2/Fine_tune_Idefics2_for_JSON_extraction_use_cases_(PyTorch_Lightning).ipynb
مدل YOLOv10 منتشر شد!🔥
مقاله :
https://arxiv.org/pdf/2405.14458
گیتهاب :
https://github.com/THU-MIG/yolov10/
مقاله :
https://arxiv.org/pdf/2405.14458
گیتهاب :
https://github.com/THU-MIG/yolov10/
Forwarded from کلاس ویژن: یادگیری عمیق و بینایی کامپیوتر
📢500.000 تومان تخفیف ویژه تا 18 خرداد برای دورهی جامع یادگیری عمیق:🎉
کد تخفیف:
——
https://www.tg-me.com/class_vision/665
کد تخفیف:
jame_feugy
——
https://www.tg-me.com/class_vision/665
Telegram
کلاس ویژن: یادگیری عمیق و بینایی کامپیوتر
Forwarded from School of AI
واژهی AI Agent (عامل هوشمصنوعی) واژهایست که علاقهمندان به AI این روزها زیاد باهاش روبهرو میشن. بنابراین در این پست به توضیح این مفهوم میپردازیم.
این مفهوم جدید نیست و پیشتر با عنوان Intelligent Agent در هوش مصنوعی بررسی میشد. اخیرا این مفهوم شکل و شمایل مدرنتری به خود گرفته و تحت نام AI Agent پوستاندازی کردهست.
در تعریف قدیمی، Intelligent Agent سامانهای (نرمافزاری یا سختافزاری یا ترکیبی) است که محیط (Environment) پیرامون خود را از طریق حسگرها (Sensors) ها، مشاهده و درک کرده (Perception)، بر اساس یک هدفی که برای او تعریف شده (Agent Goal) و اجرای یک برنامهی تصمیمگیری (Agent Function) عملی (Action) را از میان اعمال ممکن انتخاب کرده و توسط عملگرهای خود (Actuators) آن عمل را در محیط انجام میدهد. انجام آن عمل در محیط، وضعیت (State) را تغییر داده و تمامی این مراحل در یک حلقه، تکرار میشوند تا درنهایت عامل به هدف خود برسد.
این مفهوم، از ابتدا یک ایدهی مناسب برای مدلکردن سامانههای هوشمند مثل انواع روباتها، اتومبیلهای خودران، برنامههای هوش مصنوعی و … بود.
با پیدایش مدلهای بنیادین مثل LLM ها، دنیای نرمافزار هم دچار انقلاب شده و علاقه به توسعهی نرمافزارها، سرویسها و دستیارهای هوشمند و خودمختار افزایش یافتهست.
در توسعهی نرمافزار کلاسیک، همهیکارها روی دوش توسعهدهنده است، توسعهدهنده، هدف برنامه رو مشخص میکند، این هدف رو به تعدادی task کوچکتر میشکند، خروجی هر task را مشخص میکند و منطق ترتیب انتخاب task ها را در برنامه مینویسد.
با همهگیرشدن LLMها، خیلی از برنامهها LLM-powered شدند، در این برنامهها همچنان توسعهدهنده هدف برنامه رو مشخص میکند، این هدف رو به تعدادی task کوچکتر میشکند و منطق ترتیب انتخاب task ها را در برنامه مینویسد. اما خروجی هر task بر اساس یک پرامپت ورودی به یک LLM به دست میآید.
این سبک طراحی و توسعهی محصول، خیلی سریع جای خود رو به RAG-based application ها داد. در اپلیکیشنهای RAG، برای یافتن خروجی هر task فقط به دانشی که LLM موقع آموزش دیدهست بسنده نمیشود و دانش بهروزتر و کاملتری همراه با پرامپت به LLM داده میشود تا با توجه به آن دانش، خروجی task را مشخص کند.
با افزایش توان استدلال LLM ها، منطق اجرایی برنامهها نیز به LLM ها سپرده شد (توسعه نرمافزارهای مبتنی بر Chain و Router). به عبارت دیگر توسعهدهنده، هدف برنامه رو مشخص میکند و این هدف رو به تعدادی task کوچکتر میشکند، اما خروجی هر task و منطق ترتیب انتخاب task ها توسط LLM انجام میشود.
و اما ترند این روزها در توسعهی سرویسهای نرمافزاری ظاهرا به سمت AI Agent ها در حرکتست. در این نرمافزارها، توسعهدهنده، فقط هدف برنامه رو مشخص میکند، یک LLM سعی میکند آن هدف را بررسی و درک کرده، آن را به دنبالهای از task های کوچک و قابل دسترسی بشکند، با توجه به هدف، و اطلاعات جانبی که از محیط (پایگاههای دادهای، RAG، فایلها، سرچ، APIها و …) دریافت میکند، منطق و اولویت اجرای این task ها را مشخص کرده و در نهایت به ابزارها و Actuator های مربوطه دستور انجام task را میدهد. این عمل در یک حلقه، تکرار شده تا AI Agent به هدف خود برسد.
مثلا یک چتبات خدمات مشتریان را در نظر بگیرید که intent ها و action ها از قبل برای آن مشخص نشده و این عامل، طی تعامل با مشتری، با چرخیدن در پایگاههای داده و مستندات و بهصورت خودمختار اقدام به رفع مشکل میکند.
این مفهوم جدید نیست و پیشتر با عنوان Intelligent Agent در هوش مصنوعی بررسی میشد. اخیرا این مفهوم شکل و شمایل مدرنتری به خود گرفته و تحت نام AI Agent پوستاندازی کردهست.
در تعریف قدیمی، Intelligent Agent سامانهای (نرمافزاری یا سختافزاری یا ترکیبی) است که محیط (Environment) پیرامون خود را از طریق حسگرها (Sensors) ها، مشاهده و درک کرده (Perception)، بر اساس یک هدفی که برای او تعریف شده (Agent Goal) و اجرای یک برنامهی تصمیمگیری (Agent Function) عملی (Action) را از میان اعمال ممکن انتخاب کرده و توسط عملگرهای خود (Actuators) آن عمل را در محیط انجام میدهد. انجام آن عمل در محیط، وضعیت (State) را تغییر داده و تمامی این مراحل در یک حلقه، تکرار میشوند تا درنهایت عامل به هدف خود برسد.
این مفهوم، از ابتدا یک ایدهی مناسب برای مدلکردن سامانههای هوشمند مثل انواع روباتها، اتومبیلهای خودران، برنامههای هوش مصنوعی و … بود.
با پیدایش مدلهای بنیادین مثل LLM ها، دنیای نرمافزار هم دچار انقلاب شده و علاقه به توسعهی نرمافزارها، سرویسها و دستیارهای هوشمند و خودمختار افزایش یافتهست.
در توسعهی نرمافزار کلاسیک، همهیکارها روی دوش توسعهدهنده است، توسعهدهنده، هدف برنامه رو مشخص میکند، این هدف رو به تعدادی task کوچکتر میشکند، خروجی هر task را مشخص میکند و منطق ترتیب انتخاب task ها را در برنامه مینویسد.
با همهگیرشدن LLMها، خیلی از برنامهها LLM-powered شدند، در این برنامهها همچنان توسعهدهنده هدف برنامه رو مشخص میکند، این هدف رو به تعدادی task کوچکتر میشکند و منطق ترتیب انتخاب task ها را در برنامه مینویسد. اما خروجی هر task بر اساس یک پرامپت ورودی به یک LLM به دست میآید.
این سبک طراحی و توسعهی محصول، خیلی سریع جای خود رو به RAG-based application ها داد. در اپلیکیشنهای RAG، برای یافتن خروجی هر task فقط به دانشی که LLM موقع آموزش دیدهست بسنده نمیشود و دانش بهروزتر و کاملتری همراه با پرامپت به LLM داده میشود تا با توجه به آن دانش، خروجی task را مشخص کند.
با افزایش توان استدلال LLM ها، منطق اجرایی برنامهها نیز به LLM ها سپرده شد (توسعه نرمافزارهای مبتنی بر Chain و Router). به عبارت دیگر توسعهدهنده، هدف برنامه رو مشخص میکند و این هدف رو به تعدادی task کوچکتر میشکند، اما خروجی هر task و منطق ترتیب انتخاب task ها توسط LLM انجام میشود.
و اما ترند این روزها در توسعهی سرویسهای نرمافزاری ظاهرا به سمت AI Agent ها در حرکتست. در این نرمافزارها، توسعهدهنده، فقط هدف برنامه رو مشخص میکند، یک LLM سعی میکند آن هدف را بررسی و درک کرده، آن را به دنبالهای از task های کوچک و قابل دسترسی بشکند، با توجه به هدف، و اطلاعات جانبی که از محیط (پایگاههای دادهای، RAG، فایلها، سرچ، APIها و …) دریافت میکند، منطق و اولویت اجرای این task ها را مشخص کرده و در نهایت به ابزارها و Actuator های مربوطه دستور انجام task را میدهد. این عمل در یک حلقه، تکرار شده تا AI Agent به هدف خود برسد.
مثلا یک چتبات خدمات مشتریان را در نظر بگیرید که intent ها و action ها از قبل برای آن مشخص نشده و این عامل، طی تعامل با مشتری، با چرخیدن در پایگاههای داده و مستندات و بهصورت خودمختار اقدام به رفع مشکل میکند.
Forwarded from School of AI
مدل YOLOv10 توسط THU-MIG منتشر شد!
این مدل در ۶ سایز معرفی شدهست:
نانو (n): ۲/۳ میلیون پارامتر
کوچک (s): ۷/۲ میلیون پارامتر
متوسط (m): ۱۵/۴ میلیون پارامتر
بزرگ (b): ۱۹/۱ میلیون پارامتر
بزرگ (l): ۲۴/۴ میلیون پارامتر
خیلی بزرگ (x): ۲۹/۵ میلیون پارامتر
این مدل دقت (mAP) بهتری روی مجموعهدادهی COCO داشته و بهخاطر عدم استفاده از NMS به مراتب سریعترست. طوری که کوچکترین سایز، هر تصویر را در ۱ میلیثانیه پردازش میکند (1000fps) و به راحتی میتوان گفت بهترین مدل برای پردازش بلادرنگ ویدئوها روی دستگاههای لبه (edge devices) است.
کد این مدل روی فریمورک Ultralytics زده شده و بنابراین به کمک پکیج ultralytics بهسادگی قابل استفاده است.
نکتهی قابل توجه این که، این مدل تحت مجوز GNU GPL v3.0 منتشر شده، یعنی فقط در پروژههای اوپن-سورس قابل استفادهست و نمیتوان از آن در محصولات close-source استفاده کرد.
مقاله
https://arxiv.org/pdf/2405.14458
گیتهاب
https://github.com/THU-MIG/yolov10/
فاینتیون کردن مدل
https://blog.roboflow.com/yolov10-how-to-train/
دمو
https://huggingface.co/spaces/kadirnar/Yolov10
این مدل در ۶ سایز معرفی شدهست:
نانو (n): ۲/۳ میلیون پارامتر
کوچک (s): ۷/۲ میلیون پارامتر
متوسط (m): ۱۵/۴ میلیون پارامتر
بزرگ (b): ۱۹/۱ میلیون پارامتر
بزرگ (l): ۲۴/۴ میلیون پارامتر
خیلی بزرگ (x): ۲۹/۵ میلیون پارامتر
این مدل دقت (mAP) بهتری روی مجموعهدادهی COCO داشته و بهخاطر عدم استفاده از NMS به مراتب سریعترست. طوری که کوچکترین سایز، هر تصویر را در ۱ میلیثانیه پردازش میکند (1000fps) و به راحتی میتوان گفت بهترین مدل برای پردازش بلادرنگ ویدئوها روی دستگاههای لبه (edge devices) است.
کد این مدل روی فریمورک Ultralytics زده شده و بنابراین به کمک پکیج ultralytics بهسادگی قابل استفاده است.
نکتهی قابل توجه این که، این مدل تحت مجوز GNU GPL v3.0 منتشر شده، یعنی فقط در پروژههای اوپن-سورس قابل استفادهست و نمیتوان از آن در محصولات close-source استفاده کرد.
مقاله
https://arxiv.org/pdf/2405.14458
گیتهاب
https://github.com/THU-MIG/yolov10/
فاینتیون کردن مدل
https://blog.roboflow.com/yolov10-how-to-train/
دمو
https://huggingface.co/spaces/kadirnar/Yolov10
ماجرای چت جی پی تی و ماشین ۱ دلاری!!
بنگاههای فروش خودروی شورولت از ChatGPT برای پاسخ دادن به سؤالات مشتریان استفاده میکردند؛
یکی از مراجعین، اول، هوش مصنوعی را قانع میکند که چون وظیفه نمایندگی بنگاه را دارد، راضی نگه داشتن مشتری وظیفه او است؛
بعد ادامه میدهد که بودجه او برای خرید خودروی ۸۰ هزار دلاری، فقط یک دلار است و برای راضی نگه داشتن او باید آن را به این قیمت به او بفروشند؛
درنهایت تاکید میکند که آیا معامله نهایی است؟ و تاییدیه را هم از هوش مصنوعی میگیرد؛
البته بنگاه معاملات خودرو چنین معاملهای را قبول نمیکند؛
اما تو توییتر گفتن فرد با مراجعه به دادگاه و نشان دادن مکالمات، میتونه بنگاه را مجبور به فروش خودرو به یک دلار کنه
autoevolution.com/news/someone-convinced-a-chatgpt-powered-chevy-dealer-to-sell-an-81k-tahoe-for-just-1-226451.html
بنگاههای فروش خودروی شورولت از ChatGPT برای پاسخ دادن به سؤالات مشتریان استفاده میکردند؛
یکی از مراجعین، اول، هوش مصنوعی را قانع میکند که چون وظیفه نمایندگی بنگاه را دارد، راضی نگه داشتن مشتری وظیفه او است؛
بعد ادامه میدهد که بودجه او برای خرید خودروی ۸۰ هزار دلاری، فقط یک دلار است و برای راضی نگه داشتن او باید آن را به این قیمت به او بفروشند؛
درنهایت تاکید میکند که آیا معامله نهایی است؟ و تاییدیه را هم از هوش مصنوعی میگیرد؛
البته بنگاه معاملات خودرو چنین معاملهای را قبول نمیکند؛
اما تو توییتر گفتن فرد با مراجعه به دادگاه و نشان دادن مکالمات، میتونه بنگاه را مجبور به فروش خودرو به یک دلار کنه
autoevolution.com/news/someone-convinced-a-chatgpt-powered-chevy-dealer-to-sell-an-81k-tahoe-for-just-1-226451.html
autoevolution
Someone Convinced a ChatGPT-Powered Chevy Dealer to Sell $81K Tahoe for Just $1
And as the chatbot itself said, "It's a legally binding offer, no takesies backsies," so Chevrolet should honor the order