باور می‌کنید این تصویر را هوش مصنوعی ساخته است؟

به گزارش صراط به نقل از دیجیاتو، محققان انویدیا، دانشگاه MIT و «دانشگاه چینهوا» چین مدل هوش مصنوعی جدیدی با نام Sana معرفی کرده‌اند که می‌تواند در چند ثانیه تصاویری با وضوح ۴۰۹۶ در ۴۰۹۶ پیکسل تولید کند.

محققان در صفحه گیت‌هاب Sana توضیح می‌دهند برخلاف مدل‌های هوش مصنوعی قدیمی که تصاویر را ۸ برابر فشرده می‌کنند، Sana می‌تواند تصاویر را ۳۲ برابر فشرده کند و تعداد توکن‌های موردنیاز را کاهش بدهد.

علاوه‌براین، Sana از مدل زبانی Gemma به‌جای رمزگذار متن خود برای بهبود عملکرد درک و استنتاج سریع استفاده می‌کند. محققان همچنین برای کاهش مراحل نمونه‌گیری آن از مکانیزمی با نام «Flow-DPM-Solver» استفاده کرده‌اند که اساساً تعداد مراحل نمونه‌گیری را از ۲۸-۵۰ به ۱۴-۲۰ کاهش می‌دهد.

تصاویر زیر با هوش مصنوعی Sana تولید شده‌اند:

باور می‌کنید این تصویر را هوش مصنوعی ساخته است؟

عملکرد Sana در برابر سایر مدل‌های هوش مصنوعی

آن‌ها ادعا کرده‌اند مدل Sana-۰.۶B می‌تواند با مدل‌های غول‌پیکر مدرن مانند Flux-۱۲B رقابت کند و ۲۰ برابر کوچک‌تر و بیشتر از ۱۰۰ برابر در اندازه‌گیری سریع‌تر باشد. همچنین Sana-۰.۶B را می‌توان روی پردازشگر گرافیکی لپ‌تاپ ۱۶ گیگابایتی اجرا کرد.

نمودار زیر مدت تولید تصویر توسط مدل Sana را با سایر مدل‌ها مقایسه می‌کند. طبق این نمودار برای مثال مدل SANA-۱.۶B با ۱.۶ میلیارد پارامتر می‌تواند در ۱.۲ ثانیه تصویری با وضوح ۱۰۲۴ در ۱۰۲۴ پیکسل تولید کند.

باور می‌کنید این تصویر را هوش مصنوعی ساخته است؟