پژوهشکده سیاستگذاری دانشگاه صنعتی شریف

متن

امروز دیگر اغلب مردم، در کنار همه‌ی چیزهایی که داخل گنجه‌ی دوست‌ داشتن‌های ذهنشان با خود حمل می‌کنند، نام یک پویانمایی هم حضور دارد. دنیای پویانمایی آنقدر گسترده شده که احتمالا از هر کسی بپرسید، پویانمایی مورد علاقه‌اش چیست؟ سوالتان را بدون جواب نمی‌گذارد و نام یک پویانمایی را می‌گوید. اما شاید کمتر ماها بدانیم که شخصیت‌های محبوب یا منفورمان چگونه خلق می‌شوند و ساخت آن‌ها چه فرایندی را طی می‌کند. پویانمایی از نظر فنی، دنباله‌ای از تصاویر و ایجاد ارتباط بین آن‌هاست. ساخت پویانمایی و فرایند تولید آن کار نسبتاً سخت و زمان‌بری است و به چندین سازنده با توانایی‌های مختلف نیاز دارد که با دنباله‌ای از تصاویر یک سکانس را می‌سازند. سکانسی که محصول سطوح مختلف طراحی، گرافیکی و... و ارتباط آن‌ها با همدیگر است.

با این اوصاف، به احتمال فراوان دنیای پویانمایی، مکان و حوزه‌ی مناسب و جذابی برای ورود و زیست هوش مصنوعی است. به نظر می‌رسد سیستم‌های مبتنی بر هوش مصنوعی با توجه به امکانات و قابلیت‌هایی که دارند، می‌توانند از طریق بسط تصاویری که تولید می‌کنند بر شیوه‌های ساخت پویانمایی تأثیر بگذارند و موجب ایجاد خلاقیت‌هایی در ساخت پویانمایی‌ها شوند. بر همین اساس این مقاله، چگونگی فرایند ساخت پویانمایی با هوش مصنوعی و اصول آن‌را از طریق مطالعه موردی مدلStable Diffusionبررسی می‌کند و تصویر و چشم‌انداز مناسبی را برای مخاطب از این فرایند به‌وجود می‌آورد.

مدل Stable Diffusion چیست؟

مدل Stable Diffusion به‌طور مشترک توسط چند شرکت تحقیقاتی هوش مصنوعی از جمله: CompVis، Stability AI و Anthropic ایجاد شده است. این مدل، یک مدل متن باز است که نسخه‌هایی از آن مانند Stable Diffusion WebUI و DreamStudio توسط توسعه‌دهندگان ایجاد شده است. Stable Diffusion یک مدل انتشار متن به تصویر است، به این معنی که با توجه به متن، تصاویر را برای انتشار تولید می‌کند. این مدل می‌تواند تصاویر واقعی و متنوع را مستقیماً از توضیحات متنی ایجاد کند و قابلیت های آن به‌طور قابل توجهی از مدل‌های قبلی تولید تصویر هوش مصنوعی بیشتر و بهتر است.

این مدل بر روی مجموعه داده‌های بزرگ متن و تصاویر به‌نام LAION-5B آموزش داده شده و همین امر آن‌را قادر ساخته تا روابط متن-تصویر را یاد بگیرد. Stable Diffusion نشان‌دهنده یک پیشرفت در هنر تولید شده توسط هوش مصنوعی است که علاوه بر کیفیت و سرعت دارای امکانات خلاقانه جدیدی نیز است.

Stable Diffusion چگونه پویانمایی می‌سازد؟

Stable Diffusion یک مدل واحد نیست، این مدل از دو بخش اصلی «رمزگذار متن» که در آن متن به نشانه‌های عددی تبدیل می‌شود و «تولید کننده تصویر» که تصاویر را از متن رمزگداری شده ایجاد می‌کند تشکیل شده است. در ادامه برای درک بهتر این دو مرحله؛ به‌شکل مختصر توضیحاتی از نحوه کار این دو مرحله آورده شده است.

رمزگذار متن: در این مرحله رشته‌ای متن وارد شده و هر کلمه در متن به نشانه‌ای تبدیل می‌شود. سپس هر کدام از این نشانه‌ها تبدیل به یک بردار شده و از این راه، اطلاعات دیجیتالی برای تولید تصویر نهایی فراهم می‌شود. در واقع رمزگذاری متن شامل تبدیل متن به مقدارهایی عددی برای تولید تصویر است.
تولید کننده تصویر: در این مرحله مولد تصویر با استفاده از اطلاعات مرحله قبل و با استفاده از پایگاه داده، تولید تصاویر را انجام می‌دهد. در این مدل خلق تصویر به‌طور کامل در فضای اطلاعات تصویر (یا فضای پنهان) اتفاق می‌افتد که این امر باعث می‌شود فرایند تولید سریع‌تر از سایر مدل‌های هوش مصنوعی باشد. از نظر فنی، تولید کننده تصویر از یک شبکه عصبی UNet و یک الگوریتم زمانبندی تشکیل شده است.

نحوه عملکرد تولید کننده تصویر در مدل Stable Diffusion

فرایند تولید در مدل Stable Diffusion به‌وسیله یک الگوریتم اجرا می‌شود. بدین صورت که در مرحله اول، رمزگذار تصویر، تصویر را از فضای پیکسل به ابعاد کوچک‌تری از فضای پنهان فشرده می‌کند و اطلاعات ضروری‌تری را از تصویر می‌گیرد و سپس تصویر کدگذاری شده با جلو عقب کردن پخش می‌شوند، که به این فرایند اصطلاحاً انتشار به جلو و معکوس‌سازی گفته می‌شود. بر همین اساس Stable Diffusion هر تصویر از یک سکانس را بر اساس نشانه‌های متنی و با تکنیک‌هایی جهت صاف کردن انتقال بین تصویرها تولید می‌کند.

نمونه‌ای از انیمیشن ساخته شده با هوش مصنوعی

هنرمندان از مدل‌های هوش مصنوعی مانند Stable Diffusion برای تولید انیمیشن‌های ساده و بدون پیچیدگی استفاده می‌کنند. این کار با با وارد کردن پیام‌های متنی که موضوع، نور، زوایای دوربین، حالت‌ها و حرکات دوربین را توصیف می‌کنند به مدل انجام می‌شود.

پویانمایی «سنگ، کاغذ، قیچی» یک انیمیشن هفت دقیقه‌ای است که سازندگان آن با روشی خلاقانه، ابتدا تمام تصاویر را به‌صورت واقعی و با چند بازیگر فیلمبرداری کرده‌اند، سپس تصاویر را با استفاده از Stable Diffusion به پویانمایی تبدیل کرده‌اند. آن‌ها در این مسیر به مشکلاتی مانند ناهماهنگی بین فریم‌ها که باعث ایجاد نویز شده اشاره و سعی کرده‌اند با عملیات معکوس‌سازی آن‌را برطرف کنند.

جمع‌بندی و نتیجه‌گیری

به‌طور کلی هوش مصنوعی در حال حاضر قادر به تولید آثار هنری به‌شکل مستقل نیست و نیازمند خلاقیت انسانی است. مدل هوش مصنوعی Stable Diffusion نیز به‌شکل مشابه، ابزاری برای تولید پویانمایی است که در عین حال اینکه امکانات و ابزارهایی را در اختیار سازندگان قرار می‌دهد اما همچنان نیازمند هدایت انسانی است.

هوش مصنوعی می‌تواند محتوای جدید پویانمایی را گسترش دهد، الهام بخش خلاقیت باشد و نوآوری‌هایی را در فرم به‌وجود بیاورد. در حال حاضر با هوش مصنوعی پویانمایی‌های ساده‌ای نیز ساخته می‌شود اما کیفیت تصویر آن‌ها پایین است و نماها و صحنه‌های آن‌ها پیچیده نیستند.

با این حال مدل هوش مصنوعی Stable Diffusion نشان‌دهنده یک پیشرفت در استفاده از هوش مصنوعی برای تقویت خلاقیت انسان است. این مدل با کمک به گردش کار، کارایی و دسترسی، امکان تولید هنر و پویانمایی را برای افراد بیشتری فراهم کرده است.

دانلود گزارش

جهت دانلود نسخه پی دی اف گزارش اینجا کلیک نمایید.

معرفی مقاله هوش مصنوعی چگونه پویانمایی می‌سازد؟

متن

دانلود گزارش

مطالب منتخب

خبرنامه پژوهشکده سیاست‌گذاری شریف | اسفند ۱۴۰۳، فروردین و اردیبهشت ۱۴۰۴ | سال چهارم، شماره ۱، پیاپی ۱۴

پنجمين كنفرانس حكمرانی و سياستگذاری عمومی

خبرنامه پژوهشکده سیاست‌گذاری

حوزه‌های تخصصی

فرهنگ و صنایع خلاق

حکمرانی انرژی

صنعت‌ و توسعه‌پایدار

آب‌ و محیط‌زیست

رویدادهای منتخب

سهم بازی‌های رایانه‌ای در اقتصاد دیجیتال ایران و جهان

نشست هم‌اندیشی لایحه پیشگیری از آسیب‌دیدگی زنان و ارتقاء امنیت آنان در برابر سوء رفتار

نقد و بررسی «لایحه مقابله با تحریم‌ها»

شبکه‌های اجتماعی

پیوندها

تماس با ما