عکس‌های سخنگو با هوش‌مصنوعی مایکروسافت/ فیلم

این سیستم قادر به تولید حالات چهره، حرکات لب کاملاً هماهنگ و حرکات طبیعی سر است.

به گزارش بازتاب اقتصاد، محققان مایکروسافت سیستم هوش مصنوعی جدیدی را با نام VASA توسعه داده‌اند که می‌تواند از یک تصویر یا فایل صوتی، چهره‌های متحرک واقعی ایجاد کند. VASA-1، به‌عنوان اولین مدل ساخته‌شده با این چارچوب، می‌تواند حالات چهره، حرکات لب کاملاً هماهنگ و حرکات طبیعی سر را ایجاد کند. این سیستم پتانسیل ایجاد تجربیات جذاب و واقعی را در برنامه‌های مختلف به‌همراه دارد.

براساس گزارش دیجیاتو، براساس توضیحات مایکروسافت، عملکرد VASA-1 فراتر از تطبیق حرکات لب با صدا است و می‌تواند طیف گسترده‌ای از احساسات، ظرافت‌های چهره و حرکات طبیعی سر را نیز به تصویر بکشد و چهره‌های ساخته‌شده را واقعی‌تر نشان دهد. علاوه‌براین، روی ویدیوی تولیدشده کنترل دارد؛ به این معنا که کاربران می‌توانند جهت نگاه‌کردن شخصیت، فاصله درک‌شده و حتی حالت احساسی آن‌ها را مشخص کنند.

هوش مصنوعی ساخت چهره سخنگو مایکروسافت

در ویدیوی زیر نحوه ساخت چهره سخنگو از روی یک تصویر ساده را می‌توانید مشاهده کنید:

نکته قابل‌توجه دیگر اینکه هرچند VASA-1 با عکس‌های هنری، صدای آواز یا گفتار غیرانگلیسی آموزش ندیده است، اما همچنان می‌تواند با استفاده از این ورودی‌ها ویدیو تولید کند.

مایکروسافت در ادامه توضیح می‌دهد که این سیستم می‌تواند ویدیوهایی با وضوح بالا (۵۱۲ در ۵۱۲ پیکسل) و نرخ فریم بالا تولید کند. در حالت آفلاین، VASA-1 ویدیوهایی با سرعت ۴۵ فریم‌درثانیه تولید می‌کند و در حالت آنلاین این میزان به ۴۰ فریم‌درثانیه می‌رسد.

محققان مایکروسافت ضمن اشاره به پتانسیل سوءاستفاده از این سیستم هوش مصنوعی، کاربردهای مثبت VASA-1 را برجسته کرده‌اند. ازجمله این کاربردها به بهبود تجربیات آموزشی و کمک درزمینه ارتباطات اشاره شده است.

۲۲۷۲۲۷