جان بخشیدن به عکس‌ها با هوش مصنوعی

محققان گوگل از هوش‌مصنوعی «VLOGGER» رونمایی کردند که می‌تواند از عکس‌های ثابت ویدئوی صحبت کردن فرد را بسازد.

به گزارش بازتاب اقتصاد، محققان گوگل یک سیستم هوش مصنوعی جدید توسعه داده‌اند که می‌تواند فقط از عکس ثابت ویدئوهای واقعی از صحبت کردن، ژست‌ها و حرکت‌های افراد را ایجاد کند. این فناوری که VLOGGER نام دارد، به مدل‌های پیشرفته یادگیری ماشین برای ترکیب فیلم‌های واقع بینانه تکیه می‌کند.

به نقل از فارس، این مدل هوش مصنوعی می‌تواند از یک فرد عکس و یک کلیپ صوتی را به عنوان ورودی بگیرد و سپس ویدئویی را که با صدا منطبق است تولید کند با ایجاد حالات صورت مربوطه، حرکات سر و دست. اگرچه ویدئوها کامل نیستند، اما نشان دهنده جهشی قابل توجه در توانایی متحرک کردن تصاویر ساکن هستند.از آنجایی که ویدئوهای تولید شده توسط هوش مصنوعی واقعی‌تر و ایجاد آن آسان‌تر می‌شوند، چالش‌های مربوط به اطلاعات نادرست و جعل دیجیتال را تشدید می‌کنند.

محققان به سرپرستی انریک کورونا، از نوعی مدل یادگیری ماشین به نام مدل‌های انتشار برای دستیابی به نتایج استفاده کردند. مدل های انتشار اخیراً عملکرد قابل توجهی در تولید تصاویر بسیار واقعی از توضیحات متن نشان داده اند. با گسترش آنها در حوزه ویدئو و آموزش بر روی مجموعه داده‎های جدید گسترده، این تیم توانست یک سیستم هوش مصنوعی ایجاد کند که می‎تواند عکس ها را به روشی بسیار متقاعدکننده زنده کند.

۵۸۵۸