خوب است بدانید که هوش مصنوعی MGIE قابلیت انجام گستره زیادی از امکانات حیرت آور در خصوص ویرایش تصاویر را دارد و اینطور به نظر می رسد که در آینده ای نزدیک یک دستیار مبتکر ضروری برای همگان خواهد شد.
جدیدا اطلاعاتی از مدل جدید هوش مصنوعی شرکت اپل ارائه شده که انقلابی بزرگ در ویرایش تصاویر به وجود خواهد آورد.
این مدل منبع باز به نام MGIE، می تواند تصاویر را طبق محتوای دستورالعملهایی بر پایه زبان طبیعی ویرایش نماید.
باید بدانید که MGIE مخفف عبارت MLLM-Guided Image Editing بوده و مدلهای زبان بزرگ چندوجهی یعنی MLLMs را به کار می گیرد تا دستورات گرفته شده را تفسیر کرده و بر اساس آن ها تصاویر و عکس ها را در سطح پیکسل ویرایش و دستکاری نماید. به علاوه MGIE می تواند عکس ها را در لایههای ویرایش گوناگونی نظیر اصلاح سبک فتوشاپ، بهینهسازی کلی تصویر و ویرایش بخشی تغییر دهد.
مدل MGIE محصولی است که با همکاری شرکت اپل و دانشگاه کالیفرنیا تولید شده و جزئیات آن به تازگی در یک مقاله تحقیقی و در کنفرانس بینالمللی نمایش های یادگیری یا ICLR در سال 2024 ارائه شده است.
نحوه کار ابزار MGIE
پایه هوش مصنوعی جدید شرکت اپل بر اساس به کار بردن MLLMها می باشد، یعنی مدلهایی که می توانند متن و تصویر را پردازش و تفسیر کنند و بنابراین قادر می باشند تا تصاویر را به طور دقیقی از دستورالعمل گرفته شده ویرایش نمایند.
برای نمونه چنانچه دستورالعمل:«آسمان را ابری تر کن» توسط این ابزار گرفته شود، MGIE آن را به فرمان اجرایی «زیاد کردن رنگ منطقه آسمان به مقدار 20 درصد» مبدل میکند.
از سوی دیگر MGIE می تواند گستره زیادی از سناریوهای ویرایش نظیر تغییرات ساده در رنگهای تصویر و یا دستکاری های سخت تر را اجرایی نماید. این مدل قادر است تا ویرایشهای دستوری را به صورت کلی در همه تصویر و یا فقط در قسمتی خاص از آن اجرا کند.
همچنین این مدل قادر است تا ویرایشهای معمول و آسان یا فتوشاپی نظیر برش، تغییر اندازه و اعمال فیلترهای مختلف را انجام دهد. به علاوه این مدل می تواند ویرایشهای سخت تر مثل عوض کردن پسزمینه، اضافه و یا پاک کردن اجسام و ترکیب عکس ها را نیز انجام دهد.
از طرف دیگر مدل MGIE می تواند خصوصیات کلی تصویر نظیر روشنایی، کنتراست، وضوح و تعادل رنگها را نیز عوض کند و یا فقط نواحی یا اجسام خاصی را در تصویر نظیر صورت، چشمها، موها، لباسها و غیره تغییر دهد.
درست است که MLLMها قابلیت های بسیار خوبی در تفسیر دستورات و ارائه جواب آگاهانه به آن ها دارند، ولی تا این زمان از لحاظ تغییر و ویرایش عکس ها کاربرد چندانی ندارند.
موارد استفاده از ابزار MGIE
هوش مصنوعی MGIE در حال حاضر همچون یک پروژه منبع باز در GitHub در اختیار برنامهنویسان و توسعه دهندگان می باشد، به علاوه در وب، پلتفرمی وجود دارد که کاربران با استفاده از نسخه آزمایشی آن، می توانند MGIE را به صورت آنلاین به کار بگیرند و به همکاری در پروژههای یادگیری ماشین یا ML بپردازند. از سوی دیگر کاربران قادر می باشند تا جهت ترمیم مدل ویرایشها، با MGIE همکاری کنند و با ارائه فیدبک های خود، کمک به تکمیل مدل MGIE کنند.
از نظر متخصصین ابزار MGIE دیگر یک پروژه تحقیقاتی نمی باشد، بلکه در حقیقت ابزاری کاربردی و مفید برای اهداف متفاوتی می باشد. ابزار MGIE قادر است تا در ساخت، ویرایش و بهینهسازی عکس ها در مواردی نظیر شبکه های اجتماعی، تجارت الکترونیک، آموزش، سرگرمی و هنر توسط کاربران مورد استفاده قرار گیرد.
مدل MGIE موجب زیاد شدنتوانایی کاربران در ارائه ایدهها و احساساتشان به وسیله عکس ها کمک می کند که در نتیجه می تواند موجب کشف و پیشرفت ابتکارات شود.
متخصصین بر این باورند که ابزار MGIE بیانگر انقلابی بزرگ در تکنولوژی هوش مصنوعی می باشد و با قابلیت های بسیار خود در آینده ای نزدیک می تواند یک دستیار مبتکر ضروری برای همگان شود.