شرکت OpenAI این هفته از نسخه جدید مدل تولید تصویر خود با نام ChatGPT Images 2.0 پرده برداشت. این نسخه بهروزشده که بهگفته OpenAI عصر جدیدی در تولید تصویر را رقم میزند، قادر است وظایف بصری پیچیده را با دقت و جزئیات بسیار بالاتری نسبتبه نسل قبل انجام دهد. مهمترین نوآوری این مدل، افزودن قابلیت تفکر به فرایند تولید تصویر است که نتیجه نهایی را طبیعیتر و کمتر شبیه به خروجیهای هوش مصنوعی میکند.
قابلیت تفکر و ترکیببندی هوشمندانه در Images 2.0
هوش مصنوعی ChatGPT Images 2.0 نخستین مدل تصویرسازی OpenAI است که به قابلیت تفکر مجهز شده است. این ویژگی به مدل اجازه میدهد پیش از تولید تصویر نهایی، دستورات پیچیده را تحلیل کرده و روابط میان اشیاء را بهدرستی درک کند. نتیجه این تحلیل، تصاویری با حس ترکیببندی و سلیقه بصری بهبودیافته است که بهگفته OpenAI، کمتر حس تولیدشده توسط هوش مصنوعی را القا میکنند.
این مدل میتواند دستورالعملهای دقیق و جزئی را دنبال کند، اشیاء را بهدرستی در صحنه جایگذاری و به هم مرتبط سازد، جزئیات ظریف را حفظ کند و طرحهای متراکم و پیچیده را با دقت بالایی رندر نماید.
قابلیتهای فنی و خروجی Images 2.0
مدل ChatGPT Images 2.0 با مجموعهای از ویژگیهای فنی پیشرفته عرضه میشود که آن را به ابزاری قدرتمند برای طراحان، تولیدکنندگان محتوا و توسعهدهندگان تبدیل میکند. مشخصات و قابلیتهای کلیدی این مدل بهشرح زیر است:
- تولید چندتصویری: امکان ساخت تا ۸ تصویر از یک دستور واحد (Prompt)
- رزولوشن بالا: خروجی باکیفیت تا 2K
- نسبتهای تصویری متنوع: پشتیبانی از چندین نسبت تصویر مختلف
- جستجوی وب: قابلیت جستجو در اینترنت برای دریافت اطلاعات بهروز و لحظهای
- بازبینی خودکار خروجی: بررسی و تأیید صحت تصاویر تولیدشده
- درک چندزبانه بهبودیافته: رندر دقیقتر متون غیرالتین شامل ژاپنی، کرهای، چینی، هندی و بنگالی
بهبود رندر متون غیرالتین یکی از مهمترین پیشرفتهای این نسخه محسوب میشود، زیرا مدلهای پیشین معمولاً در نمایش صحیح این زبانها با مشکل مواجه بودند. ChatGPT Images 2.0 هماکنون برای تمامی کاربران ChatGPT، Codex و API در دسترس قرار دارد و میتوان از آن در پروژههای مختلف استفاده کرد.
بهنظر شما آیا قابلیت تفکر در مدلهای تصویرسازی میتواند مرز میان تصاویر تولیدشده توسط هوش مصنوعی و آثار انسانی را محو کند؟

