فلاکس (مدل متن به تصویر)

Flux
نویسنده(های)
اصلی
Black Forest Labs
توسعه‌دهنده(ها)Black Forest Labs
انتشار اولیهآگوست ۲۰۲۴
انتشار پایدار
Flux 1.1 Pro (model) / ۲ اکتبر ۲۰۲۴
مخزنhttps://github.com/black-forest-labs/flux
نوعمدل متن به تصویر
مجوز
وبگاه

فلاکس (به انگلیسی: Flux) یا FLUX.1 یک مدل متن به تصویر است که توسط شرکت بلک فارست لبز در فرایبورگ، آلمان توسعه یافته است. این شرکت توسط کارمندان سابق استبیلیتی ای‌آی تأسیس شده است. فلاکس همانند سایر مدل‌های تبدیل متن به تصویر، تصاویر را از توضیحات زبان طبیعی به روش تولیدی ایجاد می‌کند که به آن‌ها پرامپت می‌گویند. فلاکس به عنوان یکی از دقیق‌ترین مدل‌های متن به تصویر با نسخه‌های متن‌باز شناخته می‌شود.

تاریخچه

بلک فارست لبز در سال ۲۰۲۴ توسط رابین رومباخ (Robin Rombach)، آندریاس بلاتمن (Andreas Blattmann) و پاتریک اسر (Patrick Esser)، کارمندان سابق استبیلیتی‌ای‌آی تأسیس شد. هر سه بنیانگذار پیش‌تر در دانشگاه لودویگ ماکسیمیلیان مونیخ به عنوان دستیاران پژوهشی زیر نظر بیورن اومر (Björn Ommer) در زمینه تولید تصویر هوش مصنوعی تحقیق می‌کردند. آن‌ها نتایج تحقیقات خود در مورد تولید تصویر را در سال ۲۰۲۲ منتشر کردند که منجر به ایجاد Stable Diffusion شد.

سرمایه‌گذاران بلک فارست لبز شامل شرکت سرمایه‌گذاری خطرپذیر Andreessen Horowitz، Brendan Iribe, Michael Ovitz, Garry Tan و Vladlen Koltun بودند. این شرکت سرمایه‌گذاری اولیه به مبلغ ۳۱ میلیون دلار آمریکا دریافت کرد.

در آگوست ۲۰۲۴، فلاکس به عنوان مدل متن به تصویر در چت‌ربات Grok توسعه یافته توسط xAI ادغام شد و به عنوان بخشی از ویژگی‌های پولی در X (توییتر سابق) در دسترس قرار گرفت. گراک بعداً در دسامبر ۲۰۲۴ مدل متن به تصویر خود را با Aurora (توسعه یافته توسط xAI) جایگزین کرد.

در ۱۸ نوامبر ۲۰۲۴، Mistral AI اعلام کرد که چت‌بات «له شَت» (Le Chat) خود، Flux Pro را به عنوان مدل تولید تصویر ادغام کرده است.

در ۲۱ نوامبر ۲۰۲۴، بلک فارست لبز از انتشار Flux.1 Tools خبر داد، مجموعه‌ای از ابزارهای ویرایش تصویر که برای استفاده در کنار مدل‌های موجود طراحی شده‌اند. این ابزارها شامل:

  • Flux.1 Fill برای حذف اشیاء ناخواسته و تغییر ابعاد عکس
  • Flux.1 Depth برای درک بهتر روابط فضایی و قرارگیری اشیاء بر اساس نقشه عمق استخراج‌شده تصاویر ورودی
  • Flux.1 Canny برای تحلیل لبه‌های کنی استخراج‌شده از تصاویر ورودی و تولید عکس‌های واقعی‌تر
  • Flux.1 Redux برای تولید تصاویر مشابه ورودی و ترکیب تصاویر ورودی موجود با پرامپت جدید

هر ابزار در هر سه نسخه Dev, Pro و Schnell موجود است.

در ژانویه ۲۰۲۵، بلک فارست لبز همکاری خود را با شرکت Nvidia برای گنجاندن مدل‌های فلاکس به عنوان مدل‌های پایه برای ریزمعماری بلک‌ول انویدیا اعلام کرد. همچنین این شرکت انتشار Flux Pro Finetuning API را برای سفارشی‌سازی و تنظیم دقیق تصاویر تولید شده توسط فلاکس اعلام کرد و از همکاری با رسانه آلمانی Hubert Burda Media برای استفاده از Flux Pro در تولید محتوا خبر داد.

مدل‌ها

فلاکس مجموعه‌ای از مدل‌های متن به تصویر است. این مدل‌ها بر اساس بلوک‌های ترانسفورمر جریان تصحیح‌شده با مقیاس ۱۲ میلیارد پارامتر هستند. مدل‌ها تحت مجوزهای مختلف منتشر شده‌اند:

کاربران بدون در نظر گرفتن مدل‌های استفاده شده، مالکیت خروجی حاصل را حفظ می‌کنند.

این مدل‌ها می‌توانند به صورت آنلاین یا محلی با استفاده از رابط‌های کاربری هوش مصنوعی تولیدی مانند ComfyUI و Stable Diffusion WebUI Forge (یک انشعاب از Automatic1111 WebUI) استفاده شوند.

مدل پیشرفته اصلی، Flux 1.1 Pro در ۲ اکتبر ۲۰۲۴ منتشر شد. در ۶ نوامبر، دو حالت اضافی معرفی شدند:

  • حالت Ultra که می‌تواند تصاویر را با وضوح چهار برابر بالاتر و تا ۴ مگاپیکسل بدون تأثیر بر سرعت تولید ایجاد کند
  • حالت Raw که می‌تواند تصاویر فوق واقع‌گرایانه به سبک عکاسی بی‌هوا تولید کند

مدل مدل متن به ویدئو مرتبط با فلاکس، طبق آخرین اطلاعات تا دسامبر ۲۰۲۴ همچنان در حال توسعه است.

استقبال

طبق آزمایشی که توسط «ارز تکنیکا» انجام شد، خروجی‌های تولید شده توسط Flux.1 Dev و Flux.1 Pro از نظر وفاداری به پرامپت، قابل مقایسه با دالی ۳ هستند، با واقع‌گرایی عکس‌ها که تقریباً مشابه میدجرنی (Midjourney) ۶ است. فلاکس همچنین دست‌های انسان را با ثبات بیشتری نسبت به مدل‌های قبلی مانند Stable Diffusion XL تولید می‌کند.

فلاکس به دلیل تصاویر بسیار واقع‌گرایانه‌اش مورد انتقاد قرار گرفته است. طبق گزارش‌های رسانه‌ها، تصاویر تولید شده از تصویر دونالد ترامپ با اسلحه تا صحنه‌های ناراحت‌کننده متغیر بوده است، که باعث بحث‌هایی دربارهٔ پیامدهای اخلاقی این فناوری شده است.

پس از انتشار این مدل، شبکه اجتماعی X از تصاویر تولید شده توسط فلاکس پر شد. بلک فارست لبز جزئیات دقیقی از داده‌های استفاده شده برای آموزش مدل ارائه نکرده است. «آرس تکنیکا» احتمال می‌دهد که فلاکس بر اساس مجموعه‌ای بزرگ و غیرمجاز از تصاویر استخراج شده از اینترنت باشد، روشی بحث‌برانگیز با پیامدهای حقوقی بالقوه.

ادغام‌های شخص ثالث

در حالی که بلک فارست لبز دسترسی مستقیم به مدل‌های خود را در وب‌سایت خود ارائه نمی‌دهد، مدل‌های فلاکس از طریق پلتفرم‌های مختلف شخص ثالث برای استفاده خلاقانه و حرفه‌ای به طور گسترده در دسترس هستند. این موارد شامل مخازن در پلتفرم‌هایی مانند هاگینگ فیس و Replicate می‌شوند.

منابع

    پیوند به بیرون