2024-12-15 [PL]: Jak wykorzystuję GenAI w pracy: MidJourney

Generatywna AI z pewnością zmieni sposób, w jaki pracujemy. Dziś jednak trudno przewidzieć, jak dokładnie to się stanie. Wdrażanie narzędzi GenAI na uniwersytetach jest bardzo skomplikowane z powodów, które mogłyby wypełnić całą książkę. Niemniej jednak, ta zmiana nadejdzie. Celem tego i kolejnych wpisów jest przedstawienie, jak obecnie (koniec 2024 roku) korzystam z wybranych narzędzi GenAI. Może ten opis okaże się przydatny innym osobom ze środowiska akademickiego do wypróbowania tego lub innego narzędzia. A może i dla mnie będzie pomocny, gdy za kilka lat spojrzę na te notatki i zobaczę, „jak to było na początku transformacji GenAI”.

Dziś opowiem o jednym z moich ulubionych narzędzi: MidJourney.

Czym jest MidJourney?

MidJourney https://www.midjourney.com/ to narzędzie online do generowania wysokiej jakości kreatywnych obrazów na podstawie tekstowych poleceń. Może tworzyć najróżniejsze grafiki, począwszy od fotorealistycznych zdjęć po mocno stylizowane, abstrakcyjne obrazy. Inne narzędzia o podobnych możliwościach to DALL-E i Stable Diffusion. Ja jednak preferuję MidJourney ze względu na bardziej kreatywne interpretacje tekstowych poleceń (bardzo subiektywna ocena).

Jak pracuje się z MidJourney?

Poniższy opis dotyczy subskrypcji płatnej.

Kiedyś polecenia dla MidJourney były wysyłane za pośrednictwem Discorda, ale od jakiegoś czasu dostępny jest edytor online https://www.midjourney.com/editor, który ułatwia przeglądanie, organizowanie i pracę z wygenerowanymi obrazami.

Zapytanie można parametryzować, kontrolując różnorodność, powtarzalność, a także niektóre parametry techniczne obrazu (np. proporcje). Lista parametrów dla tzw. ,,promptów’’ jest dostępna w dokumentacji narzędzia pod adresem https://docs.midjourney.com/docs/parameter-list. Ja najczęściej korzystam z tokenu personalizacji (można opisać swoje preferencje i później zastosować je do grupy poleceń) oraz proporcji obrazu.

Podstawowe zapytanie (imagine) tworzy nowy obraz, ale wśród dostępnych komend (pełna lista tutaj: https://docs.midjourney.com/docs/command-list) znajdziemy również describe, które generuje tekstowy opis obrazu, bardzo przydatny przy transferze stylu, oraz blend do kreatywnego mieszania dwóch obrazów.

Proces tworzenia zwykle jest bardzo iteracyjny. Po wewnętrznej burzy mózgów zaczynam modyfikować szczegóły, edytować zdjęcia (tak, można „dopisywać” elementy na zdjęciach). Średnio po 10 iteracjach mam obraz bliski temu, co miałem w głowie.

Do czego wykorzystuję MidJourney?

W moim przypadku trzy najczęstsze zastosowania MidJourney to slajdy/przerywniki do prezentacji, ilustracje do komiksów i materiały graficzne do krótkich filmów.

Prezentacje:

W ostatnich latach wygłaszam (zbyt) wiele wykładów i prezentacji, które są bliższe popularyzacji niż dogłębnym matematycznym analizom pojedynczej metody. Często, aby rozbić skondencowane bloki takich prezentacji, korzystam z grafik stworzonych w MidJourney. W końcu jeden obraz może być wart tysiąca słów, więc odpowiednio zaprojektowana grafika może szybko wprowadzić publiczność w kontekst przykładu, o którym będę mówił na kolejnych slajdach.

/images/20241215_presentations.png

Komiksy:

Hobbystycznie piszę komiksy, które odnoszą się do moich badań naukowych, a czasem do zajęć, które prowadzę. MidJourney świetnie nadaje się do generowania grafik do takich komiksów. Chociaż ilustracje rysowane przez ekspertów mają znacznie ciekawsze i bogatsze tła oraz są bardziej kreatywne w wielu wymiarach, GenAI świetnie sprawdza się przy prototypowaniu i szybkiej eksploracji.

/images/20241215_comics.png

Krótkie filmy:

GenAI świetnie sprawdza się w przygotowywaniu podkładów głosowych do krótkich filmów (o czym napiszę przy okazji HeyGen). Jednak oglądanie filmu, w którym nie widzimy twarzy osoby, jest trochę dziwne. Dlatego tutaj również korzystam z możliwości MidJourney do tworzenia grafik z twarzami wzorowanymi na rzeczywistych osobach (np. na mnie, bo to ja prowadzę kurs), ale z ciekawymi elementami tła, jak skafander kosmiczny, gdy film dotyczy zastosowania wyjaśnialnej AI w przestrzeni kosmicznej.

/images/20241215_video.png

Czego nie robię z MidJourney?

Oczywiście są obszary, w których nie tylko nie używam MidJourney, ale wręcz zdecydowanie to odradzam: grafiki do prac naukowych czy kopiowanie stylu współczesnych artystów.

Prace naukowe. Grafiki mogą pobudzać naszą wyobraźnię, ale to w pracach naukowych trzeba uruchomić krytyczne myślenie. Już teraz w literaturze zdarzają się przypadki, gdy realistycznie wyglądające, ale nieprawdziwe i niepoprawne diagramy trafiały do artykułów naukowych (zob. https://www.frontiersin.org/journals/cell-and-developmental-biology/articles/10.3389/fcell.2023.1339390/full). Dla mnie artykuły naukowe to obszar zbyt dużej odpowiedzialności, aby pozwalać GenAI działać na autopilocie.

Transfer stylu. Artyści poświęcają lata na rozwijanie swojego unikalnego stylu, więc imitowanie ich stylu bez zgody jest nieetyczne. Dotyczy to współczesnych artystów. Prace tych, którzy zmarli wiele lat temu (zgodnei z prawem polskim ponad 50 lat), są już w domenie publicznej.

A jak Ty korzystasz z MidJourney?

Podziel się swoimi doświadczeniami w komentarzach.