2024-12-21 [PL]: Jak wykorzystuję GenAI w pracy: HeyGen
Generatywna sztuczna inteligencja nieustannie zmienia sposób, w jaki pracujemy i komunikujemy się, szczególnie w obszarach kreatywnych i związanych z komunikacją. Przewidzenie pełnego zakresu jej wpływu pozostaje trudne, ale rosnąca adopcja tych narzędzi jest prawdopodobnie nieunikniona. W tym wpisie podzielę się swoimi doświadczeniami z pracą z HeyGen - narzędziem do generowania wideo. Jego możliwości są imponujące i zainspirowały mnie do wielu praktycznych zastosowań. Mam nadzieję, że ten opis pomoże innym, zwłaszcza w środowisku akademickim i twórczym, odkryć jego potencjał.
Dziś chciałbym napisać o narzędziu o ogromnym potencjale, z którym z pewnością będę pracować więcej w najbliższej przyszłości. Na razie jednak dzielę się pierwszymi doświadczeniami z pracy z HeyGen.
Czym jest HeyGen?
HeyGen https://heygen.com/ to platforma oparta na sztucznej inteligencji do generowania treści wideo z wykorzystaniem personalizowanych awatarów. Umożliwia użytkownikom tworzenie profesjonalnych filmów, wystarczy wkopiować tekst scenariusza do odczytania i wybór awatara. Platforma wspiera wiele języków i akcentów, dzięki czemu nadaje się do szerokiego grona zastosowań.
HeyGen to wirtualne studio, które eliminuje konieczność nieustannego powtarzania nagrań, przygotowywania sprzętu czy spędzania godzin na montażu. To rozwiązanie stawia na efektywność, dostępność i personalizację. Moim zdaniem, takie rozwiązanie ma gigantyczny potencjał w sektorze edukacyjnym (i nie tylko).
Jak pracuje się z HeyGen?
HeyGen przypomina studio do tworzenia filmów (uproszczoną wersję Camtasia lub iMovie), ale z kilkoma fantastycznymi funkcjami. Przyjrzyjmy się im po kolei.
HeyGen ma świetny silnik generowania głosu na podstawie tekstu. Można wprowadzić dowolny tekst, który zostanie zamieniony na nagranie audio. Dostępna jest szeroka gama lektorów dla praktycznie każdego popularnego języka. Lektorzy mogą być dobierani pod względem tempa mowy, poziomu ekscytacji, akcentu itp. Można nawet sklonować własny głos. Muszę podkreślić, że synteza głosu jest na bardzo wysokim poziomie. Dosyć przyjemnie się słucha tych nagrań, a wybór głosów jest imponujący. Można też tworzyć nagrania w wielu językacj w jednym nagraniu a tym samym lektorem i dynamicznie się między nimi przełączać. HeyGen może również tłumaczyć tekst na inne języki i generować nagrania audio w tych językach, choć do tłumaczeń wolę używać innych narzędzi (kiedyś DeepL, ostatnio coraz częściej ChatGPT—o tym jeszcze napiszę).
HeyGen nie tylko tworzy audio, ale także pozwala je odtwarzać z użyciem animowanego awatara. Do wyboru jest szeroka gama awatarów, a także możliwość dodania własnego na bazie zdjęcia lub nagrania. To niesamowita funkcja, która pozwala tworzyć realistyczne animacje na bazie jednego zdjecia. Awatar może być oparty na prawdziwym zdjęciu, ale może to być również postać stworzona syntetycznie, na przykład z użyciem MidJourney.
HeyGen oferuje także możliwość automatycznego tłumaczenia filmów, tłumaczenia ich na inne języki i dodawania realistycznie wyglądającej synchronizacji ust. To funkcja, której używam najmniej, ale uważam, że może przyciągnąć całkiem liczne grono użytkowników.
Do czego wykorzystuję HeyGen?
Oto dwa główne sposoby, w jakie używam HeyGen.
Tworzenie wideo popularyzujących projekty lub artykuły:
W mojej pracy akademickiej często zajmuję się dosyć złożonymi artykułami lub projektami. Dokumentacja do nich może mieć setki stron (jak choćby monografia Explanatory Model Analysis). Czasem jednak warto mieć krótkie wideo wprowadzające w temat, które w kilka minut przedstawia główne wyniki projektu/artykułu.
Tutaj HeyGen okazuje się świetnym rozwiązaniem. Możemy samodzielnie napisać scenariusz lub skorzystać z narzędzi do streszczania takich jak NotebookLM. Automatyczne podsumowanie zazwyczaj wymaga edycji, ale znacznie obniża prób wejścia, łatwiej je zmienić niż pisać tekst od zera. Scenariusz zamieniamy w audio za pomocą HeyGen, a w tle umieszczamy slajdy prezentujące wyniki projektu lub artykułu.
Dla mnie to narzędzie to przełom. Choć dużo pracowałem z narzędziami takimi jak Camtasia, najwięcej czasu (do 80% wysiłku) zajmowało zawsze tworzenie warstwy audio. HeyGen upraszcza ten proces, co jest znaczną pomocą.
Poniżej przykład podsumowania projektu PINEBERRY. To jedno z pierwszych nagrań, które zrobiłem. Powstało w +- dwie godziny—od pomysłu, przez naukę narzędzia, po edycję wideo. W porównaniu z tradycyjnymi narzędziami jest to olbrzymie ułątwienie w tworzeniu prototypów.
Automatyczne tłumaczenia:
Zarówno w dydaktyce, jak i w działaniach popularyzatorskich zawsze jestem rozdarty między dwoma językami. Wiele tematów dotyczy lokalnych zagadnień, więc pisanie o nich po polsku wydaje się naturalne. Z drugiej strony, angielski pozwala dotrzeć do szerszego grona odbiorców.
HeyGen znacznie ułatwia tworzenie treści w wielu językach. Przełączanie się między językami jest proste i w kilka minut można przekonwertować krótkie wideo z jednego języka na drugi.
Przykład poniżej przedstawia „prawie” automatyczne tłumaczenie powyższego filmu na język polski.
Czego nie robię z HeyGen?
Na razie są dwie rzeczy, których nie robię z HeyGen. Jedna, bo jeszcze się nie da, a druga, bo raczej by się nie sprawdziła.
Obecnie HeyGen pozwala na użycie statycznego slajdu jako tła, ale nie można tam umieszczać animacji czy innych filmów. To spore ograniczenie, bo patrzenie na statyczny ekran przez dłuższy czas może być nużące. Dlatego nie tworzę nagrań z animowanym tłem.
Nie robię też długich nagrań. Choć płatna wersja to umożliwia, mam wrażenie, że nagrania dłuższe niż kilka minut byłyby jednak męczące i rozwlekłe. Pięć minut to dla mnie jeszcze akceptowalna długość.
A jak Ty wykorzystujesz HeyGen?
Podziel się swoimi doświadczeniami w komentarzach.