✨我是怎樣踏入生成式 AI 世界的?
一切開始於 2022 年中生成式 AI 剛開始爆發的時期。那時我在社群上看到朋友用 Midjourney 和 Stable Diffusion 生成的圖像作品,還收到朋友提供的 Midjourney 邀請碼。這一次嘗試,讓我正式踏進了 AI 圈子。
Midjourney 操作簡單,只需在 Discord 輸入 /imagine
加上描述,即可在一分鐘內產出高品質圖像。它的邀請碼制度與社群獎勵機制也促進了知識交流與使用動力,加上社群用戶不斷分享成果,形成一股強大風潮。
🚀從 Midjourney 到 Stable Diffusion
雖然 Midjourney 容易上手,但無法脫離 Discord 使用,對開發來說較不方便。後來我開始探索 Stable Diffusion 的開源生態,發現它具備高自由度與可控性,可以搭配各種插件與本地部署,甚至支援伺服器應用,非常適合技術開發與商用專案。
為此我也搭建了 Stable Diffusion WebUI 並學會使用 ComfyUI,從圖像提詞、模型選擇到節點式流程設計,逐步建立自己的 AI 生成工作流。
🔮創作與學習並行:將 AI 技術融入我的專案中
我在攻讀數碼媒體學位期間,也在一間新創公司擔任技術設計師。這段時間,我開始把生成式 AI 應用在實際項目中,邊做邊學、邊試邊改,以下是幾個作品:
結合 Stable Diffusion + ChatGPT + Azure Voice 打造互動式占卜體驗,使用者可透過語音或文字提問,占卜師會根據水晶球影像解答。圖像經由 API 發送至 GPU 伺服器進行生成,語音則由 Azure TTS 配音解說。
📽️ 介紹影片:連結
我設計了 6 位風格各異的虛擬女友,並利用 Stable Diffusion 提詞生成角色圖像。當時為了保持人物外觀一致,我自創了詞庫 magic-cat 來幫助我鎖定髮型與穿著細節。
其中一位角色 Hana 在 Poe 上每月有超過 2000 名使用者互動,還有人特地來詢問 prompt 寫法,讓我頗有成就感。
🧠 推薦閱讀:magic-cat 提詞庫、Poe 連結
在 Avatech 公司開發的 Y-DIR 項目中,我運用 ControlNet 穩定生成角色面部位置,並串接 Live2D 與 Blender 動畫系統,角色可自然地眨眼與對嘴。
後期改以 ComfyUI 重構流程,大幅提升團隊協作與開發彈性。
📽️ 範例影片:連結
使用 Kohya's GUI 訓練個人 LoRA 模型
記錄聲音訓練過程,實驗變聲與歌唱模型
開發 Discord 機器人,輸入 prompt 即可生成圖像
💬 小結:AI 技術給我什麼?
從一開始的好奇,到現在能獨立設計 AI 系統與角色模型,我深刻體會到「實作就是最好的學習方式」。生成式 AI 不只是工具,更是一種創作方式與未來語言。希望我的這段旅程,也能啟發你開始屬於自己的 AI 創作之路!