從訓練模型到AI項目開發全攻略 - 現職AI生成顧問的分享



✨我是怎樣踏入生成式 AI 世界的?

一切開始於 2022 年中生成式 AI 剛開始爆發的時期。那時我在社群上看到朋友用 Midjourney 和 Stable Diffusion 生成的圖像作品,還收到朋友提供的 Midjourney 邀請碼。這一次嘗試,讓我正式踏進了 AI 圈子。

Midjourney 操作簡單,只需在 Discord 輸入 /imagine 加上描述,即可在一分鐘內產出高品質圖像。它的邀請碼制度與社群獎勵機制也促進了知識交流與使用動力,加上社群用戶不斷分享成果,形成一股強大風潮。

🚀從 Midjourney 到 Stable Diffusion

雖然 Midjourney 容易上手,但無法脫離 Discord 使用,對開發來說較不方便。後來我開始探索 Stable Diffusion 的開源生態,發現它具備高自由度與可控性,可以搭配各種插件與本地部署,甚至支援伺服器應用,非常適合技術開發與商用專案。

為此我也搭建了 Stable Diffusion WebUI 並學會使用 ComfyUI,從圖像提詞、模型選擇到節點式流程設計,逐步建立自己的 AI 生成工作流。


🔮創作與學習並行:將 AI 技術融入我的專案中

我在攻讀數碼媒體學位期間,也在一間新創公司擔任技術設計師。這段時間,我開始把生成式 AI 應用在實際項目中,邊做邊學、邊試邊改,以下是幾個作品:



🔮 AI 水晶球占卜

結合 Stable Diffusion + ChatGPT + Azure Voice 打造互動式占卜體驗,使用者可透過語音或文字提問,占卜師會根據水晶球影像解答。圖像經由 API 發送至 GPU 伺服器進行生成,語音則由 Azure TTS 配音解說。



📽️ 介紹影片:連結



🌻 AI Waifu Project:角色生成 + Chatbot 設計 + 提詞庫 magic-cat

我設計了 6 位風格各異的虛擬女友,並利用 Stable Diffusion 提詞生成角色圖像。當時為了保持人物外觀一致,我自創了詞庫 magic-cat 來幫助我鎖定髮型與穿著細節。

其中一位角色 Hana 在 Poe 上每月有超過 2000 名使用者互動,還有人特地來詢問 prompt 寫法,讓我頗有成就感。


🧠 推薦閱讀:magic-cat 提詞庫Poe 連結




🧙 Y-DIR:從角色生成到 Live2D 動畫

在 Avatech 公司開發的 Y-DIR 項目中,我運用 ControlNet 穩定生成角色面部位置,並串接 Live2D 與 Blender 動畫系統,角色可自然地眨眼與對嘴。

後期改以 ComfyUI 重構流程,大幅提升團隊協作與開發彈性。



📽️ 範例影片:連結





👯AI Avatar & 我的虛擬形象訓練 使用 IPAdapter 將真人照片轉為卡通風格,配合 OpenPose 定位動作
使用 Kohya's GUI 訓練個人 LoRA 模型
記錄聲音訓練過程,實驗變聲與歌唱模型

開發 Discord 機器人,輸入 prompt 即可生成圖像



🔗 ComfyUI 範本庫
🔗 Discord 機器人模組





💬 小結:AI 技術給我什麼?

從一開始的好奇,到現在能獨立設計 AI 系統與角色模型,我深刻體會到「實作就是最好的學習方式」。生成式 AI 不只是工具,更是一種創作方式與未來語言。希望我的這段旅程,也能啟發你開始屬於自己的 AI 創作之路!



🔗 Patreon 完整版項目內容分享

https://www.patreon.com/posts/cong-xun-lian-mo-106911275

沒有留言: