開發筆記2026年 01月 27日閱讀時間 6 分鐘

VoiceVault:告別訂閱制疲勞,用 AI 奪回你的學習主權

VoiceVault:告別訂閱制疲勞,用 AI 奪回你的學習主權

告別高昂訂閱費!VoiceVault透過AI技術,提供完全免費的英文口說練習。它保障你的資料主權,將學習記錄本地儲存為Markdown。用Whisper與Gemini,終結訂閱制疲勞,奪回你的學習主權。

infoInfo

這是本系列的第一篇文章,介紹我開發 VoiceVault 的初衷與核心理念。

訂閱制的疲勞與 AI 的解放#

你每個月花多少錢在「語言學習」上?

Speak、Elsa、Duolingo Plus... 等語言學習應用程式,確實做得很好,以介面精美及遊戲化(Gamification)設計使人沉溺其中。 但每當看到信用卡帳單上的 $15 美金、$30 美金月費時,不禁自問:「我到底是在付錢買技術,還是在付錢買『我正在努力』的安心感?」

更讓人介意的是資料主權(Data Ownership)問題。

在這些應用程式中,你所有的對話紀錄、犯過的文法錯誤、學會的母語人士自然用法... 這些寶貴的真實數據最終流向何處?它們被牢牢鎖在應用程式的圍牆花園裡。

一旦使用者停止付費,這些記錄就不再屬於你了。

你無法將特定軟體的練習記錄匯出,進行個人化分析、設計客製化測驗、建立專屬知識庫......。

某種程度上,付費的同時,你的學習數據也被軟體箝制住。

但在 AI 年代,這個規則被打破了。

隨著 OpenAI 開源了 Whisper 模型,Google 推出了強大且免費額度驚人的 Gemini API,這代表:「我們已經不需要為基礎的 AI 口說練習付費了。」

這篇文章想介紹:VoiceVault,這是我透過 AI 技術整合,打造出來的完全免費,資料屬於使用者的英文口說家教。


核心理念:為什麼免費?為什麼現在?#

在開始介紹 VoiceVault 之前,我想先聊聊這個專案背後的「反直覺」發現。

大多數人認為開發一個能聽懂你說話、還能糾正你文法的 App,成本一定很高吧?需要昂貴伺服器,也需要花費重金養工程師。

事實上,現在的 AI 技術已經成熟到「邊際成本趨近於零」

VoiceVault 的「零成本」解密#

我打造這個 App 的成本結構如下:

  1. 耳朵(語音辨識):$0
    • 模型名稱OpenAI Whisper
    • 使用版本base (註:Whisper 有 tiny, base, small, medium, large 等版本,為了在速度與準確度取得平衡,我測試後選用了 base)
    • 運行方式:Local (本地運行) 它精準地把你的語音轉成文字。不需要付費 API,不需要上傳到雲端。
  2. 大腦(AI 教練):$0
    • 模型名稱Google Gemini
    • 使用版本gemini-2.5-flash (註:這是 Google 目前速度最快、且免費額度最高的版本)
    • 運行方式:Cloud API (雲端呼叫) 它負責分析文法錯誤和提供口說建議。Google 目前提供的免費額度對個人使用者來說幾乎是「吃到飽」等級(每分鐘 15 次請求,每天 1500 次)。 除非一天練習口說 24 小時不間斷,否則根本用不完。
  3. 記憶(資料儲存):$0
    • 儲存方式:本地儲存
    • 儲存格式:Markdown 檔案 所有的練習記錄,我都存成最原始、最通用的 Markdown 檔案,直接放在電腦的資料夾裡。

這就是 VoiceVault 的架構:透過「組裝」現有 AI 技術,實現接近 100% 功能,但 0% 成本的最基本解決方案。


VoiceVault 專案介紹:不只是「另一個」口說 App#

VoiceVault 是一個本地優先(Local-first)的桌面網頁應用。它的介面設計極簡,像是一個專注的錄音室。

1. 隱私優先的架構 (Local Whisper + Cloud Gemini)#

在這個專案中,我採用了一個混合架構,這也是我最自豪的設計之一。

  • 本地端(Local): 當你按下錄音鍵,你的聲音數據從未離開過你的電腦。我使用 Python 的 Whisper 庫在本地進行轉錄。這意味著,即使你講了一些私密的內容,也不用擔心音檔流流出。
  • 雲端(Cloud): 只有「轉錄後的文字」會被加密發送到 Gemini API 進行文法分析。文字的傳輸量極小,且不包含生物特徵(聲紋)。

這種架構在「隱私安全性」與「AI 智能度」之間取得了完美的平衡。

2. 真正的「資料主權」:Markdown Is All You Need#

這是我做這個 App 的最大動力。

每一次的練習,VoiceVault 都會自動生成一個 .md 檔案。格式如下:

2025-01-27
 
Practice Session - 14:30 (Duration: 2:15)
 
User's Speech
 
I think properbly I will go to the cinema tomorrow...
 
AI Feedback
 
**Grammar Correction:**
 
* Incorrect: "I think properbly..."
* Correct: "I think I'll probably..."
* Explanation: "Probably" is an adverb usually placed after the auxiliary verb.

為什麼這很重要?

因為 Markdown 是純文字。它不屬於 VoiceVault,不屬於 Apple Notes,也不屬於 Notion。它是通用的。

這意味著,這些產生的檔案是Raw Data(原始數據)。你可以:

  • 丟給 ChatGPT / Claude:請它分析你這一個月最常犯的 10 個文法錯誤。
  • 丟給 Obsidian:建立你的知識庫,將學到的新單字與其他筆記連結。
  • 做成客製化測驗:甚至可以寫一個腳本,把你過去犯過的錯挖空,變成填空測驗卷。

如果有天 VoiceVault 這個軟體消失了,你的學習記錄依然完好無損地躺在你的硬碟裡。這才是真正的「累積」。

3. 可視化的進步:GitHub-style Heatmap#

為了不讓練習變得枯燥,我引入了工程師最熟悉的視覺回饋——熱力圖(Heatmap)

就像 GitHub 的 Contribution graph 一樣,你練習得越多,格子顏色就越深。這種直觀的「連勝(Streak)」機制,能有效地利用人的損失厭惡心理,讓你捨不得中斷練習。看著那片綠意盎然的格子,成就感是真實的。

此外,還可以把所有 Markdown 檔案丟給 LLM,請他分析出 過去一個月的成長軌跡,什麼類型的錯誤正在逐漸被修正


拿回學習的主導權#

科技的進步,讓人們擁有更多力量。

我在 VoiceVault 證明了,只要善用現有的 AI 工具,完全可以用零金錢成本,打造出媲美、甚至在某些方面(如隱私與資料自由度)超越付費產品的工具。

如果你也是:

  1. 厭倦訂閱制軟體。
  2. 希望能長期、跨平台地保存自己的學習數據。
  3. 對「自己打造工具」感興趣。

非常推薦試試看這套邏輯。即使你不直接使用 VoiceVault,也可以嘗試用類似的思路——Local LLM + Open Format——來構建屬於你的學習系統。

未來當我們回頭看,會發現真正的「個人化學習」,不是 AI 餵給你什麼,而是如何管理與運用產生的數據


如何開始?#

這個專案我已經開源在 GitHub 上。

  • GitHub RepoVoiceVault
  • 需求: 一台電腦(Mac/Windows/Linux)、Python 環境、一個免費的 Google Gemini API Key。

歡迎 Fork,歡迎修改,把這個 Vault 變成你自己的形狀。

Happy Learning!


Mike Chen

專注於科技與人文的交匯點。

mail訂閱電子報

不定期發送最新思考與發現。

無廣告,隨時取消