Guru Network Limited 是一家全球化的娱乐与游戏公司,其开发的 CastFox 彻底改变了用户与播客的交互方式,应用上线仅 3 周下载量就突破 100 万次。
通过将传统的被动长音频转化为互动式知识库,CastFox 意在打造比简单播放更丰富的体验。为了达成这一目标,CastFox 工程团队需要一个高效稳健的 AI 模型来支撑其语义检索、智能亮点提取和节目内聊天功能。基于初创团队的预算考量,他们果断选择 Gemma 3n 作为这些核心功能的技术引擎,从而快速推进自身愿景的规模化进程。
面临的挑战
CastFox 团队的目标是重塑播客体验,从孤立的单集式收听转变为更丰富的主题式探索。这意味着,用户可以在应用的播客目录中基于语义概念 (而不仅是关键词) 进行搜索,先快速生成主题概览再深入收听完整剧集,甚至可以与音频内容本身进行交互对话。
为将这一愿景转化为现实,团队需要一种兼具可扩展性与经济高效的方式来处理海量的英语、日语和韩语音频。这种处理能力对于摘要、亮点和问答的生成至关重要,而这些正是驱动应用核心功能的基石。早期测试表明,许多基于 API 的模型要么在面对大规模需求时成本过高,要么缺乏团队特定多语言用例所需的灵活性。
解决方案
在评估了 GPT 和 Claude 等大规模专有模型以及 Whisper 流水线后,CastFox 开发者最终选择了 Gemma 3n E4B,因为它达到了精确度、速度和性价比这三者的最佳平衡。Gemma 能够处理多语言内容并可靠地返回 JSON 等结构化输出,这是赢得团队青睐的关键。另外,它的开放也是一个强大优势: 由于该模型成本低且易于自托管,开发者可以快速构建原型并持续优化。Guru Network Limited 的 AI 负责人吴充表示: "Gemma 成本低且易于部署,助力团队实现了快速迭代与低成本规模化。这是真实场景下 AI 集成的理想切入点。"
该团队在轻量级 GPU 和 CPU 基础设施上使用 Ollama 运行 Gemma 3n,这种架构有效规避了模型再训练的高成本与复杂性。开发者发现,他们无需微调模型,仅通过提示工程和轻量级后处理 (例如验证 JSON 架构和平滑处理时间戳),就能实现高精度结果。
Guru Network Limited 的 AI 负责人吴充:“Gemma 3n 高效、开放并且在多语言环境下表现卓越,是初创公司构建 AI 富集型应用的理想之选。”
如今,这一架构支撑起了 CastFox 的整个音频理解后端。在预处理期间,系统首先对节目音频进行转录,随后解析文本并生成摘要、自动分段和候选问答,所有这些内容都存储为 JSON 格式,以备日后检索。这样,Gemma 3n 就成为 CastFox 语义搜索和交互功能的幕后核心引擎。吴充表示: "AI 让我们能够将播客等被动的媒体转变为主动学习的体验。如果没有它,CastFox 将仅仅是一个普通的播客播放器。"
影响
Gemma 3n 在英语、韩语和日语方面均展现出稳定和准确的理解能力,同时兼顾了高效的处理速度: 处理 30 秒的音频片段大约需要 40 秒,处理 300-400 个字符的文本摘要大约需要 6 秒,从长文本中生成推荐问题大约需要 12 秒。
Guru Network Limited 的 AI 负责人吴充:“Gemma 3n 不仅具备强大的英语、韩语和日语理解能力,而且响应能力快速稳定。一款紧凑型模型能达到这种水平,确实令人赞叹。”
这种自托管的方法同时实现了极高的成本效益。每个请求的成本只有大约 0.0007 美元,因此团队可以轻松地大规模处理内容。为此,他们在 AWS Spot 实例上使用可抢占容量运行预处理,而不是使用更昂贵的预留节点,从而将日均处理成本降至仅 10 美元左右。
用户对 AI 功能的参与度很高,无论是出色的留存率指标,还是强调 "与播客聊天" 功能的用户好评,都有力地证实了这一点。在 Gemma 的支持下,CastFox 上线仅 3 周下载量就突破 100 万次,成功吸引了一批高度活跃且粘性极强的用户群体。
吴充认为结果不言而喻: "Gemma 3n 证明了小规模开放模型也能产生切实影响力。"
全部0条评论
快来发表一下你的评论吧 !