LLM应用 初级 10分钟
会议纪要与行动项提取
自动转录会议录音,生成结构化会议纪要,提取行动项并分配责任人。
WhisperLangChainFastAPINotion APIPython
项目概述
企业每周产生大量的会议,但会议纪要的质量和时效性往往不理想。记录不全、行动项遗漏、责任人不清、追踪困难是常见问题。人工整理一份30分钟的会议记录平均需要15-20分钟,等于浪费了50%的会议时间成本。
本案例构建了一套端到端的会议智能处理系统。录音文件上传后,Whisper 自动转写为文字,LangChain 流程自动提取会议要点、行动项、决策和风险点,最终生成结构化纪要并同步到 Notion/飞书文档。
关键指标
95%+
转写准确率
< 5 分钟
纪要生成时间
93%
行动项识别率
87%
用户采纳率
系统架构
系统采用「音频→文本→结构化数据→文档」的四步流水线架构,每个步骤可独立部署和扩展。
(diagram)
实现细节
1
音频转写
Whisper 部署
使用 OpenAI Whisper large-v3 模型本地部署。支持 GPU 加速,30 分钟音频约需 2-3 分钟完成转写。
说话人分离
集成 pyannote-audio 做说话人分离。自动识别不同说话人,输出带时间戳和说话人标签的逐字稿。
音频预处理
自动降噪、音量归一化、静音裁剪。低质量录音经过预处理后转写准确率提升约 8-10%。
2
结构化提取
会议摘要生成
LLM 基于逐字稿生成多维度摘要:会议主题、参与人、核心讨论内容、主要结论。
行动项提取
识别所有带有明确责任人的 TODO。自动关联到 Notion Database。
决策与风险
提取会议中做出的决策和识别的风险点。每个决策标注决策人和决策背景。
3
集成与分发
Notion 同步
通过 Notion API 自动创建文档。要点、行动项、决策分别写入不同的 Database。
飞书同步
通过 webhook 在群聊中推送会议纪要摘要,参会人自动 @ 提醒。
行动项追踪
到期前自动发送提醒。超期未完成的行动项自动升级通知给上级。
Whisper + LangChain 核心代码
# 1. Whisper 转写
model = whisper.load_model("large-v3")
result = model.transcribe("meeting.mp3", language="zh")
# 2. LangChain 结构化提取
chain = LLMChain(llm=llm, prompt=extraction_prompt)
data = chain.invoke({"transcript": transcript})
# 3. Notion 同步
notion.pages.create(parent={"database_id": db_id}, properties=data) 经验教训
- 音频质量是转写准确率的第一决定因素
- 中英混合比纯中文难得多
- 说话人分离在多人远程会议中不太准
- 行动项提取需要人工确认