源起

不知从何时开始,我发现海外大量一手信息逐渐以多模态形式(如podcast、财报电话会、线下演讲实录等)呈现。而在内容消费侧,移动端消费该类动辄数小时的内容是比较耗费精力的,很难有大段时间完整浏览。这带来了一个长文内容经编辑后转为碎片内容的媒体生态位,很好的迎合了上述供给侧内容增长和消费侧注意力有限这一矛盾的放大趋势。

痛点

但久而久之,我发现习惯阅读这些经过二次处理加工的内容后,阅读能力却显著下降了。自己的context window被驯化的越来越小,经常长文读到一半就忍不住划走去刷更带来及时反馈的内容。这让我对阅读「压缩」后的内容愈发警觉。

我本身又是一个很喜欢读长文逐字稿的人,在高密度输出的1对1访谈中,受访者很难作假,这让读者得以有机会窥探受访者当下内心真实的想法,是非常高质量的信息。而无论是人工编辑或AI总结,对原文的理解总会有些许的偏差或遗漏,看似消费了大量信息,实则看完就忘了。

好比吃水果和喝果汁的区别:吃水果时水果中的膳食纤维基本不会损失,有助于促进肠道蠕动、改善消化。而打成果汁后,许多不溶性膳食纤维就会被去除,导致纤维摄入减少,影响了肠道健康和血糖控制。果汁喝多了会非常腻。

解决方案

自从开始和AI高频合作后,我一直在尝试把工作和生活中能自动化的任务/工作全都自动化,上述需求诞生于自身痛点,自然想到能否尝试动手解决这个问题。

我试着建立了一套工作流,依托LLM能力,将目标视频作为输入,根据自身需求进行信息的自动处理,输出翻译后的原文逐字稿,并尽量避免后期人工编辑,最大程度解放human labor。期间踩了些坑,形成了一套相对稳定的工作流。

我使用cursor辅助写了一套部署在本地的服务,选择了Deepseek作为LLM完成本项任务

image.png

任务SOP概览:

  1. 输入【@human】:将Youtube url 链接直接发送给Agent(目前仍是本地localhost服务)

  2. 任务一【@Agent】:把用户上传的YouTube Transcript作为输入给到LLM,输出连续的、完整的、可供消费的内容

  3. 任务二【@Agent】:对上述输出作更精细的内容编辑:标记每个段落的speaker是谁,根据上下文重新调整段落结构,去掉多余的口语连接词等

  4. 任务三【@Agent】:将内容整体翻译为中文

  5. 任务四【@Agent】:翻译后的内容进行后处理,例如检查换行、专有名词保留等,保存调整为输出所需的目标格式

  6. 任务五【@Agent】:自动推送至Notion供human review,同时保存文件和处理日志到本地

  7. 输出【human】:人工介入的工作均在Notion完成,精度浏览和校对精修,确保内容连贯完整,采访称谓正确合理。挑选合适的封面图,排版发布至公众号

    image.png