Skip to content

实时 Inference Engine

速度问题

当今市面上的每一个 AI 交易工具都在做同一件事:将原始信息发送给 LLM API 并等待响应。每次调用需要 1–5 秒。当重大事件爆发,48 条相关信号同时涌入时,管道就会堵塞。

等 AI 处理完毕时,市场早已完成变动。

Roma 不这样做。 我们构建了一个分层推理系统,其中 90% 的信号永远不会触及大语言模型。

双层架构

Inference Engine Signal Funnel

Layer 1 — 轻量领域模型

一个专门训练的模型,从大语言模型中蒸馏并在加密货币专用数据上微调。它在 100 毫秒内完成三项任务:

任务输出
实体识别提及了哪些代币/项目
情绪分类看涨 / 看跌 / 中性
重要性评分0–100 重要性评级

90% 的传入信号在此层即完成全部处理。重复信号被检测并合并,低重要性的噪音被过滤掉。

只有评分超过可配置阈值的信号才会进入 Layer 2。

Layer 2 — 深度 LLM 推理

对于少量高重要性信号,完整的 LLM 在 2–3 秒内进行深度分析:

任务输出
事件归因这是什么类型的事件?
影响分析哪些资产受到影响,影响如何?
历史对比上次发生类似事件时结果如何?
策略建议什么样的交易有意义?

示例:鲍威尔讲话

19:30,美联储主席开始发言。几秒钟内,48 条相关信号涌入 Roma 的管道。

没有 Roma(典型 AI 工具):

48 条信号 × 每次 API 调用 1-5 秒 = 总共 48-240 秒
结果:48 条重复提醒,高成本,巨大延迟

使用 Roma:

19:30:05  48 条信号到达

          Layer 1 (80ms):
          → 实体:BTC, ETH, USD, Treasury
          → 情绪:强烈看涨
          → 重要性:92/100
          → 检测到 47 条重复信号并合并
          → 1 条信号进入 Layer 2

19:30:05  Layer 2 (2.5s):
          → 事件类型:Fed 政策转向
          → 历史参考:2024 降息周期 → BTC +15%
          → 影响:BTC(强烈利好)、ETH(强烈利好)、
                  AI 代币(中度利好)
          → 策略:做多 BTC/ETH,关注 AI 板块轮动

19:30:08  → 输出 1 条结构化交易信号

3 秒。1 条信号。零噪音。

训练数据飞轮

Layer 1 的准确性取决于其训练数据。这些数据来自 Roma 自身的管道:

30+ 来源每天产生原始信号

Layer 2 LLM 处理高分信号(标注输出)

标注数据反馈回来重新训练 Layer 1

Layer 1 变得更准确 → 更好的过滤 → 更好的 Layer 2 输入

这创造了一个数据飞轮:Roma 处理的信号越多,Layer 1 的过滤能力就越强,进而提升到达 Layer 2 的信号质量,而 Layer 2 又产出更好的训练数据给 Layer 1。

竞争对手可以构建相同的双层架构。但如果没有大规模生成领域专用标注数据的管道,他们的 Layer 1 模型准确性将大打折扣。

成本效率

分层方案大幅降低了 LLM API 成本:

方案每日 API 调用量预估成本
朴素方案(每条信号 → LLM)~10,000
Roma(分层过滤)~500–1,000~降低 10 倍

Layer 1 运行在轻量基础设施上。只有真正重要的信号才会消耗昂贵的 LLM 算力。