实时 Inference Engine
速度问题
当今市面上的每一个 AI 交易工具都在做同一件事:将原始信息发送给 LLM API 并等待响应。每次调用需要 1–5 秒。当重大事件爆发,48 条相关信号同时涌入时,管道就会堵塞。
等 AI 处理完毕时,市场早已完成变动。
Roma 不这样做。 我们构建了一个分层推理系统,其中 90% 的信号永远不会触及大语言模型。
双层架构
Layer 1 — 轻量领域模型
一个专门训练的模型,从大语言模型中蒸馏并在加密货币专用数据上微调。它在 100 毫秒内完成三项任务:
| 任务 | 输出 |
|---|---|
| 实体识别 | 提及了哪些代币/项目 |
| 情绪分类 | 看涨 / 看跌 / 中性 |
| 重要性评分 | 0–100 重要性评级 |
90% 的传入信号在此层即完成全部处理。重复信号被检测并合并,低重要性的噪音被过滤掉。
只有评分超过可配置阈值的信号才会进入 Layer 2。
Layer 2 — 深度 LLM 推理
对于少量高重要性信号,完整的 LLM 在 2–3 秒内进行深度分析:
| 任务 | 输出 |
|---|---|
| 事件归因 | 这是什么类型的事件? |
| 影响分析 | 哪些资产受到影响,影响如何? |
| 历史对比 | 上次发生类似事件时结果如何? |
| 策略建议 | 什么样的交易有意义? |
示例:鲍威尔讲话
19:30,美联储主席开始发言。几秒钟内,48 条相关信号涌入 Roma 的管道。
没有 Roma(典型 AI 工具):
48 条信号 × 每次 API 调用 1-5 秒 = 总共 48-240 秒
结果:48 条重复提醒,高成本,巨大延迟使用 Roma:
19:30:05 48 条信号到达
Layer 1 (80ms):
→ 实体:BTC, ETH, USD, Treasury
→ 情绪:强烈看涨
→ 重要性:92/100
→ 检测到 47 条重复信号并合并
→ 1 条信号进入 Layer 2
19:30:05 Layer 2 (2.5s):
→ 事件类型:Fed 政策转向
→ 历史参考:2024 降息周期 → BTC +15%
→ 影响:BTC(强烈利好)、ETH(强烈利好)、
AI 代币(中度利好)
→ 策略:做多 BTC/ETH,关注 AI 板块轮动
19:30:08 → 输出 1 条结构化交易信号3 秒。1 条信号。零噪音。
训练数据飞轮
Layer 1 的准确性取决于其训练数据。这些数据来自 Roma 自身的管道:
30+ 来源每天产生原始信号
↓
Layer 2 LLM 处理高分信号(标注输出)
↓
标注数据反馈回来重新训练 Layer 1
↓
Layer 1 变得更准确 → 更好的过滤 → 更好的 Layer 2 输入这创造了一个数据飞轮:Roma 处理的信号越多,Layer 1 的过滤能力就越强,进而提升到达 Layer 2 的信号质量,而 Layer 2 又产出更好的训练数据给 Layer 1。
竞争对手可以构建相同的双层架构。但如果没有大规模生成领域专用标注数据的管道,他们的 Layer 1 模型准确性将大打折扣。
成本效率
分层方案大幅降低了 LLM API 成本:
| 方案 | 每日 API 调用量 | 预估成本 |
|---|---|---|
| 朴素方案(每条信号 → LLM) | ~10,000 | 高 |
| Roma(分层过滤) | ~500–1,000 | ~降低 10 倍 |
Layer 1 运行在轻量基础设施上。只有真正重要的信号才会消耗昂贵的 LLM 算力。