实时 Inference Engine

速度问题

当今市面上的每一个 AI 交易工具都在做同一件事：将原始信息发送给 LLM API 并等待响应。每次调用需要 1–5 秒。当重大事件爆发，48 条相关信号同时涌入时，管道就会堵塞。

等 AI 处理完毕时，市场早已完成变动。

Roma 不这样做。 我们构建了一个分层推理系统，其中 90% 的信号永远不会触及大语言模型。

双层架构

Layer 1 — 轻量领域模型

一个专门训练的模型，从大语言模型中蒸馏并在加密货币专用数据上微调。它在 100 毫秒内完成三项任务：

任务	输出
实体识别	提及了哪些代币/项目
情绪分类	看涨 / 看跌 / 中性
重要性评分	0–100 重要性评级

90% 的传入信号在此层即完成全部处理。重复信号被检测并合并，低重要性的噪音被过滤掉。

只有评分超过可配置阈值的信号才会进入 Layer 2。

Layer 2 — 深度 LLM 推理

对于少量高重要性信号，完整的 LLM 在 2–3 秒内进行深度分析：

任务	输出
事件归因	这是什么类型的事件？
影响分析	哪些资产受到影响，影响如何？
历史对比	上次发生类似事件时结果如何？
策略建议	什么样的交易有意义？

示例：鲍威尔讲话

19:30，美联储主席开始发言。几秒钟内，48 条相关信号涌入 Roma 的管道。

没有 Roma（典型 AI 工具）：

48 条信号 × 每次 API 调用 1-5 秒 = 总共 48-240 秒
结果：48 条重复提醒，高成本，巨大延迟

使用 Roma：

19:30:05  48 条信号到达

          Layer 1 (80ms)：
          → 实体：BTC, ETH, USD, Treasury
          → 情绪：强烈看涨
          → 重要性：92/100
          → 检测到 47 条重复信号并合并
          → 1 条信号进入 Layer 2

19:30:05  Layer 2 (2.5s)：
          → 事件类型：Fed 政策转向
          → 历史参考：2024 降息周期 → BTC +15%
          → 影响：BTC（强烈利好）、ETH（强烈利好）、
                  AI 代币（中度利好）
          → 策略：做多 BTC/ETH，关注 AI 板块轮动

19:30:08  → 输出 1 条结构化交易信号

3 秒。1 条信号。零噪音。

训练数据飞轮

Layer 1 的准确性取决于其训练数据。这些数据来自 Roma 自身的管道：

30+ 来源每天产生原始信号
    ↓
Layer 2 LLM 处理高分信号（标注输出）
    ↓
标注数据反馈回来重新训练 Layer 1
    ↓
Layer 1 变得更准确 → 更好的过滤 → 更好的 Layer 2 输入

这创造了一个数据飞轮：Roma 处理的信号越多，Layer 1 的过滤能力就越强，进而提升到达 Layer 2 的信号质量，而 Layer 2 又产出更好的训练数据给 Layer 1。

竞争对手可以构建相同的双层架构。但如果没有大规模生成领域专用标注数据的管道，他们的 Layer 1 模型准确性将大打折扣。

成本效率

分层方案大幅降低了 LLM API 成本：

方案	每日 API 调用量	预估成本
朴素方案（每条信号 → LLM）	~10,000	高
Roma（分层过滤）	~500–1,000	~降低 10 倍

Layer 1 运行在轻量基础设施上。只有真正重要的信号才会消耗昂贵的 LLM 算力。

实时 Inference Engine ​

速度问题 ​

双层架构 ​

Layer 1 — 轻量领域模型 ​

Layer 2 — 深度 LLM 推理 ​

示例：鲍威尔讲话 ​

训练数据飞轮 ​

成本效率 ​