← Назад к журналу

newsparsership

News parser v2 — 8 sources, no attribution noise

Новостной стол переписан с нуля. Было — четыре источника и сырые заголовки. Стало — восемь источников с дедупликацией, переписанными заголовками и оценкой импакта.

  • Источники: CoinDesk, The Block, Bloomberg Crypto, Reuters Markets, Decrypt, Axios, Farside, CoinTelegraph
  • Дедупликация: истории кластеризуются по сущности + типу события; слот получает источник с самым ранним таймстампом
  • Переписывание: каждый заголовок приведён к формату «субъект — действие — объект», каждое summary ужато в один абзац
  • В карточке нет ссылки на источник — источник виден только в детальном виде, чтобы лента читалась цельно
  • Ранжирование импакта: high / medium / low, считается из исторической корреляции с движениями цены по похожим событиям

По скорости новый парсер занимает 40% от времени v1, а количество дублей упало на 94%.