去中心化在线社交网络(Decentralized Online Social Networks)为研究社交网络用户交互、治理、隐私保护与跨社区内容传播提供了全新的研究对象。然而,服务器分散、接口异构与严格限速使得“一次性抓取全平台快照”成为研究去中心化在线社交网络的一大挑战。复旦大学网络大数据实验室聚焦去中心化在线社交网络大规模数据快速采集问题,设计实现了面向去中心化社交网络的实时数据采集与预处理框架 FediLive。该框架围绕“全量、实时、合规”三大目标,构建了高并发、高容错、易扩展的跨实例爬取与数据预处理框架。通过动态限速、轮询去重、ID 冲突解决及多线程调度等技术,能够在有限计算资源下高效完成超过9000个Mastodon 实例的全平台采集。
目前 FediLive 发布了 1.0.0 版本,对应论文发表于WWW'25会议的resource track。我们针对大规模、周期性数据采集需求,重点强化了以下功能:
欢迎各位研究者与开发者试用并提出宝贵意见!
FediLive 相关网址如下: