维基媒体基金会：为 AI 训练数据集抓取资源的网络爬虫带来运营费用压力

2025-06-24 12:49:56 来源：新华社

字号：默认大超大 | 打印 |

IT之家 4 月 3 日消息，维基百科运营商维基媒体基金会在当地时间 4 月 1 日本的一篇博文说，为了 AI 培训数据集抓取资源的网络爬虫给这个非营利组织带来了运营费用的压力。

维基共享资源是维基百科的姐妹项目(IT之家注:Wiki Commons）存储大量的可用性 AI 模型训练的多媒体数据集。根据统计数据，自 2024 年 1 自1月份以来，从维基共享资源下载多媒体内容的带宽增长了 50%的变化趋势主要是由自动化程序而不是人类操作引起的。

维基媒体基金会有能力应对紧急情况导致的人类用户流量激增，但 AI 随着时代自动爬虫活动的日益频繁，该组织现有的冗余不断被侵蚀，基金会利用大量的时间和资源来响应非真人流量。

维基媒体基金会的数据存储模式是，低频内容只存储在核心数据中心，而高频请求的数据将在更相邻的数据中心备份。

自动爬虫的“遍历式”查询模式意味着它有更多的流量发送到核心数据中心，这带来了更高的流量成本。据维基媒体基金会统计，机器人使用 35% 消耗了整体浏览量 65% 核心数据中心流量资源。

此外，自动爬虫甚至访问了维基媒体基金会开发的关键环境系统（如代码审查平台和错误跟踪器） URL。

维基媒体基金会表示，虽然该组织是非营利性的，每个项目的内容都是免费的，但其基础设施不是免费的。应建立负责任、可持续的基础设施使用规范，不得重演“公地悲剧”。

。

【我要纠错】责任编辑：新华社