性能测试
更新时间:2025-01-10
测试数据:107GB 数据集,1,000,000 张图片,平均每张 110KB
测试环境:百度云 bcc.c5.c8m16,CPU 数 8 个,内存 16GB,内网带宽 3Gbps
数据集类型:以 from_prefix 构建 BosIterableDataset 为例
测试结果:
batch_size | num_workers | 数据集类型 | 构建方式 | 结果 | |
---|---|---|---|---|---|
bostorchconnector | 256 | 8 | BosIterableDataset | from_prefix | 2785 img/s |
bosfs | 256 | 8 | BosIterableDataset | from_prefix | 48 img/s |
测试代码:
Bash
1def transform(data):
2 data.read()
3 return data.key
4
5@time_it
6def test_bos():
7 config = BosClientConfig()
8 BOS_URI = "bos://bos-torch/img_1M/"
9
10 dataset = BosIterableDataset.from_prefix(BOS_URI, endpoint="http://su.bcebos.com", transform=transform, bos_client_config=config, enable_sharding=True)
11 dataloader = torch.utils.data.DataLoader(dataset, batch_size=256, num_workers=8)
12 for step, key in enumerate(dataloader):
13 print(key)
14 pass