性能测试
更新时间:2025-01-10
测试数据:107GB 数据集,1,000,000 张图片,平均每张 110KB
测试环境:百度云 bcc.c5.c8m16,CPU 数 8 个,内存 16GB,内网带宽 3Gbps
数据集类型:以 from_prefix 构建 BosIterableDataset 为例
测试结果:
| batch_size | num_workers | 数据集类型 | 构建方式 | 结果 | |
|---|---|---|---|---|---|
| bostorchconnector | 256 | 8 | BosIterableDataset | from_prefix | 2785 img/s | 
| bosfs | 256 | 8 | BosIterableDataset | from_prefix | 48 img/s | 
测试代码:
                Bash
                
            
            1def transform(data):
2    data.read()
3    return data.key
4    
5@time_it
6def test_bos():
7    config = BosClientConfig()
8    BOS_URI = "bos://bos-torch/img_1M/"
9    
10    dataset = BosIterableDataset.from_prefix(BOS_URI, endpoint="http://su.bcebos.com", transform=transform, bos_client_config=config, enable_sharding=True)
11    dataloader = torch.utils.data.DataLoader(dataset, batch_size=256, num_workers=8)
12    for step, key in enumerate(dataloader): 
13        print(key)
14        pass
            