请问为什么S3上数据体量一直在不断增加。 #38467
Answered
by
yhmo
xiaobingxia-at
asked this question in
Q&A and General discussion
请问为什么S3上数据体量一直在不断增加。
#38467
-
我开了一个milvus cluster (2.4.17), 建了一个collection,这个collection只有一个partition。然后总共存入了70m个1536-d vector,用的是diskann。然后S3上的数据量不断变大,从最开始的900GB,一天之内涨到了2.8TB。garbage collection设定的是半小时一次,超过1个小时没有被注册的数据会被清除,然后clustering compaction是4小时一次。 请问如何防止S3数据一直增大。 另外,我删除并重建cluster后,disk上的diskann数据瞬间变少了,有700GB变成了30GB,然后查询搜索还能继续进行。能否解释一下这是为啥,谢谢。 |
Beta Was this translation helpful? Give feedback.
Answered by
yhmo
Dec 16, 2024
Replies: 2 comments 3 replies
-
Beta Was this translation helpful? Give feedback.
3 replies
Answer selected by
xiaobingxia-at
-
正常数据,需要几天才会和被清理,有gc的独立配置,默认会保留几天 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
segment数量多,并且比较碎的话,compaction和index任务会持续很久。对于Dsik index,会把segment合并到2GB左右大小,所以segment数量多的时候,它会合并比较多次。70m 1538维数据量是420GB,diskann索引占磁盘空间比原始数据量更大,加起来就可能超过1TB。如果compaction任务还没彻底结束,那么磁盘用量又会在1TB的基础上增加很多。另外,minio可能本身也有多副本。
安装milvus监控,观察内部行为的变化:
主要是观察dataCoord/dataNode/indexNode这些指标,就能知道为何它要吃磁盘
有700GB变成了30GB,然后查询搜索 ---------------- 这个不符合常理,不符合常理的现象无法解释,我倾向于是观察错了