大数据处理

海量数据处理方法

  • 1、分治hash,hash的作用数据数据分治,分隔成许多小数据量在进行处理;
  • 2、bitmap,bitmap用于标记已经存在的数据,和hash组合使用时注意hash冲突的情况避免误判;
  • 3、trie树(字典树,前缀树),在每个数据长度有限情况下,可精确统计每个数据的数量
  • 4、hashmap,可以建立数据与某个值(如:次数)的映射关系,需要考虑空间大小
  • 5、大顶堆,小顶堆,可以解决topN的问题