25、算法与数据结构 - 实战:资源限制类题目

资源限制技巧汇总

1、 布隆过滤器用于集合的建立与查询,并可以节省大量空间;
2、 一致性哈希解决数据服务器负载管理问题;
3、 利用并查集结构做岛问题的并行计算;
4、 哈希函数可以把数据按照种类均匀分流;
5、 位图解决某一范围上数字的出现情况,并可以节省大量空间;
6、 利用分段统计思想,并进一步节省大量空间;
7、 利用堆、外排序来做多个处理单元的结果合并;

题目一

32位无符号整数的范围是0~4294967295,现在有一个正好包含40亿个无符号整数的文件,可以使用最多1GB的内存,怎么找到出现次数最多的数?
排序?不行,内存只有1G,无法在内存排序
1、 假设1G内存,使用hash表最多只能装下1千万条记录,那么40亿除以1千万,等于400,准备400个文件;
2、 然后每一个数,通过hash函数,算出一个hash值,模400,得到一个文件编号,该数发送到对应文件;
3、 此时同一个数字,只会进入一个文件,文件里面存的是该数字出现的次数;
4、 这样就搞成了400个文件,此时每次加载一个文件,遍历文件的每条记录,抓出出现次数最多的;
5、 最后这400个出现次数最多的数PK一下,得出整体出现次数最多的数;
6、 如果发现一个文件大小过大,在内存还是装不下,那么文件就搞500个、600个…;

如果题目要求返回出现次数最多的所有数,那么就拿着这个次数,到每个文件中再找一遍,看有没有出现这么多次的数,有的话就全部抓出来,返回。

题目二

32位无符号整数的范围是0~4294967295,
现在有一个正好包含40亿个无符号整数的文件,
所以在整个范围中必然存在没出现过的数。
可以使用最多1GB的内存,怎么找到所有没有出现过的数?
set去重统计?不行,内存会爆掉。
使用位图,8个bit才一个字节,那么就准备4294967295bit长度的位图进行统计。
如果实现bit数组?使用基础类型拼,长度为10的int数组,等于320bit长度的bit数组,第i个bit就是arr[i / 32]这个数的第i%32位
那么这一位代表的数是否存在,就这样计算:
intstatus = arr[i / 32] & (1 << (i%32)) != 0 ? 1 : 0;
如果status是1,那么就是存在,0就是不存在。

【进阶】
内存限制3KB,但是只用找到一个没出现过的数即可。
3KB大约能存下750个整形,那么准备一个离750最近的2的某次方,得到512,那么申请512长度的数组
此时可以把0~4294967295均分为512份(512个文件),每一份负责负责的范围的长度是8388608
这样,肯定在每个范围上存储数不满8388608的情况,找到这个不满的范围,再分512份,再找不满的小范围,再分512份…,几次过后就能找到没出现过的1个数。

【进阶】
内存中只能申请有限几个变量,但是只用找到一个没出现过的数即可。
申请两个变量L和R,对0~4294967295进行二分(两个文件)
统计两边出现的数的个数
其中有一边肯定不满,再对不满的一边进行二分,还是用两个变量L、R统计两边范围出现的数的个数
如此不断二分,最终会找到没出现过的1个数

题目三

有一个包含100亿个URL的大文件,假设每个URL占用64B,
请找出其中所有重复的URL
如果允许失误率,使用布隆过滤器
如果不允许,使用hash分流,分到不同小文件,看小文件是否有重复的。

【补充】
某搜索公司一天的用户搜索词汇是海量的(百亿数据量),
请设计一种求出每天人们Top100词汇的可行办法。

题目四

32位无符号整数的范围是0~4294967295,
现在有40亿个无符号整数,
可以使用最多1GB内存,
找出所有出现了两次的数。

用两个bit位表示一个数出现的次数,比如拿0bit位和1bit位表示0这个数出现的次数,00表示出现0次,01表示出现1次,10,表示出现两次,11表示出现3次或以上。
这样1个byte表示4个数。
但是4294967295除以4,超过了1G,那就继续用上面分段统计的办法。
也就是:位图 + 分段统计,先统计前面一半(0~2^31)出现两次的数,在统计后面一半的

题目五

32位无符号整数的范围是0~4294967295,
现在有40亿个无符号整数
可以使用最多3KB的内存,怎么找到这40亿个整数的中位数?

bfprt?不行,内存会爆掉。

3KB大约能存下750个整形,那么准备一个离750最近的2的某次方,得到512,那么申请512长度的数组arr。
此时可以把0~4294967295均分为512份(512个文件),每一份负责负责的范围的长度是8388608。
数组arr中每一个数统计自己范围内出现的数的个数。
中位数是第20亿个数,那么看数组arr累加到大于等于20亿,是数组arr中的第几个数。
假设arr[129]冲到了20亿,那么中位数一定在第129号文件。
然后以相同的方法,对129号文件分512份,数组arr统计每一份中出现的数的个数…循环往复,最终找到中位数。

题目六

32位无符号整数的范围是0~4294967295,
有一个10G大小的文件,每一行都装着这种类型的数字,
整个文件是无序的,给你5G的空间,
请你输出一个10G大小的文件,就是原文件所有数字排序的结果。

现在不看5G内存,假设内存严重不足,只能存几条记录
那么准备一个堆,大根堆,只存3条记录,存的是数字和出现的次数
申请1个10G的文件,用于存放结果

遍历文件,在堆中记录数字以及该数出现的次数:
假设遍历到3,记录 3 => 1,表示3出现1次
再遍历到3,记录 3 => 2,表示3出现2次
遍历到9,记录 9 => 1
遍历到7,记录 7 => 1
遍历到8,堆满了,弹出 9 => 1,记录8 => 1
遍历到6,堆满了,弹出 8 => 1,记录6 => 1
… 文件遍历完了,堆中就记录了整个文件中前3小的数,出现的次数
假设是 1=> 1000
3=> 2000
5=> 1000
然后在10G的文件中,数字1写1000次,数字3写2000次,数字5写1000次

然后用1个变量记录5,表示上一次遍历到的最大的数
再搞一遍这个遍历,在堆中记录数字以及该数出现的次数,但是小于等于5的数字不再记录
… 这样一直搞,直至所有的数都统计完(某一次循环,堆没放满),10G排序号的文件返回。

题目七

一个大文件,返回里面出现的数的前100名。
解法:分成不同的小文件,通过hash分流把数字分发到不同文件,每个文件统计Top100,然后在内存做归并排序。