经典的大数据问题

关注

来源： 2469 2017-02-23

爱盈利（aiyingli.com）移动互联网最具影响力的盈利指导网站。定位于服务移动互联网创业者，移动盈利指导。我们的目标是让盈利目标清晰可见！降低门槛，让缺乏经验、资金有限的个人和团队获得经验和机会，提高热情，激发产品。

经典的大数据问题

文 | CTTCassie

随着信息的高速发展，越来越多的数据信息等待处理，如何快速的从这些海量数据中找到你所需要的数据呢?这就是大数据的处理问题，下面我对几个经典的大数据问题进行分析~~~~

一. 设计算法找到每日访问百度出现次数最多的IP地址?

分析：将所有的IP逐个写入到一个大文件中，因为当IP地址采用点分十进制的方式表示的时候是32位的，所以最多存在2^32个IP。可以采用映射的方式，比如模1000，将这个较大的文件映射为1000个小文件，再将每个小文件加载到内存中找到每个小文件中出现频率最大的IP(可以使用hash_map的思想进行频率统计);然后在这1000个最大的IP中找出那个出现频率最大的IP，就是出现次数最多的IP了。

算法思想如下：(分而治之+hash)

1).IP地址最多有2^32=4G个，所以不能直接将所有的IP地址加载到内存中

2).可以考虑采用”分而治之”的思想，就是将IP地址Hash(IP)%1024值，将海量IP分别存储到1024个小文件中，这样每个小文件最多包含(2^32)/(2^10)=4M个IP地址

3).对于每一个小文件，可以构建一个IP值为key,出现次数为vaue的hash_map，通过value的比较找到每个文件中出现次数最多的那个IP地址

4).经过上述步骤已经得到1024个出现次数最多的IP地址，再选择一定的排序算法找出这1024个IP中出现次数最多的那个IP地址

二.给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件的交集?

分析：我们知道对于整形数据来说，不管是有符号的还是无符号的，总共有2^32=4G个数据(100亿个数据中肯定存在重复的数据)，我们可以采用位图的方式来解决，假如我们用一个位来代表一个整形数据，那仫4G个数共占512M内存。我们的做法是将第一个文件里的数据映射到位图中，再拿第二个文件中的数据和第一个文件中的数据做对比，有相同的数据就是存在交集(重复的数据，交集中只会出现一次).

经典的大数据问题

三.假定一个文件有100亿个整形数据，1G内存，如何找到出现次数不超过两次的数字?

分析：要解决这个问题同样需要用到位图的思想，在问题二中已经了解到采用位图的一个位可以判断数据是否存在，那仫找到出现次数不超过两次的数字使用一个位是无法解决的，在这里可以考虑采用两个位的位图来解决.

根据上述分析我们可以借助两个位，来表示数字的存在状态和存在次数，比如：00表示不存在，01表示存在一次，10表示存在两次，11表示存在超过两次;类似问题二的计算过程：如果一个数字占一位，需要512M内存即可，但是如果一个数字占两位，则需要(2^32)/(2^2)=2^30=1G内存;将所有数据映射到位图中查找不是11的所对应的数字就解决上述问题了。

题目扩展：其他条件不变，假如只给定512M内存该如何找到出现次数不超过两次的数字?

分析：将数据分批处理，假若给定的是有符号数，则先解决正数，再解决负数，此时512M正好解决上述问题.

四.给两个文件，分别有100亿个query，我们只有1G内存，如何找到两文件交集?分别给出精确算法和近似算法!

分析：看到字符串首先应该反应过来的就是布隆过滤器，而问题四的近似算法就是采用布隆过滤器的方法，之所以说布隆过滤器是近似的算法，因为它存在一定的误判(不存在是肯定的，存在是不肯定的);而要想精确判断字符串文件的交集，我们可以采用分而治之的方法：将大文件切分为一个一个的小文件，将一个又一个的小文件拿到内存中做对比，找到对应的交集。

1.布隆过滤器的近似解决办法：

根据不同的字符串哈希算法，可以计算出不同的key值，然后进行映射，此时可以映射到不同的位置，只有当这几个位全部为1的时候这个字符串才有可能存在(因为当字符串过多的时候可能映射出相同的位)，只有一个位为0，那仫该串一定是不存在的，所以说布隆过滤器是一种近似的解决办法。将第一个文件映射到布隆过滤器中，然后拿第二个文件中的每个串进行对比(计算出特定串的key，通过不同的哈希算法映射出不同的位，如果全为1则认为该串是两个文件的交集;如果有一位为0那仫该串一定不是交集).

2.哈希切分的精确解决办法：

既然叫做切分，顾名思义就是将大文件切分为小文件，那仫如何切分?切分的依据是什仫呢?如果我们在切分的时候可以将相似或者相同的文件切分到同一个文件中那仫是不是就加快了查找交集的速度呢?答案是肯定的。

知道了哈希切分的依据我们应该如何处理呢?我们可以根据字符串的某个哈希算法得到该字符串的key，然后将key模要分割的文件数(假设为1000个文件，文件编号为0~999)，我们将结果相同的字符串放到同一个文件中(两个文件中的字符串通过相同的哈希算法就会被分到下标相同的文件中)，此时我们只需要将下标相同的文件进行比对就可以了。。。

哈希切分明显比布隆过滤器的方法效率要高，时间复杂度为O(N).

具有删除功能的BloomFilter：

经典的大数据问题

在上面实现的布隆过滤器中引用了不同的哈希算法，有想研究哈希算法的的童鞋可参考各种字符串Hash函数>>>

36大数据(www.36dsj.com)成立于2013年5月，是中国访问量最大的大数据网站。36大数据(微信号:dashuju36)以独立第三方的角度，为大数据产业生态图谱上的需求商、应用商、服务商、技术解决商等相关公司及从业人员提供全球资讯、商机、案例、技术教程、项目对接、创业投资及专访报道等服务。

End.

转载请注明来自36大数据（36dsj.com)：36大数据 » 经典的大数据问题

爱盈利-运营小咖秀始终坚持研究分享移动互联网App数据运营推广经验、策略、全案、渠道等纯干货知识内容；是广大App运营从业者的知识启蒙、成长指导、进阶学习的集聚平台；

数据运营丨网信办等三部门约谈“美拍”：暂停算法推荐直播频道停更15天

导语：“美拍”网络直播短视频平台传播涉未成年人低俗不良信息，破坏网络生态。6月4日报道，“美拍”网络直播短视频平台传播涉未成年人低俗不良信息，破坏网络生态，国家网信办于6月1日会同广电总局、文化和旅游部、属地网信办依法依规联合约谈“美拍”相关负责人，....

数据运营丨你知道吗？风靡海外的短视频APP竟有一半来自中国

刚刚过去的2017年，短视频行业可以说达到了鼎盛时期，随着抖音、快手等短视频的崛起，国内短视频市场的争夺和厮杀就从未停止，不过目前国内市场已经趋于饱和，不少投资者转而将目光投向海外市场，希望能在海外复制短视频爆红的奇迹开拓新的赚钱领域。而开辟海外市场....

手机里都有哪些App 在默默薅你的羊毛

导语：前不久，同事曾吐槽说，iPad下载了个游戏，竟然每周都要被扣费68元，而下载的时候却并没有显示这款游戏的售价是多少，找客服反馈后，才发现了其中的玄机。随后，笔者就在手机的AppStore里查看了一下这款游戏，果不其然被“坑”了一把。前不久，同事....

数据运营丨苹果将跳过7s直接发布OLED屏幕iPhone 8

导语：iPhone8和iPhone8Plus也将同时配备双摄像头，而这就意味着无论是4.7英寸还是5.5英寸的版本在拍照质量上将达到相同的水准，而不像之前还有一些差异。目前，大部分的报告都指向了苹果将在今年9月推出三个版本新iPhone的说法。没错，....

裁员背后，Keep过冬：健身生意最本质需求是什么？

导语：不久前，狂奔的Keep因裁员百人一时之间成为大家关注的焦点。keep官方回应是正常的人员优化。但实际上，这次裁员对Keep来说可能并不正常。“今天又是没有打开Keep的一天。”这是一部分Keep用户的真实感受。现代年轻人手机里，可能都安装一个运....

微信扫码登录

绑定手机号

注册

忘记密码

绑定手机号

经典的大数据问题

一. 设计算法找到每日访问百度出现次数最多的IP地址?

二.给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件的交集?

三.假定一个文件有100亿个整形数据，1G内存，如何找到出现次数不超过两次的数字?

四.给两个文件，分别有100亿个query，我们只有1G内存，如何找到两文件交集?分别给出精确算法和近似算法!

评论

相关文章推荐

数据运营丨网信办等三部门约谈“美拍”：暂停算法推荐直播频道停更15天

数据运营丨你知道吗？风靡海外的短视频APP竟有一半来自中国

想组建自己的数据科学团队?CEO们请先回答这几个问题

JeremyStanley是日用杂货当日送达初创企业Instacart主管数据科学的副总裁，DanielTunkelang是前LinkedIn的数据主管。作为在数据科学领域身经百战的老将，他们在这篇文章中为那些想打造一支属于自己的数据科学团队的公司C....

手机里都有哪些App 在默默薅你的羊毛

数据运营丨苹果将跳过7s直接发布OLED屏幕iPhone 8

裁员背后，Keep过冬：健身生意最本质需求是什么？

友情链接

微信扫码登录

绑定手机号

注册

忘记密码

绑定手机号

一. 设计算法找到每日访问百度出现次数最多的IP地址?

二.给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件的交集?

三.假定一个文件有100亿个整形数据，1G内存，如何找到出现次数不超过两次的数字?

四.给两个文件，分别有100亿个query，我们只有1G内存，如何找到两文件交集?分别给出精确算法和近似算法!

评论

相关文章推荐

数据运营丨网信办等三部门约谈“美拍”：暂停算法推荐 直播频道停更15天

数据运营丨你知道吗？风靡海外的短视频APP竟有一半来自中国

想组建自己的数据科学团队?CEO们请先回答这几个问题

JeremyStanley是日用杂货当日送达初创企业Instacart主管数据科学的副总裁，DanielTunkelang是前LinkedIn的数据主管。作为在数据科学领域身经百战的老将，他们在这篇文章中为那些想打造一支属于自己的数据科学团队的公司C....

手机里都有哪些App 在默默薅你的羊毛

数据运营丨苹果将跳过7s直接发布OLED屏幕iPhone 8

裁员背后，Keep过冬：健身生意最本质需求是什么？

友情链接

数据运营丨网信办等三部门约谈“美拍”：暂停算法推荐直播频道停更15天