HBase技术简介

发表于 2015-07-24 | 分类于大数据-HBase |

一、HBase简介

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

HBase是Google BigTable的开源实现，类似Google BigTable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用 Chubby作为协同服务，HBase利用Zookeeper作为对应。

阅读全文 »

Hadoop+HBase+ZooKeeper分布式集群环境搭建

发表于 2015-07-20 | 分类于大数据-Hadoop |

一、环境说明

集群环境至少需要3个节点（也就是3台服务器设备）：1个Master，2个Slave，节点之间局域网连接，可以相互ping通，下面举例说明，配置节点IP分配如下：

Hostname	IP	User	Password
master	192.168.59.133	hadoop	123456
slave1	192.168.59.134	hadoop	123456
slave2	192.168.59.135	hadoop	123456

阅读全文 »

HBase单机环境搭建

发表于 2015-07-20 | 分类于大数据-HBase |

在搭建HBase单机环境之前，首先你要保证你已经搭建好Java环境：

1	$ java -version java version "1.8.0_51" Java(TM) SE Runtime Environment (build 1.8.0_51-b16) Java HotSpot(TM) 64-Bit Server VM (build 25.51-b03, mixed mode)

JAVA_HOME路径：

1	$ echo $JAVA_HOME /usr/java/jdk1.8.0_51

阅读全文 »

2015实习生求职季总结

发表于 2015-05-23 | 分类于非技术-杂谈 |

一、实习季Timeline

从2015年4月开始找实习，前后历时两个月，参加了很多的笔试/面试。这是一个焦虑又美好的学期，我在这段时间里学到了很多东西。

阅读全文 »

求最长回文子串

发表于 2015-05-12 | 分类于 Basic-算法与数据结构 |

回文串，就是指正读和反读都一样的字符串，比如"level"或者"noon"等等。

那么，如何求一个字符串的最长回文子串（Longest Palindromic Substring）？这里我们有多种解法。

解法一：暴力法

暴力解法就是直接枚举所有子串，对每个子串判断是否为回文，时间复杂度为$O(n^3)$。

这是最糟糕的方法，相信面试官问你这个问题，绝对不是想要这个答案。

阅读全文 »

设计并实现一个LRU Cache

发表于 2015-05-10 | 分类于 Basic-算法与数据结构 |

一、什么是Cache

1 概念

Cache，即高速缓存，是介于CPU和内存之间的高速小容量存储器。在金字塔式存储体系中它位于自顶向下的第二层，仅次于CPU寄存器。其容量远小于内存，但速度却可以接近CPU的频率。

当CPU发出内存访问请求时，会先查看 Cache 内是否有请求数据。

如果存在（命中），则直接返回该数据；
如果不存在（失效），再去访问内存 —— 先把内存中的相应数据载入缓存，再将其返回处理器。

提供“高速缓存”的目的是让数据访问的速度适应CPU的处理速度，通过减少访问内存的次数来提高数据存取的速度。

阅读全文 »

Trie树|前缀树的介绍与实现

发表于 2015-05-09 | 分类于 Basic-算法与数据结构 |

本文尝试用尽量简洁的语言介绍一种树形数据结构 —— Trie树。

一、什么是Trie树

Trie树，又叫字典树、前缀树（Prefix Tree）、单词查找树 或键树，是一种多叉树结构。如下图：

阅读全文 »

拓扑排序（Topological Sorting）

发表于 2015-05-07 | 分类于 Basic-算法与数据结构 |

一、什么是拓扑排序

在图论中，拓扑排序（Topological Sorting）是一个有向无环图（DAG, Directed Acyclic Graph）的所有顶点的线性序列。且该序列必须满足下面两个条件：

每个顶点出现且只出现一次。
若存在一条从顶点 A 到顶点 B 的路径，那么在序列中顶点 A 出现在顶点 B 的前面。

有向无环图（DAG）才有拓扑排序，非DAG图没有拓扑排序一说。

阅读全文 »

理解公钥与私钥

发表于 2015-05-03 | 分类于 Basic-信息安全 |

一直都对公钥和私钥的概念不清不楚，以至于在腾讯面试被问到“如何在一个不安全的环境中实现安全的数据通信？”时，并没有答上来。今天查阅了一些资料，决定写一篇总结文章来加深自己的理解。

一、公钥算法与私钥算法

1、私钥算法

私钥加密算法，又称 对称加密算法，因为这种算法解密密钥和加密密钥是相同的。也正因为同一密钥既用于加密又用于解密，所以这个密钥是不能公开的。常见的有《DES加密算法》、《AES加密算法》。

阅读全文 »

字节序：Big Endian 和 Little Endian

发表于 2015-05-02 | 分类于 System-Linux |

一、字节序

字节序，也就是字节的顺序，指的是多字节的数据在内存中的存放顺序。

在几乎所有的机器上，多字节对象都被存储为连续的字节序列。例如：如果C/C++中的一个int型变量 a 的起始地址是&a = 0x100，那么 a 的四个字节将被存储在存储器的0x100, 0x101, 0x102, 0x103位置。

根据整数 a 在连续的 4 byte 内存中的存储顺序，字节序被分为大端序（Big Endian） 与 小端序（Little Endian）两类。然后就牵涉出两大CPU派系：

阅读全文 »