圈里圈外 | 生活不只是眼前的苟且

HBase–调优篇

优化对于HBase是必不可少的，庞大的数据集可能因为某个简单的改动让HBase集群的性能提升数倍。 1. 表的设计 1.1 提前创建多个Region 默认情况下，在创建HBase表的时候会自动创建一个Region分区，当导入数据的时候...

2016年07月08日阅读 2,157 次发表评论

引言：Hbase的查询不能像sql语句那样灵活，对于多数的复杂查询都要借助“过滤器”。HBase过滤器的类型很多，但是可以分为两大类——比较过滤器，专用过滤器。过滤器的作用是在服务端判断数据是否满足条件，然后只将满足条件的数据返回给客户端。 &n...

2016年07月06日阅读 2,388 次发表评论

HBase为用户提供了一个Shell终端进行交互操作，通过“help get”命令可以获得帮助信息。【查询相关】 1. 进入hbase shell console $HBASE_HOME/bin/hbase shell 2. 查看...

2016年07月06日阅读 1,183 次发表评论

【常用到的几个类】 1. org.apache.hadoop.hbase.HBaseConfiguration 每一个hbase client都会使用到的对象，它代表的是HBase配置信息。它有两种构造方式： public HBaseConfiguration...

2016年07月06日阅读 3,386 次发表评论

HBase作为HDFS之上的分布式数据库，其本身并不负责数据存储，而是以二进制文件的形式将数据保存在HDFS上，了解HBase的架构及工作原理，有助于在实际应用中更好的设计表及存储结构，并且可以通过优化集群提高系统性能。 1. HBase系统架构图 ...

2016年07月07日阅读 1,709 次发表评论

关于Hbase的基础介绍网上已经一大堆了，随便一搜即可知道它的一些描述“列存储”、“BigTable”之类的，在这里直接总结一些基本特性。 1. 基本特性 (1) Hbase基于HDFS（故Hbase和DFS有关，和Yarn无关，如果单纯的操作Hbase，只启...

2016年07月06日阅读 1,175 次发表评论

了解Yarn的架构之前，先说说为什么会出现Yarn。在Hadoop v1版本中，存在最大的问题就是资源管理和任务管理耦合在一起，且整个集群的扩展性、可靠性(JobTracker的单节点故障问题)很差，以及最重要的一个问题，集群资源的...

2015年05月15日阅读 1,674 次 2

Levels of Abstraction “流”并不是一个新的概念，视频流、音频流很多场景都用到了这个概念，这里主要理解“流式计算”和“批次计算”的区别，流式没有边界的，实时性更强，但相应对于failover等机制，流式计算更难控制，在诸多流式计算框架中Fl...

2018年08月02日阅读 4,091 次发表评论