airyv的博客

We are in the gutter, but some of us are looking at stars.

理解Hive Map join

在Map阶段进行表之间的连接。而不需要进入 Reduce 阶段才进行连接。这样就节省了在Shuffle阶段时要进行的大量数据传输。从而起到了优化作业的作用。即在map端进行join，其原理是 b...

airyv

2022 年 03 月 03 日

暂无评论

Hive中数据倾斜原因及处理

1数据倾斜的表现（数据分配不均匀）任务进度长时间维持在99％（或100％），看任务监控页面，发现只有少量（1个或几个） reduce子任务未完成。因为其处的数据量和其他 reduce差异过大。单...

airyv

2022 年 03 月 02 日

暂无评论

Hive内部表和外部表的区别

主要体现在load与drop（是否同时删除元数据与数据）的操作上：创建表：Hive创建内部表时，会将数据移动到数据仓库指向的路径，hive管理数据的生命周期；Hive创建外部表时，仅记录数据所在...

airyv

2022 年 03 月 01 日

暂无评论

MapReduce的shuffle机制

shuffle过程shuffle过程（简单理解）：从map的输出到reduce的输入之间的过程。概念：Map是映射，负责数据的过滤分法，将原始数据转化为键值对；Reduce是合并，将具有相同的k...

airyv

2022 年 02 月 28 日

暂无评论

MapReduce1和MapReduce2（YARN）工作机制

MapReduce1工作机制：工作角色：客户端、jobtracker（协调作业）、tasktracker（执行任务）。提交资源：客户端启动一个job。客户端向jobtracker请求一个新作业，...

airyv

2022 年 02 月 16 日

暂无评论

在HDFS写入数据，写某一副本出错时HDFS的处理流程

首先会关闭管线pipeline。将已经发送到管道中但是没有收到确认的数据包重新写回数据队列，这样无论哪个节点发生故障，都不会发生数据丢失。这个过程是在确认队列中将未收到确认的数据包删除，写回到数...

airyv

2022 年 01 月 13 日

暂无评论

NameNode中的高可用（HA）的实现

Namenode的HA主要包括：主备切换、共享日志储存。（可以拓展Zookeeper的选举算法，比如利用了强一致性）1、在集群中，存在多个 namenode，这些 namenode处于 acti...

airyv

2022 年 01 月 13 日

暂无评论

联邦HDFS的概念及原理，HDFS的1.x和2.x架构的区别

hadoop1.x的hdfs架构主要由namespace（命名空间）和Block Storage（块的存储）两层组成局限性：namespace和block manager高度耦合，其他服务难以单...

airyv

2022 年 01 月 01 日

暂无评论

检查点机制，Fsimage与Editlog的合并过程理解

fsimage文件：即命名空间映像文件，是内存中的元数据在硬盘上的checkpoint，包含文件系统中的所有目录和文件inode的序列化信息。editlog：文件系统的写操作首先把它记录在edi...

airyv

2021 年 12 月 15 日

暂无评论

HDFS客户端进行文件的读取与写入操作过程

HDFS客户端读流程：初始化FileSystem，然后客户端用DistributedFileSystem的open方法打开文件。FileSystem用RPC调用元数据节点，采用getBlockL...

airyv

2021 年 12 月 01 日

暂无评论

Centos7安装FASTDFS整合宝塔Nginx，配合nginx-fastdfs插件，实现文件上传

安装fastdfs需要的环境首先安装gccyum -y install gcc-c++然后安装libevent库yum -y install libvent安装libfastcommonlibf...

airyv

2021 年 11 月 30 日

暂无评论

FASTDFS启动storage服务卡死，没反应，日志报错连接超时解决方法

FASTDFS启动tracker时没问题，安装storage服务时一直没反应，打开日志，错误信息如下：ERROR - file: storage_ip_changed_dealer.c, lin...

airyv

2021 年 11 月 18 日

暂无评论

unet神经网络报错`Model.predict_generator` is deprecated and will be removed in a future version

解决方法：results = model.predict_generator(testGene,30,verbose=1)改为results = model.predict(testGene,3...

airyv

2021 年 10 月 21 日

暂无评论

unet神经网络报错‘Keyword argument not understood:‘,‘input‘解决方法

model.py中的model = Model(input = inputs, output = conv10)修改为model = Model(inputs = inputs, outputs...

airyv

2021 年 09 月 15 日

暂无评论

报错Could not load dynamic library ‘cudart64_110.dll‘； dlerror: cudart64_110.dll not found解决方法

最简单的修复方法是安装最新的' NVIDIA GPU Computing Toolkit'，因为如果缺失文件，就会报错丢失'cudart64_100.dll'库。唯一的问题是，CUDA的最新版本...

airyv

2021 年 08 月 11 日

暂无评论

airyv的博客

理解Hive Map join

Hive中数据倾斜原因及处理

Hive内部表和外部表的区别

MapReduce的shuffle机制

MapReduce1和MapReduce2（YARN）工作机制

在HDFS写入数据，写某一副本出错时HDFS的处理流程

NameNode中的高可用（HA）的实现

联邦HDFS的概念及原理，HDFS的1.x和2.x架构的区别

检查点机制，Fsimage与Editlog的合并过程理解

HDFS客户端进行文件的读取与写入操作过程

Centos7安装FASTDFS整合宝塔Nginx，配合nginx-fastdfs插件，实现文件上传

FASTDFS启动storage服务卡死，没反应，日志报错连接超时解决方法

unet神经网络报错`Model.predict_generator` is deprecated and will be removed in a future version

unet神经网络报错‘Keyword argument not understood:‘,‘input‘解决方法

报错Could not load dynamic library ‘cudart64_110.dll‘； dlerror: cudart64_110.dll not found解决方法

Vim安装gruvbox配色教程，切换黑暗模式

UCB CS 61A: Homework 02: Higher-Order Functions

Typora打造最适合编程笔记的精美主题（浅色版和修改后的深色版），可自行修改喜欢的样式。

UCB CS 61A: Lab 01: Variables & Functions, Control

【短文】流年轻误兮，我士何从

【短文】流年轻误兮，我士何从

UCB CS 61A: Homework 02: Higher-Order Functions

Hive内部表和外部表的区别

Ground-Up Computer Science(yin wang) 样章学习

IDEA通过Maven创建项目一直卡在Running C:\Users\Administrator\AppData\Local\Temp\archetype1tmp