免费可以看的无遮挡av无码|国产在线拍揄自揄视频网站|在线无码精品视频播放在|欧美亚洲国产成人精品,国产成人久久77777精品,亚洲欧美视频在线观看,色偷偷色噜噜狠狠网站久久

千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機構(gòu)

手機站

千鋒學習站 | 隨時隨地免費學

掃一掃進入千鋒手機站

領(lǐng)取全套視頻

關(guān)注千鋒學習站小程序
隨時隨地免費學習課程

當前位置：首頁 > 技術(shù)干貨 > 大數(shù)據(jù)面試題：經(jīng)典面試題答疑（三）

大數(shù)據(jù)面試題：經(jīng)典面試題答疑（三）

來源：千鋒教育

發(fā)布人：syq

時間： 2022-06-08 16:27:00 1654676820

　　大數(shù)據(jù)經(jīng)典面試題答疑---經(jīng)常問的原理問題總結(jié)(系列文章，持續(xù)更新)，幫你解決大數(shù)據(jù)開發(fā)中的困擾。

　　1. hive+MapReduce

　　答案區(qū)：

　　1. hive+MapReduce

　　Hive不支持行級數(shù)據(jù)的插入、更新和刪除，也不支持事務(wù)操作;

　　1.1. MapReduce的join過程

wpsovWTMc

　　(1)：利用DistributedCache將小表分發(fā)到各個節(jié)點上，在Map過程的setup()函數(shù)里，讀取緩存里的文件，只將小表的連接鍵存儲在hashSet中。

　　(2)：在map()函數(shù)執(zhí)行時，對每一條數(shù)據(jù)進行判斷(包含小表數(shù)據(jù))，如果這條數(shù)據(jù)的連接鍵為空或者在hashSet里不存在，那么則認為這條數(shù)據(jù)無效，這條數(shù)據(jù)也不參與reduce的過程。

　　1.2. hive的SQL解析過程

　　詞法、語法解析: Antlr 定義 SQL 的語法規(guī)則，完成 SQL 詞法，語法解析，將 SQL 轉(zhuǎn)化為抽象語法樹 AST Tree;

　　語義解析: 遍歷 AST Tree(抽象語法樹，抽象語法結(jié)構(gòu)的樹狀)，抽象出查詢的基本組成單元 QueryBlock;

　　生成邏輯執(zhí)行計劃: 遍歷 QueryBlock，翻譯為執(zhí)行操作樹 OperatorTree;

　　優(yōu)化邏輯執(zhí)行計劃: 邏輯層優(yōu)化器進行 OperatorTree 變換，合并 Operator，達到減少 MapReduce Job，減少數(shù)據(jù)傳輸及 shuffle 數(shù)據(jù)量;

　　生成物理執(zhí)行計劃: 遍歷 OperatorTree，翻譯為 MapReduce 任務(wù);

　　優(yōu)化物理執(zhí)行計劃: 物理層優(yōu)化器進行 MapReduce 任務(wù)的變換，生成最終的執(zhí)行計劃。

　　1.3. hive數(shù)據(jù)導(dǎo)入

　　load data inpath '/hadoop/guozy/data/user.txt' into table external_table;

　　此處是移動(非復(fù)制)，移動數(shù)據(jù)非?？?，不會對數(shù)據(jù)是否符合定義的Schema做校驗，這個工作通常在讀取的時候進行(即Schema on Read)

　　1.4. 內(nèi)部表與外部表的不同

　　1.創(chuàng)建外部表需要添加 external 字段。而內(nèi)部表不需要。

　　2.刪除外部表時，HDFS中的數(shù)據(jù)文件不會一起被刪除。而刪除內(nèi)部表時，表數(shù)據(jù)及HDFS中的數(shù)據(jù)文件都會被刪除。

　　3.內(nèi)部表與外部表如果不指定location，默認使用hive.metastore.warehouse.dir指定的路徑

　　1.5. 分區(qū)和分桶

　　1.5.1. 分區(qū)

　　指的就是將數(shù)據(jù)按照表中的某一個字段進行統(tǒng)一歸類，并存儲在表中的不同的位置，也就是說，一個分區(qū)就是一類，這一類的數(shù)據(jù)對應(yīng)到hdfs存儲上就是對應(yīng)一個目錄。

　　1.5.1.1. 靜態(tài)分區(qū)

　　數(shù)據(jù)已經(jīng)按某些字段分完區(qū)放在一塊，建表時直接指定分區(qū)即可。

　　create table enter_country_people(id int,name string,cardNum string)

　　partitioned by (enter_date string,country string);

　　注意，這里的分區(qū)字段不能包含在表定義字段中，因為在向表中l(wèi)oad數(shù)據(jù)的時候，需要手動指定該字段的值.

　　數(shù)據(jù)加載(指定分區(qū))：

　　load data inpath '/hadoop/guozy/data/enter__china_people' into table enter_country_people partition (enter_date='2019-01-02',country='china');

　　此處自動創(chuàng)建分區(qū)目錄;

　　創(chuàng)建完后目錄結(jié)構(gòu)：

wpsdJ7hIU

　　其他創(chuàng)建分區(qū)目錄的方法：

　　1.alter table enter_country_people add if not exists partition (enter_date='2019-01-03',country='US');

　　2.在相應(yīng)的表目錄下創(chuàng)建分區(qū)目錄后，執(zhí)行 msck repair table table_name;

　　1.5.1.2. 動態(tài)分區(qū)

　　建表相同，主要是加載數(shù)據(jù)方式不同，動態(tài)分區(qū)是將大雜燴數(shù)據(jù)自動加載到不同分區(qū)目錄。

　　1.開啟非嚴格模式

　　2.需要從另一張hive表查詢

　　set hive.exec.dynamic.partition.mode=nonstrict;

　　insert into table enter_country_people(user string,age int) partition(enter_date,country) select user,age,enter_date,country from enter_country_people_bak;

　　1.5.2. 分桶表

　　如果兩個表根據(jù)相同的字段進行分桶，則在對這兩個表進行關(guān)聯(lián)的時候可以使用map-side關(guān)聯(lián)高效實現(xiàn)。

　　create table user_bucket(id int comment 'ID',name string comment '姓名',age int comment '年齡') comment '測試分桶' clustered by (id) sorted by (id) into 4 buckets row format delimited fields terminated by '\t';

　　指定根據(jù)id字段進行分桶，并且分為4個桶，并且每個桶內(nèi)按照id字段升序排序，如果不加sorted by，則桶內(nèi)不經(jīng)過排序的，上述語句中為id，根據(jù)id進行hash之后在對分桶數(shù)量4進行取余來決定該數(shù)據(jù)存放在哪個桶中，因此每個桶都是整體數(shù)據(jù)的隨機抽樣。

　　數(shù)據(jù)載入：

　　我們需要借助一個中間表，先將數(shù)據(jù)load到中間表中，然后通過insert的方式來向分桶表中載入數(shù)據(jù)。

　　create table tmp_table (id int comment 'ID',name string comment '名字',age int comment '年齡') comment '測試分桶中間表' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

　　load data inpath '/hadoop/guoxb/data/user.txt' into table tmp_table;

　　insert into user_bucket select * from tmp_table;

　　上述的語句中，最終會在hdfs上生成四個文件，而不是四個目錄，如果當在次向該分桶表中insert數(shù)據(jù)后，會又增加4個文件，而不是在原來的文件上進行追加。

　　1.5.3. 區(qū)別

　　1.hdfs目錄結(jié)構(gòu)不同，分區(qū)是生成目錄，分桶是生成文件

　　2.分區(qū)表在加載數(shù)據(jù)的時候可以指定加載某一部分數(shù)據(jù)，有利于查詢

　　3.分桶在map-side join(另一種 reduce-side join)查詢時，可以直接從bucket(兩表分桶成倍數(shù)即可)中提取數(shù)據(jù)進行關(guān)聯(lián)操作，查詢高效。

　　1.6. Sort By、Order By、Cluster By，Distribute By，group by

　　order by：會對輸入做全局排序，因此***\*只有一個reducer\****(多個reducer無法保證全局有序)。只有一個reducer，會導(dǎo)致當輸入規(guī)模較大時，需要較長的計算時間。

　　distribute by：按照指定的字段對數(shù)據(jù)進行劃分輸出到不同的reduce中(單純的分散數(shù)據(jù))。

　　sort by：局部排序，sort by只是確保每個reduce上面輸出的數(shù)據(jù)有序，當只有一個reduce時，也變成全局排序。

wpsq0kGDl

　　cluster by：當distribute by 和 sort by 所指定的字段相同時，即可以使用cluster by

　　group By Key算子的功能固定，只能輸出相同key值的序列，reduceByKey適用于分組排序過程中有數(shù)據(jù)聚合操作(sum)的情形，在其他場景下可能不適用。

wpsnkIWGq

　　受限于reduce數(shù)量，設(shè)置reduce參數(shù)mapred.reduce.tasks 輸出文件個數(shù)與reduce數(shù)相同，文件大小與reduce處理的數(shù)據(jù)量有關(guān)，網(wǎng)絡(luò)負載過重數(shù)據(jù)傾斜，優(yōu)化參數(shù)hive.groupby.skewindata為true，會啟動一個優(yōu)化程序，避免數(shù)據(jù)傾斜

　　1.7. SQL

　　1.7.1. 開窗函數(shù)

wpsgOGnKY

　　1.8. 數(shù)據(jù)傾斜怎么解決

　　1.key 盡量打亂;提高reduce任務(wù)數(shù)

　　2.關(guān)聯(lián)查詢時，利用分桶和map-side提高查詢效率

　　1.9. 星型模型和雪花模型介紹

　　星型模型：所有的維表直接連接到事實表：

　　雪花模型：

　　當有一個或多個維表沒有直接連接到事實表上，而是通過其他維表連接到事實表上時，是星型模型的拓展。

　　更多關(guān)于大數(shù)據(jù)培訓(xùn)的問題，歡迎咨詢千鋒教育在線名師。千鋒教育擁有多年 IT培訓(xùn)服務(wù)經(jīng)驗，采用全程面授高品質(zhì)、高體驗培養(yǎng)模式，擁有國內(nèi)一體化教學管理及學員服務(wù)，助力更多學員實現(xiàn)高薪夢想。

tags:

聲明：本站稿件版權(quán)均屬千鋒教育所有，未經(jīng)許可不得擅自轉(zhuǎn)載。

10年以上業(yè)內(nèi)強師集結(jié)，手把手帶你蛻變精英

請您保持通訊暢通，專屬學習老師24小時內(nèi)將與您1V1溝通

免費領(lǐng)取

今日已有369人領(lǐng)取成功

劉同學 138****2860 剛剛成功領(lǐng)取

王同學 131****2015 剛剛成功領(lǐng)取

張同學 133****4652 剛剛成功領(lǐng)取

李同學 135****8607 剛剛成功領(lǐng)取

楊同學 132****5667 剛剛成功領(lǐng)取

岳同學 134****6652 剛剛成功領(lǐng)取