国产aV无码片毛片一级韩国,午夜草草视频在线播放,中国人妻少妇精品一区二区,在线视频播放一区二区三区,一区二区三区久久av,日韩人妻系列中文字幕,国产av综合av亚洲av,欧美多人啊啊啊啊污污视频,国产大鸡巴插女生b视频

教育裝備采購網(wǎng)
第八屆圖書館論壇 校體購2

顧榮 Alluxio: 構(gòu)建高速大數(shù)據(jù)融合存儲平臺

教育裝備采購網(wǎng) 2017-04-24 17:29 圍觀754次

   Alluxio這個項目是有歷史的,是12年下祭起源于UC Berkeley AmPLad,坐騎這個項目名字叫Tachyon,16年早期更名為Alluxio,這個名字的解釋就是ALL是所有,還有光照的意思,通過這個項目對數(shù)據(jù)的存儲和訪問有統(tǒng)一性,而且能夠?qū)?shù)據(jù)有所提升,這是目標(biāo)。

  

  顧榮:謝謝主持人的介紹,我叫顧榮,我是來自南京大學(xué)。Alluxio這個項目是有歷史的,是12年下祭起源于UC Berkeley AmPLad,坐騎這個項目名字叫Tachyon,16年早期更名為Alluxio,這個名字的解釋就是ALL是所有,還有光照的意思,通過這個項目對數(shù)據(jù)的存儲和訪問有統(tǒng)一性,而且能夠?qū)?shù)據(jù)有所提升,這是目標(biāo)。項目2013年開源,現(xiàn)在最新版本是1.4.0。值得一提的是Alluxio這個數(shù)據(jù)統(tǒng)計可以看到,它的貢獻者、數(shù)量其實是整個大數(shù)據(jù)開源項目增長非??斓模壳拔覀冇衼碜砸话俣鄠€組織,我本人也是13年6月份加入,快四年了,也在很多的公司得到了使用,使用規(guī)模也非常大,我們南大實驗室一直對這個項目貢獻了很多源碼和相關(guān)的其他文檔工作。Alluxio這個項目在全球已經(jīng)被很多知名的IT企業(yè)使用,比如百度、去哪兒、巴克萊銀行也在用。我們回顧一下為什么需要Alluxio這個項目,意義在哪。很多的人都知道BIG DATA,隨著我們很多應(yīng)用對大數(shù)據(jù)處理需求越來越多,特點也變得越來越多,所以網(wǎng)上也出現(xiàn)了很多的引擎,比如Spark這樣的,我們知道大數(shù)據(jù)要處理,第一步要解決大數(shù)據(jù)的存儲問題,全下來我們才好進行后續(xù)的相關(guān)的根據(jù)需求進行處理,出現(xiàn)了開源的或者商業(yè)的,其實里面云計算貢獻了很多的工作,比如SAMZA等等。首先計算層和存儲層系統(tǒng)都會帶來問題,問題是這樣的,整個計算的引擎跟人對接的時候需要寫很多東西,我們對接的時候都需要重新組建一次,這個是非常復(fù)雜的,而且不利于引用的遷移,Alluxio想做的工作是這個項目介于傳統(tǒng)的存儲層和計算云之間,我們向下統(tǒng)一的各種各樣的存儲,往上統(tǒng)一的接口可以由不同的計算引擎,不同的APP進行訪問,這樣我們就可以將所有的數(shù)據(jù)訪問成一個統(tǒng)一的接口組織起來,這里還有一個特點,為什么剛剛提到云計算,我們充分應(yīng)用了計算,我們是分布式的,我們可以向上提供訪問性的突破。

  Alluxio這個項目我們在介紹它后面之前先簡單的看一下最近時間關(guān)于Alluxio一些報道或者我們一些發(fā)展動向,首先我們被收購了,后來我們和收購公司下面做了一些對接,有一些可以作為Alluxio的底層存儲系統(tǒng),華為存儲團隊也聯(lián)合發(fā)布了一些系統(tǒng),首先我們跟華為的團隊來聯(lián)合做一些工作。那么這個會議大家也應(yīng)該聽過,北京新加坡都有開,在17年1月3號的發(fā)展趨勢上第六條下發(fā)了存儲和計算進行結(jié)耦,這是特別重要的發(fā)展方向,特別的提到了一個項目,Alluxio在其中起到了非常重要的作用。

  那么我們總結(jié)一下我們技術(shù)的特點,首先第一Alluxio技術(shù)特點是將計算和數(shù)據(jù)共同安置,這里計算和數(shù)據(jù)共同安置是這個數(shù)據(jù)放在本地的里面,底層的文件系統(tǒng)可以不和計算一起安置,因為里面已經(jīng)部署好了,沒有辦法控制它和計算進行安置,一起安置的好處就是我們可以提供內(nèi)層的訪問速度,而不是靠網(wǎng)絡(luò),第二個特點是提供統(tǒng)一的命名空間,從而虛擬化底層不同的存儲系統(tǒng),Alluxio的文件系統(tǒng)空間是一個目錄,對你們所有的數(shù)據(jù)操作就像訪問系統(tǒng)一樣,比如模擬AB是你不需要管的,舉例子,我們可以用Alluxio建一個目錄,像A、B子目錄,你可以統(tǒng)一的管理,這樣我寫的應(yīng)用不管怎么變,也不管底層的文件系統(tǒng)怎么變,這個之間不需要改接口。

  第三個是橫向擴展的系統(tǒng)架構(gòu),Alluxio是一個分布式文件系統(tǒng),我們可以針對你應(yīng)用的數(shù)據(jù)訪問量的增長很好的加緊部署,不需要重新做復(fù)雜的配置。第四個強調(diào)Alluxio對于系統(tǒng)整體提升是一個軟件層的解決方案,跟剛剛提過的一樣,我不需要對硬件有什么特別的要求或者依賴,我們可以更靈活的去選擇自己硬件的配置跟負載情況,也可以很靈活的選擇上層的計算軟件的一些模型計算方式,根據(jù)應(yīng)用來進行決定。系統(tǒng)優(yōu)勢總結(jié)起來有三點,第一個是Unificetion,根據(jù)上面的應(yīng)用可以訪問底層各種各樣的數(shù)據(jù),第二個好處是Performance為,我們可以通過這個把分布式內(nèi)存用好,應(yīng)用數(shù)據(jù)訪問的特點提供內(nèi)存級的訪問速度,可以帶來多個數(shù)量級以上的性能提升,第三是Flexibility,我們結(jié)耦以后就可以應(yīng)用數(shù)據(jù)開發(fā)和底層軟件結(jié)合,喜歡使用什么就用什么,計算和存儲的選擇變得獨立,可以根據(jù)需要而進行。

  下面我介紹Alluxio典型的三個應(yīng)用場景,第一個是計算和存儲分離,現(xiàn)在已經(jīng)是一個方向和思路,我們有底層的云存儲和上面的云計算,各個組件,最主要的是可以滿足不同的計算和存儲硬件的需求,可以靈活的配置,動態(tài)的擴展,而且能夠獨立的部署擴展選擇等等,通常這些數(shù)據(jù)都是放在傳統(tǒng)的文件系統(tǒng)中的,可以通過大數(shù)據(jù)計算框架來進行分析,這個是比較靈活的,但是最大的限制是什么?就是計算和存儲分離以后,計算需要大數(shù)據(jù)的時候通常需要引擎訪問的,需要通過IO甚至網(wǎng)絡(luò)訪問的,這會帶來新的瓶頸,我們看這么一個例子,步入Spark是一個低延遲的很高速度的引擎,但是底層的存儲我們在云上,每次你計算的再快,但是每次大數(shù)據(jù)都很慢,最后會使整個計算過程變慢,有了Alluxio以后會怎么樣?底層確實還是很慢,但是Alluxio的部署我剛剛說過,跟計算是在一起的,放了Alluxio以后我們看一下這個圖,前面載入的時候比較慢,以后每一次訪問的速度都很快,就會加速遠程存儲的作用,實際的案例是百度的信息,百度的項目分析是每天要查詢大量的用戶日志,用他們百度的日志獲得他們的商業(yè)產(chǎn)品,百度的底層有自己的存儲系統(tǒng),在我們這里面他是用了兩百個節(jié)點的部署,2PB的數(shù)據(jù)量,很大,這些數(shù)據(jù)其實并不是在項目經(jīng)理所在的單位機房里面的,是分散在全國各個機房里面的,每次查的時候就需要跨機房,跨數(shù)據(jù)中心訪問,我們知道計算引擎再快,但是數(shù)據(jù)傳輸花的時間已經(jīng)很長了,通過Alluxio可以在設(shè)計本地的機房里進行,就可以用Alluxio做一個熱數(shù)據(jù)的緩存,最終使得他們的存儲的時間由原來每次的15分鐘縮到30秒之內(nèi),所以這個提升還是比較明顯的。

  我們介紹第二個應(yīng)用場景,我們在大數(shù)據(jù)的處理當(dāng)中,很多工作現(xiàn)在變得流水線化,比如我們拿一些微博或者社交網(wǎng)絡(luò)的數(shù)據(jù),我們通常需要這個數(shù)據(jù)進行一些清洗和抽取,完了以后還需要對它選擇一些簡單的查詢,查詢完以后我們才會對它算法進行新的分析,我們還需要對它進行圖分析,看看它的連接關(guān)系等等,還需要通過一定的圖計算,整個過程我們稱為流水線,增長過程其實就是數(shù)據(jù)不斷的從前往后推移的過程,計算引擎現(xiàn)在做得很快,當(dāng)組成一個流水線以后他們需要不斷的交換數(shù)據(jù),需要共享一些數(shù)據(jù),這個時候性能往往就會被倒賣。比如Spark到Mapreduce到Spark,這樣就很麻煩,我們看這個過程底層的數(shù)據(jù)共享就會延遲整個計算處理流程的時間,我們看一下加了Alluxio以后,我們可以第一次緩存以后放到里面,而且Spark為后面的操作都可以很快的進行,后面每次的操作都通過Alluxio進行,都可以很快的完成共享,你可以放到這里面。實際的案例是巴克萊銀行,他們每天也是一樣的,有很多的數(shù)據(jù)分析師需要對他們用戶的數(shù)據(jù),一些用戶的取款存款,相關(guān)的交易額數(shù)據(jù)進行分析,他們分析是用來風(fēng)控和模型的,對用戶進行用戶畫像,它的數(shù)據(jù)是很多的,分布的去粘然后再進行處理,但是有一個問題,很多的分析師一起粘這些數(shù)據(jù),所以模型的過程很快,因為你都是一些簡單的模型,通常幾秒鐘就可以做完,大部分時間都花在把數(shù)據(jù)拿到本地來的路上,Alluxio就這些這個問題,你只需要拿一下第一個數(shù)據(jù),這是一個文件系統(tǒng),下面再用的時候就直接到分布組件系統(tǒng)里,而不需要對那么多的數(shù)據(jù)一條一條的記錄,還會發(fā)生矛盾爭搶,從而使得他們幾秒鐘就可以算完,所以這個還是非常明顯的提升,六個節(jié)點。

  應(yīng)用場景三的目標(biāo)是統(tǒng)一不同存儲的數(shù)據(jù)訪問,我們知道現(xiàn)在很多的領(lǐng)域里,由于各個群主的特性,有遠程訪問的優(yōu)勢,所以它也可以跟好多的系統(tǒng)做整合,一個行業(yè)的公司里通?,F(xiàn)在會有很多的存儲系統(tǒng)在里面,那么這個缺點也是顯而易見的,我很難統(tǒng)一的對它進行管理,這個管理包括很多的方面,第一,權(quán)限進行統(tǒng)一管理,第二,數(shù)據(jù)進行API開發(fā),不需要換底層存儲系統(tǒng)就需要重新開發(fā)一套應(yīng)用,這個也是帶來的問題,總結(jié)起來,怎么樣能夠從不同的文件數(shù)據(jù)系統(tǒng)里面訪問數(shù)據(jù),用一套API來做,這是API在里面的作用,我們看Alluxio向上可以提供統(tǒng)一的API訪問接口的,往下我們看用StorageB以后是沒有問題的,加了A以后并不會到上面去,只需要跟F進行對接,后面的數(shù)據(jù)都可以通過它來訪問,通過S的嫁接有一些應(yīng)用,并不會進行代碼的更改,這個案例是我們?nèi)ツ膬壕W(wǎng)做的,需要實時機器學(xué)習(xí)算法服務(wù)他們的線上廣告,大家可以看到如果我們不用Alluxio就可以看到數(shù)據(jù)來回的進行倒騰,來回的復(fù)制共享,有了Alluxio,缺點是你的代碼工作量變大,背后帶來的運行也會變多,有了Alluxio以后我們統(tǒng)一了,代碼的工具量很小,而且大家可以看到峰值的時候可以快15到300倍的性能。

  我們總結(jié)今天講的內(nèi)容,第一個是Alluxio這個項目已經(jīng)被很多領(lǐng)先的企業(yè)所使用,剛剛介紹過至少三個,它的核心在于提供內(nèi)存速度數(shù)據(jù)訪問的、跨計算框架、跨存儲系統(tǒng)的統(tǒng)一中間層的存儲平臺,這個項目也是世界第一個能夠同時進行各種工作的項目,我個人認為它可以很好的向現(xiàn)有的大數(shù)據(jù)生態(tài)系統(tǒng)和現(xiàn)有的云計算開放系統(tǒng)做一個整合的一塊開源軟件,我們開源項目也是非常的快,歡迎大家能夠加入到我們的開發(fā)利,用戶提供一些反饋。謝謝大家,下面我們把時間交給我的同事常城,還是要練一練,讓大家看看系統(tǒng)是怎樣的。

  長城:我簡單做一個自我介紹,我叫常城,2015年畢業(yè)與清華大學(xué)計算機系,后來成立了公司以后就加入了Alluxio公司,我是在大三暑假的時候參加了暑期科研,加入了現(xiàn)在的Alluxio項目,我已經(jīng)在這個項目做了四年的時間,今天我主要展示兩個方面的內(nèi)容,第一個方面是如何利用Alluxio作為一個統(tǒng)一的命名空間去管理不同的底層文件系統(tǒng)這個Demo我們會用Alluxio管理一下阿里云的OSS,第二點如何利用Alluxio作為一個內(nèi)存緩存,從而加速Alluxio對遠程文件系統(tǒng)的遠程訪問。首先我們使用一個工具在我的本機啟動一臺集權(quán),AlluxioMarg(音)是公司開發(fā)的為了方便管理集群的Alluxio工具,現(xiàn)在我們就登錄到了這個界面,我們?yōu)榱艘獎?chuàng)建一個新的集群,我們給集群命名,當(dāng)然我們可以選擇亞馬遜的或者谷歌的,下面我們配置一下你的設(shè)置,主要是關(guān)于一些SSH的設(shè)置,在這里我們來配置一下,我們直接使用本地的文件系統(tǒng),直接使用,此外我們需要Alluxio去訪問OSS,所以需要配置一些OSS的選項,我已經(jīng)預(yù)先設(shè)置了這些選項,直接復(fù)制過來,現(xiàn)在這一步是檢測本地漏的設(shè)置,已經(jīng)pass了,下一步就開始從遠程拉一個包,并且自動的根據(jù)你上面配置,這個會耗費一些時間,右下角可以看到進度,我們進去以后可以看看說明我們集群已經(jīng)啟動,但是文件系統(tǒng)沒有任何的文件,我們可以首先跑一個測試,接下來我們展示一下文件系統(tǒng)命令行的基本功能,首先我們可以通過命令行展示一下目前Alluxio里面的數(shù)據(jù),這是剛剛所跑生成的數(shù)據(jù),我們可以通過命令名把本地的文件放到Alluxio的內(nèi)存中,我們直接從這里就可以看到文件已經(jīng)被放進來了,但是這個文件目前還只在Alluxio的內(nèi)存中,我們通過Alluxio的命令行把這個文件放到一個底層的文件系統(tǒng)中,接下來我希望能把一個遠程的OSSbrack放到現(xiàn)有的Alluxio空間里,為了做到這一點首先我在Alluxio里面建立一個目錄,目的是把OSS的brack放到這個里面?,F(xiàn)在OSSBrack已經(jīng)被掛在了目錄上,我們從這里可以看到這就是OSS的底,我們可以看到OSSbrack所有的文件,這里面有三個文件,第一個是一百K,第二個10兆,第三個1兆,如果我們使用Alluxio秘密行,我們就可以看到最后這三個文件都是在OSSbrack當(dāng)中的,并沒有在本地的Alluxio內(nèi)存中,而前面的文件是在我們的本地文件系統(tǒng)中,也就是講了Alluxio同時管理多個底層的文件系統(tǒng),現(xiàn)在如果我希望在10兆的推特數(shù)據(jù)搜索一些關(guān)鍵詞,比如我搜索一個關(guān)鍵詞,首先需要把10兆的數(shù)據(jù)從OSSbrack拉到本地,需要很長的時間,我們可以驗證一下,取決于會場的網(wǎng)絡(luò),現(xiàn)在可以看到它總共是花了9秒8,因為現(xiàn)在的數(shù)據(jù)并沒有在Alluxio當(dāng)中,我們可以看到現(xiàn)在我們可以把這個數(shù)據(jù)讓Alluxio拉到Alluxio的內(nèi)存中,現(xiàn)在就可以看到這個數(shù)據(jù)已經(jīng)是這樣了,如果我們重新跑一下上面的搜索命令行,按道理現(xiàn)在是從本地的內(nèi)存中應(yīng)該會看得非常多,可以看到它只用的1.1秒,相比于剛剛的9.8秒有九十倍的性能提升,同樣你可以搜索其他的關(guān)鍵詞,如果你擔(dān)心上面的結(jié)果已經(jīng)被系統(tǒng)緩存了,如果你搜索一個新的關(guān)鍵詞,你可以看到它也是性能會得到很大的提升,我就不跑Spack了,也是一樣的,謝謝大家。

來源:中國IDC圈 責(zé)任編輯:陽光 我要投稿
校體購終極頁

相關(guān)閱讀

  • 大數(shù)據(jù)助力軍隊采購高質(zhì)量發(fā)展
    中國政府采購報06-26
    伴隨著軍隊采購職能任務(wù)的整合,軍隊采購的范圍和規(guī)模不斷擴大,而采購效率低、周期長、效益差、價格高等問題也隨之而來。筆者認為,大數(shù)據(jù)技術(shù)的出現(xiàn),為提高軍隊采購的效率、效益、效果帶來了...
  • 山東濟寧:開創(chuàng)政采大數(shù)據(jù)新格局
    中國政府采購報11-07
    走進濟寧市財政局,大屏上,全年政府采購量及采購金額、采購節(jié)余金額、交易金額分布、采購項目統(tǒng)計等趨勢圖、柱狀圖一覽無余。近年來,濟寧市財政局著力推進政采大數(shù)據(jù)建設(shè),在一體化數(shù)字平臺的...
  • 運用大數(shù)據(jù)解決政采難題
    中國政府采購報07-28
    自《中華人民共和國政府采購法》頒布以來,我國已積累了大量與政府采購相關(guān)的數(shù)據(jù),這些數(shù)據(jù)從形式上包括文字、圖像、聲音等,從生成過程上包括編制政府采購預(yù)算數(shù)據(jù)、確定采購方式數(shù)據(jù)、評標(biāo)過...
  • 江蘇開放大學(xué)利用大數(shù)據(jù)分析技術(shù)賦能教育教學(xué)
    江蘇省教育廳11-30
    江蘇開放大學(xué)積極探索開放教育教學(xué)質(zhì)量保障的新路徑和新方法,圍繞學(xué)習(xí)者的多樣化需求,創(chuàng)新利用大數(shù)據(jù)分析技術(shù)助力開放教育實施精準(zhǔn)化學(xué)習(xí)支持服務(wù)。重視大數(shù)據(jù)分析技術(shù),開展教學(xué)質(zhì)量監(jiān)測數(shù)據(jù)...
  • 河南省高校安全有序迎來秋季新學(xué)期
    河南省教育廳09-23
    近期,河南省高校陸續(xù)迎來秋季新學(xué)期,為了確保新學(xué)期開學(xué)各項工作安全有序開展,河南省各高校多措并舉,在筑牢校園防疫屏障的同時,精心安排,為學(xué)生返校報到提供暖心幫助,讓學(xué)生體驗到溫馨便...
  • 江蘇常州市以“數(shù)字+專業(yè)”賦能學(xué)生心理健康教育
    江蘇省教育廳06-15
    今年以來,江蘇省常州市以數(shù)字化、專業(yè)化賦能心理健康教育,推進形成中小學(xué)生心理健康教育工作齊抓共管的新局面。利用大數(shù)據(jù),構(gòu)建心理健康檔案。該市建成未成年人心理健康大數(shù)據(jù)智能平臺之后,...
  • 智博領(lǐng)航教育:大數(shù)據(jù)生產(chǎn)和場景化是AI應(yīng)用的前提
    智博領(lǐng)航教育05-17
    首屆TEC2018教育創(chuàng)想大會在京舉行,北京智博領(lǐng)航教育科技有限公司發(fā)言人在大會現(xiàn)場表示:“數(shù)據(jù)生產(chǎn)比數(shù)據(jù)算力更重要,應(yīng)用場景比數(shù)據(jù)算法重要,北京智博領(lǐng)航教育科技有限公司在AI領(lǐng)域會不遺余力...
  • 四川平昌縣:“五用”加強課堂建設(shè) 提升縣域教育供給水平
    四川省教育廳05-12
    近年來,四川省巴中市平昌縣建成教育大數(shù)據(jù)平臺,配齊硬件設(shè)備設(shè)施,保障通暢安全網(wǎng)絡(luò),集合國內(nèi)優(yōu)質(zhì)網(wǎng)絡(luò)資源,大力加強“三個課堂”建設(shè),以“五用”全面助力城鄉(xiāng)教育一體化發(fā)展,促進教育公平...

版權(quán)與免責(zé)聲明:

① 凡本網(wǎng)注明"來源:教育裝備采購網(wǎng)"的所有作品,版權(quán)均屬于教育裝備采購網(wǎng),未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用。已獲本網(wǎng)授權(quán)的作品,應(yīng)在授權(quán)范圍內(nèi)使用,并注明"來源:教育裝備采購網(wǎng)"。違者本網(wǎng)將追究相關(guān)法律責(zé)任。

② 本網(wǎng)凡注明"來源:XXX(非本網(wǎng))"的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責(zé),且不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如其他媒體、網(wǎng)站或個人從本網(wǎng)下載使用,必須保留本網(wǎng)注明的"稿件來源",并自負版權(quán)等法律責(zé)任。

③ 如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起兩周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

校體購產(chǎn)品