国产aV无码片毛片一级韩国,午夜草草视频在线播放,中国人妻少妇精品一区二区,在线视频播放一区二区三区,一区二区三区久久av,日韩人妻系列中文字幕,国产av综合av亚洲av,欧美多人啊啊啊啊污污视频,国产大鸡巴插女生b视频

教育裝備采購網(wǎng)
第八屆圖書館論壇 校體購2

網(wǎng)絡抓取NFL數(shù)據(jù)到Stata中

教育裝備采購網(wǎng) 2018-11-27 11:43 圍觀1450次

  關于足球賽,每個人都想在足球聯(lián)賽中尋找優(yōu)勢,所以我們寫了一個網(wǎng)頁抓取NFL數(shù)據(jù)的命令。這個命令就是nfl2stata,安裝這個命令,可以輸入,

  

  使用這個新命令,您可以輕松的發(fā)現(xiàn)上個賽季誰的觸地得分最高。

  

  您可以從上賽季度聯(lián)賽中找到前五名得分最高的球員。

  

  您可以從上一個常規(guī)賽中產(chǎn)生一個頂級傳球隊長的圖表。

  

  里面有很多有趣的數(shù)據(jù)值得關注。雖然這看起來像是一個簡單的命令,但實際上不是這樣,因為需要通過web scraping來抓取、解析和加載來自http://www.nfl.com的數(shù)據(jù)。

  網(wǎng)絡抓取

  您可能聽說過“web scraping”這個詞。Web scraping的簡單定義就是從網(wǎng)絡上提取數(shù)據(jù)。大多數(shù)時候,一個網(wǎng)站的版權(quán)禁止人們發(fā)布從網(wǎng)站上獲取的數(shù)據(jù),但是您可以在個人電腦使用數(shù)據(jù)副本。這也是NFL網(wǎng)站關于版權(quán)保護的描述。因此,用戶必須自己抓取網(wǎng)絡數(shù)據(jù)。獲取NFL數(shù)據(jù),可以輸入,

  

  此命令將2009年到當前年度的所有數(shù)據(jù)都進行了提取,并以Stata數(shù)據(jù)集的形式保存到本地電腦的Stata adopath中。具體來說,它將保存到PLUS目錄中,這樣nfl2stata命令可以找到它。保存在http://www.nfl.com第一年的NFL數(shù)據(jù)是2009。目前,在這之前沒有數(shù)據(jù)可以供參考。網(wǎng)絡抓取是一個既昂貴有費時的過程。取決于這幾個因素(計算機速度、計算機存儲空間、網(wǎng)絡連接等),這種初始數(shù)據(jù)抓取需要數(shù)小時才能完成。您可能希望在一夜之間運行上述命令。如果刪除了歷史數(shù)據(jù),您可以輸入,

  

  用當前周的數(shù)據(jù)來更新本地保存的數(shù)據(jù)集。

  在寫這篇文章時,抓取命令是可以正常使用的,但是如果NFL更改了HTML頁面格式的話,這個命令就會崩潰。如果出現(xiàn)了這種情況,我們會修復它。此外,當NFL更新其網(wǎng)站上以前的數(shù)據(jù)時,被抓取的數(shù)據(jù)會隨著時間的推移而改變。因此,幾周前您所抓取的數(shù)據(jù)將跟ESPN或NFL網(wǎng)站上所看到的數(shù)據(jù)不符合。此外,有時數(shù)據(jù)可以存在于多個地方,并且可以不一致,因為一個站點得到更新的統(tǒng)計數(shù)據(jù),另一個則不會。您可以使用nfl2stata scrape, season(_all) replace重新抓取數(shù)據(jù),并創(chuàng)建新的干凈的數(shù)據(jù)集。這些問題使得網(wǎng)絡抓取是一個不穩(wěn)定的過程。

  命令

  nfl2stata scrape命令可以為每一年生成game, game summary, play-by-play, player, player

  profile, roster和 team Stata數(shù)據(jù)集。為了把這些數(shù)據(jù)加載到Stata中,您必須使用以下命令:

  ? 加載gams-by-game數(shù)據(jù)到Stata中,使用

  

  ? 加載gams summary數(shù)據(jù)到Stata中,使用

  

  加載play-by-play數(shù)據(jù)到Stata中,使用

  

  加載player-specific數(shù)據(jù)到Stata中,使用

  

  ? 加載player profile數(shù)據(jù)到Stata中,使用

  

  ? 加載team roster數(shù)據(jù)到Stata中,使用

  

  ? 加載team game-by-game數(shù)據(jù)到Stata中,使用

  

  這些命令各自搜索各自的數(shù)據(jù)集。通常,您需要使用Stata命令,例如collapse, gsort 和merge來生成統(tǒng)計數(shù)據(jù),對數(shù)據(jù)進行排序,并將兩個或多個NFL數(shù)據(jù)集合并在一起檢查數(shù)據(jù)。我們再來看幾個例子。

  示例

  我發(fā)現(xiàn)使用最頻繁的兩個命令,一個是gsort,按升序或降序排序數(shù)據(jù);另一個是collapse,生成匯總統(tǒng)計數(shù)據(jù)集。當處理多場比賽或多個季度賽數(shù)據(jù)時,collapse命令更有用。比如,要找出誰在去年的NFL中是領銜外接員,您可以輸入,

  

  有時,您需要合并兩個或多個NFL數(shù)據(jù)集來回答有關數(shù)據(jù)的一些問題。例如,為了找到過去九年NFL跑衛(wèi)的平均權(quán)數(shù),您必須合并roster數(shù)據(jù)和profile數(shù)據(jù),在同一數(shù)據(jù)集中得到player position和player weight變量。例如,輸入

  

  想要找出誰是最佳外接員或搶攻人員,您需要把所有進攻球員數(shù)據(jù)合并成一個數(shù)據(jù)集。例如,列出領銜外接人員的類型,

  

  

  

  實施

  我們使用Stata的Java plugins來編寫大多數(shù)的命令。其他我們編寫命令的Java庫有:

  ? Gson

  ? Jsoup

  ? Minify

  有很多用來web scraping 數(shù)據(jù)的Java庫,我們只使用了其中一些。

  

點擊進入北京天演融智軟件有限公司展臺查看更多 來源:教育裝備采購網(wǎng) 作者:科學軟件網(wǎng) 責任編輯:安健 我要投稿
校體購終極頁

相關閱讀

版權(quán)與免責聲明:

① 凡本網(wǎng)注明"來源:教育裝備采購網(wǎng)"的所有作品,版權(quán)均屬于教育裝備采購網(wǎng),未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用。已獲本網(wǎng)授權(quán)的作品,應在授權(quán)范圍內(nèi)使用,并注明"來源:教育裝備采購網(wǎng)"。違者本網(wǎng)將追究相關法律責任。

② 本網(wǎng)凡注明"來源:XXX(非本網(wǎng))"的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責,且不承擔此類作品侵權(quán)行為的直接責任及連帶責任。如其他媒體、網(wǎng)站或個人從本網(wǎng)下載使用,必須保留本網(wǎng)注明的"稿件來源",并自負版權(quán)等法律責任。

③ 如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起兩周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關權(quán)利。

校體購產(chǎn)品