中國衛(wèi)星遙感數(shù)據(jù)處理和信息提取的一場革命
2020年4月15日,雖然全球疫情陰霾尚未褪去,但也無法掩蓋這天足以驚艷世界的光芒!清華大學(xué)理學(xué)院院長、地球系統(tǒng)科學(xué)系主任宮鵬教授和清華大學(xué)博士研究生劉涵一起,對外發(fā)布了清華大學(xué)中國和全球地表覆蓋和土地利用制圖成果,令在線參加的多家權(quán)威媒體,以及親身參與此次項(xiàng)目合作的AWS(亞馬遜云服務(wù))和光環(huán)云(光環(huán)云數(shù)據(jù)有限公司)團(tuán)隊(duì),都無比興奮!
本篇全文均引用宮教授和劉博士發(fā)言原文,因?yàn)樵陧?xiàng)目的合作中,光環(huán)云深切感受到,沒有什么語言比來自科學(xué)家團(tuán)隊(duì)的原話更真實(shí)且有力量!
這是一個(gè)革命性的進(jìn)步!對整個(gè)地球系統(tǒng)觀測行業(yè)都將產(chǎn)生深遠(yuǎn)影響!基于現(xiàn)在的處理能力和AWS的技術(shù)平臺(tái)的支撐,我們擁有了逐日的無縫的遙感觀測的數(shù)據(jù)集(Seamless Data Cube, 簡稱SDC),它填補(bǔ)了高空間分辨率和時(shí)間頻率的觀測的空白。我們也是目前世界上唯一一個(gè)完成了全球10米分辨率地表覆蓋制圖的團(tuán)隊(duì),并正向3米分辨率發(fā)展。
Seamless Data Cube意思是什么呢?現(xiàn)在世界上有9個(gè)國家和地區(qū)做了Data Cube,但是就是左邊這個(gè)樣子,并不完整,是一片一片的。而Seamless Data Cube,就是每一天的間隔里面全球都有一張完整的30米分辨率的數(shù)據(jù),陸地衛(wèi)星Landsat本身也做不到這個(gè)樣子,陸地衛(wèi)星本身是每16天才能對全球掃一遍。同時(shí),我們靠的還有一個(gè)數(shù)據(jù)就是MODIS的圖像來輔助。而得到的結(jié)果,就是右邊圖里的數(shù)據(jù),逐日都有,對著每一個(gè)空間的點(diǎn), 30米×30米的這么大的格網(wǎng)里面,它每天都有數(shù)據(jù),從2000年到2018年都有。有了這個(gè)數(shù)據(jù)以后,我們又做了很多進(jìn)一步的信息提取。正是基于這逐日的數(shù)據(jù),長時(shí)間序列的動(dòng)態(tài)有很好的時(shí)空一致性,我們探測到了30米空間分辨率土地覆蓋變化的情況。比如說首套從2000年到2018年間,逐季節(jié)的土地覆蓋和逐年的土地利用。
這是一個(gè)創(chuàng)造性的大數(shù)據(jù)應(yīng)用,充分利用了AWS的公共數(shù)據(jù)集,我們用它的數(shù)據(jù)集來服務(wù)于中國的科研發(fā)展。在這個(gè)過程中,我們用到了AWS在中國科技界的應(yīng)用最大極限,我們用到的算力相當(dāng)于全世界現(xiàn)在TOP200的高性能計(jì)算機(jī)所能提供的能力,而且它有緊密的數(shù)據(jù)高速網(wǎng)絡(luò),讓我們做了這樣一些事情。(AWS架構(gòu)師補(bǔ)充解釋:計(jì)算量約在10萬個(gè)vCPU,傳統(tǒng)方法相當(dāng)三四百個(gè)機(jī)柜規(guī)模,機(jī)柜平鋪占地約一個(gè)操場那么大)同時(shí),用了AWS這個(gè)技術(shù)以后,精度提高了10-20%。同時(shí)由于 AWS算力資源在最靠近開放數(shù)據(jù)集的區(qū)域,所以數(shù)據(jù)的傳輸與調(diào)用速度也達(dá)到了毫秒級,加速了研發(fā)的進(jìn)程。未來應(yīng)用也會(huì)有更好的客戶滿意度。
基于Seamless Data Cube,我們再運(yùn)用AWS上面一整套完善的人工智能和機(jī)器學(xué)習(xí)的套件和服務(wù),比如說Amazon SageMaker和Amazon EKS以及Amazon EMR上面的一些機(jī)器學(xué)習(xí)的套件,結(jié)合我們前期構(gòu)建的世界首套全球全季節(jié)普適樣本庫和積累的相關(guān)領(lǐng)域知識(shí),設(shè)計(jì)和訓(xùn)練了一套適應(yīng)遙感大數(shù)據(jù)的深度遙感特征學(xué)習(xí)和分類模型。并進(jìn)一步借助AWS的AutoML(AutoGluon)等自動(dòng)化多層堆疊集成技術(shù),對模型結(jié)構(gòu)和參數(shù)進(jìn)行深度調(diào)優(yōu),并進(jìn)行分布式高性能推理。分類結(jié)果最后經(jīng)過遙感專業(yè)化的變化探測和時(shí)空一致性后處理方法,得到這套全國逐季節(jié)土地覆蓋和逐年土地利用圖。
無論是制圖還是數(shù)據(jù),都是開辟了中國衛(wèi)星遙感數(shù)據(jù)處理和信息提取的新范式,服務(wù)于國民經(jīng)濟(jì)的很多行業(yè),比如農(nóng)業(yè)集約化和土地閑置的探測、城市化與自然植被喪失的探測、土地退化和糧食安全、環(huán)境變化與健康、造林和土壤的含水量的關(guān)系、城市擴(kuò)張與熱島效應(yīng),還有碳儲(chǔ)備等等。
具體給出幾個(gè)例子來。比如說我們發(fā)現(xiàn)我們國家的耕地確實(shí)是在減少,但目前耕地的面積并沒有像大家想象的那么擔(dān)憂,沒有低于18億畝的耕地紅線,而且我們離那還挺遠(yuǎn)。對于我國森林,國際上很多人說中國的森林得到的數(shù)據(jù)不一,有的說多,有的說少,我們這個(gè)數(shù)據(jù)基本上把這些不一致經(jīng)過我們時(shí)空一致性的計(jì)算,將森林面積的趨勢做出來了。我們國家的森林面積確實(shí)在不斷增加,也印證了我們國家森林保護(hù)工程的有效性。還發(fā)現(xiàn)了我們國家的保護(hù)區(qū)有較好的土地保護(hù)效應(yīng),但是在保護(hù)區(qū)周圍有比較大的人為干擾,就是有較強(qiáng)的土地利用還存在破壞的情況。另外,信息也反映了人類活動(dòng)對生物多樣性熱點(diǎn)地區(qū)有較高的干擾水平。
對于聯(lián)合國制定的17個(gè)可持續(xù)發(fā)展目標(biāo),可以說這一套地表覆蓋和土地利用的數(shù)據(jù)產(chǎn)品,能夠有效地支持其中13個(gè)目標(biāo)的工作。第一個(gè)就是消除貧窮,第二個(gè)是減少饑餓,第三個(gè)是健康,第六個(gè)是水資源的清凈的水,第七個(gè)是清潔的能源,第八個(gè)是經(jīng)濟(jì)的增長,第九個(gè)是基礎(chǔ)設(shè)施的創(chuàng)新,第十一個(gè)是城市,第十二個(gè)是負(fù)責(zé)任的消費(fèi)和生產(chǎn),第十三個(gè)是氣候,第十四個(gè)是水下的生物保護(hù),第十五個(gè)是陸上生物的保護(hù),第十七個(gè)國際合作。我剛剛講的這些,我們這套數(shù)據(jù)都可以對它們產(chǎn)生一定的支持。
有了這個(gè)能力,它還能幫助我們打造世界頂級的在線制圖服務(wù)的平臺(tái)。這個(gè)平臺(tái)不僅使遙感專家,甚至使毫無遙感專業(yè)知識(shí)的用戶都能快速完成他要做的應(yīng)用。中學(xué)生、小學(xué)生想拿這個(gè)數(shù)據(jù)做點(diǎn)什么,從里面摳出來,拉幾條曲線,或者把一個(gè)區(qū)域要拿出來做一些探測、變化、趨勢的分析,都已經(jīng)變得非常容易。它將極大調(diào)動(dòng)大眾的創(chuàng)造力,促進(jìn)遙感應(yīng)用市場化的普及,從而使遙感能夠迎來一次革命。
有了這個(gè)數(shù)據(jù)(Seamless Data Cube),可以生產(chǎn)新的數(shù)據(jù)產(chǎn)品,可以說是無限的,也為國內(nèi)外的同行提供技術(shù)支撐。比如咱們中國在科技部支持下要做21種新的地表參量數(shù)據(jù)產(chǎn)品,這是由武漢大學(xué)梁順林教授牽頭做的一個(gè)國家的重點(diǎn)研發(fā)項(xiàng)目。有了Seamless Data Cube之后,就可以支持梁樹林項(xiàng)目的所有的參數(shù):如跟能量有關(guān)系的,陸表能量平衡的參數(shù);跟極地和冰凍圈有關(guān)系的很多參數(shù);跟植被生物物理特征有關(guān)系的參數(shù)又有一串,水循環(huán)的參數(shù)也有很多,還有地表的類型變量的參數(shù)等。比如說最近西昌發(fā)生的森林火災(zāi),火的范圍、痕跡,全國的火斑,在這個(gè)時(shí)間里面的我們都能夠把它提取出來。
最后一個(gè)就是給大家看,在清華大學(xué)建設(shè)的全球糧食估產(chǎn)模型,它每次需要的輸入就是不同地方的作物種植和氣候預(yù)測數(shù)據(jù)??梢阅弥懊娴臄?shù)據(jù),我剛剛講的作物的種植、集約化經(jīng)營、農(nóng)業(yè)的撂荒,哪些地方不種哪些地方種植,這個(gè)數(shù)據(jù)作為輸入,輸入到糧食估產(chǎn)模型去以后,就可以跑出來全球的糧食產(chǎn)量的情況,提前兩個(gè)月來預(yù)估糧食的產(chǎn)能。
我給大家做了一個(gè)介紹,希望這個(gè)簡單的介紹能夠讓大家感覺到和我們一樣的興奮,我們確實(shí)進(jìn)入了一個(gè)遙感的全球觀測的新時(shí)代。謝謝大家。