Distribuovaná Analýza ATLAS dat
Jiří Chudoba
4.9.2008
Fyzikální ústav AV ČR, v.v.i.
[email protected] 24.9.2008
Model pro ATLAS
Distribuované zpracování dat na gridu Hierarchie výpočetních center
Tier0 – CERN Tier1 – 10 center pro ATLAS Tier2 – asi 30 center Tier3 – menší „příležitostná“ centra
Farma Goliáš na FZÚ – Tier2 centrum přiřazené do GridKa regionu (Tier1 v Karlsruhe)
Gridový software projektů EGEE, OSG a NorduGrid Model detailně popsán v ATLAS Computing TDR,
CERN/LHCC/2005-022
[email protected] 34.9.2008
Tier2 centrum ve FZUPodepsané WLCG MoU v roce 2008
Do roku 2008 včetně větší podíl ALICE než ATLAS.Nyní se vybírá hardware pro splnění závazků na rok 2009.
[email protected] 44.9.2008
Velikosti dat v MB/případ
TDR Nyní
RAW 1.6 1.6
ESD .5 1.
AOD .1 .2
TAG .001 .01
D1PD .01
50,000 sec@200Hz 10 M případů/den 60 dní v 2008: 600M případů
V T0: 960 TB RAW to tape 96 TB RAW to disk (10%) 600 TB ESD to tape 60 TB ESD to disk (10%) 120 TB AOD to disk and tape 120 TB DPD to disk and tape 6TB TAG to disk
V rámci každého oblaku kompletní souborAOD v Tier 2 centrech (plus kopie v T1)
V typickém Tier2 – 25 % AOD + DPDVe FZU: asi 5 - 10 % AOD + DPD
Data v roce 2008
T0 a T1 nebudou (?) přístupnáběžným uživatelům, jen pro organizované produkce
[email protected] 54.9.2008
Kam s daty – space tokenstoken name storage
typeused for @T2 @T1 @T0
ATLASDATATAPE T1D0 RAW data,ESD, AOD from re-proc
X X
ATLASDATADISK T0D1 ESD, AOD from data X X X
ATLASMCTAPE T1D0 HITS from G4, AOD from ATLFAST
X
ATLASMCDISK T0D1 AOD from MC X X X
ATLASPRODDISK T0D1 buffer for in-and export X
ATLASGROUPDISK T0D1 DPD X X X
ATLASUSERDISK T0D1 User Data X X *) X
ATLASLOCALGROUPDISK
T0D1 Local User Data @T3 X
[email protected] 64.9.2008
Data v typickém Tier2, rok 2008
Nyní ve FZU pro ATLASATLASUSERDISK – 800 GBATLASPRODDISK – 500 GBATLASDATADISK – 2500 GBATLASMCDISK – 500 GB
Zvětšení „space tokens“ o několik TB (dohromady) možné téměř ihned.
Celkem pro ATLAS zhruba 20 TB.
ATLASDATADISK (60 TB)AOD a DPD dle požadavků (nebo podílu), možno i vzorky RAW a ESD
ATLASGROUPDISK (6 TB) pro analýzu organizovanou fyzikálními skupinami
ATLASUSERDISK (5 TB) scratch space for users
ATLASLOCALGROUPDISK (zdroje mimo MoU)permanentní prostor pro lokální uživatele
Typické = 500 CPU a 100 TB pro ATLAS
[email protected] 74.9.2008
Datové formátyRAW = raw data
ESD = Event Summary Data
detaily z rekonstrukce případů, možno z nich dělat identifikaci částic, refitování drah, rekonstrukci jetů
cílová velikost 500 kB, nyní přes 600 kB.
calorimeter cells = 270 kB, tracking data 200 kB – pro top případy
AOD = Analysis Object Data
vytvářeny pouze z ESD, určené pro analýzu
nyní 200 kB/případ, plus 60 kB MC truth
[email protected] 84.9.2008
DPD = Derived Physics Data
DPD – podmnožina obsahu ESD a AOD s možným přidáním analyzačních dat
Analyzační data – veličiny vypočítané z ESD a AOD
Několik verzí DPD: D1PD, D2PD, D3PD, performance DPD
Redukce velikosti dat pomocí: skimming – vynechání celých případů thinning – vynechání některých objektů slimming – vynechání části objektů
Zkušenost z „Rome produkce“• AOD příliš velké pro analýzu• Skupiny používaly hlavně ntuply vytvořené pomocí EventView, HighPtView, TopView
[email protected] 104.9.2008
[email protected] 114.9.2008
Co je k analýze zapotřebí?
Návody na spouštění analýzy na Twiki stránkách Organizují se výukové semináře
Veškeré datové přenosy přes systém DQ2 Distribuce oficiálních dat pomocí „subscriptions“ na místa registrovaná v
TiersOfATLAS (TOA) Uživatelské datasety nyní není možné takto distribuovat (politické
rozhodnutí), ale je možné je kopírovat na vlastní disk
Výstup analyzační úlohy na USERDISK, bude pravidelně promazáván Uživatel ho může dát na LOCALGROUPDISK – permanentnípermanentní prostor
skupiny si mohou ve svých Tier přidat diskový prostor Přístup k ESD zatím není vyřešen (povolit úlohy uživatelů v T1 ?) Spolehlivost gridových komponent není 100 %, problémy při velkých
kolekcích úloh
UI = User Interface (třeba lxplus) a členství v ATLAS VO
[email protected] 124.9.2008
Zdroje
ATLAS Offline software výukový seminář: http://indico.cern.ch/conferenceDisplay.py?confId=39198
Distributed Analysis Workshop 25.-27.8.2008 v CERN http://indico.cern.ch/conferenceDisplay.py?confId=38560
Ganga výuka https://twiki.cern.ch/twiki/bin/view/Atlas/GangaTutorial5
Pathena výuka http://cdsweb.cern.ch/record/1118219
Analysis Model Forum Report, ATL-GEN-INT 2008-01