BOINC a NutriWeb

30. 1. 2013 Technologie

Dnes se podíváme na téma, které s výživou nesouvisí, a i přes to jsou v něm zástupci projektu NutriWeb aktivní. Dnešním tématem budou vědecké distribuované výpočty.

BOINC

BOINC (Berkeley Open Infrastructure for Network Computing) představuje typ distribuovaných výpočtů, který vznikl z potřeby vysokých nároků na vědecké výpočty. Jednoduše řečeno si představte pracoviště, které má k dispozici obrovské množství dat. Pro zpracování těchto dat je třeba tak vysokého výkonu, že řešením nejsou běžné počítače, ale takzvané superpočítače. Bohužel jejich cena je velmi vysoká a ne každé pracoviště si je může dovolit. A tak vznikla myšlenka práci rozdělit na malé části, které budou rozesílány mezi běžné počítače. Jejich výkon je totiž za normálních okolností (psaní v textovém editoru, brouzdání po internetu,...) využíván jen z části a nevyužitý výkon je možné věnovat na vědecké výpočty.

Cíle výpočtů

První otázka, která vás jistě napadne, se týká podstaty výpočtů. Co se vlastně počítá? BOINC je pouze platforma, síť pracovních stanic. Projekty tvoří akademická pracoviště či soukromé firmy a iniciativy (nalezneme i velké firmy jako IBM) a setkat se můžete s výpočty z oblasti matematiky, kryptografie, astrofyziky, meteorologie, biologie, aj. V oblasti chemie a biologie, která nás nejvíce zajímá, se nejčastěji setkáváte s výpočty souvisejícími s výzkumem buněk (léčba rakoviny), s výzkumem biomolekul (výzkum vzájemných interakcí a dynamiky biomolekul), z biomolekul jsou často detailně zkoumány bílkoviny (vývoj nových léčiv), setkáváme se s výzkumem DNA (regulace buněčného cyklu) a RNA (identifikace známých RNA molekul) či se sleduje vztah chemické struktury a biologické aktivity (modely QSAR). Pozornost je také věnována epidemiologii, šíření některých onemocnění a modelování účinných opatření (např. výzkum malárie). Šíře výpočtů je ale nutné doplnit i o další, jakými jsou např. výpočty rovnic z kvantové chemie, zkoumání genetických algoritmů, ekologické projekty či modelování lidské mysli.

Jak vidíte rozsah výpočtů je velmi široký a nemusíte pouze analyzovat signály z vesmíru v rámci SETI projektu, který je sice nejznámější (roli měl i ve filmu Kontakt), ale rozhodně ne jediný. Výhodou je také otevřenost, přístupnost výsledků (zmínit můžeme např. Rfam, databázi RNA, kam jsou poskytovány výsledky jednoho z projektů) a snaha publikovat výsledky v odborných časopisech. Samozřejmě se najdou projekty komerční či projekty, ke kterým je velmi málo informací, ale jen vy sami rozhodujete o tom, co chcete a budete počítat.

Na čem se počítá?

K výpočtům se dnes využívají jednak procesory, ale také grafické karty. Jelikož grafické karty se již delší dobu mohou chovat jako paralelní procesory, nabízí tak mnohonásobně vyšší výpočetní výkon než samotné procesory (zde můžeme zmínit zkratku GPGPU - General-purpose computing on graphics processing units).  Z tohoto důvodu jsou grafické karty stále častěji standardní součástí superpočítačů. Vy tak máte možnost počítat jak na procesorovém jádře, tak na grafické kartě (výpočty existují jak pro karty firem nVidia, tak pro AMD). Výhodou je také nezávislost na operačním systému aplikace existují jak pro Windows, Linux, Mac OS X, Solaris,  Free BSD, tak dokonce i na PlayStation 3.

distributedDataMining

Zástupci našeho projektu počítají pod týmem Masarykovy univerzity (statistiky) a v současné době jejich výpočty představují více než 98 % bodů celého týmu. Dále uvedu dva projekty, kterým se nyní věnujeme nejvíce a ve kterých si nejlépe stojíme. V projektu distributedDataMining jsme 28. na světě (dle aktuálního průměrného kreditu se pohybujeme kolem 10. místa). Dříve jsme se v rámci něj věnovali analýze sociálních sítí, dnes jsou distribuovány výpočty v oblasti analýzy časových os, které mají za cíl při použití algoritmů strojového učení (integrovaných do nástroje pro data mining RapidMiner) vytvořit prediktivní modely.

Projekt obsahuje i biologický podprojekt, který se zaměřuje jednak na automatickou analýzu poruch hlasu, kde se pozornost věnuje vývoji algoritmů strojového učení pro vyhodnocování záznamů z endoskopické vysokorychlostní kamery vedoucí k automatickému přiřazení diagnózy. Druhá část podprojektu se zaměřuje na evoluční fenomén aposemantismu, což můžeme jednoduše definovat jako varovné obranné vlastnosti (výrazné zbarvení, zápach, zvuk apod.), kterým živočich varuje predátory, že je nepoživatelný či jedovatý. Projekt se zabývá modelováním časového vývoje interakcí dravce a kořisti v populaci s cílem hlubšího pochopení role tohoto fenoménu v evoluci.

POEM

Druhým projektem, který nám zajišťuje také nejvyšší bodový příděl, je POEM (Protein Optimization with Energy Methods). V tomto projektu jsme na 78. místě na světě. Objektem výzkumu tohoto projektu jsou bílkoviny a cílem je pochopení struktury a funkce těchto biomolekul. Prostředkem je aplikace, chcete-li realizace výpočtů termodynamické hypotézy C. B. Anfinsena. Projekt tak má přispět k predikci biologicky aktivní struktury bílkovin, porozumění mechanismů interakcí bílkovin s okolním prostředím, porozumění nemocem, které jsou spojeny s porušenou funkcí bílkovin, a k vývoji nových léčiv.

Pokud vás téma zaujalo a chtěli byste více informací, praktické informace či návody, jak se do výpočtů zapojit, budu rád za vaše reakce a podněty k pokračování.

Zdroje

[1] Czech National Team [online]. [cit. 2013-01-30]. Dostupné z: http://www.czechnationalteam.cz.

[2] DistributedDataMining Project [online]. [cit. 2013-01-30]. Dostupné z: http://www.distributeddatamining.org.

[3] Protein Optimization with Energy Methods [online]. ©2013 [cit. 2013-01-30]. Dostupné z: http://boinc.fzk.de/poem.

Fotogalerie

Sdílet článek

Komentáře