No/VOL: 01/2019 Page no. 29
Authors: Paweł Drzymała , Henryk Welfle , Agnieszka Drzymała :
Title: Efektywne przetwarzanie i integracja dużych zbiorów danych w środowisku Hadoop
Abstract: Rozwój nowych kanałów elektronicznej wymiany informacji przyczynia się do powstania coraz większej ilości danych. Dane te są często zróżnicowane, niejednorodne i składowane bez ściśle zdefiniowanej struktury. W ciągu ostatnich 2 lat przyrosło 90% danych, jakie zostały wygenerowane od początku istnienia ludzkości. W artykule zaprezentowano architekturę i możliwości środowiska Hadoop powstałego w celu efektywnego przetwarzania i integracji dużych zbiorów danych. Przedstawiono cechy tej platformy oraz jej skalowalność. Omówiono metodę działania systemu plików HDFS oraz odporności na błędy składowania tego systemu. Zaprezentowano ideę współpracy węzłów klastra Hadoop oraz wykonywania działań typu Map – Reduce.
Key words: Big Data, Hadoop, HDFS,Hive, Pig Latin, Spark.