-
Spark Structure
Spark Structure https://spark.apache.org/docs/latest/cluster-overview.html Spark Components Open Source Ecosystem - Spark Spark Stack Structure 스파크는 기본적으로 RDD로 연산을 수행한다 인프라 계층 : 먼저 스파크가 기동하기 위한 인프라는 스파크가 독립적으로 기동할 수 있는 Standalone Scheudler가 있고 (그냥 스팍만 OS위에 깔아서 사용한다고 생각하면 된다).
Read more… -
Spark 소개 및 특징
Spark 소개 스파크는 2011년 버클리 대학의 AMPLab에서 개발한 오픈 소스 범용 분산 클러스터 컴퓨팅 프레임워크 인-메모리 기반의 대용량 데이터 고속 분산 처리 시스템 범용적이면서도 빠른 속도로 작업을 수행할 수 있도록 설계한 클러스터용 메모리에 분산 저장, 병렬 처리 구조 최초 데이터 로드와 최종 결과 저장만 디스크 사용(스테이지에서 디스크에 저장할 때도 있음) 아파치 스파크 중심은 컴퓨팅 클러스터로 분할 가능한 불변적 객체 컬렉션을 나타내는 프로그래밍 추상화, 즉 탄력적 분산 데이터 집합(Resilient Distributed Dataset, RDD) 개념이다 스파크SQL은 구조적 데이터 처리에 초점을 두며, R과 파이썬(판다스)에서 사용한 데이터프레임을 사용한다 스파크SQL은 표준SQL 지원 외에 기본적으로 지원되는 JSON, HDFS, 아파치 하이브, JDBS, 아파치 ORC, 아파치 파케이(Parquet)를 포함한 다른 데이터 저장소에서의 읽기와 쓰기를 위한 표준 인터페이스도 제공한다 인-메모리 컴퓨팅 인-메모리 컴퓨팅은 전체 데이터를 메모리에 적재하여 사용하는 것을 의미(기존의 디스크 기반 컴퓨팅은 데이터를 하드디스크에 저장하고 관리) 디스크 기반 컴퓨팅에서는 데이터를 하드디스크에 보관/처리 하고, 빈번하게 사용되는 일부 데이터를 메모리에 캐싱하는 구조라고 하면, 인-메모리 컴퓨팅은 데이터를 메모리에 보관/처리하고 하드디스크를 데이터의 안전한 보관(stash)하기 위해 사용하는 구조다.
Read more… -
Spark/Scala/PySpark 설치
JDK on Windows First, make sure you have the Java 8 JDK (or Java 11 JDK) installed. https://ynebula.github.io/posts/java/java8_install_on_ubuntu/ Path에 빈 칸이 없어야 한다. 그래서 C:\Java 로 설치한다. => 이거 다시 테스트 해봐야 함… 프로그램 파일 밑에 설치
Read more… -
Kafka Install
https://www.joinc.co.kr/w/man/12/Kafka/QuickStart 사전 작업 sudo apt-get update sudo apt-get upgrade JAVA 설치 https://ynebula.github.io/posts/java/java8_install_on_ubuntu/ ZooKeeper 설치: 설치 가이드 https://oboki.net/workspace/bigdata/zookeeper/zookeeper-3-x-%EC%84%A4%EC%B9%98/ https://zookeeper.apache.org/doc/r3.4.6/zookeeperAdmin.html#sc_zkMulitServerSetup 설치파일 다운로드 Download: http://apache.tt.co.kr/zookeeper/stable/ wget http://apache.tt.co.kr/zookeeper/stable/apache-zookeeper-3.5.8-bin.tar.gz zookeeper home 설정 vi .
Read more… -
Mongodb_replica_set
Replica Set(RS) 복제 구성을 통한 DB HA(High Availability) 기능 이렇게 복제 구성된 그룹은 Replica Set이라 하며, 나아가 다수의 Replica Set을 함께 구성하여 쿼리의 분산 처리와 Scale out에 유리하게 구성한 형태를 Sharded Cluster 하나의 Replica Set은 이를 구성하는 3개 이상의 Member로 구성되며, 각각의 Member는 3가지 중 role(Primary, Secondary, Arbiter) 중 하나의 역할 주로 3개의 Member에 대하여 P-S-A(Primary-Secondary-Arbiter) 혹은 P-S-S(Primary-Secondary-Secondary) 구성이 일반적 : https://docs.
Read more… -
Mongodb_sharding
샤딩의 개념과 정의 샤딩의 목적 데이터의 분산 저장 백업과 복구 전략 빠른 성능 : 독립된 프로세스가 병렬로 작업을 수행하기 때문에 빠른 처리 성능 보장 샤딩 시스템 구조 https://elky84.github.io/images/mongodb_sharding_internals.jpg
Read more… -
MongoDB Query
데이터베이스 조회 show dbs; use test; mongotop 각 collection별 read write 속도 모니터링 mongodb 서버에서 query 응답이 느리다면, 어떤 컬렉션에 문제가 발생하고 있는지 확인할 수 있음 ./mongotop –host localhost –port 27017 -u user -p ‘password’ –authenticationDatabase admin mongostat query 실행 모니터링 DB 인스턴스의 각각 수행되고 있는 query 수와 network 사용량 등을 모니터링 실행 샘플 : .
Read more… -
Mongodb install on Mac
설치환경 OS : Mac Catalina 10.15.7 MonogDB: Community 4.4.4 다운로드 https://www.mongodb.com/try/download/community 심볼링크 설정 심볼링크를 이용해서 /usr/local/lib/ 하위에 관리한다. mv /Users/admin/Downloads /usr/local/mongodb-{version} ln -s /usr/local/mongodb-{version} /usr/local/lib/mongodb Path 추가 .
Read more… -
맵리듀스(MapReduce - Map + Reduce)
맵리듀스 프레임 분산 병렬 처리 방식으로 여러 개의 작업 노드에 작업을 분산하여 병렬 수행할 수 있는 프레입워크를 제공 맵리듀스 프레임워크 단계 단계 처리 담당 맵(Map)단계 분산된 데이터를 키(key)와 값(value)의 리스트로 모으는 단계 개발자 정의 셔플(Shuffle and Sort)단계 맵 단계에서 나온 중간 결과를 해당 리듀스 함수에 전달하는 단계 하둡(시스템)이 자동으로 처리 리듀스(Reduce)단계 리스트에서 원하는 데이터를 찾아서 집계하는 단계 개발자 정의
-
Error_and_resolve
Command ‘make’ not found, but can be installed with sudo apt-get install make make: gcc: Command not found sudo apt-get install build-essential sudo apt-get install libjasper-dev Reading package lists… Done Building dependency tree Reading state information… Done E: Unable to locate package libjasper-dev Reading package lists… Done Building dependency tree Reading state information… Done
Read more…