본문 바로가기
Big Data/Spark

[Spark] RDD의 연산 기본 함수 예제

by @__100.s 2022. 1. 5.
반응형
  • movies.csv 파일에 있는 영화의 장르 중 "Action" 이 포함된 영화의 갯수를 세어서 출력하는 스파크 프로그램

  • movies.csv에 있는 영화 이름 중 unique한 값만을 추출해 낸 후 해당 rdd로 부터 임의의 (random) 제목만 10개를 선정하여 출력하는 프로그램

  • tags.csv 파일에서 가장 많이 태그된 값과 해당 태그가 사용된 횟수를 함께 출력하는 프로그램

  • ratings.csv 에 표현된 전체 영화의 평점을 계산하는 프로그램

  • ratings.csv 에 표현된 영화별 평점을 계산하여 movieid 와 평균 평점을 계산하여 평점이 가장 높은 상위 100개 영화의 movie id 와 평균 평점을 출력하는 프로그램

  • ratings.csv 파일로 부터 영화별 평점을 계산 한 후 영화 평점이 기록된 횟수가 100회 이상인 영화 중 평점기준 상위 10개 영화를 영화 아이디, 영화 제목 (movies.csv 참조), 평점을 출력하는 프로그램

반응형