Pig를 사용하여 HDFS의 여러 파티션 된 파일에 데이터를 저장하는 방법

debugcn 에 게시 Dev

퓨리어스 조지

많은 수의 로그 파일을 분석하고 속성 그룹과 해당 속성을 가진 ID 백 사이의 관계를 생성하는 돼지 작업이 있습니다. 이 관계를 HDFS에 저장하고 싶지만 다른 Hive / Pig / MapReduce 작업이 전체 데이터를 수집하지 않고도 데이터 또는 데이터의 하위 집합에서 작동하는 데 친숙한 방식으로 저장하고 싶습니다. 상당한 양의 데이터이므로 내 돼지 작업의 출력.

예를 들어 내 관계의 스키마가 다음과 같은 경우

relation: {group: (attr1: long,attr2: chararray,attr3: chararray),ids: {(id: chararray)}}

이 데이터를 분할하여 다음과 같은 파일 구조에 저장하고 싶습니다.

/results/attr1/attr2/attr3/file(s)

여기서 경로의 attrX 값은 그룹의 값이고 파일에는 ID 만 포함됩니다. 이렇게하면 데이터를 복제하지 않고도 후속 분석을 위해 데이터를 쉽게 하위 집합으로 만들 수 있습니다.

맞춤형 StoreFunc로도 그런 일이 가능합니까? 이 목표를 달성하기 위해 취해야 할 다른 접근 방식이 있습니까?

나는 Pig를 처음 접했기 때문에 내 접근 방식에 대한 도움이나 일반적인 제안을 크게 주시면 감사하겠습니다.

미리 감사드립니다.

퓨리어스 조지

Multistore는 제가하려는 작업에 완벽하게 맞지는 않았지만 여러 분할 된 출력 파일을 작성하는 사용자 지정 StoreFunc를 작성하는 방법에 대한 좋은 예였습니다. Pig 소스 코드를 다운로드하고 각 항목을 사용하여 HDFS 경로를 구축하는 그룹 튜플을 구문 분석 한 다음 ID 백을 구문 분석하여 결과 파일에 한 줄에 하나의 ID를 씁니다.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-06-1

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

Pig를 사용하여 HDFS의 여러 파티션 된 파일에 데이터를 저장하는 방법

Pig를 사용하여 HDFS의 여러 파티션 된 파일에 데이터를 저장하는 방법

PHP를 사용하여 CSV 파일의 데이터를 데이터베이스에 저장하는 방법

ConfigParser를 사용하여 python 파일의 .properties 파일에 저장된 속성에 액세스하는 방법

numpy를 사용하여 행 및 열 형식의 .csv 파일에 데이터를 저장하는 방법

matplotlib를 사용하여 여러 플롯을 루프의 파일에 저장하는 방법

Pig를 사용하여 파티션이있는 HDFS의 Parquet 테이블에서로드하고 파티션을 열로 추가 할 수 있습니까?

CSV 파일에 저장된 여러 URL의 URL 상태를 확인하고 결과를 새 CSV 파일에 저장하는 방법

다른 Linux OS를 사용하여 다른 파티션의 파일에 액세스하는 방법

앵커 태그를 사용하여 MySQL 테이블에 저장된 PDF 파일을 여는 방법

Firebase 함수를 사용하여 Firebase 저장소에 저장된 파일의 json 콘텐츠를 반환하는 방법

JavaScript를 사용하여 처리 된 데이터를 텍스트 파일에 저장하는 방법은 무엇입니까?

ffmpeg를 사용하여 동영상 파일의 헤더에 사용자 정의 데이터를 저장하는 방법은 무엇입니까?

Sqoop을 사용하여 MySql에서 HDFS로 데이터를 가져 오는 경우 HDFS에 저장된 파일 형식은 무엇입니까?

파이썬에서 파일의 같은 줄에 나열된 여러 입력 데이터를 읽는 방법

생성 된 PDF 파일을 Java를 사용하여 MySQL 데이터베이스에 저장하는 방법은 무엇입니까?

이미 분할 된 데이터를 분할하고 R의 여러 폴더에 저장하는 방법

MySQL DB를 사용하여 메타 데이터를 저장하고 파일 시스템을 사용하여 해당 메타 데이터와 관련된 파일을 저장하도록 Apache Jackrabbit을 설정하는 방법

여러 파일에서 데이터를 읽고 다른 파일에 저장하는 방법

파일러 API를 사용하여 데이터 테이블에서 데이터를 필터링하는 방법

pig를 사용하여 hdfs에서 트위터 데이터를로드하는 방법은 무엇입니까?

sed를 사용하여 변수에 저장된 파일 이름에 쓰는 방법은 무엇입니까?

sed를 사용하여 변수에 저장된 파일 이름에 쓰는 방법은 무엇입니까?

셀레늄을 사용하여 파일에 데이터를 저장하는 방법

openpyxl을 사용하여 qtablewidget 데이터를 Excel 파일에 저장하는 방법

HDFS를 사용하여 다양한 크기의 파일 저장

XSL을 사용하여 병합 한 후 여러 XML 파일의 모든 데이터를 처리하는 방법

sed를 사용하여 문자열에 저장된 파일을 편집하는 방법은 무엇입니까?

Nodejs를 사용하여 폴더의 파일 이름으로 데이터를 CSV 파일에 쓰는 방법

newCell.Text를 사용하여 .cs 파일에서 빌드 된 여러 확인란에서 데이터를 검색하는 방법

Python Kivy를 사용하여 Android 기기의 파일에 가속 데이터를 저장하는 방법은 무엇입니까?