Scala에서 count () 함수로 생성 된 열의 이름을 바꾸는 방법

debugcn 에 게시 Dev

벤 카타 두부 리

아래 df가 있습니다.

+------+-------+--------+
|student|  vars|observed|
+------+-------+--------+
|  1|   ABC   |      19|
|  1|    ABC   |       1|
|  2|    CDB   |       1|
|  1|    ABC   |       8|
|   3|   XYZ   |       3|
|  1|    ABC   |     389|
|   2|   CDB   |     946|
|  1|    ABC   |     342|
|+------+-------+--------+

SCALA에서 두 개의 열 "student", "vars"로 새로운 빈도 열 groupBy 를 추가 하고 싶었습니다 .

val frequency = df.groupBy($"student", $"vars").count()

이 코드는 빈도가있는 "count"열을 생성 하지만 df에서 관찰 된 열이 손실됩니다 .

"관찰 된"열을 잃지 않고 다음과 같이 새 df를 만들고 싶습니다.

+------+-------+--------+------------+
|student|  vars|observed|total_count |
+------+-------+--------+------------+
|  1|   ABC   |        9|22
|  1|    ABC   |       1|22
|  2|    CDB   |       1|7
|  1|    ABC   |       2|22
|   3|   XYZ   |       3|3
|  1|    ABC   |       8|22
|   2|   CDB   |       6|7
|  1|    ABC   |       2|22
|+------+-------+-------+--------------+

사티 얀 S

직접 할 수는 없지만 몇 가지 방법이 있습니다.

원본 df와 count df를 결합 할 수 있습니다. 여기에서 확인
observed집계를 수행하는 동안 열을 수집하고 explode다시

와 함께 explode:

 val frequency = df.groupBy("student", "vars").agg(collect_list("observed").as("observed_list"),count("*").as("total_count")).select($"student", $"vars",explode($"observed_list").alias("observed"), $"total_count")

scala> frequency.show(false)
+-------+----+--------+-----------+
|student|vars|observed|total_count|
+-------+----+--------+-----------+
|3      |XYZ |3       |1          |
|2      |CDB |1       |2          |
|2      |CDB |946     |2          |
|1      |ABC |389     |5          |
|1      |ABC |342     |5          |
|1      |ABC |19      |5          |
|1      |ABC |1       |5          |
|1      |ABC |8       |5          |
+-------+----+--------+-----------+

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-2

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

Scala에서 count () 함수로 생성 된 열의 이름을 바꾸는 방법

Scala에서 count () 함수로 생성 된 열의 이름을 바꾸는 방법

객체 내에서 배열을 분해하고 생성 된 변수의 이름을 바꾸는 방법은 무엇입니까?

새로 생성 된 ActiveX 버튼의 이름을 바꾸는 방법은 무엇입니까?

R에 백 슬래시가 포함 된 열 내의 문자열 이름을 바꾸는 방법

두 개의 객체 배열로 구성된 객체에서 키 / 값 쌍을 바꾸는 방법

지정된 키로 다차원 배열의 이름을 바꾸는 방법

의 gnuplot에서 3 열로 된 데이터 파일을 생성하는 방법

문자열 패턴의 모든 발생을 문자열이 발견 된 순서에 따라 문자열과 일치하는 숫자로 바꾸는 방법

ClickHous에서 수학보기의 이름을 바꾸는 방법

R에서 빈도로 값의 이름을 바꾸는 방법

R : 열의 값을 중복 된 난수로 바꾸는 방법

이름에 특정 문자열이 포함 된 일부 폴더에서만 파일의 문자열을 바꾸는 방법

필수 구성 요소의 이름을 바꾸는 방법

서버리스 프레임 워크로 생성 된 Arn 및 AWS Lambda 함수의 이름을 참조하는 방법

기능별로 그룹별로 생성 된 인덱스의 이름을 바꾸는 방법은 무엇입니까?

목록에 추가 된 항목의 이름을 동적으로 바꾸는 방법

boost :: python으로 생성자의 키워드 인수 이름을 바꾸는 방법

함수에 전달 된 배열을 이름으로 할당하는 방법

정규식에서 두 개 이상의 문자로 된 문자열이 식 vb.net을 바꾸는 방법

Pandas에서 여러 열의 열 이름으로 다른 열의 값을 바꾸는 방법

Pandas에서 bool 열의 이름을 바꾸는 방법

Mac에서 생성 시간을 기준으로 디렉토리의 파일 목록 이름을 바꾸는 방법

함수 내에서 생성 된 상관 행렬의 행과 열을 재정렬하는 방법

sjPlot으로 생성 된 플롯에서 범례 순서를 바꾸는 방법

마지막 행의 NULL을 Oracle에서 Lead () 함수가 적용된 동일한 열의 값으로 바꾸는 방법은 무엇입니까?

maxBytes를 현재 datetime.log로 초과 한 후 rotateFileHandler에서 생성 할 로그 파일의 이름을 바꾸는 방법은 무엇입니까?

OSX에서 생성 날짜별로 파일 이름을 바꾸는 방법은 무엇입니까?

Eloquent에서 속성의 이름을 바꾸는 방법은 무엇입니까?

문자열이 포함 된 목록을 정수가 포함 된 목록으로 바꾸는 방법 (Python)

JSON 속성 이름을 기반으로 문자열 값을 바꾸는 방법