달력

11

« 2024/11 »

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
728x90
반응형

데이터 프레임을 자주 사용하다 보면

각 셀별로 데이터의 길이를 구해서 판단을 해야 하는 경우도 발생하게 된다.

 

예를 들어 아래와 같은 전화번호 컬럼이 있다고 가정해보자.

import pandas as pd
data = [['John', 45, '010-1234-4589'],['Will', 20, '02-1234-1324'],['Ai', 13, '123']]
df = pd.DataFrame(data,columns=['Name','Age', 'Telephone'])
df

 

다양한 방법들이 존재하겠지만,

전화번호 영역에 다른 이상한 것이 끼어있다면 아래와 같이 len( ) 함수를 이용해서 간단하게 처리 할 수 있다.

 

df['Telephone'].apply(len)

len 함수를 사용하게 되면 각 row 별로 리턴해준다.

아래와 같이 조건에 맞게 설정한뒤 다시 데이터프레임으로 저장하면 쓸데없는 값을 쉽게 해결할 수 있다.

df = df[df['Telephone'].apply(len) >= 12]
df

 

간단하지만 많은 부분에서 사용할 수 있을 것라고 생각해본다.

728x90
반응형
:
Posted by 패치#노트