-
업무 자동화 코딩캠프 #01 Access CSV Data업무 자동화 제주도 코딩캠프 2019. 2. 16. 09:48
#1 os 와 glob
우선 sample 파일들을 준비한다.
os.listdir('[path]') 파일리스트를 볼 수 있는 명령어
glob('[ file to find ]') 원하는 파일을 찾을 때 사용하는 명령어
이 두 가지 명령어는 각각 리스트로 저장이 되며, 잘만 다룬다면 유용하게 쓰일 것 같다.
#2 How to Access csv file
실습시간에는 csv 파일에 접근했다.
즉, csv 파일은 데이터가 일반 텍스트로 저장되어 있기때문에 가공하기 편하다
(Excel 또한 csv 로 변환할 수 있다.)
출처 : http://www.hanbit.co.kr/media/channel/view.html?cms_code=CMS5222957204
Pandas 의 read_csv 를 통해 데이터에 접근할 수 있었다.
#3 Functions
dir(df) 를 print 해보니 함수들이 정 ~~ 말 많았다.
이 중 수업시간에 다뤘던 것을 위주로 정리해보았다.
df.head( ) , df.tail( ), df.describe( )
df.info( ), df.columns
Series 로 접근해서 유일한 값 만을 가져오는 것도 할 수 있었다.
df.cov( ) : 공분산
df.corr( ) : 상관관계
df.T
통계지식을 요구하는 함수라 아직은 낯설었다.
원하는 column 들을 뽑아서 새로운 데이터로 만들 수 있었고,
slicing 을 하는 다양한 방법들도 있었다.
slice 마다 조건을 줬던 df['alcohol'] 과 같은 개념으로 isin([ ....]) 이 있었는데, 이 또한 유용하게 사용될 것 같다.
pd.concat( A, B )
A, B 는 dataframe or series
다음과 같이 def 이나 lambda 를 사용해서 직접 만든 함수를 DataFrame 에 적용할 수 있었다.
df.rename(columns={'A': 'B'})
특정 column 의 이름을 바꿀 수도 있었다.
#4 Visualization
'%matplotlib inline' 을 추가하여 여러 형태의 그래프로 나타낼 수 있었다.
이를 마지막으로 첫날의 교육은 마무리 되었다.
이제 크롤링을 통해 csv 를 만들기만 하면 될 것 같다.
'업무 자동화 제주도 코딩캠프' 카테고리의 다른 글
업무자동화 관련 서적 집필!! (0) 2019.03.12 업무 자동화 코딩캠프 #02 Selenium_inputData (0) 2019.02.20 업무 자동화 코딩캠프 #02 Selenium (0) 2019.02.19 업무 자동화 코딩캠프 #02 Crawling (0) 2019.02.18 업무 자동화 코딩캠프 #01 Series & DataFrame (0) 2019.02.16 댓글