업무 자동화 제주도 코딩캠프

업무 자동화 코딩캠프 #01 Access CSV Data

믿고걸음 2019. 2. 16. 09:48


 #1 os 와 glob 



우선 sample 파일들을 준비한다.






os.listdir('[path]')  파일리스트를 볼 수 있는 명령어 


glob('[ file to find ]')  원하는 파일을 찾을 때 사용하는 명령어




이 두 가지 명령어는 각각 리스트로 저장이 되며, 잘만 다룬다면 유용하게 쓰일 것 같다.






 #2 How to Access csv file  





실습시간에는 csv 파일에 접근했다.




즉, csv 파일은 데이터가 일반 텍스트로 저장되어 있기때문에 가공하기 편하다


(Excel 또한 csv 로 변환할 수 있다.)


출처 : http://www.hanbit.co.kr/media/channel/view.html?cms_code=CMS5222957204






Pandas 의 read_csv 를 통해 데이터에 접근할 수 있었다.







 #3 Functions  






dir(df) 를 print 해보니 함수들이 정 ~~ 말 많았다.

이 중 수업시간에 다뤘던 것을 위주로 정리해보았다.




df.head( ) , df.tail( ), df.describe( )




df.info( ), df.columns




Series 로 접근해서 유일한 값 만을 가져오는 것도 할 수 있었다.





df.cov( ) : 공분산




df.corr( ) : 상관관계



df.T


통계지식을 요구하는 함수라 아직은 낯설었다.



원하는 column 들을 뽑아서 새로운 데이터로 만들 수 있었고,



slicing 을 하는 다양한 방법들도 있었다.



slice 마다 조건을 줬던 df['alcohol'] 과 같은 개념으로 isin([ ....]) 이 있었는데, 이 또한 유용하게 사용될 것 같다.




pd.concat( A, B ) 

A, B 는 dataframe or series


다음과 같이 def 이나 lambda 를 사용해서 직접 만든 함수를 DataFrame 에 적용할 수 있었다.




df.rename(columns={'A': 'B'})

특정 column 의 이름을 바꿀 수도 있었다.




 #4 Visualization 



'%matplotlib inline' 을 추가하여 여러 형태의 그래프로 나타낼 수 있었다.






이를 마지막으로 첫날의 교육은 마무리 되었다.


이제 크롤링을 통해 csv 를 만들기만 하면 될 것 같다.