ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 업무 자동화 코딩캠프 #01 Series & DataFrame
    업무 자동화 제주도 코딩캠프 2019. 2. 16. 01:13








    인공지능을 활용한 업무자동화 교육에 참여하게 되었다.


    평소에도 구축하고 싶던 프로그램을 구현하는데 도움이 될 수 있을 것 같았고, 무엇보다 커리큘럼이 탄탄했다.

    2. 15 (금) 오늘의 일과는 이러했다.




    오전 시간에는 Python 에 대한 전반적인 지식을 복습했고, 

    19:00 부터는 실제로 Excel 을 다루며 업무자동화의 시작을 알리는 듯한 중요한 내용이 다뤄졌다.

    7시간의 강의가 끝나고 녹초가 되서 방으로 들.어.왔.지.만!!


    내용을 정리하는 시간이 필요할 것 같아서 다시 컴퓨터를 켰다. 






     #1 Jupyter notebook 환경설정 


    anaconda 를 설치한 뒤, Terminal 에서 원하는 폴더로 이동한 다음 'jupyter notebook' 을 입력했더니 다음과 같은 창이 나왔다.  



    New > Python 을 통해 ipynb 를 생성해주면 환경설정 끝!!





     #2 Pandas, os, glob Module 


    Pandas 는 R 프로그래밍에 있던 기능들을 pythonic 하게 만든 모듈이며, 데이터를 분석하여 처리하는데 자주 쓰이는 모듈이다.

    os 와 glob 모듈은 파일을 정리 및 관리하는데 유용한 모듈이며, 특히 glob 는 외부 파일을 열거나 찾을 때 주로 사용된다.


    Pandas 에는 Series 와 DataFrame 이라는 두 종류의 자료구조가 있다. 

    그 중 먼저 Series 에 대해 알아보자.




     #3 Series 


    Pandas 의 Series 는 1차원 배열과 같은 자료구조이다. 

    파이썬의 리스트와 튜플과 비교했을 때 Series 만이 가지는 특징이 무엇일까?





    인자를 넘겨주면 인자값들이 인덱싱되는 것을 확인할 수 있다. 

    또한 series[0], series[1] 과 같이 Index 값을 통해 데이터에 접근할 수 있다.



    또한 아래와 같이 index 자체를 지정해줄 수도 있다.







    무엇보다 신기했던 것은 데이터를 가공하기 편했다는 점이다.



    series < 5 에서 비교하는 것들이 각각의 요소에 적용되어 [True, True, False, False, False] 가 되고,



    그리고 각각의 Bool 값이 차례대로 들어가 True 에 Match 된 데이터만 골라낼 수 있다는 것도 신기했다. (해당 index 만 출력)



    다음과 같이 unique( ) 를 통해 중복제거를 할 수 있었다.













     #4 DataFrame 



    DataFrame 은 여러개의 column 으로 구성된 2차원 형태의 자료구조이다. 

    자료들을 가공하고 그래프 등으로 나타내기 위해서는 다음과 같이 2차원 자료구조 형태가 적합하다.



    각각의 Series 는 column 명을 Dictionary 의 key 처럼 사용하여 접근할 수 있었다.




    Series 들의 집합이 DataFrame 이라고 생각하면 될 것 같다.




    위키에 이렇게 시원하게 나와있었다 ㅎㅎ















    댓글

Designed by Tistory.