-
업무 자동화 코딩캠프 #01 Series & DataFrame업무 자동화 제주도 코딩캠프 2019. 2. 16. 01:13
인공지능을 활용한 업무자동화 교육에 참여하게 되었다.
평소에도 구축하고 싶던 프로그램을 구현하는데 도움이 될 수 있을 것 같았고, 무엇보다 커리큘럼이 탄탄했다.
2. 15 (금) 오늘의 일과는 이러했다.
오전 시간에는 Python 에 대한 전반적인 지식을 복습했고,
19:00 부터는 실제로 Excel 을 다루며 업무자동화의 시작을 알리는 듯한 중요한 내용이 다뤄졌다.
7시간의 강의가 끝나고 녹초가 되서 방으로 들.어.왔.지.만!!
내용을 정리하는 시간이 필요할 것 같아서 다시 컴퓨터를 켰다.
#1 Jupyter notebook 환경설정
anaconda 를 설치한 뒤, Terminal 에서 원하는 폴더로 이동한 다음 'jupyter notebook' 을 입력했더니 다음과 같은 창이 나왔다.
New > Python 을 통해 ipynb 를 생성해주면 환경설정 끝!!
#2 Pandas, os, glob Module
Pandas 는 R 프로그래밍에 있던 기능들을 pythonic 하게 만든 모듈이며, 데이터를 분석하여 처리하는데 자주 쓰이는 모듈이다.
os 와 glob 모듈은 파일을 정리 및 관리하는데 유용한 모듈이며, 특히 glob 는 외부 파일을 열거나 찾을 때 주로 사용된다.
Pandas 에는 Series 와 DataFrame 이라는 두 종류의 자료구조가 있다.
그 중 먼저 Series 에 대해 알아보자.
#3 Series
Pandas 의 Series 는 1차원 배열과 같은 자료구조이다.
파이썬의 리스트와 튜플과 비교했을 때 Series 만이 가지는 특징이 무엇일까?
인자를 넘겨주면 인자값들이 인덱싱되는 것을 확인할 수 있다.
또한 series[0], series[1] 과 같이 Index 값을 통해 데이터에 접근할 수 있다.
또한 아래와 같이 index 자체를 지정해줄 수도 있다.
무엇보다 신기했던 것은 데이터를 가공하기 편했다는 점이다.
series < 5 에서 비교하는 것들이 각각의 요소에 적용되어 [True, True, False, False, False] 가 되고,
그리고 각각의 Bool 값이 차례대로 들어가 True 에 Match 된 데이터만 골라낼 수 있다는 것도 신기했다. (해당 index 만 출력)
다음과 같이 unique( ) 를 통해 중복제거를 할 수 있었다.
#4 DataFrame
DataFrame 은 여러개의 column 으로 구성된 2차원 형태의 자료구조이다.
자료들을 가공하고 그래프 등으로 나타내기 위해서는 다음과 같이 2차원 자료구조 형태가 적합하다.
각각의 Series 는 column 명을 Dictionary 의 key 처럼 사용하여 접근할 수 있었다.
Series 들의 집합이 DataFrame 이라고 생각하면 될 것 같다.
위키에 이렇게 시원하게 나와있었다 ㅎㅎ
'업무 자동화 제주도 코딩캠프' 카테고리의 다른 글
업무자동화 관련 서적 집필!! (0) 2019.03.12 업무 자동화 코딩캠프 #02 Selenium_inputData (0) 2019.02.20 업무 자동화 코딩캠프 #02 Selenium (0) 2019.02.19 업무 자동화 코딩캠프 #02 Crawling (0) 2019.02.18 업무 자동화 코딩캠프 #01 Access CSV Data (0) 2019.02.16 댓글