본문 바로가기
반응형

● 인공지능, 분석120

[4. CSV] 부동산 실거래가 분석하기. 조건 필터링 / 별도로 저장하기 1. rtdown.molit.go.kr/ 접속 http://rtdown.molit.go.kr/ rtdown.molit.go.kr 2. 파일 다운로드 3. 위 파일을 열어보면 15행까지 메타데이터 (자료에 대한 설명)이 있기에 15행까지 행을 삭제해준다. 4. 파일명을 apt_201910.csv로 변경 5. CSV형 리스트로 만들고 자료 가공하기 import os, re, usecsv # usecsv.py 파일과 같은 위치에 존재 apt = usecsv.switch(usecsv.opencsv('apt_201910.csv')) # apt는 리스트를 품을 리스트 print(apt[:3]) print(len(apt)) ''' 64731 ''' # apt는 리스트를 품은 리스트 # 헤더 인덱스를 출력해보자 pri.. 2021. 1. 11.
[4. CSV] CSV 파일 데이터 분석하기 Numpy, Pandas로 쉽게 데이터 분석이 가능하다. 하지만 CSV형 리스트 활용법을 배우는 이유는 1. 반복문과 조건문 연습에 도움 2. 파이썬의 리스트 기능(인덱스, 슬라이싱, 원소 꺼내기_pop 등) 사용 가능 3. 논리적 사고를 하는데 도움 import os, re, usecsv total = usecsv.opencsv('popseoul.csv') newPop = usecsv.switch(total) print(newPop[:4]) ''' [['Gu', 'Korean', 'Foreigner', 'Senior'], ['Total', 9740398.0, 285529.0, 1468146.0], ['Jongrogu', 151767.0, 11093.0, 27394.0], ['Jongru', 126409.. 2021. 1. 11.
[4. CSV] try except문 활용하기 하단 코드의 한계는 뭘까? >>> p = ['123Jongrogu', '151,000', '102,305' ,'25,456'] >>> for j in i : if re.search('[a-z가-힣]',j) : # 알파벳, 한글인 경우 그대로 사용 i[i.index(j)] = j # i.index(j)는 j가 있는 인덱스 번호 else : # 알파벳, 한글이 아닌 경우, 하단 형태로 수정 i[i.index(j)] = (float(re.sub(',','',j))) >>> i ['Jongrogu', 151767.0, 11093.0, 27394.0] 바로, p 요소 중 알파벳과 한글이 아닌 요소(특수문자, 빈 문자열 등)가 있을 때, 오류가 발생한다는 것이다 이 때 예외처리를 적용하면 간단해진다. >>> i =.. 2021. 1. 11.
[4. CSV] 수정한 요소 새로 적재하기 vs 수정한 요소 덮어쓰기 1. 수정한 요소 새로 적재하기 수정한 요소를 새로 적재하기 위해 리스트 타입의 k 객체를 만든다. >>> import re >>> p = ['123Jongrogu', '151,000', '102,305' ,'25,456'] >>> k = [] # 리스트 객체 >>> for j in p : if re.search('[a-z가-힣]', j) : # j에 알파벳이나 한글이 있다면 k.append(j) # 그대로 k에 저장 else : k.append(float(re.sub(',','',j))) >>> k ['123Jongrogu', 151000.0, 102305.0, 25456.0] 2. 수정한 요소 덮어쓰기 새 객체를 선언할 필요가 없이 그대로 덮어쓰자. 이를 위해선 인덱스를 활용하면 된다. >>> p =.. 2021. 1. 11.
[4. CSV] CSV 수정하기, 쉼표제거 수정할 파일 >>> import os,re >>> os.getcwd() 'C:\\WINDOWS\\System32' >>> os.chdir(r'C:\Users\JE\Desktop') >>> import usecsv >>> total = usecsv.opencsv('popSeoul.csv') # 이파일도 동일한 위치에 존재 >>> for i in total[:5] : print(i) ['Gu', 'Korean', 'Foreigner', 'Senior'] ['Total', '9,740,398', '285,529', '1,468,146'] ['Jongrogu', '151,767', '11,093', '27,394'] ['Jongru', '126,409', '10,254', '23,025'] ['Yongsangu.. 2021. 1. 9.
튜플이란? j = 1,444,000이 튜플이 되는 이유? 튜플이란?(출처링크1, 출처링크2)튜플(tuple)은 몇 가지 점을 제외하곤 리스트와 거의 비슷하며 리스트와 다른 점은 다음과 같다.리스트는 [ ]으로 둘러싸지만 튜플은 ( )으로 둘러싼다.리스트는 그 값의 생성, 삭제, 수정이 가능하지만 튜플은 요솟값은 한 번 정하면 지우거나 변경할 수 없다튜플은 값을 변화시킬 수 없다는 점만 제외하면 리스트와 완전히 동일 (인덱싱[1], 슬라이싱[1:], 길이len, 연산) 튜플의 형태# 빈 튜플을 제외하고 괄호를 쓰지 않아도 된다. >>> t1 = () # 빈 튜플은 괄호 >>> t2 = (1,) # 원소가 하나라면 원소, 로 표시 >>> t3 = (1, 2, 3) >>> t4 = 1, 2, 3 >>> t5 = ('a', 'b', ('ab', 'cd'))튜플의 특징.. 2021. 1. 7.
[4.csv] 엘리스 강의 academy.elice.io/courses/5455/lectures/36708 엘리스 :: elice 기업, 대학, 초중고교 단체 코딩교육, 엘리스와 함께! 무료 이벤트중! 디지털 트랜스포메이션(DT), 데이터 사이언스 기업 코딩 교육 전문 엘리스! elice.io 139 data.seoul.go.kr/dataList/419/S/2/datasetView.do 서울시 주민등록인구 (구별) 통계 데이터 이용하기-서울시 주민등록인구 (구별) 통계 data.seoul.go.kr do it 파이썬 생활프로그래밍 실습 파일 목록 github.com/skytreesea/do-it-python skytreesea/do-it-python Methods and classes in the book, "do i.. 2021. 1. 5.
[4. CSV] CSV 정의 / CSV 함수 만들기 1. CSV란? 조건식이 많고 처리 데이터 양이 많으면 엑셀 데이터가 아닌 CSV 데이터 형식으로 다뤄야 한다. CSV(Comma Separated Value) 정의 : 쉼표로 나눠진 값을 저장한 데이터 CSV 특징 : 1. 엑셀 자료를 불러와 복잡한 전산 작업 가능 2. 원형 그대로 가공하기 좋은 데이터 형식 3. 파이썬으로 불러와 복잡한 연산 수행이 가능 위와 같이 저장된 csv파일을 불러오면 comma로 구분된 형태를 볼 수 있다. 엑셀에 저장할 수 있는 CSV 파일 형식 1. CSV (쉼표 분리) : 프로그래밍용 2. CSV UTF-8 (쉼표 분리) : 한글 깨지는 문제 해결. 에디터, 인터프리터 환경에선 인코딩되지 않는 문제 발생가능 2. 파이썬으로 CSV 활용하기 파이썬으로 CSV파일의 내용을.. 2021. 1. 4.
[3. 정규표현식] 정규표현식 정규표현식이란 특정한 문자의 규칙을 찾고 가공하는 방법 정규표현식 모듈 re 사용하기 import re 정규표현식 re 모듈에서 match 메서드를 써보자. re.match + 용어 설명 match 메서드 : 문자열 중 원하는 패턴의 문자열을 찾는 명령어 메서드란, 클래스 안에 지정된 함수. 클래스란, 객체 지향 프로그래밍의 기본 단위. 2021. 1. 2.
[03.정규표현] 입출력 cmd창에서 진행 1. os 모듈의 함수를 쓰기 위해 os 모듈을 임포트한다. (모듈이란 다른 py프로그램을 불러써 사용할 수 있는 py파일이다. 모듈을 불러오는 행위를 import라고 한다) 2. 현 위치를 파악하자 : os.getcwd() 3. 저장 위치를 수정하자 os.chdir()을 통해 저장 위치를 수정한다. 괄호안에 위치를 넣을 때, 따옴표 안에 넣어야하고 \를 하나씩 더 넣어주거나 혹은 \없이 경로 앞에 r만 넣어줘도 된다. 1. 경로를 확인하고 2. 해당 경로에 어떤 파일들이 있는지 보자 2020. 12. 27.
[02.기초] return, print 위 함수에서 도출된 값(3)을 다른 명령어나 함수에 대입해보자 ex) result is x(대입대상) print()함수는 결과값을 화면에 출력만 하고 저장하지 않아 None으로 나온다. 반면 return함수는 결과값을 화면에 출력도 하고 저장까지 하여 정상 적으로 나타난다. 즉, print함수와 달리 함수의 결과값을 다른 곳(명령어, 함수)에 활용가능하다. 2020. 12. 27.
[02.기초] if 조건문 2020. 12. 27.
[02.기초] for 반복문 1~10까지의 수가 홀수인지 짝수인지 구분해보자 2020. 12. 27.
[02.기초] input 기본타입은? input 타입변경하기 input 기본타입은? input 타입변경하기 2020. 12. 27.
[02.기초] 변수 타입 변경, 반올림 함수 변수 타입 변경 반올림 함수 2020. 12. 27.
[02.기초] 함수 def, lambda 2020. 12. 27.
[경영선택] 비즈니스를 위한 핵심 AI/Data Science 개념. 데이터 과학자는 누구인가? 데이터 과학은 컴퓨터를 활용해서 데이터를 분석하고 현실 문제들을 해결하는 것 2012년 하버드 비즈니스 리뷰에서 소개된 데이터 과학자. 데이터 과학자에게 필요한 역량은? HBR에서 소개된 역량은 컴퓨터 활용 + 컴퓨터 분석 + 현실 문제 도메인 전문성의 중요성 - 비즈니스에 대한 이해를 의미 - 실무자들이 현업에서 발생한 문제를 가설로 설정하고 이 문제를 검증하는 것 - 문제 가설 아이디어 만약 도메인 전문성이 없이 프로그래밍 + 수학지식만 있다면 무엇이 문제이고 원인을 알기 어렵기에 현실의 문제를 해결하기 어려움 머신러닝 프로세스 2020. 12. 8.
[경영선택] 비즈니스를 위한 핵심 AI/Data Science 개념 살펴보기. 요약정리 데이터과학이란?컴퓨터를 이용해서 데이터를 분석하고 현실의 문제를 해결하는 작업 머신러닝이란?문제를 해결하기 위해 컴퓨터가 스스로 학습할 수 있도록 프로그래밍하고 스스로 학습된 결과를 통해서 규칙과 패턴을 만들어가고 찾아가는 것 타이타닉 실습을 통해서 배운 것10개의 평가 대상을 가지고 30개의 데이터에서 규칙, 패턴을 찾았음(많은 규칙이든 적은 규칙이든 점수를 높게 받는 것이 중요하다)평가 대상과 데이터가 적었기 때문에 직접 보면서 규칙, 패턴을 찾을 수 있었지만 만약 평가의 대상이 1000개이며, 3000개의 데이터를 통해 규칙, 패턴을 찾게 된다면?훨씬 더 많은 리소스가 필요해짐 머신러닝을 이용하면 패턴.규칙을 쉽게 찾을 수 있음새로운 데이터를 적용하기도 쉬움 2020. 12. 8.
반응형