본문 바로가기

pandas2

[파이썬 팁] Apache Arrow로 Dataframe 빨리 읽기 Arrows는 Apache에서 만든 Python 도구로 Multi Thread로 파일을 읽어들인다고 한다. 상식적으로 여러 Thread에서 I/O를 병렬적으로 진행하면 오히려 느려질 것 같은데, 아무튼 빠르다. Columnar 저장 방식을 활용하고 기본 포맷으로 Parquet를 사용한다. 여러 포스팅들에서 다루고 있지만, row-based 방식에 비해 columnar는 컴퓨터가 다루기 쉬운 형태로 저장한다. Parquet는 사실상의 빅데이터 표준으로 자리 잡았고, 속도와 압축률이 무척 뛰어나다. 간단히, Arrow와 Pandas의 읽기 성능을 비교해보면 아래와 같다. 둘다 데이터분석에 활용하기 위한 Dataframe 형식으로 Load하였고, Arrow는 Parquet형식으로 읽어 dataframe으로 변.. 2021. 1. 7.
[Apple M1] Rosetta Terminal 실행과 Conda 설치 아직 M1에서는 많은 파이썬 라이브러리를 지원하지 않는다. Pandas를 포함해서.. 지난 포스팅에서 tensorflow와 jupyter 설치를 소개했는데, 결론적으로 안타깝게도 pandas는 tensorflow와 아직 함께 사용할 수 없다. tensorflow를 사용하지 않으면 rosetta와 conda를 이용해서 별도의 파이썬 환경을 실행하면 되는데, 딥러닝을 사용하지 않는 머신러닝 환경은 구성할 수 있다. 아니면 colab을 이용하든가. rosetta를 이용해 conda를 설치하려면 우선 rosetta용 터미널을 실행해야 하는데, 우선 Finder의 '이동' 메뉴로 간다. '유틸리티'를 선택하면 터미널이 있는데, 이를 오른 버튼을 눌러 '복제' 메뉴 선택으로 하나 더 만든다. 이름을 바꾸고(예. 로.. 2020. 12. 30.