일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 치앙마이
- 중국외교부
- 확진자수
- everybody wants you
- 우한 코로나
- 전염병
- parasite
- cnn
- 봉준호감독통역
- 코로나바이러스
- wuhan
- 어서와한국은처음이지
- 정은경 본부장님
- 우한
- 우한코로나바이러스
- 코로나19
- 창궐
- 조현병
- 우한코로나
- red hearse
- sharonchoi
- Bolton
- 코로나
- 봉준호감독통역사
- 신종코로나
- 미중
- 최성재
- 필리핀사망
- 웨일즈
- 진짜영웅
- Today
- Total
목록개발노트/Python (60)
오지's blog
mysql의 소스에서 snowflake의 target으로 데이터를 가져와 적재는 하는데 target에 그 해당날짜에 있는 데이터는 snowflake client를 통해서 삭제 하고 mysql의 데이터를 가져와 적재하였다. 그런데 아래와 같이 MySQL server has gone away (ConnectionResetError(104, 'Connection reset by peer')) sqlalchemy.exc.OperationalError: (pymysql.err.OperationalError) (2006, "MySQL server has gone away (ConnectionResetError(10054, '현재 연결은 원격 호스트에 의해 강제로 끊겼습니다', None, 10054, None))")..
from cloudpathlib import CloudPath, S3Client client = S3Client(aws_access_key_id = '', aws_secret_access_key = '') cp = client.CloudPath("s3://bucket_name") cp.download_to("./") s3의 특정 버킷내 파일을 모두 다운로드 하는 방법은 awscli를 이용하는 방법, 클릭해서 모두 다운로드 하는 방법, boto3 라이브러리를 사용하는 방법이 있다. 이중에서 boto3의 wrapup클래스인 cloudpathlib을 이용하여 다운로드 할수 있다. 매우 간단
어이 없지만 .. 해결은 했다. 역시나 stackoverflow가 해결해주었다. 문제는 java_home의 path문제 였다.... 허무하다.이것때문에 하루를 꼬박 고민을 했을까? Reference. https://stackoverflow.com/questions/49340941/the-system-cannot-find-the-path-specified-error-while-running-pyspark The system cannot find the path specified error while running pyspark I just downloaded spark-2.3.0-bin-hadoop2.7.tgz. After downloading I followed the steps mentioned her..
11 Tips And Tricks To Write Better Python Code https://www.youtube.com/watch?v=8OKTAedgFYg 1. range(len(x))보다 enumerate(x)를 사용하자 2. for loop보다 list comprehension을 사용하자. import time sq = [] start = time.time() for i in range(0, 100000000): sq.append(i*i) end = time.time() print(end - start) start = time.time() sq = [i*i for i in range(0, 100000000)] end = time.time() print(end - start) 3. 복잡한 리스트..
크롬다운로드 및 설치 $ wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb $ sudo apt install ./google-chrome-stable_current_amd64.deb 크롬드라이버 다운로드 및 설치 $ wget https://chromedriver.storage.googleapis.com/100.0.4896.60/chromedriver_linux64.zip $ unzip chromedriver_linux64.zip
사전 작업. Spark 설치 https://ojjy.tistory.com/125 spark install (ec2환경 프리티어, ubuntu 20.04) 설치 환경 EC2프리티어 Ubuntu 20.04 $ sudo apt update $ sudo apt -y upgrade $ [ -f /var/run/reboot-required ] && sudo reboot -f JAVA설치 $ sudo apt install curl mlocate default-j.. ojjy.tistory.com -- snowflake jar라이브러리 다운로드 및 해당 path에 복사(py파일과 같은 path에 있음 가능) https://search.maven.org/search?q=snowflake 에서 snowflake-jdbc-..
df.to_sql(name=f"{table_name}".lower(), con=engine, if_exists="replace", index=False, method=pd_writer) https://docs.snowflake.com/en/user-guide/python-connector-api.html#label-python-connector-api-write-pandas Python Connector API — Snowflake Documentation String constant stating the type of parameter marker formatting expected by the interface. The connector supports the "pyformat" type by def..
import json from common_libs.utils import project_path import pyspark from pyspark.sql import SparkSession spark = SparkSession.builder.master('local').appName("PySpark_MySQL_test").getOrCreate() spark.conf.set("jars", "mysql-connector-java-8.0.28.jar") with open(f"{project_path}/secret.json", "r") as fp: jcontents=json.loads(fp.read()) df = spark.read.format("jdbc").option("url", f"jdbc:mysql:/..
ubuntu에서 selenium으로 크롤링을 돌리던중 여러 파일을 다운로드 받는데 같은 이름이면 (1), (2)이렇게 파일 이름에 추가되는 것이 아니라 같은 파일에 덮어쓰기 형식으로 되어 파일이름을 변경하는 로직이 필요하였다. 그런데 분명이 그path에 파일을 변경하는데 자꾸 notfound에러가 발생한다. 디버깅을 하고 이유를 확인하려고 해도 쉽게 되지 않는다. 구글링을 해서 찾은 결과는 notfound에러는 해당 경로에 파일이 없다는 것인데 경록을 잘못 적었거나 absolute path와 relative path를 헷갈린 경우라고 한다. 해당 글의 필자가 나의 약점을 정확하게 파악하고 잇었다. 절대경로와 상대경로를 헷갈려 했던 것이다. 또 초보티를 냈다... project_path = os.path...
USER_DEFINED_MODULE이 분명 pycharm에서 import되었는데 EC2기반의 ubuntu환경에서는 module not found에러가 발생한다. from common_libs.utils import get_downloads_folder, set_downloads_folder, json_contents ModuleNotFoundError: No module named 'common_libs' 해결책 : export PYTHONPATH="${PYTHONPATH}:/home/ubuntu/prj/" 라고 project의 상위폴더를 위와 같이 export한다. ref https://towardsdatascience.com/how-to-fix-modulenotfounderror-and-importe..