'개발노트' 카테고리의 글 목록 (6 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

목록개발노트 (114)

오지's blog

selenium을 이용한 크롤링 준비 - chrome driver설치(ubuntu 20.04)

크롬다운로드 및 설치 $ wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb $ sudo apt install ./google-chrome-stable_current_amd64.deb 크롬드라이버 다운로드 및 설치 $ wget https://chromedriver.storage.googleapis.com/100.0.4896.60/chromedriver_linux64.zip $ unzip chromedriver_linux64.zip

개발노트/Python 2022. 4. 10. 21:24

pyspark를 통해 snowflake데이터 베이스 연결하고 데이터 가져오기

사전 작업. Spark 설치 https://ojjy.tistory.com/125 spark install (ec2환경 프리티어, ubuntu 20.04) 설치 환경 EC2프리티어 Ubuntu 20.04 $ sudo apt update $ sudo apt -y upgrade $ [ -f /var/run/reboot-required ] && sudo reboot -f JAVA설치 $ sudo apt install curl mlocate default-j.. ojjy.tistory.com -- snowflake jar라이브러리 다운로드 및 해당 path에 복사(py파일과 같은 path에 있음 가능) https://search.maven.org/search?q=snowflake 에서 snowflake-jdbc-..

개발노트/Python 2022. 4. 5. 14:30

spark install (ec2환경 프리티어, ubuntu 20.04)

설치 환경 EC2프리티어 Ubuntu 20.04 $ sudo apt update $ sudo apt -y upgrade $ [ -f /var/run/reboot-required ] && sudo reboot -f JAVA설치 $ sudo apt install curl mlocate default-jdk -y 설치 및 JAVA버전 확인 $ java --version SPARK설치 파일 다운로드 $ wget https://dlcdn.apache.org/spark/spark-3.2.1/spark-3.2.1-bin-hadoop3.2.tgz 설치 파일 압축풀기 $ tar -xvf spark-3.2.1-bin-hadoop3.2.tgz $ sudo mv spark-3.2.1-bin-hadoop3.2/ /opt/spa..

개발노트/서버 관리 2022. 4. 5. 12:23

MissingDependencyError: Missing optional dependency: pandas 에러 발생

df.to_sql(name=f"{table_name}".lower(), con=engine, if_exists="replace", index=False, method=pd_writer) https://docs.snowflake.com/en/user-guide/python-connector-api.html#label-python-connector-api-write-pandas Python Connector API — Snowflake Documentation String constant stating the type of parameter marker formatting expected by the interface. The connector supports the "pyformat" type by def..

개발노트/Python 2022. 4. 4. 15:44

pyspark 으로 MYSQL접속하여 table select(ssl) - java.lang.ClassNotFoundException: com.mysql.cj.jdbc.Driver 에러 발생

import json from common_libs.utils import project_path import pyspark from pyspark.sql import SparkSession spark = SparkSession.builder.master('local').appName("PySpark_MySQL_test").getOrCreate() spark.conf.set("jars", "mysql-connector-java-8.0.28.jar") with open(f"{project_path}/secret.json", "r") as fp: jcontents=json.loads(fp.read()) df = spark.read.format("jdbc").option("url", f"jdbc:mysql:/..

개발노트/Python 2022. 4. 4. 12:29

selenium으로 파일을 다운로드 받고 파일이름 변경시 FileNotFoundError

ubuntu에서 selenium으로 크롤링을 돌리던중 여러 파일을 다운로드 받는데 같은 이름이면 (1), (2)이렇게 파일 이름에 추가되는 것이 아니라 같은 파일에 덮어쓰기 형식으로 되어 파일이름을 변경하는 로직이 필요하였다. 그런데 분명이 그path에 파일을 변경하는데 자꾸 notfound에러가 발생한다. 디버깅을 하고 이유를 확인하려고 해도 쉽게 되지 않는다. 구글링을 해서 찾은 결과는 notfound에러는 해당 경로에 파일이 없다는 것인데 경록을 잘못 적었거나 absolute path와 relative path를 헷갈린 경우라고 한다. 해당 글의 필자가 나의 약점을 정확하게 파악하고 잇었다. 절대경로와 상대경로를 헷갈려 했던 것이다. 또 초보티를 냈다... project_path = os.path...

개발노트/Python 2022. 3. 30. 16:08

ModuleNotFoundError: No module named USER_DEFINED_MODULE

USER_DEFINED_MODULE이 분명 pycharm에서 import되었는데 EC2기반의 ubuntu환경에서는 module not found에러가 발생한다. from common_libs.utils import get_downloads_folder, set_downloads_folder, json_contents ModuleNotFoundError: No module named 'common_libs' 해결책 : export PYTHONPATH="${PYTHONPATH}:/home/ubuntu/prj/" 라고 project의 상위폴더를 위와 같이 export한다. ref https://towardsdatascience.com/how-to-fix-modulenotfounderror-and-importe..

개발노트/Python 2022. 3. 23. 16:16

AWS EC2처음 접속시 permission 에러

(base) yjjo@yjjo-macpro workspaces % ssh -i websrv.pem ubuntu@54.180.135.135.208 ssh: Could not resolve hostname 54.180.135.135.208: nodename nor servname provided, or not known (base) yjjo@yjjo-macpro workspaces % ssh -i websrv.pem ubuntu@54.180.135.208 The authenticity of host '54.180.135.208 (54.180.135.208)' can't be established. ED25519 key fingerprint is SHA256:mJIFI7WbfyMg7MYmEf/bdAJAs+Y+..

개발노트/서버 관리 2022. 3. 20. 21:42

db의 table에서 csv로 변환시 한글깨짐 현상

for table_name in table_list: tbl = pd.read_sql_query(f"SELECT * FROM {table_name}", con=conn) tbl.to_csv(f'{file_path}/{table_name}.csv', index=False, header=True, encoding='utf-8') 다음과 같이 해당 db에서 table전체를 select하고 csv로 변경하는데 문제는 이때 한글이 깨진다. 이런 경우, encoding값을 utf-8이 아닌 utf-8-sig로 변경하자. for table_name in table_list: tbl = pd.read_sql_query(f"SELECT * FROM {table_name}", con=conn) tbl.to_csv(f'{f..

개발노트/Python 2022. 3. 17. 15:58

selenium으로 크롤링시 다운로드시 특정 파일에 넣기

url = 'https://www.google.com/' chrome_options = webdriver.ChromeOptions() prefs = {'download.default_directory': download_folder_fullpath} chrome_options.add_experimental_option('prefs',prefs) chrome_options.headless=True driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options) driver.get(url) 위 코드에서 중요한 것은 prefs = {'download.default_directory': downlo..

개발노트/Python 2022. 3. 8. 21:59

Prev 1 ··· 3 4 5 6 7 8 9 ··· 12 Next

목록개발노트 (114)

오지's blog

티스토리툴바