일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 전염병
- 코로나바이러스
- 중국외교부
- 필리핀사망
- wuhan
- cnn
- 미중
- 어서와한국은처음이지
- 조현병
- 봉준호감독통역
- 확진자수
- parasite
- 우한
- 우한코로나
- 신종코로나
- 진짜영웅
- Bolton
- 코로나19
- everybody wants you
- red hearse
- 우한 코로나
- 창궐
- 코로나
- 치앙마이
- 웨일즈
- 봉준호감독통역사
- 최성재
- 우한코로나바이러스
- 정은경 본부장님
- sharonchoi
- Today
- Total
목록분류 전체보기 (126)
오지's blog
잠시 여의도로 파견나왔다. 그런데 한강뷰가 너무 멋있다. 기록은 남겨야 겠다. @2022.06.07 비가오기전 구름이 가득낀 한강뷰
에러메세지: 100096 (22007): Can't parse 'y' as timestamp with format 'AUTO' 에러 발생 원인과 해결책 관련 에러 ValueError: unsupported format character 'Y' (0x59) at index 1530 파이썬에서는 %를 %%로 묶어야 문자열 %으로 인식한다.
Numeric value 'referral' is not recognized 정확하게는 다음과 같이 에러가 발생했다. 분명히 varchar값인데 숫자값이라며 값을 인지하지 못하여 넣을수 없다고 한다. SELECT T.$1, T.$2, T.$3, T.$4, T.$5, T.$6, T.$7 from @M/220509/ga/SOCIAL_MEDIUM.csv (FILE_FORMAT=>'O_ga_DPN_SOCIAL_MEDIUM') as T; insert를 하면 error가 발생하기 때문에 select문을 통해 우선 데이터를 조회해보았다. describe table table_name;의 쿼리로 6번째 컬럼의 type을 조사하니 number type이었다. 컬럼 순서가 바뀌면서 number타입의 데이터통에 varcha..
from cloudpathlib import CloudPath, S3Client client = S3Client(aws_access_key_id = '', aws_secret_access_key = '') cp = client.CloudPath("s3://bucket_name") cp.download_to("./") s3의 특정 버킷내 파일을 모두 다운로드 하는 방법은 awscli를 이용하는 방법, 클릭해서 모두 다운로드 하는 방법, boto3 라이브러리를 사용하는 방법이 있다. 이중에서 boto3의 wrapup클래스인 cloudpathlib을 이용하여 다운로드 할수 있다. 매우 간단
어이 없지만 .. 해결은 했다. 역시나 stackoverflow가 해결해주었다. 문제는 java_home의 path문제 였다.... 허무하다.이것때문에 하루를 꼬박 고민을 했을까? Reference. https://stackoverflow.com/questions/49340941/the-system-cannot-find-the-path-specified-error-while-running-pyspark The system cannot find the path specified error while running pyspark I just downloaded spark-2.3.0-bin-hadoop2.7.tgz. After downloading I followed the steps mentioned her..
크롤링해서 받은 csv파일에 bom문자가 있었다. 이것을 df = pd.read_csv(os.path.join(filefullpath, filename), encoding='utf-16', header=None) df.iloc[:,0] = df.iloc[:,0].apply(lambda x : x.replace("\ufeff","")) 이렇게 가져오면 문제가 주문번호와 같은 숫자같은 문자열에 .0이 붙어 float형으로 바뀌었다. 알고보니 dataframe에서 int타입인줄알고 읽었는데 nan값이 있으면 int타입은 nan값을 허용하지 않으므로 float형으로 자동적으로 바뀌는 문제가 있었다. 그렇다고 df.iloc[:,0] = DF.iloc[:,0].apply(lambda x : x.replace("\u..
11 Tips And Tricks To Write Better Python Code https://www.youtube.com/watch?v=8OKTAedgFYg 1. range(len(x))보다 enumerate(x)를 사용하자 2. for loop보다 list comprehension을 사용하자. import time sq = [] start = time.time() for i in range(0, 100000000): sq.append(i*i) end = time.time() print(end - start) start = time.time() sq = [i*i for i in range(0, 100000000)] end = time.time() print(end - start) 3. 복잡한 리스트..
-- CREATE -- WAREHOUSE CREATE OR REPLACE WAREHOUSE A_WH WAREHOUSE_SIZE=XSMALL MAX_CLUSTER_COUNT=1 MIN_CLUSTER_COUNT=1 SCALING_POLICY=ECONOMY AUTO_SUSPEND=60 AUTO_RESUME = TRUE; -- DATABASE CREATE OR REPLACE TRANSIENT DATABASE A_WDB; -- SCHEMA CREATE OR REPLACE TRANSIENT SCHEMA ODS; CREATE OR REPLACE TRANSIENT SCHEMA DW; CREATE OR REPLACE TRANSIENT SCHEMA DM; -- ROLE CREATE OR REPLACE ROLE READ_R..
크롬다운로드 및 설치 $ wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb $ sudo apt install ./google-chrome-stable_current_amd64.deb 크롬드라이버 다운로드 및 설치 $ wget https://chromedriver.storage.googleapis.com/100.0.4896.60/chromedriver_linux64.zip $ unzip chromedriver_linux64.zip
사전 작업. Spark 설치 https://ojjy.tistory.com/125 spark install (ec2환경 프리티어, ubuntu 20.04) 설치 환경 EC2프리티어 Ubuntu 20.04 $ sudo apt update $ sudo apt -y upgrade $ [ -f /var/run/reboot-required ] && sudo reboot -f JAVA설치 $ sudo apt install curl mlocate default-j.. ojjy.tistory.com -- snowflake jar라이브러리 다운로드 및 해당 path에 복사(py파일과 같은 path에 있음 가능) https://search.maven.org/search?q=snowflake 에서 snowflake-jdbc-..