일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 좌표거리
- docker
- MESH
- STL
- 패치분할
- 이미지빌드
- osmnx
- 도커
- GIS
- 도커 레이어
- 그리드분할
- GNN
- 3d데이터
- 귀여운고래
- 컨테이너
- graph
- Python
- 3d
- 데이터입수
- python최단거리
- 동명이인찾기
- 폴더조사
- pyvista
- 파이썬
- GCN
- 지하철역좌표
- geopandas
- geojson
- Set
- 알고리즘
- Today
- Total
목록Data Science/ML & DL (22)
이것저것 기록
한동안 데이터 분석 쪽을 엄청 파다가, 요즘은 머신러닝을 공부하고 있다. 머신러닝은 이미 엄청나게 성능이 좋은 프레임워크가 많이 개발 돼 있고, 또 이것들이 사용하기 편하게 라이브러리로 전부 제공하고 있다. (그래서 나는 생각보다 쉽게 쉽게 배우고 있다. 적어도 딥러닝 처음 배울 때만큼 막막하진 않은 듯?) 머신러닝 모델은 사이킷런에서 그냥 함수 갖다쓰듯이 사용하면 되기 때문에, 사실 머신러닝을 적용할 때에 가장 중요한 부분은 '데이터 전처리'인 것 같다. 그래서 오늘은 내가 강의를 들으면서 배운 머신러닝 모델에 데이터를 넣기 전, 전처리를 도와주는 함수와 내용들을 포스팅 해보려고 한다. 내 돈 주고 공부 중인데 까먹을까봐 이렇게 기록해두려는 목적도 있고...ㅋㅋㅎ 공부하면서 작성한 코드와 샘플 데이터는..
데이터 간 거리를 측정하는 방법에는 여러 가지 방법이 있다. 거리를 측정하는 이유는, 데이터 간 거리가 '유사도'를 나타내기 때문이다. 오늘은 다음 링크에서 소개하는 데이터 유사성 측정방법을 나열해보려고 한다. towardsdatascience.com/9-distance-measures-in-data-science-918109d069fa 9 Distance Measures in Data Science The advantages and pitfalls of common distance measures towardsdatascience.com 머신러닝 (혹은 딥러닝)을 다루게 된다면 데이터들 간 유사도 측정은 거의 필수이기 때문에 이렇게 정리 해놓으면 내가 (혹은 누군가가) 언젠가 유용하게 쓰게 될 거라 믿..
graph2vec의 근간이 된 doc2vec와 word2vec에 대해 조금 더 자세히 기록해보려고 한다. Word2Vec 1. word2vec 개요 word2vec은 비슷한 문맥(context)를 지니는 단어를 비슷한 벡터로 표현하는 distributed word representation 방법이다. 여기서 비슷한 문맥이란, 내가 임베딩 하고자 하는 단어 근처의 단어를 뜻한다. '사랑'이라는 단어를 '사랑'이라는 단어의 사전적 의미가 아닌, '사랑'이라는 단어와 함께 쓰여지는 단어(문맥)들로 사랑의 임베딩 벡터를 만드는 것이다. 살짝 문과적 감성을 섞어보자면 나는 이 방법론에 굉장한 감동을 느꼈다. 사랑, 우정, 의리와 같은 감정을 나타내거나 눈에 보이지 않는 현상을 의미하는 단어들은 사전적 정의로 그것..
1. 그래프 임베딩이란 Graph embeddings are the transformation of properties of a graph to a vector or a set of vectors. 그래프 구조의 데이터의 차원을 축소하여 low-dimention 벡터로 표현하는 것 2. 그래프 임베딩의 이유 ML on graphs is limited Embeddings are a compressed representation Vector operations are simpler and faster >> 그래프는 이미지나 시계열과 같이 정형적인 형태의 데이터가 아니다. 때문에 그래프 구조를 가지고 그래프 분류든 예측이든, ML을 활용하여 뭔가를 하기엔 매우 불편하다. 예를 들어보자. CNN의 학습 데이터로..
"...we learn how to aggregate feature information from a node's local neighborhood (e.g. the degrees or text attributes of enarby nodes)." 1. Before graphSAGE... 기존의 그래프 노드 임베딩 방법론에는 factorization-based embedding approach, supervised learning over graphs, GCN이 있었다. Factorization-based embedding approach: Learn low-dimensional embeddings using random walk. statistics and matrix factorization-base..