본문 바로가기

AI/Computer Vision9

[3D] 3차원 좌표계 변환, World 좌표 → Camera 좌표 12.1 3차원 기하와 캘리브레이션Calibrataion : 어떤 좌표계 상의 점 → 다른 좌표계의 점 1) 세계 좌표계와 카메라 좌표계카메라는 세계 좌표계를 기준으로 이동 $\textbf{t}=\left(t_x,t_y,t_z\right)$ 과 회전 $ r_1, r_2, \ldots, r_9 $ 진행 세계 좌표계를 카메라 좌표계로 변환 :$ (x_w,y_w,z_w)\to(x_c,y_c,z_c) $ 회전과 이동이 작용하는 것을 나타내기 위해 보통 3 x 4 행렬 $(\textbf{R}|\textbf{t})$ 사용 (외부 행렬 extrinsic matrix) $\begin{pmatrix}x_c\\y_c\\z_c\end{pmatrix}=\begin{pmatrix}r_1&r_2&r_3&t_x\\r_4&r_.. 2025. 12. 5.
[CV] SR 기법에서 사용되는 Loss function Loss : 실제 값과 예측값의 차이를 수치화Optimizer : Loss function을 줄여나가면서 학습하는 방법 [Super resolution에서 사용되는 Loss function] 최신 SR 모델 논문 : MSE LOSS, L1 Loss 주로 사용함 1) SRGAN : Perceptual Loss “Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network”, 2017 CVPR” Perceptual Loss = Adversarial Loss + Content Loss의 가중치 합 사전 지식Discriminator : 만들어낸 데이터가 실제 데이터 → 1 return / 가짜 Fake 데이터라면 .. 2024. 12. 17.
[Yolov10] Custom Data 실습 코드 실습 중 경량화된 Object Detection 모델이 필요했고, Yolov10 nano를 학습해보기로 했음 #1.  Yolov10 Git clone & 가상환경 세팅경로 : /home/project/yolov10https://github.com/THU-MIG/yolov10 GitHub - THU-MIG/yolov10: YOLOv10: Real-Time End-to-End Object Detection [NeurIPS 2024]YOLOv10: Real-Time End-to-End Object Detection [NeurIPS 2024] - GitHub - THU-MIG/yolov10: YOLOv10: Real-Time End-to-End Object Detection [NeurIPS 2024]github.. 2024. 11. 18.
[Vision Transformer(ViT)] 코드 설명 및 인자 정리 [Vit 를 사용한 코드 구현 중 인자 정리 및 개념 정리] 참고 코드 : https://github.com/lucidrains/vit-pytorch/blob/main/vit_pytorch/vit.py vit-pytorch/vit_pytorch/vit.py at main · lucidrains/vit-pytorchImplementation of Vision Transformer, a simple way to achieve SOTA in vision classification with only a single transformer encoder, in Pytorch - lucidrains/vit-pytorchgithub.com class Transformer(nn.Module): def __init_.. 2024. 9. 23.
[멀티모달] 이미지 캡션 생성 이미지 캡셔닝: 모델은 이미지의 시각적 특징을 이해하고, 그에 맞는 자연어로 캡션을 생성함. 관련 대회 : https://dacon.io/competitions/official/236134/overview/description 설명 : https://velog.io/@yna/%EC%9D%B4%EB%AF%B8%EC%A7%80-%EC%BA%A1%EC%85%94%EB%8B%9D-%EB%AA%A8%EB%8D%B8 이미지 캡셔닝 모델1. 이미지 캡셔닝 이미지 캡셔닝은 컴퓨터 비전과 자연어 처리를 결합하여 이미지에 대한 자연어 설명을 생성하는 작업입니다. 이는 주어진 이미지에 대한 높은 수준의 이해와 텍스트 생성 능력velog.io Show and TellNIC 정보량은 Show and Tell 이 훨씬 많음 말.. 2024. 5. 30.
[실전! 컴퓨터 비전을 위한 머신러닝] 06. 전처리 전처리를 하는 이유 모양 변환, 데이터 품질 변환, 모델 품질 향상 등의 이유 모양 변환 tf.keras.layers.Flatten(input_shape =(512,256,3)) 모든 레이어는 생성 당시에 정한 명세에 맞는 이미지를 필요로함 512*256*3=393,216개의 입력 노드를 갖도록 만들어짐 데이터 품질 개선 햇빛이 비치는곳 / 그렇지 않은 곳 = > 밝기에 차이 생김 지구 상의 지점에 비치는 햇빛을 고려해 각 픽셀값을 정규화 할 수 있음 모델 품질 향상 픽셀값 조정, 데이터셋 증강 크기와 해상도 5장의 꽃 이미지 사용 이미지 크기가 제각각임 케라스 전처리 레이어 사용 입력레이어에서 예상하는 모양에 맞게 바꾸는 전처리를 진행해야 함 img = tf.image.resize(img, [IMG_H.. 2023. 10. 28.