Desafios e Avanços na Detecção de Objetos Pequenos
Saiba mais sobre a importância e os desafios de detectar objetos pequenos em várias aplicações.
― 6 min ler
Índice
Detecção de Objetos Pequenos (SOD) é uma área focada em identificar itens minúsculos em imagens e vídeos. Isso é importante porque muitos objetos no mundo real, como pessoas, veículos e animais pequenos, podem ser difíceis de detectar. O principal desafio aqui é que objetos pequenos ocupam muito pouco espaço nas imagens, muitas vezes menos de 10% da área total da imagem. Isso dificulta para a maioria dos métodos de visão computacional encontrá-los e reconhecê-los.
Nos últimos anos, pesquisadores criaram várias técnicas para melhorar a detecção de objetos pequenos, especialmente em ambientes complicados como o oceano, onde as condições podem mudar rapidamente. Este artigo vai dar uma visão geral simplificada da SOD, os problemas que enfrenta, os métodos utilizados para resolver esses desafios e as futuras direções dessa pesquisa.
Importância da Detecção de Objetos Pequenos
A SOD tem um papel crucial em várias aplicações, como carros autônomos, vigilância e monitoramento ambiental. Detectar objetos pequenos com precisão pode ajudar a prevenir acidentes, monitorar a vida selvagem e rastrear atividades ilegais. Também é usada em imagens médicas, controle de qualidade em indústrias e até em esportes para rastrear jogadores ou objetos.
Desafios na Detecção de Objetos Pequenos
Informação Limitada: Objetos pequenos têm menos pixels, o que significa que há menos detalhes disponíveis para a detecção. Isso dificulta para os algoritmos aprenderem como esses objetos se parecem.
Ocultações: Objetos pequenos costumam estar escondidos por objetos maiores. Por exemplo, uma criança brincando perto de um carro pode não ser vista se o carro estiver na frente, dificultando a detecção pela máquina.
Métricas de Avaliação: A maioria dos métodos de avaliação usados para detecção de objetos não funciona bem com itens pequenos. Eles podem ser excessivamente sensíveis, levando a muitos falsos negativos ou objetos mal classificados.
Escassez de Dados: Existem menos conjuntos de dados que focam especificamente em objetos pequenos, ao contrário dos conjuntos de dados que contêm objetos maiores. Essa escassez limita a capacidade de treinar modelos de forma eficaz.
Movimento e Iluminação: Em ambientes dinâmicos, como o mar, a iluminação que muda e o movimento da água podem dificultar a detecção de objetos pequenos. O desfoque de movimento das ondas pode ofuscar os detalhes necessários para uma detecção precisa.
Métodos para Detecção de Objetos Pequenos
Técnicas de Aprendizado Profundo
1.O aprendizado profundo se tornou o método principal para SOD. Ele envolve treinar redes neurais complexas em grandes volumes de dados para aprender a identificar objetos. Existem, principalmente, dois tipos de métodos de aprendizado profundo usados:
Métodos de Duas Etapas: Esses métodos primeiro identificam regiões potenciais de objetos e depois as classificam. Geralmente, eles oferecem melhor precisão, mas exigem mais poder computacional. Exemplos incluem Faster R-CNN e Mask R-CNN.
Métodos de Uma Etapa: Esses métodos fazem tudo de uma vez, tornando-os mais rápidos, mas muitas vezes menos precisos. YOLO (You Only Look Once) e SSD (Single Shot MultiBox Detector) são exemplos.
Aumento de Dados
2.Como há menos imagens de objetos pequenos, os pesquisadores costumam usar aumento de dados para aumentar artificialmente o conjunto. Isso inclui técnicas como rotacionar, inverter ou mudar o brilho e contraste das imagens para que o modelo consiga reconhecer objetos pequenos de diferentes ângulos e condições.
3. Aprendizado Multi-Escala
O aprendizado multi-escala envolve usar mapas de características de diferentes camadas da rede. Como objetos pequenos podem ser perdidos em camadas mais profundas, os pesquisadores combinam características de várias profundidades na rede para capturar mais informações relevantes para objetos pequenos.
4. Aprendizado de Contexto
O aprendizado de contexto envolve considerar o entorno de um objeto para melhorar a detecção. Isso significa entender a relação entre um objeto e seu ambiente para ajudar o modelo a fazer previsões melhores.
Mecanismos de Atenção
5.Mecanismos de atenção permitem que o modelo se concentre em partes importantes dos dados de entrada. Ao enfatizar características que são mais propensas a pertencer a objetos pequenos, esses mecanismos ajudam a melhorar as taxas de detecção.
Aplicações da Detecção de Objetos Pequenos
A SOD é crucial em várias áreas:
- Veículos Autônomos: Detectar pedestres, ciclistas ou animais que podem cruzar o caminho dos veículos.
- Vigilância: Monitorar áreas para atividade incomum ou identificar indivíduos específicos em lugares lotados.
- Imagens Médicas: Identificar pequenos tumores ou anomalias em exames para ajudar médicos no diagnóstico.
- Vigilância Marinha: Identificar pequenas embarcações ou nadadores em vastas áreas do oceano para aumentar a segurança e eficiência.
Direções Futuras
Uso de Transformers: Pesquisadores estão começando a explorar modelos transformer para SOD. Esses modelos têm se saído bem em outras áreas da visão computacional e podem melhorar a detecção de objetos pequenos.
Benchmarking: Há uma necessidade de métodos de teste padronizados para avaliar sistemas de SOD de forma eficaz. Atualmente, muitos estudos usam conjuntos de dados ou definições diferentes para o que é considerado um objeto pequeno.
Combinação de Dados Temporais e Espaciais: Usar tanto o tempo dos quadros em vídeo quanto a posição dos objetos nesses quadros pode melhorar as estratégias de detecção, especialmente em ambientes com movimento rápido.
Redes Leves: Para aplicações em tempo real, há um empurrão para desenvolver redes que possam operar com alta precisão, mas com baixos requisitos computacionais.
Abordagens de Aprendizado Conjunto: Combinar várias tarefas, como segmentação e detecção, pode levar a um desempenho melhor e modelos mais robustos.
Aplicação de Aprendizado 3D: Expandir métodos atuais em 2D para 3D pode melhorar a detecção em vídeos onde objetos pequenos raramente são vistos em apenas um quadro.
Técnicas de Domínio Cruzado: Métodos desenvolvidos para uma área poderiam ser adaptados para outra, como usar técnicas bem-sucedidas em detecção marítima para aplicações urbanas.
Conclusão
A Detecção de Objetos Pequenos é uma área importante que atende a muitas aplicações do mundo real. Apesar dos desafios, os pesquisadores estão desenvolvendo técnicas inovadoras para melhorar sua eficiência e precisão. Ao continuar explorando novos métodos, coletando mais dados e refinando tecnologias existentes, o campo da SOD pode expandir seu alcance e eficácia em várias indústrias.
Título: Transformers in Small Object Detection: A Benchmark and Survey of State-of-the-Art
Resumo: Transformers have rapidly gained popularity in computer vision, especially in the field of object recognition and detection. Upon examining the outcomes of state-of-the-art object detection methods, we noticed that transformers consistently outperformed well-established CNN-based detectors in almost every video or image dataset. While transformer-based approaches remain at the forefront of small object detection (SOD) techniques, this paper aims to explore the performance benefits offered by such extensive networks and identify potential reasons for their SOD superiority. Small objects have been identified as one of the most challenging object types in detection frameworks due to their low visibility. We aim to investigate potential strategies that could enhance transformers' performance in SOD. This survey presents a taxonomy of over 60 research studies on developed transformers for the task of SOD, spanning the years 2020 to 2023. These studies encompass a variety of detection applications, including small object detection in generic images, aerial images, medical images, active millimeter images, underwater images, and videos. We also compile and present a list of 12 large-scale datasets suitable for SOD that were overlooked in previous studies and compare the performance of the reviewed studies using popular metrics such as mean Average Precision (mAP), Frames Per Second (FPS), number of parameters, and more. Researchers can keep track of newer studies on our web page, which is available at \url{https://github.com/arekavandi/Transformer-SOD}.
Autores: Aref Miri Rekavandi, Shima Rashidi, Farid Boussaid, Stephen Hoefs, Emre Akbas, Mohammed bennamoun
Última atualização: 2023-09-09 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.04902
Fonte PDF: https://arxiv.org/pdf/2309.04902
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://github.com/MCG-NKU/CVPR_Template
- https://www.pamitc.org/documents/mermin.pdf
- https://arxiv.org/abs/1902.07296v1
- https://www.computer.org/csdl/journal/tp/2021/10/09042296/1ikc4SuhD7q
- https://www.sciencedirect.com/science/article/pii/S0925231220301430?casa_token=nyAUsVXWl48AAAAA:6wG2zV-0koN56sn1Piq2wVN9_cF2piiGSY0k6At1eJCB3ywNgS3PDY1Ntvpx9j5wClcIgNArvdoS
- https://www.joig.net/uploadfile/2021/1124/20211124052219501.pdf
- https://arxiv.org/abs/1905.05055
- https://www.ctan.org/pkg/graphicx
- https://www.ctan.org/pkg/epslatex
- https://www.tug.org/applications/pdftex
- https://ieeexplore.ieee.org/abstract/document/7812788?casa_token=-K5wsS86f3kAAAAA:ejknrtfXZcEhNL6h8FG2INcDmRENoyICBlriKHgIEPm2HXi3_DF1P9fMz7hu1_XYVXONswc9
- https://www.sciencedirect.com/science/article/pii/S0034425717306193
- https://www.sciencedirect.com/science/article/pii/S0262885620300421?casa_token=yE03MSmyqPcAAAAA:DG1Du6EMUZgmjp8bn_wTExJhrPIOpW1NPbb5SPUZ8zrFRcLqfh8ABShweDPuHL1_fg1AF-13bQ
- https://www.sciencedirect.com/science/article/pii/S1000936120304544
- https://www.hindawi.com/journals/jat/2021/5808206/
- https://ieeexplore.ieee.org/abstract/document/9143165?casa_token=sIWEf-d7_4gAAAAA:3EH6ilJToUVxuDiZuFlrdw4jTWdCEMQf3jIUvvv6cdoGn976hGzo55_aintUlqcV9kZ-YygT
- https://cocodataset.org
- https://www.kaggle.com/competitions/imagenet-object-localization-challenge/data
- https://www.6d-vision.com/6d-vision-powers-autonomous-driving
- https://www.cvl.isy.liu.se/research/
- https://cg.cs.tsinghua.edu.cn/traffic-sign/
- https://benchmark.ini.rub.de/
- https://github.com/olivesgatech/CURE-TSD
- https://github.com/olivesgatech/CURE-OR
- https://shuoyang1213.me/WIDERFACE/
- https://tuggeluk.github.io/deepscores/
- https://drive.google.com/file/d/1li858elZvUgss8rC_yDsb5bDfiRyhdrX/view
- https://www.cvlibs.net/datasets/kitti/
- https://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/
- https://sites.google.com/view/grli-uavdt
- https://www.aiskyeye.com/
- https://ilab.usc.edu/neo2/dataset/
- https://pan.baidu.com/s/1c0w8h3q
- https://vision.ucmerced.edu/datasets/
- https://captain-whu.github.io/DOTA/
- https://xviewdataset.org/
- https://downloads.greyc.fr/vedai/
- https://www.escience.cn/people/gongcheng/DIOR.html
- https://github.com/ucas-vg/TinyBenchmark
- https://www.kaggle.com/guofeng/hrsc2016?select=HRSC2016_dataset.zip
- https://github.com/
- https://github.com/sunjiaen/BTRDA
- https://vislab.isr.tecnico.ulisboa.pt/seagull-dataset/
- https://sites.google.com/site/dilipprasad/home/singapore-maritime-dataset
- https://www.diag.uniroma1.it//~labrococo/MAR/
- https://www.vicos.si/resources/modd/
- https://github.com/zzndream/ShipRSImageNet
- https://www.kaggle.com/c/airbus-ship-detection/data
- https://seadronessee.cs.uni-tuebingen.de./
- https://aimh.isti.cnr.it/dataset/MOBDrone/
- https://github.com/arekavandi/Transformer-SOD
- https://paperswithcode.com/sota/video-object-detection-on-imagenet-vid
- https://cemse.kaust.edu.sa/ivul/uav123
- https://github.com/eg4000/SKU110K_CVPR19
- https://github.com/amazon-science/bigdetection
- https://pan.baidu.com/share/init?surl=4UcfTtZnvvVyCV2tAzHFKw
- https://nihcc.app.box.com/v/DeepLesion
- https://github.com/udacity/self-driving-car/tree/master/annotations
- https://en.cnurpc.org/
- https://github.com/wosdetc/challenge
- https://github.com/trzy/FasterRCNN
- https://github.com/Scalsol/RepPointsV2
- https://github.com/tianzhi0549/FCOS
- https://github.com/VDIGPKU/CBNetV2
- https://github.com/facebookresearch/detr
- https://github.com/microsoft/RelationNet2
- https://github.com/fundamentalvision/Deformable-DETR
- https://github.com/Edward-Sun/TSP-Detection
- https://github.com/pengzhiliang/Conformer
- https://github.com/Atten4Vis/ConditionalDETR
- https://github.com/shikha-gist/SOF-DETR/
- https://github.com/megvii-research/AnchorDETR
- https://github.com/encounter1997/FP-DETR
- https://github.com/IDEA-Research/DAB-DETR
- https://github.com/jozhang97/DETA
- https://github.com/IDEA-Research/DINO
- https://github.com/Sense-X/Co-DETR
- https://github.com/hustvl/YOLOS
- https://github.com/naver-ai/vidt
- https://github.com/naver-ai/vidt/tree/main
- https://github.com/PeixianChen/DFFT
- https://github.com/Duankaiwen/PyCenterNet
- https://github.com/open-mmlab/mmrotate/tree/main/configs/rotated_faster_rcnn
- https://github.com/pierluigiferrari/ssd_keras
- https://github.com/DetectionTeamUCAS/RetinaNet_Tensorflow
- https://github.com/open-mmlab/mmrotate/blob/main/configs/roi_trans/README.md
- https://github.com/ultralytics/yolov5
- https://github.com/csuhan/ReDet
- https://github.com/Ixiaohuihuihui/AO2-DETR