Desafíos y avances en la detección de objetos pequeños
Aprende sobre la importancia y los desafíos de detectar objetos pequeños en varias aplicaciones.
― 6 minilectura
Tabla de contenidos
La Detección de Objetos Pequeños (SOD) es un campo que se centra en identificar ítems diminutos en imágenes y videos. Esto es importante porque muchos objetos en situaciones del mundo real, como personas, vehículos y animales pequeños, pueden ser difíciles de detectar. El principal desafío en esta área es que los objetos pequeños pueden ocupar muy poco espacio en las imágenes, a menudo menos del 10% del área total de la imagen. Esto hace que sea complicado para la mayoría de los métodos de visión por computadora encontrarlos y reconocerlos.
En los últimos años, los investigadores han ideado varias técnicas para mejorar la detección de objetos pequeños, especialmente en entornos complicados como el océano, donde las condiciones pueden cambiar rápidamente. Este artículo ofrecerá una visión simplificada de SOD, los problemas que enfrenta, los métodos que se están utilizando para abordar estos desafíos y las direcciones futuras de esta investigación.
Importancia de la Detección de Objetos Pequeños
La SOD juega un papel crucial en muchas aplicaciones como coches autónomos, vigilancia y monitoreo ambiental. Detectar objetos pequeños con precisión puede ayudar a prevenir accidentes, monitorear la vida silvestre y rastrear actividades ilegales. También se usa en imágenes médicas, control de calidad en industrias e incluso en deportes para seguir a jugadores u objetos.
Desafíos en la Detección de Objetos Pequeños
Información Limitada: Los objetos pequeños tienen menos píxeles, lo que significa que hay menos detalles disponibles para la detección. Esto dificulta que los algoritmos aprendan cómo lucen estos objetos.
Oclusiones: Los objetos pequeños a menudo están ocultos por objetos más grandes. Por ejemplo, un niño jugando cerca de un auto podría no ser visto si el auto está en medio, complicando la detección del niño.
Métricas de Evaluación: La mayoría de los métodos de evaluación utilizados para la detección de objetos no funcionan bien con ítems pequeños. Pueden ser demasiado sensibles, lo que lleva a muchos falsos negativos o objetos mal clasificados.
Escasez de Datos: Hay menos conjuntos de datos que se centren específicamente en objetos pequeños, a diferencia de los conjuntos que contienen objetos más grandes. Esta escasez limita la capacidad de entrenar modelos de manera efectiva.
Movimiento y Iluminación: En entornos dinámicos como el mar, la iluminación cambiante y el movimiento del agua pueden dificultar la detección de objetos pequeños. El desenfoque por movimiento de las olas puede ocultar los detalles necesarios para una detección precisa.
Métodos para la Detección de Objetos Pequeños
Técnicas de Aprendizaje Profundo
1.El aprendizaje profundo se ha convertido en el método preferido para SOD. Implica entrenar redes neuronales complejas con grandes cantidades de datos para aprender a identificar objetos. Hay principalmente dos tipos de métodos de aprendizaje profundo utilizados:
Métodos de Dos Etapas: Estos métodos primero identifican regiones potenciales de objetos y luego las clasifican. Suelen ofrecer mejor precisión pero requieren más potencia computacional. Ejemplos son Faster R-CNN y Mask R-CNN.
Métodos de Una Sola Etapa: Estos métodos hacen todo de una vez, lo que los hace más rápidos pero a menudo menos precisos. YOLO (You Only Look Once) y SSD (Single Shot MultiBox Detector) son ejemplos.
Aumento de Datos
2.Dado que hay menos imágenes de objetos pequeños, los investigadores suelen usar aumento de datos para aumentar artificialmente el conjunto de datos. Esto incluye técnicas como rotar, voltear o cambiar el brillo y contraste de las imágenes para que el modelo aprenda a reconocer objetos pequeños desde diferentes ángulos y condiciones.
3. Aprendizaje Multi-escala
El aprendizaje multi-escala implica usar mapas de características de diferentes capas de la red. Como los objetos pequeños pueden ser pasados por alto en capas más profundas, los investigadores combinan características de varias profundidades en la red para capturar más información relevante para los objetos pequeños.
4. Aprendizaje de Contexto
El aprendizaje de contexto implica considerar el entorno de un objeto para mejorar la detección. Esto significa entender la relación entre un objeto y su entorno para ayudar al modelo a hacer mejores predicciones.
Mecanismos de atención
5.Los mecanismos de atención permiten que el modelo se centre en partes importantes de los datos de entrada. Al enfatizar características que es más probable que pertenezcan a objetos pequeños, estos mecanismos ayudan a mejorar las tasas de detección.
Aplicaciones de la Detección de Objetos Pequeños
La SOD es crucial en varios campos:
- Vehículos Autónomos: Detectar peatones, ciclistas o animales que podrían cruzarse con los vehículos.
- Vigilancia: Monitorear áreas por actividad sospechosa o identificar a personas específicas en lugares concurridos.
- Imágenes Médicas: Detectar pequeños tumores o anomalías en escaneos para ayudar a los doctores en diagnósticos.
- Vigilancia Marina: Identificar pequeñas embarcaciones o nadadores en vastas áreas oceánicas para mejorar la seguridad y el rendimiento.
Direcciones Futuras
Uso de Transformadores: Los investigadores están comenzando a explorar modelos de transformadores para SOD. Estos modelos han tenido un buen desempeño en otras áreas de visión por computadora y podrían mejorar la detección de objetos pequeños.
Evaluaciones Estándar: Hay necesidad de métodos de pruebas estandarizados para evaluar eficazmente los sistemas de SOD. Actualmente, muchos estudios utilizan diferentes conjuntos de datos o definiciones de lo que constituye un objeto pequeño.
Combinación de Datos Temporales y Espaciales: Usar tanto el tiempo de los cuadros en video como la posición de los objetos en esos cuadros puede mejorar las estrategias de detección, particularmente en entornos de movimiento rápido.
Redes Ligeras: Para aplicaciones en tiempo real, hay un impulso hacia el desarrollo de redes que puedan operar con alta precisión pero con bajos requerimientos computacionales.
Enfoques de Aprendizaje Conjunto: Combinar varias tareas, como segmentación y detección, puede llevar a un mejor rendimiento y modelos más robustos.
Aplicación de Aprendizaje 3D: Expandir los métodos actuales en 2D a 3D podría mejorar la detección en videos donde los objetos pequeños rara vez se ven en un solo cuadro.
Técnicas de Dominio Cruzado: Métodos desarrollados para un área podrían adaptarse a otra, como usar técnicas exitosas en detección marítima para aplicaciones urbanas.
Conclusión
La Detección de Objetos Pequeños es un área importante que sirve a muchas aplicaciones del mundo real. A pesar de sus desafíos, los investigadores están desarrollando técnicas innovadoras para mejorar su eficiencia y precisión. Al continuar explorando nuevos métodos, recopilar más datos y refinar tecnologías existentes, el campo de SOD puede expandir su alcance y efectividad en diversas industrias.
Título: Transformers in Small Object Detection: A Benchmark and Survey of State-of-the-Art
Resumen: Transformers have rapidly gained popularity in computer vision, especially in the field of object recognition and detection. Upon examining the outcomes of state-of-the-art object detection methods, we noticed that transformers consistently outperformed well-established CNN-based detectors in almost every video or image dataset. While transformer-based approaches remain at the forefront of small object detection (SOD) techniques, this paper aims to explore the performance benefits offered by such extensive networks and identify potential reasons for their SOD superiority. Small objects have been identified as one of the most challenging object types in detection frameworks due to their low visibility. We aim to investigate potential strategies that could enhance transformers' performance in SOD. This survey presents a taxonomy of over 60 research studies on developed transformers for the task of SOD, spanning the years 2020 to 2023. These studies encompass a variety of detection applications, including small object detection in generic images, aerial images, medical images, active millimeter images, underwater images, and videos. We also compile and present a list of 12 large-scale datasets suitable for SOD that were overlooked in previous studies and compare the performance of the reviewed studies using popular metrics such as mean Average Precision (mAP), Frames Per Second (FPS), number of parameters, and more. Researchers can keep track of newer studies on our web page, which is available at \url{https://github.com/arekavandi/Transformer-SOD}.
Autores: Aref Miri Rekavandi, Shima Rashidi, Farid Boussaid, Stephen Hoefs, Emre Akbas, Mohammed bennamoun
Última actualización: 2023-09-09 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2309.04902
Fuente PDF: https://arxiv.org/pdf/2309.04902
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://github.com/MCG-NKU/CVPR_Template
- https://www.pamitc.org/documents/mermin.pdf
- https://arxiv.org/abs/1902.07296v1
- https://www.computer.org/csdl/journal/tp/2021/10/09042296/1ikc4SuhD7q
- https://www.sciencedirect.com/science/article/pii/S0925231220301430?casa_token=nyAUsVXWl48AAAAA:6wG2zV-0koN56sn1Piq2wVN9_cF2piiGSY0k6At1eJCB3ywNgS3PDY1Ntvpx9j5wClcIgNArvdoS
- https://www.joig.net/uploadfile/2021/1124/20211124052219501.pdf
- https://arxiv.org/abs/1905.05055
- https://www.ctan.org/pkg/graphicx
- https://www.ctan.org/pkg/epslatex
- https://www.tug.org/applications/pdftex
- https://ieeexplore.ieee.org/abstract/document/7812788?casa_token=-K5wsS86f3kAAAAA:ejknrtfXZcEhNL6h8FG2INcDmRENoyICBlriKHgIEPm2HXi3_DF1P9fMz7hu1_XYVXONswc9
- https://www.sciencedirect.com/science/article/pii/S0034425717306193
- https://www.sciencedirect.com/science/article/pii/S0262885620300421?casa_token=yE03MSmyqPcAAAAA:DG1Du6EMUZgmjp8bn_wTExJhrPIOpW1NPbb5SPUZ8zrFRcLqfh8ABShweDPuHL1_fg1AF-13bQ
- https://www.sciencedirect.com/science/article/pii/S1000936120304544
- https://www.hindawi.com/journals/jat/2021/5808206/
- https://ieeexplore.ieee.org/abstract/document/9143165?casa_token=sIWEf-d7_4gAAAAA:3EH6ilJToUVxuDiZuFlrdw4jTWdCEMQf3jIUvvv6cdoGn976hGzo55_aintUlqcV9kZ-YygT
- https://cocodataset.org
- https://www.kaggle.com/competitions/imagenet-object-localization-challenge/data
- https://www.6d-vision.com/6d-vision-powers-autonomous-driving
- https://www.cvl.isy.liu.se/research/
- https://cg.cs.tsinghua.edu.cn/traffic-sign/
- https://benchmark.ini.rub.de/
- https://github.com/olivesgatech/CURE-TSD
- https://github.com/olivesgatech/CURE-OR
- https://shuoyang1213.me/WIDERFACE/
- https://tuggeluk.github.io/deepscores/
- https://drive.google.com/file/d/1li858elZvUgss8rC_yDsb5bDfiRyhdrX/view
- https://www.cvlibs.net/datasets/kitti/
- https://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/
- https://sites.google.com/view/grli-uavdt
- https://www.aiskyeye.com/
- https://ilab.usc.edu/neo2/dataset/
- https://pan.baidu.com/s/1c0w8h3q
- https://vision.ucmerced.edu/datasets/
- https://captain-whu.github.io/DOTA/
- https://xviewdataset.org/
- https://downloads.greyc.fr/vedai/
- https://www.escience.cn/people/gongcheng/DIOR.html
- https://github.com/ucas-vg/TinyBenchmark
- https://www.kaggle.com/guofeng/hrsc2016?select=HRSC2016_dataset.zip
- https://github.com/
- https://github.com/sunjiaen/BTRDA
- https://vislab.isr.tecnico.ulisboa.pt/seagull-dataset/
- https://sites.google.com/site/dilipprasad/home/singapore-maritime-dataset
- https://www.diag.uniroma1.it//~labrococo/MAR/
- https://www.vicos.si/resources/modd/
- https://github.com/zzndream/ShipRSImageNet
- https://www.kaggle.com/c/airbus-ship-detection/data
- https://seadronessee.cs.uni-tuebingen.de./
- https://aimh.isti.cnr.it/dataset/MOBDrone/
- https://github.com/arekavandi/Transformer-SOD
- https://paperswithcode.com/sota/video-object-detection-on-imagenet-vid
- https://cemse.kaust.edu.sa/ivul/uav123
- https://github.com/eg4000/SKU110K_CVPR19
- https://github.com/amazon-science/bigdetection
- https://pan.baidu.com/share/init?surl=4UcfTtZnvvVyCV2tAzHFKw
- https://nihcc.app.box.com/v/DeepLesion
- https://github.com/udacity/self-driving-car/tree/master/annotations
- https://en.cnurpc.org/
- https://github.com/wosdetc/challenge
- https://github.com/trzy/FasterRCNN
- https://github.com/Scalsol/RepPointsV2
- https://github.com/tianzhi0549/FCOS
- https://github.com/VDIGPKU/CBNetV2
- https://github.com/facebookresearch/detr
- https://github.com/microsoft/RelationNet2
- https://github.com/fundamentalvision/Deformable-DETR
- https://github.com/Edward-Sun/TSP-Detection
- https://github.com/pengzhiliang/Conformer
- https://github.com/Atten4Vis/ConditionalDETR
- https://github.com/shikha-gist/SOF-DETR/
- https://github.com/megvii-research/AnchorDETR
- https://github.com/encounter1997/FP-DETR
- https://github.com/IDEA-Research/DAB-DETR
- https://github.com/jozhang97/DETA
- https://github.com/IDEA-Research/DINO
- https://github.com/Sense-X/Co-DETR
- https://github.com/hustvl/YOLOS
- https://github.com/naver-ai/vidt
- https://github.com/naver-ai/vidt/tree/main
- https://github.com/PeixianChen/DFFT
- https://github.com/Duankaiwen/PyCenterNet
- https://github.com/open-mmlab/mmrotate/tree/main/configs/rotated_faster_rcnn
- https://github.com/pierluigiferrari/ssd_keras
- https://github.com/DetectionTeamUCAS/RetinaNet_Tensorflow
- https://github.com/open-mmlab/mmrotate/blob/main/configs/roi_trans/README.md
- https://github.com/ultralytics/yolov5
- https://github.com/csuhan/ReDet
- https://github.com/Ixiaohuihuihui/AO2-DETR