Técnicas de aprendizaje supervisado para la detección y clasificación de enfermedades y defectos en imágenes de frutas: revisión
Supervised learning techniques for the detection and classification of diseases and defects in fruit images: review
DOI: https://doi.org/10.33262/rmc.v7i1.2330
Maday Ynfante Martínez*
Universidad Agraria de La Habana
maday@unah.edu.cu
Minelkis Machado Molina
Universidad Agraria de La Habana
minelkis_machado@unah.edu.cu
Neili Machado García
Universidad Agraria de La Habana
neili@unah.edu.cu
Efraín Velasteguí López
Universidad Técnica de Babahoyo
evelasteguil@utb.edu.ec
RESUMEN
La Inteligencia Artificial es un campo de estudio que ha adquirido mucha popularidad hoy en día, producto a sus numerosas aplicaciones. Entre sus ramas se halla el aprendizaje automático o Machine Learning (ML), el cual se centra en inferir conocimientos mediante la aplicación de técnicas que permiten la extracción de información, a través de reconocimiento de patrones. Dentro del mismo se encuentra el Aprendizaje Supervisado, el cual permite realizar deducciones a partir de datos de entrenamiento. De ahí que ML, resulta aplicable en varias áreas de la investigación tales como: el reconocimiento de imágenes. Dicha área está siendo muy utilizada hoy en día en diversos sectores e industrias, tal es el caso de la Agricultura. En este sector la fruticultura ha adquirido una relevancia significativa para la economía de cualquier país. Cuba apuesta cada vez más al posicionamiento de sus productos en el mercado internacional. Teniendo en cuenta la gran demanda de frutas tales como: la fruta bomba y la guayaba, es necesario que estas estén bajo los estándares de calidad requeridos. Por lo que, la estrategia a seguir ha sido vincular la Inteligencia Artificial a los procesos que se llevan a cabo, en aras de disminuir el error humano. Para ello se realizó una revisión de las técnicas existentes más utilizadas en la detección y clasificación de enfermedades y defectos en diversas imágenes, con el fin de obtener un enfoque factible.
PALABRAS CLAVE: Detección de enfermedades y defectos, aprendizaje de máquina.
ABSTRACT
Artificial Intelligence is a field of study that has become very popular today, due to its numerous applications. Among its branches is automatic learning or Machine Learning (ML), which focuses on inferring knowledge through the application of techniques that allow the extraction of information, through pattern recognition. Within it is Supervised Learning, which allows deductions to be made from training data. Hence, ML is applicable in various areas of research such as image recognition. This area is being widely used today in various sectors and industries; such is the case of Agriculture. In this sector, fruit growing has acquired significant relevance for the economy of any country. Cuba is increasingly betting on the positioning of its products in the international market. Taking into account the great demand for fruits such as: papaya and guava, it is necessary that these are under the required quality standards. Therefore, the strategy to follow has been to link Artificial Intelligence to the processes that are carried out, in order to reduce human error. For this, a review of the most used existing techniques in the detection and classification of diseases and defects in various images was carried out, in order to obtain a feasible approach.
KEYWORDS: Disease and default detection, machine learning.
INTRODUCCIÓN
La Inteligencia Artificial (IA) ha tenido en estos últimos años una implicación cada vez mayor en diversas áreas, ya que permite la solución de problemas en variedad de campos tales como: la industria, la medicina, la música, la transportación, la agricultura entre otros. La IA intenta comprender la esencia de la inteligencia y producir nuevos tipos de máquinas inteligentes que puedan responder de manera similar a la inteligencia humana con amplias áreas de investigación de aprendizaje automático y profundo, ciencia de datos, aprendizaje por refuerzo, minería de datos, descubrimiento de conocimiento, razonamiento de conocimiento, reconocimiento de voz, procesamiento de lenguaje natural, reconocimiento de lenguaje, reconocimiento de imagen, visión artificial, planificación, robótica, juegos, entre otros (Suzuki, 2020). Por su parte, mediante el reconocimiento de imágenes (RI) es posible identificar y detectar objetos o características contenidas. Hoy en día está siendo muy utilizado en la identificación de matrículas, diagnóstico de enfermedades, análisis de clientes y opiniones. El RI se apoya en Machine Learning y el Deep Learning, para ir aprendiendo a medida que van analizando las imágenes. Machine Learning (ML) o aprendizaje automático se define como técnicas computacionales que utilizan la experiencia para mejorar el rendimiento o lograr predicciones precisas. Estos datos pueden estar en forma de conjuntos de entrenamiento digitalizados, etiquetados por humanos u otros tipos de información recopilada al interactuar con el ecosistema. En todas las situaciones, el tamaño y la calidad de los datos son críticos para el cumplimiento de las predicciones realizadas por el predictor. El aprendizaje automático se compone de la creación de algoritmos de predicción competentes y precisos (Subasi, 2020). Dichos algoritmos se utilizan para aprender de los patrones de datos y se dividen en subconjuntos fundamentalmente tales como: aprendizaje supervisado, aprendizaje no supervisado, semi-supervizado y el aprendizaje por refuerzo (Sarker, 2021).
DESARROLLO
Figura 1. Aprendizaje automático en subconjuntos
Fuente: Elaboración propia
Dentro del aprendizaje supervisado se encuentran diversos algoritmos tales como: la lógica difusa, máquinas de soporte vectorial (svm), k- vecinos más cercanos (knn), redes neuronales artificiales (ann) y redes neuronales convolucionales cnn (roldán ortega, roshan biswal, & sánchez de la cruz, 2019). Esta última técnica pertenece al campo de deep learning (dl) o aprendizaje profundo. Dl es un subcampo del aprendizaje automático que se utiliza para resolver problemas muy complejos y que normalmente implican grandes cantidades de datos (rouhiainen, 2018). Cabe destacar, que el enorme desarrollo que está viviendo la tecnología asociada a la ia está dado en los últimos tiempos gracias a los notables avances que han tenido las nuevas técnicas de deep learning.
Técnicas de aprendizaje supervisado
-el algoritmo de lógica difusa es uno de los enfoques/técnicas de la inteligencia artificial, donde el comportamiento inteligente se logra mediante la creación de clases difusas de algunos parámetros. El modelo basado en reglas difusas tiene una estructura simple y consta de cuatro componentes principales: 1) un módulo de fuzzificación, que traduce entradas nítidas (medidas clásicas) en valores difusos a través de variables lingüísticas: 2) una base de reglas difusas si-entonces, que consiste en un conjunto de proposiciones difusas condicionadas; 3) un método de inferencia, que aplica un mecanismo de razonamiento difuso para obtener resultados, es decir, realiza el cálculo utilizando reglas difusas); y 4) defusificación (behera, jena, rath, & sethy, 2018).
-la máquina de vectores de soporte es un tipo de algoritmo de aprendizaje que se basa en la minimización del riesgo estructural y también se utiliza para problemas de clasificación y regresión. Está diseñado de tal manera que maximiza los límites de clasificación para que dos clases se separen lo más ampliamente posible (sharma et al., 2020).
-el algoritmo k-vecino más cercano presenta un esquema de clasificación estadístico y no paramétrico y se da el peso correspondiente a los vecinos. Aquí, la clasificación se realiza en función de la métrica de distancia euclidiana calculada. También se conoce como aprendiz perezoso porque simplemente almacena todas las tuplas de entrenamiento que se le dan como entradas en su fase de aprendizaje sin realizar ningún cálculo y, por lo tanto, evita que se use en áreas donde se necesita una clasificación dinámica para grandes bases de datos (sharma, verma, & goel, 2020).
-la red neuronal artificial es un modelo de procesamiento de información inspirado en la forma en que la información es procesada por un sistema biológico, es decir, el cerebro. Consiste en neuronas artificiales o de procesamiento mediante la detección de patrones y relaciones de datos, que aprenden a través de la experiencia y no mediante la programación. Las redes neuronales artificiales se pueden utilizar para la extracción de patrones debido a su capacidad de obtener significado a partir de datos complejos (sharma et al., 2020).
-las cnn son una clase de redes neuronales de avance profundo que tienen la capacidad de procesar datos multidimensionales. El propósito de cnn es reducir las imágenes a una forma más fácil de procesar, sin comprometer las funciones que son esenciales para obtener una buena predicción. Hay diferentes arquitecturas disponibles para cnn como alexnet, googlenet, vggnet, etc. Su crecimiento ha generado mucho interés entre los investigadores en varios campos de la informática. En agricultura, se ha utilizado para la clasificación de enfermedades en las plantas (sharma et al., 2020).
Existen diversos autores hoy en día que se han dedicado a utilizar estas técnicas, con el fin de detectar y clasificar defectos en imágenes, tal es el caso de los trabajos que se presentan a continuación:
1-en el trabajo titulado “identificación de defectos superficiales de manzanas utilizando análisis de componentes principales y redes neuronales artificiales” se determinaron si los defectos de la superficie de las manzanas podían detectarse en imágenes del infrarrojo cercano (740 y 950 nanómetros) utilizando una combinación de análisis de componentes principales y redes neuronales artificiales. Para ello intentaron diferentes formas de pre-procesamiento antes de entrenar las redes, tales como: imágenes sin procesar e imágenes con eliminación del fondo oscuro. Los mejores resultados se obtuvieron eliminando el fondo y aplicando un filtro wiener a las imágenes. Para identificación de defectos utilizaron el pca (análisis de componentes principales) y las redes neuronales artificiales para la clasificación. El desempeño que obtuvieron los autores fue del 79% de los defectos detectados en un conjunto de prueba de 185 defectos (b. S. Bennedsen d. L. Peterson & a. Tabb, 2007).
2-en el artículo “análisis y detección de defectos en frutas utilizando redes neuronales” los autores diseñaron un sistema para superar los problemas de inspección manual en la horticultura. El mismo consta de la siguiente metodología o pasos: adquisición de imágenes: las imágenes que se capturaron fueron sin procesar. Pre-procesamiento: se realizaron diferentes tipos de operaciones en la imagen para mejorarla mediante la rotación de la imagen en sentido horario y antihorario, cambiar su tamaño por cualquier valor, cambiar dimensiones, etc. Segmentación: se utilizó un algoritmo de segmentación para dividir una imagen en grupos de píxeles que son regiones homogéneas. Utilizaron la red neuronal artificial para extraer las características sobre la base del tamaño, el color, la forma, entre otros y para realizar el entrenamiento. Una vez que realizaron el entrenamiento generaron el modelo para realizar la predicción y basándose en el mismo realizaron la prueba con el fin de detectar la factibilidad del método (makkar, verma, yogesh, & dubey, 2018).
3- en el artículo “identificación de enfermedades y clasificación de hojas de granada mediante procesamiento de imágenes y lógica difusa” se propone modelar la detección/clasificación de enfermedades para las hojas de la planta de granada. Dicho trabajo se divide principalmente en cinco pasos: adquisición de imágenes, pre-procesamiento de imágenes, extracción de características, clasificación y calificación de enfermedades. En la adquisición de imágenes: las imágenes de muestras sanas y enfermas de hojas de granado se capturan utilizando una cámara digital nikon coolpix l20 de 10 megapíxeles de resolución y zoom óptico de 3,6, manteniendo una distancia igual de 16 cm al objeto. Los autores prepararon 200 muestras para la base de datos de imágenes de hojas de granada, contando con variantes enfermas y sanas. En el pre-procesamiento de imágenes recurrieron a técnicas como el cambio de tamaño de la imagen, el filtrado, la segmentación, el recorte, la mejora del contraste, la corrección del ángulo, las operaciones morfológicas, etc. En aras de debilitar el ruido o eliminarlo aplicaron el filtro gaussiano y para identificar regiones en la imagen que probablemente califiquen como regiones enfermas aplicaron la segmentación. Para la segmentación método que propusieron fue el de agrupamiento por k-medias con el fin de dividir n observaciones en k conglomerados mutuamente excluyentes en los que cada observación pertenece al conglomerado con la media más cercana. Seguidamente, realizaron la extracción de características para poder extraer los atributos que brindan una información cuantitativa de interés y para realizar la clasificación de enfermedades utilizando lógica difusa (fl). La implementación se llevó a cabo utilizando matlab imageprocessing toolbox con el fin de procesar la imagen y fuzzy logic toolbox para clasificar y calificar enfermedades (sannakki, rajpurohit, nargund, & arunkumar, 2013).
4- en “clasificación de la enfermedad de la hoja de guayaba utilizando máquina de soporte vectorial (svm)” se propone una filosofía para la identificación temprana y precisa de enfermedades de la hoja de guayaba utilizando métodos de preparación de imágenes y svm. Para preparar el sistema se tomaron 70 imágenes de las cuales 30 ejemplos son del tipo antracnosis, 30 de tipo bacterial blight y 10 ejemplos son de imágenes de hojas sanas que se consideran para preparar y probar. Posteriormente, a las mismas se le aplicaron el procesamiento previo, el mismo consta de varias estrategias tales como: 1) la escala de la imagen de entrada en 256 x 256. 2) la imagen se matizó para mejorar el sombreado de diferenciación. 3) la imagen de entrada se destacó con sombreado rojo en el límite. Seguidamente, realizaron la segmentación y la extracción de características glcm. En la segmentación las imágenes utilizaron el cálculo de agrupación de k-medias y antes de agrupar las imágenes, el modelo de sombreado rgb se cambia al modelo de sombreado l*a*b. Por su parte, en la extracción de características acudieron al gray level co-ocurrence matrix (glcm) para extraer características mediante el análisis estadístico de una vecindad entre pixeles. Mediante la ejecución del agrupamiento de k-means y el cálculo de svm los autores identificaron la enfermedad de la planta mostrando una exactitud del 98,17 % y superando la precisión del sistema que existía hasta ese momento (perumal, sellamuthu, vanitha, & manavalasundara, 2021).
5- en el trabajo titulado “detección y clasificación de la enfermedad de la fruta de la manzana utilizando la clasificación k-nn y las características de glcm” se propone y evalúa una solución basada en el procesamiento de imágenes para la detección y clasificación de enfermedades de la manzana. Las enfermedades que se pretenden detectar y clasificar son: apple blotch, apple rot y apple scab. Para ello utilizaron la siguiente metodología: preparación y pre procesamiento de conjuntos de datos, segmentación de imágenes k-means, extracción de características glcm (gray level co-ocurrence matrix) y clasificación con k-vecinos más cercanos (k-nn). A las imágenes recopiladas desde internet le aplicaron un pre-procesamiento para mejorar las mismas. Posteriormente, recurrieron a la técnica de agrupamiento k-means para la segmentación de las imágenes con el fin de determinar las agrupaciones naturales de píxeles presentes en una imagen. En el marco de segmentación de defectos operaron en seis pasos: leyeron la imagen de entrada de la fruta defectuosa; transformaron la imagen de rgb a espacio de color l*a*b*; clasificaron los colores usando el agrupamiento de k-means en el espacio 'a*b*'; etiquetaron cada píxel de la imagen a partir de los resultados de k-means; generaron imágenes que segmenten la imagen de entrada por color con el fin de separar los píxeles de la imagen por color usando etiquetas de píxeles, lo que dará como resultado diferentes imágenes según la cantidad de grupos y seleccionaron el segmento que contiene la enfermedad.después de la segmentación utilizaron la técnica glcm para la extracción de características. Finalmente, la clasificación de las enfermedades se realiza mediante la técnica knn mostrando una tasa de reconocimiento de la enfermedad de la fruta de un 99,6 % (sangeetha, sellammal, sujitha, & menaga, 2018).
6- en el artículo “nueva detección de la enfermedad del cancro de los cítricos usando un modelo híbrido ga y knn basado en varios descriptores de características” proponen un enfoque híbrido para la detección de la enfermedad del cancro en los cítricos. En la etapa de pre procesamiento utilizaron una combinación de ecualización de histograma adaptativo y filtro mediano para mejorar el contraste y reducir el ruido de la imagen de entrada. Posteriormente, aplicaron la agrupación por k-means para la segmentación y extrajeron las características de color de la imagen de entrada en tres espacios de color diferentes: rojo, verde, azul (rgb), valor de saturación de tono (hsv), espacio de laboratorio e intensidad de saturación de tono (hsi). Para cada espacio utilizaron tres parámetros básicos haciendo el vector de características de tamaño 1*36. Para extraer las características de la textura se auxiliaron de la matriz de concurrencia de nivel de gris (glcm) y generaron el vector de características de tamaño 1*4. En la implementación de este modelo híbrido utilizaron matlab r2019b; en un procesador intel core i5 a 2,10 ghz y con 4,00 gb de ram. En las imágenes de entrada tomaron 17 imágenes afectadas por cancro malsano y 18 imágenes sanas con fines de entrenamiento. Por lo tanto, de las 35 observaciones utilizaron 23 con predictores y 2 clases de respuesta para el entrenamiento. Además, aplicaron la validación cruzada de 5 veces, el genetic algorithm (ga) para la selección de características y evaluaron el rendimiento de cuatro clasificadores con ga y sin ga. Por su parte, para la clasificación hicieron una valoración de diversos clasificadores tales como: máquina de vectores de soporte (svm), naïve bayes (nb), k vecino más cercano y clasificador árbol de decisión. Donde el clasificador knn con reducción de funciones ga fue el que mejor valor de precisión brindó en comparación con otras configuraciones de clasificación (kaur, sharma, goyal, & dogra, 2020).
7- las técnicas de aprendizaje profundo fueron empleadas por investigadores para clasificar e identificar las enfermedades de la manzana. Para ello utilizaron la siguiente metodología de trabajo: recopilación y preparación de datos: considerándose las cinco enfermedades más comunes tales como: la sarna, alternaria, mosaico de manzana, mancha foliar de marssonina (mlb) y mildiu polvoriento. Recolectando alrededor de 8400 imágenes de hojas infectadas y sanas, capturadas manualmente utilizando cámaras digitales y teléfonos móviles de diferentes marcas. Después de la captura, redimensionaron las imágenes a la dimensión de 224 x 224 píxeles. Luego, etiquetaron las mismas manualmente con la ayuda de dos expertos en dominios de skuast-k, clasificándolas en seis clases según sus enfermedades. El conjunto de datos fue dividido en 70 % para el conjunto de entrenamiento y el 30 % para la validación. En el segundo paso para el desarrollo y la capacitación del modelo se valieron de la red neural convolucional (cnn) y dentro de esta el modelo de cnn pre-entrenado modificado llamado resnet-34. En el último paso realizaron la clasificación, con el fin de detectar el tipo de enfermedad que ha infectado la planta una vez que entrenaron el modelo. En este entrenamiento se valieron del descenso de gradiente estocástico (sgd) con una tasa de aprendizaje de 0,001, un tamaño de lote de 8 y un valor de época de 100. Implementaron la técnica propuesta en keras sobre tensorflow 2.0 en una estación de trabajo con 16 gb de ram, procesador intel core i-5 9600k con tarjeta gráfica rtx 2060 super (8 gb). Logrando una average accuracy del 97,2 %, mientras que la recall 96.85%, specificity 99.3% y el f-measure (f1-score) 96.85% (iqbal khan, quadri, & banday, 2020).
8- en el trabajo “clasificación basada en el aprendizaje profundo del reconocimiento de enfermedades de la papaya” los autores eligieron un dataset de 234 imágenes donde 184 imágenes fueron para el entrenamiento, 28 imágenes para validaciones y 22 imágenes para probar el modelo. Las enfermedades que analizaron los autores fueron: la antracnosis, la mancha negra, la mancha floral y la mancha angular de la hoja. Por otro lado, utilizaron 3 dimensiones de colores o rgb para los datos de entrada y aumentaron la cantidad de imágenes mediante operaciones de aumento de datos con el fin de mejorar la precisión del modelo. En la implementación del algoritmo de red neuronal convolucional utilizaron la api de keras y dividieron el dataset en un 80% para el conjunto de entrenamiento y 20% para la validación, obteniendo una precisión del 91% (hossen et al., 2020).
9- el trabajo titulado “detección de anomalías en las superficies texturizadas” tiene como finalidad descubrir anomalías en las superficies de las texturas. Para ello el autor investigó diversas técnicas, siendo la cnn la que superó el desafío del entrenamiento a partir de un número limitado de muestras anómalas. Este método logró impresionantes valores f1 score y auroc de 0.8914 y 0.9766 respectivamente. Por otra parte, el autor realizó una comparación entre las arquitecturas: compactcnn, deeplabv3 y anonet; esta última logró una impresionante mejora en el rendimiento en promedio en todos los conjuntos de datos a una puntuación f1 de 0,98 y en un 13% hasta un valor auroc de 0,942 (singh minhas, 2019).
10- en “integración de la red neuronal convolucional con el algoritmo de función de frontera de objeto para reconocimiento de piezas y detección de defectos” se estableció como objetivo integrar el algoritmo de función de frontera de objeto a la red neuronal. En la adquisición de imágenes se utilizaron diferentes posiciones aleatorias para su captura, con el fin de obtener una mayor variabilidad y, por ende, aumentar el dataset. Por otro lado, el autor diseñó el algoritmo bof para identificar el tipo de piezas y se implementó la red cnn para la detección de defectos debido a su capacidad de extracción de características en imágenes. No obstante, para realizar la clasificación se la svm. El procesamiento de la imagen con la red cnn para determinar los defectos obtuvo un 97.22% y la clasificación con svm obtuvo un 83.33% (basulto rodríguez, 2018).
11- en “detección de la enfermedad de la naranja mediante redes neuronales convolucionales profundas” se propone un método para clasificar las frutas en categoría enfermas y sanas. El mismo investiga diferentes técnicas de aprendizaje profundo y proporciona un modelo para la detección de la enfermedad de naranja basado en redes neuronales convolucionales profundas. Los datos utilizados para la detección de frutas frescas y podridas se descargaron de kaggle.com con el nombre "frutas frescas y podridas para clasificación". Las mismas fueron dividas en dos carpetas: "entrenamiento" y "prueba". Por lo que, al investigar técnicas como: redes neuronales artificiales y las redes neuronales recurrentes se inclinan por utilizar la red neuronal convolucional y dentro de la misma la modelo vgg. Por lo que, dicho modelo muestra una precisión de 92-93% (agrawal, kumar, & vashishth, 2020).
12- el artículo titulado “sistema automatizado de reconocimiento de defectos textiles mediante visión artificial y redes neuronales artificiales” presenta un sistema de reconocimiento de defectos textiles. La captura imágenes digitales de la tela se realiza mediante un dispositivo de adquisición de imágenes. Posteriormente, eliminaron el ruido y luego aplicaron la técnica de filtro adaptativo para convertir la imagen digital (rgb) en una imagen en escala de grises. Seguidamente, en el procesamiento de restauración recurrieron a una técnica de umbralización local para convertir la imagen en escala de grises en una imagen binaria, donde utilizaron un borde negro para una mejor comprensión. Después de la umbralización, el reconocedor calcula el área de falla, el número de objetos de la imagen y el factor de nitidez de la imagen binaria convertida. El reconocedor de defectos toma el área calculada de la parte defectuosa, el número de objetos y el factor nítido de esa imagen binaria como un conjunto de entrada de las redes neuronales. La mismas, utilizan el algoritmo sigmoide como función de transferencia la media de la suma de los cuadrados del algoritmo de ponderaciones y sesgos de la red se utiliza para la función de rendimiento. El algoritmo de peso/sesgo de widrow-hoff se utiliza como función de aprendizaje. La tasa de aprendizaje de las redes neuronales es 0,01 y el objetivo de la red es 10-5. El reconocedor tiene éxito en un 72 % en la identificación precisa de fallas clasificadas por huecos, en un 65 % en la identificación de fallas clasificadas en cero, en un 86 % en la identificación de otras fallas clasificadas y en un 83 % identificando defectos sin fallas. El desempeño total del sistema, que incluye la identificación de todas las fallas funciona con un 77 % de precisión en la identificación de los cuatro patrones (islam, akhter, & e. Mursalin, 2006).
13- en el trabajo “detección automática de defectos superficiales en acero laminado utilizando visión artificial y redes neuronales artificiales” se aborda el problema de la inspección visual automatizada de defectos superficiales en acero laminado, mediante el uso de visión por computadora y redes neuronales artificiales. El sistema propuesto fue dividido en tres módulos: entrada, inspección y salida. El módulo de entrada fue referido básicamente a la adquisición de imágenes y el envío de las mismas se realizó utilizando técnicas de visión por computador y redes neuronales artificiales. En el módulo de salida los defectos son detectados y clasificados por la región. El funcionamiento del módulo de inspección se realiza en tres pasos: pre procesamiento, entrenamiento y clasificación. En primer lugar, realizaron la rectificación de la imagen para eliminar las distorsiones de la lente y transformar la perspectiva de la imagen. Después de la rectificación, la siguiente operación a la que recurrieron fue la de eliminar los ruidos causados por la variación de la iluminación u otra fuente de ruido. Además, aplicaron los filtros gaussianos y morfológicos sobre la imagen rectificada. Después del filtrado, la imagen la sometieron a la operación de segmentación aplicando un umbral, dando como resultado la imagen binaria. Luego, la sometieron a detección de líneas y círculos, esta operación se realiza básicamente mediante la transformada de hough. Con el fin de clasificar tres tipos de defectos: soldadura, abrazadera y orificio. Posteriormente, aplican la operación de detección de la región de interés, la cual consiste en aplicar una rejilla sobre la imagen binarizada. La fase de pre procesamiento finaliza cuando seleccionan la región de interés, con la finalidad de recibir localizaciones de regiones de cuadrícula a probar y seleccionar en la imagen filtrada. Posteriormente, pasan a la fase de entrenamiento y recurren a la técnica de análisis de componentes principales (pca) con el objetivo de mantener los detalles principales de cada defecto. Después, realizan la extracción de características y utilizan las muestras para entrenar un clasificador de self organizing map (som) para agrupar clases. Una vez realizado el entrenamiento, se clasifican las regiones definidas en el paso de pre-procesamiento. En este sistema de clasificación de 300 muestras utilizadas lograron una tasa de clasificación general del 77 % y una de clasificación general del 87% (martins, padua, & almeida, 2010).
14- la investigación titulada “segmentación basada en lógica difusa de defectos de fabricación en superficies reflectantes” presenta un sistema eficaz de detección de defectos para superficies reflectantes y transparentes basado en la segmentación de imágenes mediante lógica difusa. La adquisición de imágenes se realizó mediante una cámara con una resolución de 2 mp, el sensor de la cámara es de tipo cmos y la distancia de la cámara es de unos 9,6 cm. En los experimentos, los autores utilizaron 32 piezas de vidrio y cuatro entradas en el método de lógica difusa propuesto. Las entradas fueron: entrada roja, entrada verde, entrada azul y entrada de luminancia. Para obtener el valor de luminancia, calcularon el valor del nivel de gris. Finalmente, compararon diversos algoritmos como: canny, fuzzy c-means, umbral de otsu y el algoritmo propuesto, donde este último fue el que tuvo mayor sensibilidad, con un valor de 83,5% (öztürk & akdemir, 2017).
15-en el trabajo “uso de lógica difusa para detectar defectos de hoyuelos en superficies de obleas pulidas” se estableció como objetivo de investigación desarrollar un algoritmo para detectar defectos de hoyuelos independientemente de sus tamaños, posiciones y orientaciones. El sistema consta de dos grandes etapas de procesamiento: pre procesamiento e identificación. Para cumplir con el objetivo los autores utilizaron tres etapas de pre procesamiento: la reducción de la resolución de la imagen, la extracción de características y la eliminación aleatoria del ruido. Luego calcularon los parámetros a, /?, 7 y h, eliminando los patrones mal asimétricos. En la evaluación de la pertenencia del resto de candidatos la realizaron en base al proceso de umbralización guiado por decisores de lógica difusa. Para probar la técnica propuesta primero emplearon patrones sintéticos. Luego, utilizaron como datos de entrada una imagen de oblea de 8 bits con una resolución de 256 x 240. La toma de decisiones difusa la realizaron utilizando un umbral t. La tasa de detección de los hoyuelos distorsionados para las imágenes de prueba logró un valor superior al 90% (hua li & jen chung lin, 1994).
16- en “detección de enfermedades de la fresa utilizando una red neuronal convolucional” desarrolló una técnica de reconocimiento de imágenes para la detección de enfermedades de la fresa utilizando un modelo de red neuronal convolucional (cnn). Con este fin, los autores tomaron un total de 792 imágenes de los cultivares de fresa “taoyuan no. 1” y “xiang-shui” de la granja de fresas en el municipio de dahu, condado de miaoli, usando una cámara sony rx10ii. Las imágenes fueron divididas en cinco tipos de enfermedades de la fresa, incluido el tizón de la hoja (podredumbre de la corona, tizón de la hoja, pudrición de la fruta), moho gris y mildiu polvoriento. Con el fin de detectar las diferentes enfermedades de la fresa se utilizaron los algoritmos googlenet, vgg-16 y resnet50. Por su parte, los autores determinaron utilizar el modelo resnet50 con un período de entrenamiento de 20 épocas. El modelo cnn que propusieron logra una tasa de precisión de clasificación del 100 % para los casos de tizón de la hoja que afectan la corona, la hoja y la fruta; 98% para casos de moho gris y 98% para casos de oídio. En 20 épocas, la tasa de precisión del 99,60 % obtenida del conjunto de datos de imágenes de características fue mayor que la del 1,53 % obtenida del original (xiao et al., 2020).
17- en el trabajo “un modelo eficiente de aprendizaje profundo para la detección de enfermedades del olivo” se presenta un modelo de aprendizaje profundo (dl) con vistas a desarrollar un detector eficiente de enfermedades del olivo. Los autores utilizaron la siguiente metodología: (1) se toman del conjunto de datos de planta-aldea. Posteriormente, se enriquece los datos de aceituna recogidos para el laboratorio de aljouf. (2) las imágenes de las hojas se procesan previamente a través de un filtro mediano de ventana pequeña. El proceso de filtrado elimina el ruido y luego las imágenes se redimensionan a 256 píxeles × 256 píxeles. (3) además, las imágenes se procesan con el modelo alexnet propuesto. Además, de esta arquitectura se utilizó para reducir el sobreajuste una tasa de abandono de 0,5 y el método 'sgdm'. El método propuesto logra una precisión global de alrededor del 99,11%. Además, tiene 99.49%, 99.11% y 99.29% en términos de precisión, recuperación y medida f1 respectivamente, constituyendo estas métricas medidas más altas en comparación con otros métodos hasta ese momento. Los enfoques tradicionales anteriores, como sift, hog, surf, etc., y similares, se basaban en métodos de extracción de características diseñados a mano y carecen del aprendizaje de transferencia por lo que fallan una vez que se renueva el problema en cuestión o se introducen cambios importantes en el conjunto de datos (alruwaili, abd el-ghany, alanazi, & shehab, 2019).
18- el artículo “reconocimiento automático de enfermedades de la fruta del aguacate utilizando una red neuronal convolucional profunda modificada” emplearon tres componentes principales, como la adquisición de imágenes, el aumento de imágenes (volteo, rotación, escalado, entre otros) para reducir el sobreajuste del modelo, la extracción de características y la clasificación de enfermedades. Por su parte, el conjunto de datos que utilizaron contiene 9000 imágenes de frutos de aguacate pertenecientes a ocho clases diferentes, divididos en entrenamiento al 80 % y prueba en 20%. Las imágenes de entrenamiento y prueba las redimensionaron a 224 x 224 píxeles para satisfacer el requisito dimensional del modelo. Además, los autores evaluaron varios modelos como: alexnet, googlenet, vgg, resnet, mobilenet, con el fin de obtener el que identificara de manera más precisa las enfermedades en este cultivo. El experimento lo realizaron en una cpu intel core i5-8200 a 2,60 ghz con 8 gb de ram y una gpu amd radeon m430s a través de google colab. El modelo desarrollado por los autores fue creado en el lenguaje de programación python, con marcos de aprendizaje profundo como keras y tensorflow. El rendimiento del modelo que propusieron se basó en el cálculo de la precisión obtenida para cada uno en el conjunto de datos de prueba, la precisión top 1 y top 5 se emplea para evaluar el rendimiento del modelo. La precisión de top 1 es el número de la etiqueta correcta con la probabilidad más alta del número total de la etiqueta predicha. La precisión top 5 de las 5 principales es el número de etiquetas predichas correctamente dentro de las 5 clases principales con respecto al número total de la etiqueta predicha. El modelo que propusieron fue el mobilenet modificado, el cual logró una precisión de top 1 de 96,82 %, mientras que la precisión del top 5 fue de 98,24 % (thangaraj et al., 2020).
19- en detección de enfermedades en el sector agrícola utilizando inteligencia artificial se presenta un trabajo que expone un resumen de diversos trabajos de investigación que dedicaron sus esfuerzos para detectar enfermedades en los cultivos agrícolas, utilizando técnicas de inteligencia artificial. Eligiendo como estudio los siguientes clasificadores: fuzzy logic, máquinas de soporte vectorial, bayes, k-vecinos más cercanos(knn), redes neuronales artificiales (ann) y cnn. Concluyendo que los trabajos que obtuvieron mejores resultados son las redes neuronales convolucionales (cnn), obteniendo una precisión entre 95.00% y 99.84% (roldán ortega, roshan biswal, & sánchez de la cruz, 2019b).
20- en la investigación titulada “la detección automática de caries en terceros molares en radiografías panorámicas usando aprendizaje profundo: un estudio piloto” tienen como objetivo evaluar la precisión al diagnosticar la caries dental en radiografías panorámicas utilizando algoritmos de aprendizaje profundo. Para ello entrenaron una red neuronal convolucional (cnn) sobre un conjunto de datos de referencia compuesto por 400 imágenes panorámicas recortadas en la detección de lesiones cariosas en terceros molares mandibulares y maxilares, basado en cnn mobilenet v2. Las imágenes se dividieron en un conjunto de datos aleatoriamente en 3 conjuntos, 320 para entrenamiento, 80 para validación y 100 para prueba. Así mismo, emplearon técnicas de ecualización de histogramas y aumento de datos en el conjunto de datos de entrenamiento para mejorar la generalización del modelo. Durante el proceso de entrenamiento, determinaron empíricamente los hiperparámetros y las operaciones de optimización, de modo que lograron un rendimiento máximo del modelo en el conjunto de validación. Posteriormente, utilizaron el mejor modelo para realizar predicciones en el conjunto de prueba. El algoritmo de optimización empleado fue el optimizador adam, con una tasa de aprendizaje de 0,0001, con un tamaño de lote de 32 y normalización por lotes. El proceso de entrenamiento y optimización se llevó a cabo utilizando la librería keras en el entorno colaboratory jupyter notebook. Logrando una precisión de 0,87, una sensibilidad de 0,87, una especificidad de 0,86 y un auc de 0,90 para la detección de lesiones cariosas de terceros molares en opg(s) (vinayahalingam et al., 2021).
21- en “sistema de detección de cáncer de mama en etapa temprana que utiliza la extracción de características glcm y k-nearest neighbor (k-nn) en la imagen de mamografía” se tiene como objetivo de estudio desarrollar un sistema de detección de cáncer de mama en etapa temprana que pueda clasificar automáticamente las anomalías en las mamografías. Para ello, se implementaron el sistema en el programa de matlab. Los pasos principales del sistema que utilizaron fueron: la adquisición de imágenes, el pre procesamiento, la extracción de características y la clasificación. La base de datos contiene imágenes de los senos izquierdo y derecho de 61 pacientes. En total, la misma cuenta con 322 imágenes, pertenecientes a los tres tipos: normal, benigno y maligno con una resolución de 1024*1024 píxeles. Posteriormente, efectuaron el pre procesamiento con el fin de mejorar la calidad de la imagen y prepararla para su posterior procesamiento mediante la eliminación del ruido irrelevante y las partes no deseadas del fondo de la mamografía. Además, se valieron de la segmentación de imágenes para simplificar y cambiar la representación de una imagen en algo que sea más significativo y más fácil de analizar. Con el fin de extraer la región roi del seno de la imagen pre-procesada se utilizó la umbralización de otsu. También, para la extracción de características utilizaron la matriz de co-ocurrencia de nivel gris (glcm) de textura. El último de los pasos es la clasificación, para este el mismo se utiliza el clasificador k-nearest neighbor o clasificación de vecindad. Logrando una precisión de clasificación real del 92% para las dos categorías (htay & maung, 2018).
22- en ”diseño de sistema de diagnóstico de enfermedades del corazón utilizando lógica difusa” desarrollaron un sistema experto difuso para identificar el riesgo de enfermedad cardíaca en los pacientes. La base de datos que utilizaron en este trabajo fue tomada de la uci (repositorio de aprendizaje automático), contando de un conjunto de datos de 4 bases de datos (implementadas en 920 pacientes) de la fundación de la clínica cleveland, instituto húngaro de cardiología, centro médico va de budapest, long beach, ca y hospital universitario, zúrich, suiza. Este conjunto de datos consta de 76 atributos de entrada y 1 atributo de salida para el resultado. En el sistema propuesto los autores utilizaron 10 atributos de entrada que son presión arterial, colesterol, azúcar en sangre, tipo de dolor torácico, frecuencia cardíaca máxima y antigüedad. Para ello recurrieron a la herramienta de matlab y la técnica de lógica difusa como método de diagnóstico. El sistema propuesto tiene mejor rendimiento y precisión en comparación con los estudios anteriores, logrando una precisión del 93,33 % (kasbe & pippal, 2017).
23- en el trabajo “una revisión sobre las técnicas de clasificación del aprendizaje automático para la detección de enfermedades de las plantas” se estableció como objetivo revisar y discutir las diferentes técnicas de clasificación y detección de enfermedades en las plantas. Una vez que los autores realizaron su investigación detectaron como metodología la siguiente: adquisición de la imagen, pre-procesamiento de la imagen, segmentación, extracción de características, clasificación y clasificación de enfermedades. Así mismo, detectaron como técnicas de clasificación más utilizadas los siguientes enfoques: support vector machine (svm), k-nearest neighbor (k-nn), artificial neural network (ann) y neural convolutional network (cnn). Por otro lado, pudieron constatar qué la mayor precisión se ha logrado con los conceptos de aprendizaje profundo, a través del enfoque de cnn (sharma et al., 2020).
RESULTADOS
Este estudio propone un acercamiento de las principales técnicas empleadas en la detección de características en imágenes. Así como su posible aplicación en diversos sectores, fundamentalmente en la agricultura. En este sentido, se analizan las precisiones obtenidas en variadas investigaciones, con el propósito de determinar cuál brinda los mejores niveles de predicción. La bibliografía consultada apunta a Fuzzy Logic, KNN, ANN, SVM y CNN como los métodos mayormente utilizados en el procesamiento de imágenes, cuyos resultados son bastante precisos. Algunos investigadores han analizado en profundidad la certeza alcanzada por dichos algoritmos, estableciendo comparativas entre ellos.
Por su parte, se compararon los siguientes clasificadores: Fuzzy Logic, Máquinas de Soporte Vectorial, K-vecinos más cercanos (KNN), Redes Neuronales Artificiales (ANN) y CNN. Los autores plantean que las CNN obtuvieron el mejor resultado. Afirman que se obtienen diagnósticos más cercanos a lo que un experto humano determinaría (Roldán Ortega et al., 2019).
Asimismo, después de analizar diversas técnicas (Shruthi, Nagaveni, & Raghavendra, 2019), concluyen que la mayor precisión se ha logrado con los conceptos de aprendizaje profundo que se encuentran a través del enfoque CNN.
Es de destacar que los investigadores concuerdan en que la CNN necesita de grandes conjuntos de datos. De no disponer de estos, resulta necesario el uso de otro método como las SVM.
CONCLUSIONES
En este documento se ha analizado el criterio de varios investigadores acerca de la aplicación de diversas técnicas de clasificación ampliamente utilizadas en la identificación y detección de características en imágenes digitales, además de su aplicación en el sector agrícola. En este sentido, se determinó que la red neuronal convolucional (CNN) ha logrado una mayor precisión en cuanto a la clasificación de imágenes con defectos. De ahí la necesidad de utilizar esta técnica probando diversos modelos tales como: AlextNet, VGG-16, GoogLeNet, ResNet, entre otros, para escoger el modelo más óptimo y por consiguiente, aplicarlo en la detección de enfermedades de la frutabomba y la guayaba. Esto facilitaría el diagnóstico temprano y el tratamiento de la enfermedad, manteniendo el potencial para mejorar el rendimiento y la calidad de dichos cultivos.
REFERENCIAS BIBLIOGRÁFICAS
Suzuki, K. (2020). AI: A New Open Access Journal for Artificial Intelligence. doi:10.3390/ai1020007
Subasi, A. (2020). Practical Machine learning for Data Analysis Using Python. Academic Press is an imprint of Elsevier 125 London Wall, London EC2Y 5AS, United Kingdom 525 B Street, Suite 1650, San Diego, CA 92101, United States 50 Hampshire Street, 5th Floor, Cambridge, MA 02139, United States The Boulevard, Langford Lane, Kidlington, Oxford OX5 1GB, United Kingdom: Elsevier Inc. Retrieved from https://www.elsevier.com/books-and-journals
Sarker, I. H. (2021). Machine Learning: Algorithms, Real-World Applications and Research Directions | SpringerLink. Springer, (160). doi:https://doi.org/10.1007/s42979-021-00592-x
Roldán Ortega, B., Roshan Biswal, R., & Sánchez De la Cruz, E. (2019). Detección de enfermedades en el sector agrícola utilizando Inteligencia Artificial. Research in Computing Science, 9.
Rouhiainen, L. (2018). Inteligencia artificial 101 cosas que debes saber hoy sobre nuestro futuro. Palneta,S.A.
Behera, S. K., Jena, L., Rath, A. K., & Sethy, P. K. (2018). Disease Classification and Grading of Orange Using Machine Learning and Fuzzy Logic (pp. 0678–0682). IEEE. doi:10.1109/ICCSP.2018.8524415
B. S. Bennedsen D. L. Peterson, & A. Tabb. (2007). Identifying Apple Surface Defects Using Principal Components Analysis and Artificial Neural Networks. Transactions of the ASABE, 50(6), 2257–2265. doi:10.13031/2013.24078.
Makkar, T., Verma, S., Yogesh, & Dubey, A. K. (2018). Analysis and Detection of Fruit Defect Using Neural Network. Data Science and Analytics, 799, 554–567.
Sannakki, S. S., Rajpurohit, V. S., Nargund, V. B., & Arunkumar, R. (2013). Disease Identification and Grading of Pomegranate Leaves Using Image Processing and Fuzzy Logic. International Journal of Food Engineering, 9(4), 467–479. doi:10.1515/ijfe-2012-0241.
Perumal, P., Sellamuthu, K., Vanitha, K., & Manavalasundara, V. K. (2021). Guava Leaf Disease Classification Using Support Vector Machine | Turkish Journal of Computer and Mathematics Education (TURCOMAT). Turkish Journal of Computer and Mathematics Education, 12(7). doi:https://doi.org/10.17762/turcomat.v12i7.2728
Sangeetha, M., Sellammal, R., Sujitha, K., & Menaga, S. (2018). Detection and Classification of Apple Fruit Disease using K-NN Classification and GLCM Features. Indian Journal of Emerging Electronics in Computer Communications, 5.
Kaur, B., Sharma, T., Goyal, B., & Dogra, A. (2020). A Novel Citrus Canker Disease Detection Using GA And KNN Hybrid Model Based on Various Feature Descriptors. International Journal of Advance Science and Technology, 29(10S).
Iqbal Khan, A., Quadri, S., & Banday, S. (2020). Deep Learning for Apple Diseases: Classification and Identification. doi:10.1504/IJCISTUDIES.2021.10033513
Hossen, M. S., Haque, I., Islam, M. S., Ahmed, M. T., Nime, M. J., & Islam, M. A. (2020). Deep Learning based Classification of Papaya Disease Recognition (pp. 945–951). IEEE. doi:10.1109/ICISS49785.2020.9316106
Singh Minhas, M. (2019). Anomaly Detection in Textured Surfaces (Maestría). Waterloo, Ontario, Canada. Retrieved from https://uwspace.uwaterloo.ca/handle/10012/15331
Basulto Rodríguez, Y. (2018, de diciembre de). Integración de la red neuronal convolucional con el algoritmo de función de frontera de objeto para reconocimiento de piezas y detección de defectos (Maestría). SALTILLO, COAHUILA. Retrieved from https://www.google.com.cu/search?ei=drxOXvXWFa8ggf34qP4Aw&q=tesis+para+detectar+defectos+y+manchas+%2BDlearning&oq=tesis+para+detectar+defectos+y+manchas+%2BD-learning&gs_l=psy-ab.12...1549.1549..2648...0.2..0.158.158.0j1......0....1..gws-wiz.......0i71.mpqKLCFV_X8&ved=0ahUKEwj16dXZzuDnAhVmnuAKHXfxCD8Q4dUDCAo
Agrawal, R., Kumar, K., & Vashishth, S. (2020). Orange Fruit Disease Detection Using Deep Convolutional Neural Networks. International Journal of Advanced Science and Technology, 29(5). doi:DOI:10.30534/ijatcse/2020/211922020
Islam, A., Akhter, S., & E. Mursalin, lmeida, P. E. M. (2010). Automatic detection of surface defects on rolled steel using Computer Vision and Artificial Neural Networks (pp. 1081–1086). IEEE. doi:10.1109/IECON.2010.5675519
Öztürk, Ş., & Akdemir, B. (2017). Fuzzy logic-based segmentation of manufacturing defects on reflective surfaces. Neural Computing and Applications, 29(8), 107–116. doi:10.1007/s00521-017-2862-6
Hua Li, & Jen Chung Lin. (1994). Using T. (2006, May). Automated Textile Defect Recognition System Using Computer Vision and Artificial Neural Networks, 13. Retrieved from http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.120.3772&rep=rep1&type=pdf
Martins, L. A. O., Padua, F. L. C., & Afuzzy logic to detect dimple defects of polished wafer surfaces. IEEE Transactions on Industry Applications, 30(2), 317–323. doi:10.1109/28.287528
Xiao, J.-R., Chung, P.-C., Wu, H.-Y., Phan, Q.-H., Yeh, J.-L. A., & Hou, M. T.-K. (2020). Detection of Strawberry Diseases Using a Convolutional Neural Network. Plants, 10(1), 31. doi:10.3390/plants10010031
Alruwaili, M., Abd El-Ghany, S., Alanazi, S., & Shehab, A. (2019). An Efficient Deep Learning Model for Olive Diseases Detection. International Journal of Advanced Computer Science and Applications, 10(9). Retrieved from https://pdfs.semanticscholar.org/221a/f7dd08cd32feeb7fe5f2cbb09ed38a23aad5.pdf
Thangaraj, R., Dinesh, D., Hariharan, S., Rajendar, S., Gokul, D., & Hariskarthi, T. R. (2020). Automatic Recognition of Avocado Fruit Diseases using Modified Deep Convolutional Neural Network. International Journal of Grid and Distributed Computing, 13(1). Retrieved from https://www.researchgate.net/profile/Rajasekaran-Thangarasu-2/publication/342491108_Automatic_Recognition_of_Avocado_Fruit_Diseases_using_Modified_Deep_Convolutional_Neural_Network/links/5f530c6e458515e96d2ed9f8/Automatic-Recognition-of-Avocado-Fruit-Diseases-using-Modified-Deep-Convolutional-Neural-Network.pdf
Roldán Ortega, B., Roshan Biswal, Sánchez De la Cruz, E. (2019). Detección de enfermedades en el sector agrícola utilizando Inteligencia Artificial. Research in Computing Science, 9.
Vinayahalingam, S., Kempers, S., Limon, L., Deibel, D., Maal, T., Bergé, S., & Xi, T. (2021). The Automatic Detection of Caries in Third Molars on Panoramic Radiographs Using Deep Learning: A Pilot Study. Research Square. doi:10.21203/rs.3.rs-379636/v1.
Htay, T. T., & Maung, S. S. (2018). Early Stage Breast Cancer Detection System using GLCM feature extraction and K-Nearest Neighbor (k-NN) on Mammography image (pp. 171–175). IEEE. doi:10.1109/ISCIT.2018.8587920.
Kasbe, T., & Pippal, R. S. (2017). Design of heart disease diagnosis system using fuzzy logic (pp. 3183–3187). IEEE. doi:10.1109/ICECDS.2017.8390044
Sharma, V., Verma, A., & Goel, N. (2020). Classification Techniques for Plant Disease Detection. Revista Internacional de Tecnología e Ingeniería Reciente, 8(6). doi:10.35940.