Particiones y Código

Esta página contiene particiones de bases de datos de prueba, así como particiones de bases de datos y código fuente de artículos específicos.

Particiones de bases de datos de benchmark
A. Sáez, J. Sánchez-Monedero, P. A. Gutiérrez,C. Hervás-Martínez, Machine learning methods for binary and multiclass classification of melanoma thickness from dermoscopic images, IEEE Transactions on Medical Imaging, Accepted, 2015. (bases de datos y enlaces a la implementación de métodos)
Javier Sánchez-Monedero, Pilar Campoy-Muñoz, Pedro Antonio Gutiérrez and César Hervás-Martínez, "A guided data projection technique for classification of sovereign ratings: the case of European Union 27", Applied Soft Computing, 2014 (bases de datos y enlaces a la implementación de métodos)
J. Sánchez-Monedero, P.A. Gutiérrez, Peter Tiño, C. Hervás-Martínez. " Exploitation of Pairwise Class Distances for Ordinal Classification ", Neural Computation, Accepted, 2013 (Código fuente Matlab y bases de datos)
J. Sánchez-Monedero, P.A. Gutiérrez, M. Pérez-Ortiz, C. Hervás-Martínez. " An n-spheres based synthetic data generator for supervised classification ", International Work Conference on Artificial Neural Networks (IWANN), 2013 (código fuente Matlab del generador de datos sintético)
M. Pèrez-Ortiz, R. Colmenarejo, J.C. Fernández y C. Hervás-Martínez. "Can machine learning techniques help to improve the Common Fisheries Policy?", International Work Conference on Artificial Neural Networks (IWANN), 2013 (mejor modelo resultante)
M. Pèrez-Ortiz, P. A. Gutiérrez y C. Hervás-Martínez. "Projection based ensemble learning for ordinal regression". 2012 (bases de datos y resultados estadísticos)
P. A. Gutiérrez, C. Hervás-Martínez, F. J. Martínez-Estudillo y M. Carbonero-Ruz. "A two-stage evolutionary algorithm based on sensitivity and accuracy for multi-class problems", Information Sciences. 2012 (bases de datos y resultados estadísticos)
P. A. Gutiérrez, C. Hervás-Martínez y F. J. Martínez-Estudillo. "Logistic Regression by Means of Evolutionary Radial Basis Function Neural Networks", IEEE Transacctions on Neural Networks, 2011 (bases de datos)
F. Fernández-Navarro, C. Hervás-Martínez, J. Sanchez-Monedero and P. A. Gutiérrez. "MELM-GRBF: A modified version of the extreme learning machine for generalized radial basis function neural networks", Neurocomputing, 2011 (código fuente)
F. Fernandez-Navarro, C. Hervás-Martínez y P. A. Gutiérrez. "A dynamic over-sampling procedure based on sensitivity for multi-class problems", Pattern Recognition, 2011 (bases de datos)
P. A. Gutiérrez, C. Hervás-Martínez, M. Carbonero-Ruz and J. C. Fernandez-Caballero. "Combined Projection and Kernel Basis Functions for Classification in Evolutionary Neural Networks", Neurocomputing, 2009 (bases de datos y código fuente)
F. J. Martínez-Estudillo, C. Hervás-Martínez, P. A. Gutiérrez y A. C. Martínez-Estudillo. "Evolutionary Product-Unit Neural Networks Classifiers", Neurocomputing, 2008 (bases de datos)

Particiones de bases de datos de benchmark

The following zip file contains the partitions for some datasets used in the research group. You can download it to perform comparisons with the published results.

El siguiente fichero contiene las particiones de algunas de las Bases de Datos utilizadas por el grupo. Puede descargar el fichero para realizar comparaciones con los resultados publicados.

Save File
datasets.zip

La mayoría son Bases de Datos obtenidas del repositorio de la UCI (Universidad de Irvine, California).

PREPROCESAMIENTO: Todas las variables nominales han sido transformadas en variables binarias. Los valores perdidos han sido sustituidos por la media (en caso de variables continúas) o por la moda (en caso de variables discretas).

DISEÑO EXPERIMENTAL: Se ha seguido un proceso "hold-out" de validación cruzada. Cada Base de Datos ha sido dividida en dos particiones estratificadas, es decir, conservando la distribución original de clases en cada una de las particiones. Para el conjunto de entrenamiento (train_*.dat) se han utilizado un 75% de los patrones y para el de generalización (test_*.dat) un 25%.

FORMATO: Para cada Base de Datos se tendrá un fichero como este para los datos de entrenamiento y otro para los datos de testeo:

200 4 2
1 1 1 1 -1 2 2
0.696481734 0.358437482 0.425834333 0.330313732 0.222490899 0 1
0.590389914 0.430674851 0.869041807 0.070911615 0.634302531 0 1
0.827655687 0.617833022 0.949440873 0.670138426 0.640808376 0 1
0.810716912 0.262116166 0.454194418 0.854706083 0.279769507 1 0
...

Por lo tanto, el formato de estos ficheros de entrada es el siguiente:

Patrón1
Patrón2
Patrón3
...
PatrónN

Siendo el número de patrones que contiene el fichero, el número de variables de entrada de los patrones del fichero, el número de salidas del mismo y un vector cuyo número de componentes es igual al número de columnas o variables del fichero. Cada componente de este vector indica la interpretación que se dará a la variable, de forma que un 1 quiere decir que es una variable de entrada, un 2 que es una variable de salida y un -1 que esa variable debe ser ignorada y no interpretada. Todos los elementos del fichero están separados por un espacio o por un tabulador.

LISTADO DE BASES DE DATOS DISPONIBLES:
- Anneal
- Audio
- Autos
- Balance
- Breast-Cancer
- Breast-Cancer Wisconsin
- Card
- Dermatology
- Ecoli
- Gene (Splice)
- German
- Glass
- Glassg2
- Heart Statlog
- Heart-C
- Heart Disease Problem
- Hepatitis
- Horse
- Hypothyrois
- Ionosphere
- Iris
- Krkopt
- KrVsKp
- Labor
- Lenses
- Letter
- Liver
- Lymphography
- Newthyroid
- Optdigits
- Page-Blocks
- Pendigits
- Pima
- Post-Operatory
- Primary-Tumor
- Promoters
- Satimage
- Segment
- Sick
- Sonar
- Soybean
- Tic-Tac-Toe
- Vehicle
- Vote
- Vowel
- Waveform
- Wine
- Yeast
- Zoo
M. Pérez-Ortiz, R. Colmenarejo, J.C. Fernández y C. Hervás-Martínez. "Can machine learning techniques help to improve the Common Fisheries Policy?", International Work Conference on Artificial Neural Networks (IWANN), 2013.

El siguiente fichero contiene el mejor árbol de decisión obtenido para el problema de evaluación del impacto medioambiental de la flota española.

best_decision_tree.txt

M. Pérez-Ortiz, P. A. Gutiérrez y C. Hervás-Martínez. "Projection based ensemble learning for ordinal regression".

El siguiente fichero incluye los resultados detallados para los distintos conjuntos de generalización usados, para 6 medidas de distinta índole de evaluación de un clasificador ordinal y 16 metodologías diferentes.

detailed_Results_ELOR.pdf

Este fichero incluye todas las particiones específicas que se utilizaron para obtener los resultados anteriores en distintos formatos.

datasets_ELOR.zip

P. A. Gutiérrez, C. Hervás-Martínez, F. J. Martínez-Estudillo y M. Carbonero-Ruz. "A two-stage evolutionary algorithm based on sensitivity and accuracy for multi-class problems", Information Sciences. Vol. 197. 2012, pp. 20-37.

Este fichero incluye los resultados detallados para el conjunto de generalización de algunas de las bases de datos de prueba del repositorio UCI, utilizando distintas funciones de aptitud y la metodología "E+A".

detailed_E+A_Results.xls

Este fichero incluye todas las particiones específicas que se utilizaron para obtener los resultados anteriores.

datasets_E+A.zip

P. A. Gutiérrez, C. Hervás-Martínez y F. J. Martínez-Estudillo. "Logistic Regression by Means of Evolutionary Radial Basis Function Neural Networks", IEEE Transacctions on Neural Networks, Vol. 22. 2011, pp. 246-263.

Este otro fichero incluye las bases de datos de la UCI utilizadas para obtener los resultados del artículo en el que se presenta la metodología "LIRBF".

datasets_LIRBF.zip

El siguiente fichero incluye el código fuente en Java para ejecutar dicho algoritmo:

sourceCodeLIRBF.zip

F. Fernández-Navarro, C. Hervás-Martínez, J. Sanchez-Monedero and P. A. Gutiérrez. "MELM-GRBF: A modified version of the extreme learning machine for generalized radial basis function neural networks", Neurocomputing, Vol. 74, Issue 16, 2011, pp. 2502-2510.

El código fuente MELM-GRBF es una versión extendida del código fuente ELM original desarrollado por Mr. Qin-Yu Zhu y Dr. Guang-Bin Huang disponible en http://www.ntu.edu.sg/home/egbhuang/.

MELM-GRBF.zip

F. Fernandez-Navarro, C. Hervás-Martínez y P. A. Gutiérrez. "A dynamic over-sampling procedure based on sensitivity for multi-class problems", Pattern Recognition, Vol. 44. 2011, pp. 1821–1833.

Este fichero contiene los conjuntos de entrenamiento y generalización de los experimentos realizados para el artículo "A dynamic over-sampling procedure based on sensitivity for multi-class problems".

datasets_DSRBF.zip

P. A. Gutiérrez, C. Hervás-Martínez, M. Carbonero-Ruz and J. C. Fernandez-Caballero. "Combined Projection and Kernel Basis Functions for Classification in Evolutionary Neural Networks", Neurocomputing, Vol. 72. 2009, pp. 2731-2742.

Este fichero contiene los conjuntos de entrenamiento y generalización de los experimentos realizados para el artículo mencionado.

partitionsCBFEP.zip

El siguiente fichero incluye el código fuente en Java para ejecutar dicho algoritmo:

sourceCodeCBFEP.zip

F. J. Martínez-Estudillo, C. Hervás-Martínez, P. A. Gutiérrez y A. C. Martínez-Estudillo. "Evolutionary Product-Unit Neural Networks Classifiers", Neurocomputing, Vol. 72. 2008, pp. 548-561.

El siguiente fichero contiene los conjuntos de entrenamiento y generalización de los experimentos "Diabetes(12fold)" y "Australian(10fold)" realizados en el artículo mencionado.

Save File
Neurocomputing.zip

Francisco Bérchez-Moreno, Antonio M. Durán-Rosal, César Hervás Martı́nez, Pedro A. Gutiérrez y Juan C. Fernández. "A Memetic Dynamic Coral Reef Optimisation Algorithm for simultaneous training, design, and optimisation of artificial neural networks".

El siguiente fichero contiene los conjuntos de entrenamiento y generalización empleados para el desarrollo del artículo.

Save File
Datasets.zip