User Tools

Site Tools


proyecto:seleccionar_datos

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
proyecto:seleccionar_datos [2017/04/20 20:51] ahoganproyecto:seleccionar_datos [2023/04/24 16:07] (current) sferrada
Line 1: Line 1:
 ====== Seleccionar Datos ====== ====== Seleccionar Datos ======
  
-Ahora, hay que seleccionar algunos datos que formarán el núcleo de su aplicación. Algunas consideraciones:+Deberían seleccionar algunos datos para su proyecto. Algunas consideraciones:
  
   * El proyecto será más fácil si los datos ya están en un formato de tablas (como, p.ej., CSV, TSV, etc.)   * El proyecto será más fácil si los datos ya están en un formato de tablas (como, p.ej., CSV, TSV, etc.)
-  * El esquema final debería tener al menos tres tablas y tener un buen diseño relacional (p.ej., en BCNF) +  * El esquema final debería tener al menos tres tablas y un buen diseño relacional (p.ej., estar en BCNF) 
-  * Las consultas finales que la aplicación usan deberían demonstrar una mezcla de rasgos de SQL, es decir, joins, consultas anidadas, agregación, etc. Es decir que los datos que ustedes elijan deben tener bastante "complejidad" para permitir consultas interesantes y no triviales.+  * Las consultas finales de la aplicación deberían demostrar una mezcla de operadores de SQL, es decir, joins, consultas anidadas, agregación, etc. Los datos que ustedes elijen deben tener la "complejidad" suficiente para permitir consultas interesantes y no triviales.
   * Los datos deben tener una escala razonable, es decir, al menos 10000 tuplas en total (sumando el número de tuplas de cada tabla) pero preferiblemente más.    * Los datos deben tener una escala razonable, es decir, al menos 10000 tuplas en total (sumando el número de tuplas de cada tabla) pero preferiblemente más. 
-  * Al otro lado, sería una buena idea trabajar con menor a 10 millones de tuplas para evitar problemas con la escala que puede retrasar el proyecto.+  * Por otro lado, sería una buena idea trabajar con menos de un millón de tuplas para evitar problemas de escala que pueden retrasar el proyecto. Cada máquina virtual tiene aprox. 3GB de espacio libre en el disco, y aprox. 450MB de memoria total; estos recursos son más que suficientes para un conjunto de datos pequeño, pero no para un conjunto de datos grande (p.ej., más de un millón de tuplas). En el caso de tener un conjunto grande, se puede considerar trabajar con un sub-conjunto de los datos
  
-La selección de datos es parte del proyecto, es decir que cada grupo debería encontrar sus propios datos. Pero para ayudar con eso, la siguiente lista da algunos ejemplos de fuentes de datos:+La selección de datos es parte del proyecto, es decir que cada grupo debería encontrar sus propios datos. La siguiente lista da algunos ejemplos de fuentes de datos:
  
   * https://www.kaggle.com/datasets   * https://www.kaggle.com/datasets
   * https://datahub.io/   * https://datahub.io/
 +  * https://datasetsearch.research.google.com/
   * https://github.com/caesar0301/awesome-public-datasets   * https://github.com/caesar0301/awesome-public-datasets
 +  * http://datos.mineduc.cl/dashboards/19731/bases-de-datos-directorio-de-establecimientos-educacionales/
 +  * https://datos.gob.cl/
  
-No todos los conjuntos de datos mencionados en estas fuentes son apropriados para el proyecto con respecto a las consideraciones previas, p.ej., hay conjuntos de datos que no tienen un formato de tablas, etc. No hay que usar todos los datos de un conjunto de datos particular. También se puede seleccionar datos de otra fuente no listada aquí.+No todos los conjuntos de datos mencionados en estas fuentes son apropiados para el proyecto con respecto a las consideraciones previamente discutidas; p.ej., hay conjuntos de datos que no tienen un formato apropiado, etc. No hay que usar todos los datos disponibles en un conjunto de datos; se puede usar una muestra interesante. También se pueden seleccionar datos de otra fuente no listada aquí.
  
-Dos grupos no pueden usar el mismo conjunto de datos, entonces vamos a abrir una discusión en el foro donde cada grupo tendrá que poner su selecciónSi hay un grupo que haya elegido el mismo conjunto de datos antes en esa discusión, tendrán que eligir otro. Si se usa el mismo conjunto de datos que un grupo del año pasado, está bien, pero vamos a verificar que los proyectos sean distintos.+Dos grupos no pueden usar el mismo conjunto de datos, así que vamos a abrir una discusión en el foro en la cual cada grupo debería indicar su elecciónNo se puede seleccionar un conjunto de datos previamente indicado por otro grupo en el foro.
proyecto/seleccionar_datos.1492721471.txt.gz · Last modified: 2017/04/20 20:51 by ahogan