This is an old revision of the document!
Seleccionar Datos
Ahora, hay que seleccionar algunos datos que formarán el núcleo de su aplicación. Algunas consideraciones:
- El proyecto será más fácil si los datos ya están en un formato de tablas (como, p.ej., CSV, TSV, etc.)
- El esquema final debería tener al menos tres tablas y tener un buen diseño relacional (p.ej., en BCNF)
- Las consultas finales que la aplicación usan deberían demonstrar una mezcla de rasgos de SQL, es decir, joins, consultas anidadas, agregación, etc. Es decir que los datos que ustedes elijan deben tener bastante “complejidad” para permitir consultas interesantes y no triviales.
- Los datos deben tener una escala razonable, es decir, al menos 10000 tuplas en total (sumando el número de tuplas de cada tabla) pero preferiblemente más.
- Al otro lado, sería una buena idea trabajar con menor a 10 millones de tuplas para evitar problemas con la escala que puede retrasar el proyecto.
La selección de datos es parte del proyecto, es decir que cada grupo debería encontrar sus propios datos. Pero para ayudar con eso, la siguiente lista da algunos ejemplos de fuentes de datos:
No todos los conjuntos de datos mencionados en estas fuentes son apropriados para el proyecto con respecto a las consideraciones previas, p.ej., hay conjuntos de datos que no tienen un formato de tablas, etc. No hay que usar todos los datos de un conjunto de datos particular. También se puede seleccionar datos de otra fuente no listada aquí.
Dos grupos no pueden usar el mismo conjunto de datos, entonces vamos a abrir una discusión en el foro donde cada grupo tendrá que poner su selección. Si hay un grupo que haya elegido el mismo conjunto de datos antes en esa discusión, tendrán que eligir otro. Si se usa el mismo conjunto de datos que un grupo del año pasado, está bien, pero vamos a verificar que los proyectos sean distintos.