¿Qué es Data Science o Ciencia de Datos?
Data Science es la ciencia que estudia los datos mediante métodos como el Data Mining, Machine Learning, Clustering, Neural Networks o la mera visualización e interpretación de datos.
La ciencia de datos, como su propio nombre indica, es la ciencia que estudia los datos. Dentro del mundo del Data Science encontramos diversas disciplinas como el Data mining, Machine Learning, redes neuronales o la mera visualización e interpretación de datos.
Las personas que practican la ciencia de datos son los llamados Data Scientists o científicos de datos. Entre las funciones que realizan habría que destacar:
- Recogida de datos: Primero, para poder analizar datos, hay que recogerlos. En algunas ocasiones se pueden encontrar ciertos datasets de libre distribución en internet, aunque en otras muchas ocasiones la recogida de datos es un trabajo tedioso que hay que realizar.
- Preprocesado y limpieza de datos: Muchas veces los datos no están como deben estar: hay algunos datos que no disponemos o que están divididos en varias tablas o columnas. Además, muchas herramientas de Data Science requieren que los datos estén en un formato específico antes de trabajar con ellos, por lo que tenemos que preprocesarlos y transformarlos a la estructura correcta.
- Entrenamiento: Aquí entran en juego las redes neuronales o los algoritmos de clusterización y los árboles de decisión.
- Validación: Los resultados arrojados en el entrenamiento tienen que ser validados con otro dataset que no fue utilizado en la fase de entrenamiento. Una vez hayamos validado los datos, ya solamente nos queda la visualización y la interpretación de resultados.