Sino, ¿Dónde?

¿Dónde Aprender Ciencia de Datos?

¿Vale la pena tomar un Master para capacitarse en Ciencia de Datos?

2023-02-20 Data Science Tutorial

picture of me

¿Por qué siquiera molestarse en volver a la Universidad si hay tantos cursos por ahí que me permiten aprender lo mismo o más sin tener que pasar por el estrés de la Universidad? Eso es lo que debería haber pensado antes de entrar a la UAI. Acabo de terminar mi ~~primer~~ segundo semestre en el MSDS de la Universidad Adolfo Ibañez, pero ¿Vale la pena el costo? ¿Vale la pena volver a la Universidad para aprender de Ciencia de Datos?

Actualizado 2023

Bueno yo soy de las personas que cree que existen muchos recursos para aprender Ciencia de Datos. Y está lleno, algunos de los que yo he utilizado:

A diferencia de lo que algunas personas muy reputadas en Linkedin puedan pensar yo sí creo que es importante programar de manera excelente. Ya que lo que menos uno puede hacer como Científico de Datos es darse el lujo de desperdiciar recursos por no tener la habilidad suficiente para llevar a cabo una buena implementación.

Google + Stackoverflow (no necesariamente para aprender Ciencia de Datos pero para poder implementar algo)
Datacamp
Youtube
Stanford Artificial Intelligence Professional Program
Coursera
Udemy
Contribuyendo en Open Source

En este artículo, me gustaría contarles cuál ha sido mi experiencia con estos cursos, cuáles tengo ahí esperando a tener tiempo libre y si vale la pena hacer lo que estoy haciendo: ElMSDS.

Google + Stackoverflow

Creo que esto es algo transversal para cualquier programador. Siempre que existan dudas de cómo implementar algo lo mejor es Googlear. De hecho, me pasó de que cuando tuve la oportunidad de estar a cargo de un equipo de Data Science para mí es mejor que alguien no sepa, pero sepa Googlear a que “se las sepa todas”. Rara vez uno conocerá todo lo que necesita para una implementación o para solucionar un error de código. Creo que hoy en día aprender a Googlear y a elegir cuál de todas las respuestas de Stackoverflow es la más apropiada, es un skill que hay que desarrollar. Con una googleada y 2 o 3 links y ya mi problema debería estar solucionado (a menos que sea un problema muy raro y hay que incluso meterse en el Github del autor de la librería).

Mi recomendación: Es bueno saber googlear, usar palabras claves, comandos de búsqueda específica de Google y ser capaz de rápidamente discernir qué respueta de Stackoverflow es la más apropiada. A eso le sumaría conocer las documentaciones de sus librerías, cuáles son confiables y cuáles no tanto. Ej: Pandas, Scikit-Learn, Pytorch son librerías con excelente documentación y que es muy fácil encontrar algo. Por otro lado, Tensorflow (no me maten), Pytorch Lightning, Statsmodels, son como documentaciones enredadas, difíciles de seguir. No sé si han entrado a la Documentación de SQLAlchemy o Pytest, esas son imposibles. Entonces, si la documentación es buena ir directo ahí, sino, Stackoverflow al rescate.

Hay otro tipo de documentación que está haciendo bien popular Tiangolo en librerías como SQLModel, Typer o FastAPI que es como un arma de doble filo. Es como en modo historia/tutorial que para aprender la librería está espectacular, pero cuando quieres buscar una funcionalidad específica nunca sabes donde buscar. Pero bueno estamos hablando de otra cosa.

Datacamp

Creo que he tomado suficientes cursos como para hablar con propiedad: tengo 37 Cursos en Python más el Track de Machine Learning Scientist y ML Fundamentals además de 18 en R. No les voy a mentir, no es un curso que sea increíblemente difícil y en el que vayan a volverse expertos, pero quita el miedo, y les ayuda a soltar la mano para codear rápido. Yo aprendí Python en Datacamp, venía de sólo saber R, y aprendí Pandas, Scikit-Learn y Python Base a un nivel bastante decente. Eso junto con empezar a implementar cosas fue lo que más confianza me dió en Python.

Ahora, hay cursos muy buenos como los de Pandas y Scikit-Learn (no todos, pero la mayoría), pero encontré particularmente malos los de Matplotlib y Seaborn, más que ayudarme a entender la librería me ayudaron a confundirme más. Además, tomé por ahí un curso de GIT y de UNIX que fueron bastante buenos para perder el miedo a estas tecnologías.

Mi Recomendación: Creo que este tipo de cursos sólo vale la pena para gente que no conoce una tecnología y quieres perderle el miedo. Si bien yo pagué dos veces la suscripción anual a Datacamp, no creo que lo volvería a hacer. Si te quieres iniciar en R o Python (creo que ahora también tiene SQL y Tableau) vale completamente la pena. Si tú intención es especializarte, entonces te vas a aburrir.

Youtube

Para mí es casi mi fuente primaria de sabiduría. Obviamente hay de todo y hay que saber filtrar. No tengo las respuestas de todo y probablemente va a depender mucho de cuáles son tus intereses para aprender. Yo puedo compartir los youtubers que más sigo para algunos de mis temas:

Probabilidad y Estadística y Teoría en General: Statsquest, por lejos lo mejor. A algunos les pueden molestar sus canciones, pero vale la pena aguantárselas porque el contenido es muy bueno. Y uno que encontré para algebra lineal que es espectacular 3Blue1Brown recomendado por mi amigo Álex Álvarez.
Python Misceláneo: Python Engineer, Sentdex(aunque no me gusta mucho en aspectos más teóricos, es medio chamuyento).
Deep Learning en Español: Sensio, lo mejor que hay en español.
Machine Learning y Deep Learning: Abishek Thakur, súper buen contenido del primer Cuádruple Kaggle GrandMaster.
Otros canales buenos:
- ArjanCodes es un canal misceláneo de muchas cosas pero todas en Python. He aprendido muy buenas prácticas de diseño de software viendo este canal. Y el tipo explica muy bien.
- HuggingFace es una joyita bien escondida.
- AI Epiphany, es un canal mucho más avanzado de Aleksa Gordic, un cabro que hoy está trabajando en DeepMind. Creo que tanto su canal como su Github tiene mucha info de lo último en Deep Learning.
- Aladdin Persson, es un canal súper denso igual, casi siempre son implementaciones de Papers.
Cursos de Deep Learning: Canales de Stanford principalmente.
- CS229 2018 y 2019
- CS224N
- CS224U
- CS224W
- Uva Deep Learning
- Transformers United (no lo he visto aún)
- HuggingFace Course: Acá tienen varias opciones. Yo estoy en este momento tomando el de NLP, pero no me había percatado del beneficio de este curso en partícular porque se explica demasiado bien el por qué funcionan los transformers.
- etc.

Mi Recomendación: Suelo utilizar Youtube para contenido más denso, que no siempre entiendo de un paper o un libro, por lo que prefiero que alguien me lo explique. Para dudas de programación, normalmente googleo.

Artificial Intelligence Professional Program

Este es el programa que estoy a punto de terminar en la Universidad de Stanford. Básicamente te entregan un pool de cursos y tú debes tomar 3. Yo tomé XCS229 que es el curso de Machine Learning de Andrew Ng, XCS224W que es el curso de Jure Leskovec de Redes Neuronales de Grafos y XCS224N que es el de Chris Manning de NLP y Transformers.

Estos son por lejos los mejores cursos que he tomado. He aprendido muchísimo tanto teóricamente, como en implementaciones prácticas. Son cursos basados en los cursos dictados en postgrado en Stanford, con las mismas tareas que se dan en el Campus. Son cursos densos, teóricamente muy profundos, y las tareas son muy difíciles, normalmente tienen parte teórica para probar la matemática detrás e implementaciones en Python (ML implementa en Numpy desde cero y en DL con Pytorch).

Mi Recomendación: Este tipo de cursos se toman sólo si te gusta sufrir. Me tomó cerca de 2 años tomar los 3 cursos, toman un trimestre cada uno, y además son muy caros: ~~US$1595~~ US$1700 y ojo que si no estudias te los puedes echar. Hay alta tasa de deserción y no se devuelve el dinero. Lo que sí, quedas certificado por la Universidad de Stanford y recibes Certificados y un registro de la Universidad.

Coursera y Udemy

Este es el cementerio de cursos más grandes que tengo, en especial de Udemy. En Udemy, hay harto curso malo, y que luego de un par de videos te das cuenta que no vas a aprender nada nuevo. Yo tomé unos de Pytorch que me gustaron y unos de una librería llamada Feature Engine, aunque aún me queda uno esperando de MLOps dado por la misma autora. En Coursera, dado que son más caros, tengo muchos ahí que tomé completos, pero sin las tareas. Los mejores cursos a tomar en Coursera son definitivamente cualquiera de Deep Learning AI y uno que se llama How to Win a Kaggle Competition, que hoy es muy dificil de encontrar porque es dada por una Universidad Rusa y debido a la guerra no está disponible para nuevos estudiantes. How to Win a Kaggle Competition tiene todos los trucos habidos y por haber de ML clásico: EDA, Preprocesamiento, Tuning de Hiperparámetros, un detalle de todos los modelos más comunes, Data Leakage, Cross Validation, Ensambles.

Mi recomendación: En Coursera, tomar los de Deep Learning AI. Son muchísimos, pero valen la pena aunque sean en Tensorflow (El de GANs es en Pytorch). Y no sé, en mi opinión son cursos difíciles y caros, entonces si hay algo que realmente quieres aprender dale, porque son en general de muy buen nivel. Respecto a Udemy, no sé, tomarlos bajo tu propio riesgo, es muy alta la chance de salir decepcionado.

Contribuyendo en Open Source (Nuevo)

Esto es algo nuevo para mí. Y tengo que agradecer a Sole Galli por animarme a hacerlo. Ella es la mantenedora de Feature Engine y me animo a solucionar un bug que encontré en la librería el año pasado. Fue genial porque es super presente en las revisiones y en las sugerencias de donde hacer las correcciones. Sigo contribuyendo regularmente a la librería y creo que el mayor aprendizaje es en buenas prácticas de programación y uso de Git.

¿Y el MSDS?

Bueno el Master of Science in Data Science (MSDS, igual es como malo el nombre), es un Magister Académico, es decir, está enfocado en quedarse idealmente investigando y/o eventualmente tomar el Doctorado en Data Science. ¿Por qué lo tomé? No voy a mentir, por el cartón. Yo soy solo egresado de Ingeniería Civil (y tengo mi licenciatura en Ciencias de la Ingeniería), pero es algo que siempre me sacan en cara. Aún así, Jooycar confió en mí y me dio la oportunidad de ser Head de Data Science y creo no haberles fallado. Pero en general el cartón pesa. Ahora, yo tuve que entrevistar varios tipos con Magister y no les encontré nada especial. Es más, incluso algunos sabían menos que un Data Scientist con un par de años de experiencia.

La siguiente pregunta es: ¿Por qué en la UAI? Bueno, ví varias opciones, y Magister en Data Science propiamente tal sólo encontré la UAI y la Universidad de Chile. Y la UAI me becó, por eso en la UAI. No creo que haya una gran diferencia entre ambas universidades. La otra opción que tenía era tomar un Msc. en Informática y armar mi malla con ramos en Ciencia de Datos. Pero la UAI me becó y aquí estamos.

La decisión fue tomada en conciencia de que probablemente no aprendería nada nuevo. Esto, luego de ver un video de Mark Tennenholtz (Kaggle Master) que está haciendo su Master en Georgia Tech y dijo estar aprendiendo incluso menos cosas de las que ha aprendido en Kaggle. Bajo eso, dije bueno: No pierdo nada en intentar estando becado y ~~me he sorprendido para bien, he aprendido más de lo que esperaba,~~ me encantó. La verdad es que terminé aprendiendo demasiado de cosas que jamás pensé que fueran tan útiles. Acá dejo un detalle de todos los ramos que tomé, sin pelos en la lengua.

Primer Semestre

Análisis Geoespacial (Prof. Moreno Bevilacqua): Creo que fue el ramo que más me gustó del primer semestre. Es básicamente estadística avanzada enfocado en Campos Aleatorios. No sé si alguna vez utilice esto, pero la cantidad de estadística multivariada que aprendí es impagable. Este tipo de análisis permite ajustar modelos en el espacio y espacio-tiempo para luego generar predicciones (Kriging). El ramo lamentablemente se hace en R, pero utilizamos la librería que creó el profe además de implementaciones hechas de manera manual. Súper buena mezcla entre teoría dura y código.
Current Trends in Data Genomics (Prof. Álvaro Cortés): Este es quizás el ramo más interesante. A mí no me mató principalmente porque no me gusta la Biología, pero básicamente nos enseñaron lo último en análisis genético tanto de ADN como de ARN. Además lo interesante es que el profe nos hizo clases desde Bélgica (KU Leuven) y nos dió acceso a un Supercomputador (HPC Cluster), lo cuál fue una tremenda experiencia (trabajamos con Clusters con hasta 384 Nodos). Es sumamente interesante saber cómo se pueden detectar mutaciones, cánceres, variantes genéticas, etc. Es una clase de harta teoría, nos hicieron leer varios papers, pero quizás lo mejor fue que justo en la mitad del curso se liberó el artículo indicando que finalmente se pudo secuenciar el Genoma Humano completo, lo cual fue entretenido, porque gracias al curso pudimos entender el alcance de este trabajo. Finalmente (y eso que el curso no me mató), el trabajo final consistió (en mi caso) en investigar acerca de un Modelo de Red Neuronal de Grafos para el proceso de novo assembly, para poder generar Genomas de especies en las que no se tiene referencia. Realmente fue un joya tener un curso así aunque es difícil que alguna vez lo llegue a aplicar.
Percepción Remota (Prof. Javier Lopatín): Otro ramo que me gustó, y el tema en el que estoy haciendo mi tesis. Al principio el nombre no parecía muy atractivo, pero terminó siendo súper interesante. Principalmente la percepción remota se encarga de utilizar imágenes que pueden ser satélitales, de drones, de aviones y un largo etc. para poder detectar cosas. Esto lo encontré súper interesante, porque el ramo es en Python, es sumamente aplicado, y además pudimos utilizar librerías de manipulación de imágenes para calcular muchas cosas: pendientes, sombras, altitud. Aprendimos librerías súper cool como rasterio, xarray, geopandas y es un tema súper interesante (por eso mi tema de investigación), entre otras cosas, por el cambio climático. El ramo enseña todo lo teórico en cuánto a qué información se puede extraer de imágenes hiperespectrales (o sea tienen más canales que el RGB) y métodos de Machine Learning en Clasificación, Regresión y Series de Tiempo (aunque es sólo una pincelada). SPOILER: Estoy trabajando en el uso de Deep Learning para Anomalías en Series de Tiempo de Imágenes, súper choro.
Tópicos en Data Management y Data Analytics (Nombre fancy para Bases de Datos) (Prof. Miguel Romero): Este pensé que sería el ramo más aburrido de la vida pero terminó siendo súper interesante. Aprendimos SQL (y sí, aprendí cosas nuevas de SQL que no sabía, como consultas recurrentes, índices, y uno que otro truquito de queries), aprendí Mongo (yo igual había usado mongo, pero siento que el curso enseña varias cosas bastante avanzadas que no sabía) y lo que más me gustó fue Neo4j. Neo4j es una base de datos de Grafos, que realmente cambió mi manera de ver la organización de la data. Sirve tanto para data estructurada como no estructurada y es poderoso y rápido, y además permite aplicar proyecciones y algoritmos como PageRank. Definitivamente voy a estar subiendo un tutorial de Mongo y Neo4j. Si bien no esperaba mucho de este curso, que de paso es obligatorio, terminé aprendiendo muchísimo.
Técnicas Estocásticas y Estadísticas en Data Science (nombre fancy para estadística básica) (Prof. Leopoldo Bertossi): Quizás el ramo más decepcionante, y no creo que sea por la materia sino por el Profe. Realmente la pasamos mal en este ramo, es estadística básica, y realmente aprendí conceptos muchos más robustos en estadística, variable aleatoria discreta sobre todo, redes de Bayes, algo de Markov, y un poquito de teoría de Información, pero no volvería a tomar este ramo con el mismo profe. Explica bien, pero nunca entendimos lo que preguntaba en las evaluaciones, y lo pasamos mal, era bien pesote. Lo voy a dejar ahí. Lamentablemente es un ramo obligatorio y que no vale la pena, ya que aprendí mucha más estadística en Análisis Geoespacial.

Segundo Semestre

Durante el segundo semestre tomé los siguientes ramos:

Álgebra Lineal y Optimización para Data Science (Prof. Miguel Romero): Este fue el curso cortacabezas, bien denso teoricamente pero probablemente el mejor curso que he tomado de teoría asociada a Data Science. El curso es una joya, especialmente porque está dividido en dos partes: Algebra Lineal, creo que en el Algebra Lineal de pregrado rara vez se aborda el entendimiento de Operaciones Matriciales como Transformaciones Lineales que llevan de una dimensión a otra (que es la base del funcionamiento de las redes neuronales). El curso no sólo cubre en detalle toda la parte matricial incluyendo interpretabilidad de operaciones, calculo diferencial y optimización de funciones matriciales, pero también toca en detalles algoritmos basados en operaciones tipo Valores Propios como son PageRank, PCA y SVD. Y una segunda parte de Optimización que cubre desde Optimización Convexa hasta Optimización No Convexa, incluyendo algoritmos como SGD, Momentum, Nesterov, Adagrad, Adadelta, RMSProp y Adam. El curso es muy bueno pero difícil. Las pruebas son de corte más teórica, incluyendo algunas demostraciones no tan complejas, pero que hay que pensarlas igual, y las tareas son más de código implementando todo en Numpy. Muy buen curso.
Métodos de Aprendizaje de Máquina en Data Science (Prof. Raimundo Sanchez): Este fue un ramo obligatorio (y el que pasé con la peor nota 😂) y la verdad no me gustó mucho. Siento que no es un curso en el que se enseñe modelamiento (para ser justos hubo otra sección donde se entró en más detalle) pero no se entró en el detalle que esperaba (como sí se hizo en Algebra Lineal). El profe muy simpático, pero hubo tres cosas que me molestaron particularmente: Una que el curso se hizo en R y tidymodels (luego de usar Scikit-Learn se nota que R es realmente malo para Machine Learning. La documentación es pésima, los errores son muy confusos y no hay mucha ayuda en StackOverflow, además de que la librería es muy lenta. De hecho fue tanto así que para la última tarea se permitió el uso de Python porque la última entrega requería del uso de un dataset de 1M de registros y tidymodels sencillamente no daba a basto. Segundo, realmente como un curso de post-grado era absolutamente necesario entrar en los detalles más mínimos y descomponer las ecuaciones detrás de cada modelo. Humildemente creo que la documentación de Scikit-Learn es más profunda que la clase. Finalmente, me pareció que las pruebas eran muy de opinión, muy subjetivas, casi apreciativas, y no creo que sea la mejor forma de evaluar este tipo de curso. En general, no me gustó mucho el curso, pero bueno, no me fue tan bien y puede sonar a picado 😇.
Seminario de Tesis (Prof. Tamara Fernández): Este curso fue un desperdicio. Pero espero se entienda bien. No porque el curso fuera malo, sino que porque desaprovechamos una profesora de talla mundial en un curso Online. Creo que ella intentó hacer lo mejor que pudo enfocándose en cosas que son sumamente útiles para la investigación: Aprender a buscar papers, crear documentos académicos, utilizar Latex, y algunas herramientas de mucha utilidad para alguien que quiere investigar. Lamentablemente en mi opinión perdimos demasiado tiempo en comandos básicos de Latex, que son googleables, y no tuvimos la oportunidad de aprovechar a la profe. Digo esto porque la actividad final del ramo fue diseñar un póster del trabajo de tesis, que a mí en particular me sirvió mucho para poder ordenar mis ideas y encaminar sumamente bien mi tesis (que va avanzando bastante bien), pero también tuvimos la oportunidad al finalizar la sesión de quedarnos conversando con ella y aprender muchísimo sobre su experiencia estudiando en Oxford, su trabajo con su supervisor Yee Whye Teh, Research Scientist en DeepMind, y obviamente aprendiendo a sobrevivir un doctorado. Realmente hubiera sido genial poder tener muchas más conversaciones con ella.

En mi opinión este es uno de los fuertes de la UAI. Viniendo de Universidades como la USM donde al menos en mi tiempo costaba muchísimo que un profesor te diera bola. Tener conversaciones donde los profes no te hagan sentir como “idiota”, y en verdad te animen y aconsejen sobre tu futuro es algo invaluable.

Neural Networks (Prof. Daniel Furtado): No me gustó en general el ramo. No aprendí nada nuevo porque en mi opinión el curso estaba muy desactualizado, aunque siendo súper sincero a muchos les sirvió bastante. Los puntos bajos para mí es que tocamos cosas como la historia de la IA o arquitecturas que ya nadie usa y que no existe forma de implementarlas de lo añejas que están y lo que todo queríamos que era algo como Transformers, RF o Stable Diffusion eran temas que el profe ni siquiera conocía. Ahora las tareas fueron bien entretenidas, pero dependía mucho de el esfuerzo que uno quisiera poner. Debido a que yo quería sacarle el máximo provecho al curso implementé en Pytorch un MLP, un RBF-NN, una ResNet, una EfficientNet. Pero una tarea que era implementar una GAN se eliminó (y menos mal, porque teníamos muy poco tiempo para todo eso). No recomendaría el curso, y no me gustó. Probablemente la gran decepción del semestre.
Grafos en Ciencia de Datos (Prof. Miguel Romero): Otro curso excelente, que es una de las grandes joyas del programa. El profe es un crack, y este es el tema que más domina. El curso es interesante no sólo porque toca temas relacionados a Grafos, pero también porque introduce mucho background de Informática que uno como Data Scientist debería tener: Escritura de Algoritmos, Complejidad Algorítmica (Notación Big O, Notación NP, etc.), estructura de datos, y por supuesto su aplicación en Grafos. Cosas muy útiles como Breadth First Search, Depth First Search, fueron explicados en detalles e implementados por nosotros en código además de algoritmos para caminos mínimos, minimum spanning trees, clustering, comunidades, cliques, coloreo, homomorfismos, etc. Además pudimos tener una visión general de cómo se implementan algoritmos de Machine Learning en Grafos, como PageRank, PageRank con Teleportación, DeepWalk, Node2vec, Node Embeddings, y entender el detalle la diferencia con las Redes Neuronales de Grafos. En particular agradezco mucho el uso de Pytorch Geometric y el poder entender muy en detalle el funcionamiento interno. Creo que este es el curso en el que más cosas nuevas (y útiles) aprendí.

Muchas personas se quejaron porque el profe Romero es un poco bajo perfil. Lo consideran fome y aburrido para sus clases, pero yo lo siento como en el mismo tono de Andrew Ng, que parece que tiene sueño, su tono es medio plano, pero dejando eso de lado y enfocando en su contenido son demasiado buenos. Sus slides son demasiado ordenadas y el orden en el que va pasando el contenido hace que realmente uno disfrute mucho sus ramos. Para mi gusto (y esto es muy personal) fue el mejor profesor del programa.

Modelos Lineales (Prof. Moreno Bevilacqua): Este fue un ramo que me gustó mucho también. Fue un ramo bien teórico y el Profesor Bevilacqua se caracteriza por ser un profesor de mucha pizarra y de mucha demostración. Siempre es bueno tener en cuenta técnicas de demostración, los supuestos al momento de generar modelos lineales, y técnicas de optimización como el Maximum Likelihood Estimation (MLE). El ramo si bien es en R, se usa muy poca librería, porque el profe le gusta implementar todo desde cero, que es un approach que me gusta, porque desmenuzar el código me ayuda a entender de mejor manera cómo funciona el algoritmo por detrás. Una de las cosas que más agradecí es entender en detalle el problema de la multicolinealidad (acá influyó bastante entender el problema de cuadrados mínimos desde el Algebra Lineal) y al menos el Profesor Bevilacqua, piensa que variables multicolineales o con un grado de multicolinealidad no es de gran gravedad, lo cual fue algo que me sorprendió bastante. Otro de los mitos que rompió fue el tema de la significancia de las variables. He estado en varios cursos, en los que se enseña como método de selección de variables el deshechar las variables no significativas por p-value, algo que siempre me llamó la atención porque nunca he visto un algoritmo que mejores su performance predictiva por eliminar variables no significativas.

Bueno, ¿vale la pena? Depende.

En mi caso, estaba buscando aplicaciones en Ciencias de Datos que no sean típicos modelos de fuga, de propensión y que el único objetivo que tienen es que empresas ganen más plata. Por otro lado, como mi rollo es el Deep Learning, he tenido la oportunidad de aprender varias cosas fuera de lo común, acabo de implementar un algoritmo de Anomaly Detection llamado DeepAnT y voy a estar implementando varios más, algunos que no tengo idea cómo. Si te gusta implementar cosas raras, que tienen un valor, pero no necesariamente en lo económico para una empresa (en mi caso queremos encontrar anomalías en el uso de terrenos como bosques ~~, humedales y turberas~~ con imágenes satelitales), entonces vale completamente la pena. Si quieres sólo estar más preparado para hacer la pega de siempre (lo cual no es malo), quizás es mejor un programa Profesional.

Sólo a modo de ejemplo, el Magister Profesional de la UAI (puede ser cualquier otro, nada en particular con este), probablemente te enseñará elementos más aplicados, con menos teoría. Perfeccionarte en R y Python, cómo hacer buenas visualizaciones, uno que otro modelo por ahí, y un largo etc.

En el MSDS, no teníamos tiempo de aprender a programar, el que sabía bien, y sino, doble pega (aunque se ofrece un bootcamp de nivelación en caso de necesitarlo). En mi caso, me ayudó mucho tener experiencia en Python y R, hizo que los ramos se me hicieran menos pesados. Pero aún así en especial en las últimas 3 semanas fue caótico, mucho que estudiar, muchas tareas, presentaciones, informes, posters, y entregas teóricas (todo en Latex, aunque no es obligación) y código. Lo pasé mal, así que hay que tener ojo también con cuanta carga quieres tener. Yo partí tomando el Master y mi pega (que siendo bien organizado es posible, al menos en mi opinión), luego me echaron, pero el segundo semestre tuve proyectos freelance, competencia, clases, bootcamps y sobreviví.

Espero que para los que están buscando algún programa les sirva. Traté de ser lo más imparcial posible. Y si me preguntan si recomendaría el MSDS yo diría que sí, me gustó. Aprendí cosas que no están en Youtube, o que cuesta mucho encontrar, y que rara vez tendrás la oportunidad de verlas en empresas tradicionales. Me gustó tanto que decidí seguir adelante y comienzo mi PhD en Ciencias de Datos en Marzo, aunque todavía estoy en el proceso de cerrar mi tesis de Magister que tiene fecha para Mayo.

Nos vemos y espero que sea de utilidad.

Alfonso

datacubeR

Google + Stackoverflow

Datacamp

Youtube

Artificial Intelligence Professional Program

Coursera y Udemy

Contribuyendo en Open Source (Nuevo)

¿Y el MSDS?

Primer Semestre

Segundo Semestre