La ciencia de datos recorrió un largo camino desde los primeros días de las conferencias (KDD) y . Los ingenieros de software de las décadas de 1980 y 1990 que manejaban bases de datos se convirtieron en . Los grandes datos se encuentran con el algoritmo inteligente chocaron en una de 2010, lo que convirtió a " ". Eso nos lleva a una década más tarde, después de la pandemia de 2022, haciendo la pregunta: " ”.
Hola, soy Liling. Durante el día, soy un científico aplicado en Amazon y después del trabajo, codifico código abierto y escribo artículos tecnológicos sobre el proceso del lenguaje natural y, a veces, artículos sobre la cultura pop de los juegos.
Es un placer y un honor ser nominado en la categoría de Colaborador del año de Hackernoon para el Procesamiento del lenguaje natural (NLP) y si ha disfrutado del contenido de NLP o Traducción automática que he estado compartiendo, ayúdeme a aplastar el botón de votar en
Para celebrar la nominación, estoy escribiendo este artículo en un formato de preguntas y respuestas tipo "Ask Me Anything".
Como escritor de tecnología, me encanta compartir las tecnologías emergentes en el aprendizaje automático y tengo una especial debilidad por las tecnologías relacionadas con el lenguaje y la traducción. Para celebrar la nominación, estoy escribiendo este artículo en un formato de preguntas y respuestas tipo "Ask Me Anything". Obtenga más información sobre mis pensamientos y opiniones sobre " ¿qué clase de científico soy?" ” en la industria de la tecnología en las siguientes secciones.
Hoy en día, la descripción del trabajo para los " científicos de datos " se presenta de diferentes formas y se incluye en general en estas categorías:
Si le pregunta a alguien sobre la diferencia entre el rol y las responsabilidades de los diferentes títulos de trabajo, lo más probable es que termine con una línea vaga que delinea cada uno de ellos.
Esto suele ser responsabilidad de los " científicos ". En la industria, esto es específico para las diferentes tareas y aplicaciones que el equipo apoya y/o desarrolla. Es similar a los investigadores académicos que construyen el modelo de aprendizaje automático, pero la practicidad de si el modelo final es utilizable generalmente supera la necesidad de superar los resultados de vanguardia en la industria.
Esto suele ser responsabilidad de los " ingenieros ". La confiabilidad es fundamental para cualquier aplicación moderna de aprendizaje automático en la actualidad. Es importante asegurarse de que los esfuerzos de emisión de carbono de los científicos para producir el mejor modelo para los clientes/usuarios produzcan el rendimiento esperado en la producción.
La declaración de un científico “ funciona en mi computadora portátil ” es inaceptable en la industria y los ingenieros ayudan a hacer realidad el sueño de “ funciona en cualquier lugar ”.
P/D: Un ingeniero podría entrenar un modelo mejor que un científico.
En cuanto a los roles y la responsabilidad, son similares, pero en términos prácticos, algunas empresas pueden tener una demarcación clara entre los diferentes puestos de científicos, por lo que siempre como personal de recursos humanos (RR. HH.) o gerente de contratación si es posible compartir las " directrices de roles " específicas para el puesto al que se postula y es especialmente importante comprender las expectativas de su puesto una vez que se haya unido a la empresa y al equipo .
Personalmente, soy un " práctico " en la mayoría de los casos, pero cuando se trata de "la masa", y preguntar a amigos/seniors en las empresas es su mejor opción para saber más sobre la empresa. y su compensación.
“No lo hagas por el dinero” está sobrevalorado. Hazlo por el amor de hacerlo. Disfruto mirando los números y los datos del idioma, por lo tanto, la PNL. Pero recuerda que te pagan lo suficiente por hacerlo =)
No hay una pregunta "mala" o "necesita más enfoque" para estas preguntas prácticas. Pero inevitablemente a veces atrae publicidad maliciosa de productos/tecnología.
Revisión de literatura
Sepa cuáles son los conjuntos de datos disponibles y qué hay en ellos (ruido, peculiaridades, etc.)
Encuentre en qué métrica de evaluación suele evaluarse la tarea X
Rastree la cita relevante más antigua de la tarea , lea ese documento
Encuentre el artículo más citado para la tarea , utilícelo como referencia
Defina sus criterios de éxito para la tarea industrialmente (puede que no sea la métrica de evaluación estándar para la tarea)
Intente replicar o reimplementar la línea de base
Comunique su modelo/bibliotecas a los ingenieros . ¿Puede su ingeniero producirlo?
¿La línea de base cumplió con los criterios de éxito? Pregúntele a la parte interesada del negocio/proyecto si es suficiente
¡Constrúyelo, pruébalo, rómpelo, repite!
Por el momento, estoy pasando mi tiempo libre aprendiendo sobre 🤗 y no solo sobre cómo usar los diferentes componentes de la biblioteca, sino más aún para entender qué características hacen que sea un éxito y cuál es el factor X que hizo que ganara tracción. en la comunidad de aprendizaje automático.
Espero que las preguntas y respuestas anteriores le den algunas ideas sobre " qué tipo de científico soy ". Y si hay más preguntas candentes que quieras hacer, no dudes en dejar un comentario debajo de la publicación.
Finalmente, quiero agradecer enormemente a la comunidad, el personal y los patrocinadores de HackerNoon por la nominación a los premios Noonie y, si disfruta este artículo, ayude a romper el botón de votación en