Los 5 errores más comunes que cometen los científicos de datos al manejar datos

May 09 2022
Las iniciativas de análisis bien administradas pueden dar como resultado oro para su organización. Sin embargo, si comete uno de estos errores típicos, sus actividades de ciencia de datos pueden salirse de control muy rápidamente.

Las iniciativas de análisis bien administradas pueden dar como resultado oro para su organización. Sin embargo, si comete uno de estos errores típicos, sus actividades de ciencia de datos pueden salirse de control muy rápidamente.

La ciencia de datos es una de las carreras más demandadas en este momento, y por una razón sólida. ¡Cada día, se crean alrededor de 2,5 quintillones de datos! Tanto la lista de Glassdoor de las mejores carreras en 2021 como el Informe de Posiciones Emergentes 2021 de LinkedIn incluyeron trabajos de ciencia de datos.

Con un salario medio de 107 801 USD y un futuro prometedor, la ciencia de datos atrae a muchos buscadores de empleo.

Dirigirse al elefante en la habitación, lograr la designación de un científico de datos no es una tarea fácil, los expertos en ciencia de datos con el tipo adecuado de conjuntos de habilidades de ciencia de datos son difíciles de encontrar, reverencia, la demanda de habilidades de ciencia de datos competentes y más recientes.

Errores de la ciencia de datos que no deben ignorarse

Las estadísticas, las matemáticas, el aprendizaje automático y la visualización de datos con R, Java, SQL o Python son habilidades necesarias y vitales para los científicos de datos. Varios videotutoriales y cursos online no cubren todas las necesidades del sector. Como resultado, hay algunos errores comunes que cometen los científicos de datos novatos.

He logrado varios hitos importantes en mi carrera como científico de datos, pero también he cometido varios errores en el camino. Consideremos algunos de los errores cometidos con mayor frecuencia en la ciencia de datos para que podamos aprender de ellos y ayudar a las personas interesadas en el área a tener éxito.

Comencemos analizando un caso de estudio para ver cómo los errores, grandes o pequeños, pueden conducir a desastres masivos para las empresas.

Estudio de caso de Microsoft Tay Bot

En Twitter, Microsoft lanzó un chatbot denominado "Tay" en marzo de 2016. Se suponía que Tay hablaría como un niño, pero solo duró un día, ya que comenzó a twittear cosas intolerantes y llenas de odio en las redes sociales. Tay aprendió a hablar con personas dependiendo de con quién estaba hablando como un sistema de inteligencia artificial.

Microsoft dijo que los comentarios racistas fueron causados ​​en parte por "trolls" en línea que intentaban forzar la tecnología en chats racistas después de cerrarla por sus comentarios racistas.

Desde 2016, la firma ha modificado sus modelos de inteligencia artificial y ha producido un nuevo "robot de abogados" que puede brindar asistencia legal a los usuarios a través de Internet. Según una portavoz, el problema de Tay surgió del "algoritmo de contenido neutral" y problemas clave como "¿cómo puede esto dañar a alguien?" debe explorarse antes de implementar este tipo de iniciativas de IA.

Es necesario prestar atención a los errores actuales o potenciales que los científicos de datos pueden cometer en breve y que podrían evitarse.

1) Faltan anotaciones de datos y uso de datos dañados

Recopilar y limpiar datos supone el 60 % del esfuerzo de un científico de datos. Esta es la tarea menos placentera, pero es un paso necesario. Todos los procesos posteriores deben llevarse a cabo sobre datos limpios que sirvan de base para una tarea de aprendizaje automático.

La anotación de datos es el proceso de clasificar adecuadamente los datos en preparación para el aprendizaje automático. Para construir modelos ML , los científicos de datos requieren un gran volumen de datos anotados con precisión, en particular, datos de imágenes y videos.

Trabajar con datos dañados que carecen de anotaciones de datos es similar a intentar hornear galletas sin los ingredientes adecuados. ¿Serán tus galletas crujientes y deliciosas? ¡No!

Como se muestra en el diagrama mencionado anteriormente, los datos corruptos conducen a la construcción de modelos inexactos. Para una creación precisa del modelo, los datos deben estar libres de errores y valores atípicos.

2) Analizar sin planes ni preguntas

Antes de comenzar el análisis, primero debe decidir la dirección que desea tomar y la técnica que empleará. Cualquier ciencia de datos debe comenzar con un objetivo claramente definido. Los científicos de datos a veces pasan directamente al modelado y el análisis sin considerar primero los problemas que buscan resolver.

"¿Por qué?" es la pregunta que los científicos de datos intentan responder y no “qué”. Al responder consultas de "por qué", los científicos de datos deben tener claros sus objetivos.

Por ejemplo:

Primero debe determinar si el problema que está tratando de resolver es un problema de aprendizaje automático desatendido (o no estructurado) o uno supervisado (o estructurado) antes de comenzar a trabajar en cualquier proyecto. No podrá evaluar si la respuesta funciona a menos que sepa cuál es el problema.

Cuando los científicos de datos no saben lo que están buscando , con frecuencia brindan resultados insatisfactorios. Para lograr tu objetivo, debes hacerte ciertas preguntas.

3) Usar funciones idénticas para una variedad de problemas

Dado que esto sería totalmente hipotético, no se pueden aplicar diferentes funciones a un mismo problema. Algunos científicos de datos novatos pueden verse tentados a utilizar los mismos cursos, funciones, herramientas, etc. para cada desafío.

Cada problema es diferente, y cada solución debe reflejar eso. Los datos de texto, los datos de series temporales y otros tipos de datos deben procesarse de manera diferente.

Como cada problema es distinto, cada solución también debe serlo. Existen numerosas formas de datos, cada una de las cuales requiere su propio tratamiento. Natural Language Toolkit (NLTK) y otras bibliotecas de NLP existen de la misma manera que las bibliotecas de aprendizaje automático. Para manejar fotografías y videos, utilizamos una red neuronal convolucional y técnicas analíticas de series de tiempo.

De manera homogénea, la biblioteca SciKit-Learn tiene numerosas operaciones y funciones de resolución de problemas. Para los desafíos de visión por computadora que involucran el reconocimiento de imágenes, los científicos de datos no pueden usar bibliotecas de procesamiento de lenguaje natural (NLP), y viceversa.

4) No considerar un modelo como un componente de un ciclo de vida

Esto es algo que muchos científicos de datos pasan por alto, porque más de la mitad de los proyectos nunca llegan a producción y permanecen en la etapa de prueba de concepto (POC).

El ciclo de vida de un modelo de aprendizaje automático comienza con la necesidad comercial y continúa a través de la secuencia básica:

  • Entrenamiento de un algoritmo ML
  • Evaluar y probar algoritmos con las métricas adecuadas
  • A su implementación con estándares de rendimiento mínimos (latencia) le sigue el monitoreo, la capacitación y la retroalimentación del modelo.

Si sabe que la infraestructura de su cliente tiene recursos restringidos, por ejemplo, puede diseñar su modelo teniendo en cuenta esta limitación desde el principio: un diseño más simple, por ejemplo, podría permitirle hacer inferencias más rápidas.

5) Prestar poca o ninguna atención a las habilidades de comunicación

Este es quizás el error más común que cometen los científicos de datos . Resolver un problema de ciencia de datos y luego comunicarlo a una audiencia no tecnológica es una habilidad diferente.

Presentar sus hallazgos a las partes interesadas es un elemento importante de ser un científico de datos en una empresa y poder pasar de un discurso técnico a mostrar un valor comercial transmitido en palabras humanas es increíblemente beneficioso.

Es casi seguro que mostrará su trabajo a un patrocinador comercial en algún momento. Estos individuos no son técnicos y nunca serán parte de su equipo. Solo prestan atención a lo que es importante para ellos. Así que este es mi consejo: sea directo, simple y vaya al grano.

Para concluir

Cada nuevo problema es una oportunidad para aprender y crecer como científico de datos. Cuando te estés iniciando en tu profesión, no te asustes por estas pifias. Sin duda, lo educarán sobre cómo lidiar con varios desafíos de aprendizaje automático en la práctica.

Los errores ocurren y actúan como un medio de progreso, lo importante es aprender de ellos y nunca cometer el mismo error dos veces.

© Copyright 2021 - 2022 | unogogo.com | All Rights Reserved