26 impresionantes conjuntos de datos abiertos para sus proyectos de ciencia de datos/ML

La búsqueda de los conjuntos de datos correctos puede ser desalentadora, especialmente cuando los necesita para proyectos de aprendizaje automático (ML) y ciencia de datos. Reducimos sus esfuerzos de investigación al proporcionar la lista definitiva de conjuntos de datos gratuitos.

Los conjuntos de datos son simplemente colecciones de datos. Podría ser datos financieros, de salud de la comunidad, datos del mercado de valores, datos bancarios, datos geográficos, datos de investigación científica de partículas, calificaciones de productos en un sitio de comercio electrónico, etc.

Los conjuntos de datos contienen datos recopilados a través de un estándar de encuesta científica y son importantes para una mayor visualización, extracción, pronóstico, etc. Dado que los datos son el equivalente del petróleo crudo en el universo digital, los conjuntos de datos se están volviendo comerciales y escasos.

Continúe leyendo para conocer los conceptos básicos sobre los conjuntos de datos. También descubrirá algunos conjuntos de datos de código abierto que son realmente gratuitos para sus proyectos de aprendizaje automático (ML) o ciencia de datos.

¿Qué son los conjuntos de datos?

Los conjuntos de datos son la recopilación de datos en un contenedor estructurado y organizado. Por lo general, los encuestadores asocian conjuntos de datos con un cuerpo único, por ejemplo, datos abiertos del Banco Mundial.

Una vez más, los recopiladores de datos conservan los conjuntos de datos específicos de un tema como los datos del censo de los Estados Unidos de América de 2020 publicados por la Oficina del Censo de los Estados Unidos.

Encontrará muchos conjuntos de datos sobre temas globales y locales. La mayoría de los conjuntos de datos contienen puntos de datos interrelacionados. Por ejemplo, la población de un país y cómo la obesidad se relaciona con diferentes clases de esta población.

Es posible que los científicos de datos necesiten limpiar, reestructurar y procesar dichos conjuntos de datos utilizando herramientas de big data para llegar a conclusiones valiosas, como reducir los desechos plásticos mediante el análisis de datos de uso de plástico, remediar problemas de la fuerza laboral mediante el análisis de datos salariales, entrenar inteligencia artificial (IA), etc. en.

Tipos de conjuntos de datos

Dependiendo de la fuente de los conjuntos de datos, pueden ser públicos o privados. Los conjuntos de datos públicos están abiertos a todos y contribuyen en gran medida a la investigación y el desarrollo.

Nuevamente, los conjuntos de datos pueden ser de los siguientes tipos dependiendo de la información contenida en ellos:

  • Multivariante: Tales datos contienen múltiples variables.
  • Categórico: retrata muchas categorías de personas.
  • Numérico: tales conjuntos de datos miden datos en números como edad, altura, etc.
  • Correlación: en este tipo, los puntos de datos están interrelacionados.
  • Basado en archivos: aquí, los conjuntos de datos se almacenan en archivos.
  • Bivariado: Un conjunto de datos con dos variables y una relación entre ellas.
  • Conjunto de datos web: datos recopilados de uno o varios portales de Internet similares.
  • Base de datos: estos conjuntos de datos almacenan datos en tablas, columnas y filas.

Conjuntos de datos de código abierto para proyectos de ciencia de datos

Los conjuntos de datos gratuitos son el combustible para impulsar su pasión por una carrera en ciencia de datos. Porque si se encuentra en las primeras etapas de su carrera en ciencia de datos, es posible que desee emprender proyectos personales y no comerciales para la confianza en sí mismo o la creación de cartera.

Primero, puede probar fácilmente sus habilidades recién aprendidas aplicando herramientas y técnicas a problemas de conjuntos de datos del mundo real.

Por ejemplo, hay datos de investigación sobre el cáncer disponibles gratuitamente, datos de Covid-19, datos de antecedentes penales del FBI, datos de análisis de partículas del CERN, etc. Puede usar dichos datos y crear un modelo de ciencia de datos para responder a problemas sociales, financieros y de salud vitales. .

En segundo lugar, dichos proyectos funcionan como potenciadores de cartera para su carrera. Si puede crear un modelo de análisis de datos exitoso que pueda ofrecer información procesable, puede exhibir esos modelos en línea creando sitios web de cartera. Los empleadores prefieren los proyectos a las declaraciones de propósito.

Conjuntos de datos gratuitos para proyectos de aprendizaje automático

Al igual que un profesional de la ciencia de datos, un profesional de ML también debe trabajar en proyectos autogestionados para examinar sus habilidades. Si el proyecto tiene éxito, también se convierte en un componente ideal para su cartera de proyectos de ML en línea o fuera de línea.

Por lo tanto, ahora puede comprender que la ciencia de datos y el crecimiento de ML dependen de conjuntos de datos estructurados. Si dichos conjuntos de datos se comercializaran demasiado, la investigación y el desarrollo en el campo de la ciencia de datos se volverían totalmente centrados en las empresas.

Para mantener la investigación de ML de ciencia de datos abierta para todos, las siguientes agencias, instituciones y plataformas ofrecen conjuntos de datos gratuitos:

datos.gov

Encontrará todos los datos abiertos recopilados y procesados ​​por el gobierno de EE. UU. en Data.gov. La plataforma también ofrece recursos y herramientas para realizar investigaciones, diseñar visualizaciones de datos, desarrollar aplicaciones móviles/web, etc.

Sus conjuntos de datos notables incluyen datos de uso sostenible de la tierra, datos de viviendas rurales, cartas de navegación electrónica interior, etc.

Conjuntos de datos abiertos: Kaggle

Kaggle ofrece un océano de datos públicos y códigos informáticos para proyectos de ciencia de datos. Puede seleccionar Conjuntos de datos para datos sin procesar y Código para códigos de programación. Los conjuntos de datos de tendencias en Kaggle son datos de AMEX, audiencia de Simpson, datos de entrenamiento de Chatbot, etc.

Conjuntos de datos de segmento: YouTube 8-M

Los conjuntos de datos de segmentos de YouTube 8-M le ofrecen anotaciones de segmentos verificadas por auditores humanos. También puede acceder al conjunto de datos YouTube-8M desde el mismo portal. El conjunto de datos contiene 6,1 millones de identificaciones de video, 350 000 horas de video, 2600 millones de características audiovisuales, 3863 clases de videos y, en promedio, 3,0 etiquetas por video.

Registro de Datos Abiertos en AWS

ROD en AWS ayuda a los científicos de datos a compartir y descubrir conjuntos de datos alojados en recursos de AWS. Algunos conjuntos de datos interesantes que puede encontrar aquí son The Cancer Genome Atlas, Foldingathome COVID-19 Datasets, Common Crawl, etc.

Repositorio de aprendizaje automático: UCI

El repositorio de aprendizaje automático de UCI actualmente mantiene 622 conjuntos de datos aptos para que los científicos de datos y los ingenieros de aprendizaje automático entrenen sus modelos de IA. Además, hay una interfaz de búsqueda para buscar en las bases de datos. Las atracciones populares son el conjunto de datos del acelerómetro, el conjunto de datos de la máquina síncrona, Wikipedia Math Essentials, el conjunto de datos de Turkish Headlines, etc.

Conjuntos de datos públicos de BigQuery: Google Cloud

Muchos conjuntos de datos públicos se almacenan en BigQuery. Google hace que el conjunto de datos sea accesible de forma gratuita a través del Programa de conjuntos de datos públicos de Google Cloud. No obstante, la consulta gratuita tiene un límite de 1 TB al mes. Puede realizar consultas SQL estándar y SQL heredadas.

Impresionantes conjuntos de datos públicos: GitHub

Awesome Public Datasets es un conjunto de datos de código abierto que contiene datos públicos centrados en temas. Recopilado y clasificado de varios blogs, respuestas y comentarios de los usuarios, combina conjuntos de datos gratuitos y de pago sobre física, deportes, software, lenguaje natural y aprendizaje automático.

Datos del Banco Mundial

Datos abiertos del Banco Mundial es la plataforma donde obtiene acceso gratuito a datos de desarrollo global. También ofrece otros recursos valiosos, como tablas e informes con formato previo. Puede navegar fácilmente por país o indicador para obtener el conjunto de datos requerido.

FiveThirtyEight: Datos

FiveThirtyEight es un sitio web estadounidense que trata sobre análisis de encuestas de opinión, política, economía y deportes. Puede acceder a estas encuestas y pronósticos a través de conjuntos de datos desde su plataforma. Puede descargar los conjuntos de datos con un solo clic.

ImageNet

ImageNet es una base de datos de imágenes de la que los investigadores de todo el mundo pueden obtener conjuntos de datos de código abierto para sus proyectos no comerciales. Aquí, las imágenes están organizadas según la jerarquía de WordNet. El proyecto juega un papel vital en la investigación de aprendizaje profundo de nivel avanzado.

Archivos de conjuntos de datos: DATOS DE UNICEF

Con los archivos de conjuntos de datos, puede obtener conjuntos de datos recopilados por UNICEF en todo el mundo. Los datos sobre migración, desplazamiento, dieta, conectividad, educación, salud, aprendizaje, mortalidad, violencia, desarrollo infantil, matrimonio infantil, trabajo infantil y varias estadísticas están disponibles aquí.

Buscar datos abiertos: Gob. del Reino Unido

Si su proyecto necesita datos publicados por organismos locales y el gobierno central del Reino Unido, Find Open Data es el portal que debe consultar. Cubre el gasto público, los negocios, la salud, la educación, la defensa y más conjuntos de datos.

Datos: Oficina del Censo de los Estados Unidos

¿Necesita datos del censo de EE. UU. para un proyecto relevante? Puede obtener ayuda de USCB Data. Aquí, puede explorar datos, tablas, mapas y perfiles de datos del censo de 2020 mientras visualiza datos y usa herramientas de datos.

Datos y Estadísticas: CDC

Los Centros para el Control y la Prevención de Enfermedades de la agencia federal de los Estados Unidos también proporcionan conjuntos de datos gratuitos al público para acceder a datos y estadísticas desde este portal. Los temas del conjunto de datos son Salud Ambiental, Enfermedades Crónicas, Nacimientos y Natalidad, Muertes y Mortalidad, Esperanza de Vida, Lesiones y Violencia, Salud Reproductiva, Enfermedades de Notificación Nacional, etc.

Conjuntos de datos: MIT

Este conjunto de datos se centra en los datos de vibración inducida por vórtice. El Centro de Ingeniería Oceánica del MIT alberga algunos conjuntos de datos disponibles públicamente para la evaluación comparativa de códigos informáticos. Los conjuntos de datos están abiertos a todos para invitar a nuevas teorías de los datos y sincronizar a los investigadores que trabajan en el mismo campo.

Catálogo de datos del Banco Mundial

El Catálogo de datos recopila conjuntos de datos gratuitos que facilitan el acceso a los datos del Banco Mundial relacionados con el desarrollo. Usarlo en varios proyectos es muy sencillo, ya que puede encontrar y descargar sin esfuerzo su información preferida. Contiene más de 5000 conjuntos de datos que cubren las plataformas de microdatos, finanzas y energía del Banco Mundial.

Datos de ciencia espacial de la NASA

La NASA ofrece acceso a sus datos de archivo en el Archivo coordinado de datos de ciencia espacial. Esta plataforma es de gran ayuda para el público en general, especialmente para las personas que trabajan en educación e investigación espacial. Tiene 400 TB de datos digitales que contienen información sobre 550 ciencia espacial.

Obtener los datos: dentro de Airbnb

Airbnb es un mercado en línea de renombre mundial para casas de familia y alquileres de vacaciones. También ofrece recopilación de datos en varias ciudades del mundo desde Get the Data. Puede navegar por la ciudad para obtener rápidamente los datos. Además, puede solicitar sus datos requeridos y leer supuestos de datos en este portal.

Datos web: Reseñas de Amazon

Aquellos interesados ​​en estudios de mercado y reseñas de productos deben utilizar los conjuntos de datos proporcionados por Snap Web Data. Contiene más de 34 millones de reseñas de usuarios en Amazon, desde junio de 1995 hasta marzo de 2013. El conjunto de datos contiene texto sin formato, información del producto, nombre de usuario, calificaciones y una reseña.

Datos del FMI

El portal de datos del FMI es valioso para todos los tipos de datos económicos y financieros. Ya sea que esté buscando datos financieros del FMI, estadísticas del sector externo, publicaciones emblemáticas o datos microeconómicos, aquí es donde puede encontrarlos. Además, puede usar un filtro para obtener datos por país.

Ngramas de Google Libros

Si está trabajando en las partes del habla y el lenguaje, Google Books Ngrams puede ayudarlo de manera significativa. Este conjunto de datos de código abierto le da una idea sobre el uso de una palabra y frase en particular a lo largo de la historia o un rango de tiempo específico. La fuente de este conjunto de datos son los documentos digitales indexados por Google.

Datos de los mercados: The Financial Times

Si desea obtener datos confiables y precisos del mercado de acciones a nivel mundial y regional, Markets Data de The Financial Times está aquí para ayudarlo. Le permite trabajar con datos de mercado de América, Asia-Pacífico, Europa, África y el mercado global.

Datos terrestres: NASA

La NASA brinda acceso completo y abierto a sus datos científicos a través del programa Earth Data que lo ayuda a comprender nuestro planeta natal y hacer proyectos con él. Puede encontrar conjuntos de datos gratuitos sobre la atmósfera, la biosfera, la criosfera, las dimensiones humanas, la superficie terrestre, el océano, la tierra sólida, la interacción sol-tierra y la hidrosfera terrestre.

Búsqueda de conjuntos de datos: Google

Si es un estudiante, investigador o científico de datos que busca conjuntos de datos para respaldar su proyecto, puede obtener ayuda del portal de búsqueda de conjuntos de datos. Puede llamarlo un motor de búsqueda de conjuntos de datos, ya que le permite descubrir conjuntos de datos alojados en varios informes en la web a través de la búsqueda de palabras clave.

Datos abiertos: CERN

La organización de investigación europea CERN tiene un portal de datos abiertos que puede utilizar para acceder a los datos generados por la investigación en el CERN. Este portal de conjuntos de datos contiene dos petabytes de datos relacionados con la física de partículas. Además, viene con las aplicaciones y la documentación necesaria para el análisis de datos.

Explorador de datos sobre delitos: FBI

Crime Data Explorer (CDE) es el conjunto de datos de código abierto del FBI que tiene como objetivo proporcionar un acceso más fácil al intercambio de datos criminales, no criminales y policiales. Además de permitirle descubrir los datos necesarios a través de la visualización y el filtrado de categorías, esta plataforma le permite descargar datos en formato CSV.

Ultimas palabras

Hasta ahora, ha revisado una lista verdaderamente exhaustiva de conjuntos de datos de alta calidad. El artículo presenta datos de varios nichos como ciencias físicas, registros médicos, investigación espacial, antecedentes penales, calificaciones de productos, etc.

Dependiendo del proyecto de ciencia de datos o aprendizaje automático que esté haciendo, puede elegir. Casi todos los conjuntos de datos también tienen instrucciones adecuadas para ayudarlo con su proyecto.

También te pueden interesar estos recursos para aprender ciencia de datos y ML.