Por Esteban Feuerstein
Los grandes datos
En los últimos 40 años la capacidad de almacenar información se ha duplicado cada 40 meses. Hoy las comunidades científicas, biomédicas, ingenieriles, comerciales –entre otras- están modificando profundamente sus formas de trabajar debido al uso de conjuntos de datos de gran escala, que contienen datos diversos y de alta resolución, y que permiten su uso intensivo en la toma de decisiones a un nivel nunca antes imaginado. Estos datos provienen de una gran cantidad de fuentes muy diversas, estructuradas y no estructuradas, pueden ser temporales y espaciales, continuos y discretos, ser textos y rótulos. Pese a esa diversidad su dinámica presenta siempre tres características distintivas: volumen, velocidad y variedad, a las que se agrega una cuarta: valor.
Las nuevas fuentes de datos y su creciente complejidad coincidieron (¡no por casualidad!) con la creación de una multitud de métodos necesarios para extraer información de los datos, los que en su conjunto constituyen lo que se conoce hoy en día como la Ciencia de los Datos. Nuevos algoritmos estadísticos y matemáticos, técnicas de predicción y métodos de modelado, así como enfoques multidisciplinarios y nuevas tecnologías para la recopilación, análisis e intercambio de datos e información, están permitiendo un cambio de paradigma en la investigación en diversas áreas. Los avances en las técnicas de aprendizaje automático, minería de datos y visualización están permitiendo nuevas formas de extraer rápidamente información útil de conjuntos de datos masivos, que complementan y amplían los métodos existentes de inferencia estadística.
Bajo la “buzzword” Big Data (Grandes Datos) incluimos a todas estas herramientas, tecnologías, métodos y sistemas requeridos para manejar grandes conjuntos de datos distribuidos, heterogéneos, diversos y complejos, tan grandes y complejos que no se pueden analizar con las herramientas y métodos tradicionales de procesamiento y administración de base de datos.
Las Jornadas
La Secretaría de Planeamiento y Políticas del Ministerio de Ciencia, Tecnología e Innovación Productiva de la Nación y la Fundación Dr. Manuel Sadosky de Investigación y Desarrollo en TIC, organizaron las Jornadas de Definición Estratégica en Big Data que se llevaron a cabo entre el 26 y el 30 de agosto pasados.
El objetivo fundamental de las Jornadas fue proveer insumos para el desarrollo de una estrategia y hoja de ruta para la implementación de políticas que permitieran hacer frente a los desafíos nacionales en esta área, reuniendo para ello a un grupo de especialistas formado por representantes de los ámbitos de gobierno, académicos y empresariales.
En la inauguración de las Jornadas, ante alrededor de cien personas, expusieron sobre el tema la Dra. Ruth Ladenheim, secretaria de Planeamiento y Políticas en Ciencia, Tecnología e Innovación Productiva, el Lic. Santiago Ceria, director ejecutivo de la Fundación Sadosky, el Lic. Gabriel Baum, miembro de la junta directiva del Laboratorio de Investigación y Formación en Informática Avanzada (LIFIA) y dos reconocidos especialistas en la materia que residen en el exterior, los Dres. Mario Nemirovsky (Barcelona Supercomputer Center) y Gabriel Taubin (Brown University).
El martes 27 tuvieron lugar presentaciones realizadas por grupos de investigación y representantes de empresas vinculadas con la temática, quienes expusieron sus ideas, propuestas o requerimientos en relación con Big Data. A lo largo del día se presentaron veinticuatro ponencias de grupos académicos y empresas. Pese a que se tenía conocimiento de algunos desarrollos y emprendimientos alrededor de la temática, la numerosa asistencia y la cantidad y calidad de las exposiciones superó todas las expectativas previas. Estos grupos constituyen la materia prima con la que se nutrirán las iniciativas que deberán ser soportadas y potenciadas a través de nuestra propuesta.
El resto de los días tuvieron lugar talleres y reuniones de carácter cerrado en las que se interactuó con empresas y organismos públicos, potenciales demandantes de infraestructura o soluciones de Grandes Datos y con algunos especialistas del medio local. De las conversaciones mantenidas con estos actores se concluyó, por un lado, la existencia en varios de ellos de necesidades asociadas a la temática de Grandes Datos, de proyectos o proto-proyectos en curso, y de datos sobre los cuales ejecutarlos, y por otro lado la existencia o el desarrollo en curso de infraestructura que podrá ser utilizada como soporte para los futuros proyectos. También hubo coincidencia en la necesidad actual o futura de incorporar recursos humanos capacitados en las distintas disciplinas vinculadas.
La estrategia
Big Data es un área de peso creciente en todo el mundo, pero que a la vez se encuentra todavía en los momentos iniciales de su desarrollo y por lo tanto es posible posicionar al país en un rol de liderazgo regional. Big Data presenta una gran oportunidad para el país ya que en, el contexto actual, es posible generar mucho valor a partir de insumos disponibles: datos, infraestructura, recursos humanos y conocimientos.
Las jornadas permitieron validar las hipótesis previas sobre la existencia en el país de un conjunto de actores relevantes que ya se encuentran trabajando en la temática, de la disponibilidad de algunos insumos y recursos, tanto datos como hardware o infraestructura de comunicación, y, principalmente, la necesidad de direccionar el esfuerzo hacia la formación de nuevos profesionales y la generación de iniciativas y proyectos desde el Estado Nacional que traccionen la actividad, potenciando las empresas emergentes y generando nuevas que permitan las sinergias y la generación de nuevo valor.
A partir de ese valioso antecedente, nos encontramos trabajando en el desarrollo y concreción de una propuesta estratégica a futuro que involucre a todos los actores interesados. La propuesta se encuentra plasmada en forma preliminar en el documento “AGranDAr – (Alianza por los Grandes Datos de Argentina) Una estrategia de Ciencia de los Datos para la Argentina 2013-2018”.