Wednesday, May 13, 2009

Wolfram Alpha

Supongo que ya habréis oído hablar de Wolfram Alpha el nuevo "computational knowledge engine" de Wolfram (los creadores de Mathematica) que se estrena el día de mi cumple, 18 de Mayo. La idea es que han creado una serie de bases de datos con información científica y social, y utilizando algo de natural language processing y Mathematica como motor de calculo son capaces no solo de proporcionar información científica útil y veraz, sino, sobretodo, hacer cálculos con la misma e incluso presentarla de forma gráfica (Una review de Techcrunch aquí y sobretodo mirar este demo ).

Debido al interfaz (minimalista) la comparación inmediata fue con con Google (de mano de Technology review aqui) pero para mí, y creo que en eso cada vez coincide más prensa especializada, la comparación ahora mismo es estúpida, son funciones diferentes (búsqueda de información vs búsqueda de webs) e incluso cuando se usa Google para buscar información pura, tienen capacidades distintas, Google ofrece grandes bases de datos (pero no necesariamente completas o veraces) y Wolfram ofrece una base de datos mucho más reducida, pero con grandes capacidades de cálculo, y información verificada. En cualquier caso, yo no se vosotros, pero yo cada vez que uso Google para buscar información pongo "wiki" y miro en la wikipedia. Así que, al menos para mí Wolfram Alpha compite con la Wikipedia.

Uno de los problemas de Wolfram Alpha, es que sus bases de datos son limitadas (ahora mismo tan solo 10TB). Puede ser bueno en lo que hace, pero mantener y aumentar una base de datos así, siendo una empresa relativamente pequeña, puede ser muy complicado. Sin embargo, es posible que Wolfram se acabe beneficiando de la Linked Data (más explicaciones aquí ). Si Tim Berners-Lee tiene éxito promoviendo la apertura de bases de datos, posiblemente no sería muy complicado para Wolfram acceder directamente a las mismas, y convertirse en un magnífico front-end de la linked data, con todo el poder de procesado abstracto y gráfico que tiene Mathematica. La presentación de Tim Berners-Lee en TED 2009 no añade necesariamente más información, pero es bonito verle emocionado por su nueva idea. Y la presentación de Hans Rosling en TED 2006 muestra el poder de la linked data bien procesada. Mathematica a través de Wolfram Alpha podría ofrecer esas posibilidades con muchos otros tipos de información.

Google, si bien en su buscador actual, tal y como comentaba, no compite directamente con Wolfram, sí puede acabar haciéndolo en los próximos meses. Sin embargo, el modo en que lo hará es completamente distinto. Wolfram utiliza su experiencia en Mathematica que es su punto fuerte para realizar computaciones con datos en bases de datos que ellos crean (este es su punto flojo). Google es muy bueno buscando en webs y haciendo natural language processing, así que a finales de este mes sacarán Google Squared un nuevo tipo de búsqueda en que leen montones de páginas web, extraen información relevante sobre el tema, y la organizan en forma de spreadsheet. Curioso como cada uno explota su punto fuerte. En realidad, ambos podrían hacer una simbiosis uno usando las bases de datos del otro y el otro el front-end. Sin embargo, al menos de momento y por lo que he leído, Google planea otro camino en el que usará las capacidades de Google spreadsheet para mostrar información con gráficas, y supongo que harán un interfaz para poder mostrar la información obtenida en Google Squared. Las gráficas ayudan mucho, pero las capacidades de cálculo de alpha van mucho más allá de simples gráficas, y por otro lado, tal y como explican en el video de Squared, la información se rellena de múltiples webs con lo que hay grandes probabilidades de tener series de datos inconsistentes, cuando no erróneos. De nuevo, volvemos a la diferencia fundamental entre buscar información pura (como cuando miro la wikipedia) o buscar en webs (donde no me fio ni de la mitad de lo que leo.

En cualquier caso, tengo muchísimas ganas de probar Wolfram Alpha la semana que viene, y ver como evoluciona conforme pase el tiempo. Veremos si puede estar a la altura de las expectativas, o se queda en otro bluff como Powerset.

4 comments:

oria said...

Confiar ciegamente en la Wikipedia es muy peligroso. Para bien y para mal es una fuente de información que puede ser manipulada por cualquiera. Es cierto que como primera toma de contacto de un tema está bien pero nunca para ir más allá. Debido a la cantidad ingente de información a la que nos encontramos actualmente hay que contrastar constantemente la información para saber de algo. Por ello, los links que suelen incluirse al final de cada artículo suelen resultar muy útiles. Además, cuando ya tienes un conocimiento adquirido sabes a que fuentes dirigirte. Me parece una pérdida de tiempo teclear en la página principal de Google video de Britney, cuando seguro que conoces al menos 3 grandes web que almacenan vídeos.

Esta distinción de la paja de lo verdaderamente importante lo realizan las bases de datos. De ahí su importancia y que muchas veces sean de pago.

arnau said...

pablo, entiendo que cuando hablas de "información pura" dejas entrever que te fías de la Wikipedia?
en este punto, estoy de acuerdo con oria al considerarlo como punto de partida a unas fuentes... aunque el problema del filtro de tontás es aún un tema a resolver en la búsqueda de información (gratuita, se sobreentiende)

Javier said...

Yo también estoy deseando probar los dos :) he oido hablar por primera vez de ellos en este post pero habiendo oido hablar de ellos "I can't wait" como dicen.

txintxin said...

yo también tiro de la wiki cuando quiero saber algo que desconozco completamente, pero en general creo que sí es fácil olerse lo que pueda ser inexacto, exagerado o directamente manipulado...
Mathematica no uso, por lo que le echaremos un vistazo al Wolfrang ése que te parece tan interesante...
Ya veo que has ido/vuelto de los states, y te sigues paseando por Europa....y...bueno, me surgen un par de curiosidades....
¿esa chica de Escocia es Carol, no? ¿y de Lola, ya no vamos a saber nada?
Un saludo