Op uitnodiging van Google vloog ik afgelopen zondag richting San Francisco, waar Google eigenlijk gewoon een stad heeft gebouwd en dat ‘Google Campus’ heeft genoemd. Dat allemaal voor Google I/O, waar het bedrijf de toekomst van AI, smartglasses en nog meer liet zien. Dit viel me het meeste op.
Leuk natuurlijk, want ik was nog nooit in San Francisco geweest en dit was ook meteen mijn eerste trip als ‘creator’. Want als je me al een tijd volgt, dan weet je dat ik de afgelopen 20 jaar flink wat airmiles heb gespaard, maar dat altijd als ‘pers’ en met andere journalisten. Nu dus voor het eerst als ‘maker’, met andere ‘makers’. Niet alleen een heel andere dynamiek, want in plaats van lange presentaties over specs en hoe dingen tot stand komen… werd nu vooral getoond hoe het uiteindelijk werkt en wat je ermee kan doen.
Hoezo nu ineens als maker dan? Nou, ik heb in 2019 besloten om met Power Unlimited agressief in te zetten op social media, want net zoals alles, is media elke dag weer anders en consumeren gebruikers media steeds op andere, nieuwe manieren. Dus als je vast blijft houden aan wat je altijd aan het doen was, word je ingehaald door anderen die wél actief zijn op nieuwe platformen. Goed, compleet ander verhaal dit, maar gelukkig is dat goed gegaan met het bouwen van die nieuwe platformen, anders had je dit waarschijnlijk nooit kunnen lezen. Door het bouwen van deze nieuwe platformen zien bedrijven als Samsung, Netflix en dus ook Google je niet alleen meer als ‘media’, maar ook als ‘creator’. Met als resultaat dat je ook met andere ‘creators’ op stap gaat en je dan dus gesprekken hebt over algoritmes, ‘hooks’ en captions, in plaats van oplages en kijkcijfers. Voor mij eigenlijk ook een stuk leuker, aangezien ik in mijn directe omgeving hier eigenlijk geen sparringpartners voor heb. Maar goed, Google I/O dus.
Google I/O
Ze noemen het zelf een developers conference, maar eigenlijk kan je het zien als een grote jaarlijkse keynote, waar key opinion leaders, pers, creators en gasten worden uitgenodigd om te zien wat Google allemaal gaat uitbrengen in de komende periode en vooral waar ze mee bezig zijn. Aangezien er een gigantische golf van automatisering op ons af komt rollen, draaide ook deze Google I/O bijna volledig rondom AI, en deze heet bij Google ‘Gemini’. Nu ben ik een vrij simpele ziel en kan je mij al gelukkig maken met een broodje kroket en een koude kletser, maar wat ik tijdens I/O heb gezien en heb kunnen proberen, blies me uit m’n sokken (yes, ik had de verse PU-sokken aan).
1: Beam
Iets wat ik op de valreep nog zelf had mogen ervaren, is iets wat ze Google Beam noemen. Ooit ging deze technologie door het leven als Starline, maar nu het ook echt moet gaan uitkomen, heeft het natuurlijk een naam nodig waarmee het niet op een Disney-attractie lijkt. Waarom op de valreep? Nou, ik dacht dat mijn dag op I/O er al opzat en ik eigenlijk al met een schuin oog naar de bar zat te staren, toen ik door mijn POC op sleeptouw werd genomen, want ik moest dit zien. En ik ben blij dat Jesper dat heeft gedaan, want dit was bizar. Oké, bellen met beeld doen we natuurlijk al een flinke poos en tijdens Covid zijn we er allemaal pro’s in geworden. Teams, Zoom, Meet… we hebben het allemaal geprobeerd en we hebben ons allemaal lopen ergeren aan die collega die het allemaal net niet snapt.
Anyway, Beam is de volgende stap in digitale calls, want als je die nu doet, zit je naar een beeld te kijken van de persoon waar je mee aan het praten bent. Een 2D-beeld. Wat Beam doet: die maakt van een 2D-beeld een 3D-beeld, alsof je dus met deze persoon live aan tafel zit. Hoe werkt dit dan? Nou, om het speciale scherm zitten 6 camera’s en die zorgen ervoor dat je stem en je beeld naar de andere kant worden gestuurd. Maar door het AI-model van Google wordt van deze 2D-video een 3D-video gemaakt, en dat ziet er zo ‘echt’ uit, dat het dus net lijkt of de persoon tegenover je zit en je dus ook (in mijn geval) een appel kan aangeven. Die je dan weer niet kan pakken, want je zit naar een scherm te kijken. Onderdelen van de persoon en het lichaam van deze persoon worden dus gegenereerd door de AI, in realtime!
Je zit niet naar een avatar te kijken, maar dus naar een live-opname van deze persoon, maar nu dus in 3D. Dit moet dit jaar al uitkomen in samenwerking met HP en zal eerst nog voor de zakelijke markt zijn (lees: duur). Maar geef het nog een paar jaar, en dan heb je dus altijd een videocall met collega’s of klanten, alsof ze bij je aan tafel zitten. En dan heb ik het nog geen eens over de live vertaling gehad. Anyway, het filmen van Beam mocht niet en je zou het ook niet op de video kunnen zien. Je zou het zelf moeten ervaren om te zien hoe insane deze techniek is. Wel heeft een van de engineers van deze techniek, en met wie ik ook het gesprek had, deze ongemakkelijke video van me gemaakt. Thanks.
2: Live translations
Vijf dagen in de week 16 kilometer. Acht kilometer om op mijn school te komen en weer acht kilometer om weer thuis te komen. Een beetje beweging is natuurlijk goed voor je, maar er is ook een hoop tijd in gaan zitten. Niet alleen om elke dag op school te komen, maar ook om daar verschillende talen te leren. Ik wil niet zeggen dat het allemaal voor niks is geweest, maar zo voelt het wel na een demo van ‘live translation’ via Gemini en Google Glasses. Die Glasses zelf zijn al indrukwekkend. Nu nog een prototype, maar zo goed als het nu al werkte, kan het gewoon uitgebracht worden. Dus een hip montuurtje, met een camera, projector (zodat er AR-beelden op de lens gegooid kunnen worden) en speakers in de pootjes.
Maar het belangrijkste is de ingebouwde AI. Gemini ziet alles wat jij ziet en dan kan je dus vragen stellen over wat jij ziet. Op deze vragen krijg je razendsnel antwoord, maar ja, ben ik echt geïnteresseerd in welke plant op tafel staat? Toegegeven, de tip die ik kreeg welke van de vier boeken ik moest lezen en de duiding daarbij was indrukwekkend. Ook het navigeren met de bril op, met de route geprojecteerd op het glas, is fijn. Van de hardware kan je hetzelfde zeggen: fijn. Maar Gemini live met live translation in de bril blies me wel echt weg.
Bij Beam lieten ze me ook zien hoe live translation werkt, vet, maar dan zit je achter een groot scherm. Dit ding kan je dus op je neus zetten en iemand kan dus Japans tegen je lullen en het wordt live voor je vertaald in je oren, door de twee speakers die in de bril zitten. Het werkte nu al zo goed en zo snel. Over een jaar zal er nul vertraging inzitten, al was de vertraging nu al minimaal.
3: Project Moohan
Deze XR-bril was natuurlijk al een tijd geleden aangekondigd door Samsung, en dat deze op het nieuwe XR-besturingssysteem van Google zou draaien. Alleen heeft nagenoeg niemand nog de bril mogen proberen. Nu ik ineens een ‘creator’ ben, kreeg ik een dag voor I/O de kans om alvast te mogen spelen met Project Moohan en Android XR. Het idee van deze bril is dat je deze opzet als je bijvoorbeeld thuis aan het werk bent en zo naast je laptop extra schermen kunt openzetten. Of op de bank zit en relaxed naar YouTube wilt kijken, terwijl er misschien iemand anders op de tv wat anders wil kijken. Dan zet je dus deze XR-bril op en kijk je door camera’s naar de echte wereld. Je ziet alles perfect en scherp, maar je ziet nog wel dat je door camera’s aan het kijken bent. Maar hoe de extra schermen in de echte wereld worden geprojecteerd, is indrukwekkend.
Met handbewegingen kan je de UI besturen en schermen groter slepen, vastzetten of een ander programma openen. Dit werkt zeer intuïtief en ik had het binnen een minuut onder de knie. En als ik het kan, moet het geen enkel probleem voor jou zijn. De bril zelf is helemaal niet zo zwaar en het gewicht wordt fijn verdeeld en wordt bijvoorbeeld niet te zwaar op je voorhoofd. Aan de zijkant bungelt nog wel een lange kabel met daaraan een batterij, maar voor de rest voel je je helemaal vrij met de bril en vergeet je al snel dat je een vrij grote unit op je hoofd hebt.
Werkt het? Yep! Goed zelfs. Zie ik dat mensen dit massaal gaan gebruiken? Nee, dat denk ik niet. Het voelde vooral nu nog aan als ‘kijk eens wat wij kunnen doen’. En wat ze kunnen doen, is echt heel veel, want met Gemini Live aan boord heb je nu dus gewoon een slimme assistent die met je meekijkt (als je dat wilt natuurlijk) op je hoofd, en de beelden die op de echte wereld worden geprojecteerd zijn haarscherp. Ik zie me het zelf wel gebruiken, maar ja… dat ben ik.
4: Flow
Google presenteerde een nieuw videomodel, een tekst-naar-videomodel. Dat is niet nieuw, maar VEO3 is wild. Dit nieuwe model doet niet alleen tekst-naar-video, en ook nog eens heel erg goed, maar VEO3 genereert er ook nog eens audio bij. Dus met een simpele prompt poept VEO3 er een levensechte video uit, met geluid. Kijk maar.
Met Flow kan je nog een stapje verder gaan. De video’s die je genereert met VEO3, kan je daarna nog aanpassen door de camera iets uit te zoomen, een pan te maken of misschien over te laten gaan in een volgend shot. En dat is lijp en eng tegelijk. Nu kan dus iedereen met een toetsenbord een video maken, waar nog geen jaar geleden een gigantische crew en dito budget voor nodig was. Maakt het dan ook filmmakers overbodig? Nee, natuurlijk niet. Iedereen kan nu misschien een mooi en levensecht plaatje op een scherm toveren, maar een goed verhaal vertellen blijft een kunst.
Ik mocht ook even klooien met VEO3 en Flow. En in de drie minuten die ik achter een knoppenmachine mocht zitten om met deze nieuwe tool te klooien, toverde ik deze dino tevoorschijn. Sick. Heel sick.