定刻となりましたので、「第10回東京都オープンデータ・ラウンドテーブル」を開催いたします。
本日の司会進行を務めます株式会社ボーンレックスの植村です。どうぞよろしくお願いいたします。
本日の流れについてご説明いたします。
始めに「東京都のオープンデータの取組」について東京都デジタルサービス局よりご説明いたします。
続いて、「外部有識者による講演」では、オープンデータの推進に係る講演を、お二人の有識者からお話しいただきます。質疑応答はその後にまとめて時間を設けております。
本日の参加者をご紹介いたします。
ご登壇者として、
・東京大学大学院情報学環 教授 越塚 登(こしづか のぼる)さま
・合同会社山形巧哉デザイン事務所代表社員/オープンデータ伝道師 山形巧哉(やまがた たくや)さま
にご出席いただいております。
オブザーバーとして、
・デジタル庁 デジタル社会共通機能グループ データプロダクトマネージャー 丸田 之人(まるた ゆきと)さま
・一般財団法人GovTech東京 テクノロジー本部 データ利活用グループ 畔上 健太(あぜがみ けんた)さま
にご出席いただいております。
また、東京都からは、デジタルサービス局データ利活用担当部長の小林(こばやし)、デジタルサービス局デジタル戦略部デジタル改革課長の奥村(おくむら)、デジタルサービス局データ利活用担当課長の大迫(おおさこ)が出席してございます。東京都各局職員及び、区市町村職員の方々にもオンラインでご参加いただいております。本日はどうぞよろしくお願いいたします。
登壇者の方はご発言の際に、事務局からご案内いたします。発言の際以外は、マイクをミュートとしていただき、画面操作を行わないようお願いいたします。また各局・区市町村職員の皆様におかれましては、ご質問等は原則チャット機能よりご投稿をお願いいたします。
ご案内が長くなりましたが、開催に先立ちまして、デジタルサービス局 データ利活用担当部長の小林より開会のご挨拶を申し上げます。小林部長、よろしくお願いいたします。
東京都デジタルサービス局データ利活用担当部長の小林と申します。日頃より都のオープンデータを始めとしまして、各種DX政策にご協力いただきまして誠にありがとうございます。
東京都では、2017年3月にオープンデータカタログサイトを開設しまして、今年で9年目になります。オープンデータの取組を進め、各種ニーズや課題の把握、機運の醸成を行うことを目的に民間事業者の方や有識者の方から直接ご提案ご意見をいただきまして、意見交換を行う場としまして、2021年より東京都オープンデータ・ラウンドテーブルを開催しているところでございます。
これまでラウンドテーブルでいただきましたご要望などを踏まえまして、例えば駅のエレベーターの点検情報ですとか、東京都指定の史跡データ、浸水予想区域図などのデータを公開してまいりました。またPDF形式で公開していたものを機械判読性の高いCSV形式に変換するなどの取組を行っているところでございます。今回は第10回目という記念すべき回と位置付けまして、越塚先生 山形様 丸田様より、オープンデータに関する幅広い観点から最新の情報、課題、これから向かうべき方向などのお話を伺う予定でございます。
本日のラウンドテーブルですが、短い時間でございますけれども、聴講されている皆様にとって有意義なものとなりまして、ひいては住民のQOL向上に繋がりましたら光栄でございます。どうぞよろしくお願いいたします。
小林部長、ありがとうございました。
続いて、オープンデータの取組状況についてデータ利活用担当課長の大迫よりご説明いたします。大迫課長、よろしくお願いいたします。
オープンデータの取組状況についてご説明いたします。
東京都では、区市町村などの行政機関や、様々な関係者と連携してオール東京で、オープンデータの取組を進めています。資料右下、2021年2月に初の「東京都オープンデータ・ラウンドテーブル」を開催し、民間事業者はじめデータ利活用される皆さまからオープンデータへのご提案を頂き、我々行政職員とディスカッションしながら、新たなオープンデータの公開や改善を実現してまいりました。また、オープンデータを利用される方々と、日常的かつ活発にコミュニケーションを行う場として東京都オープンデータコミュニティというSlackのツールもございます。これらでオープンデータのニーズを把握して積極的なデータ公開を進めておりまして、東京都オープンデータカタログサイトでは現在約7万8000件の東京都と区市町村のデータを掲載しております。そしてこれらのオープンデータを活用して新たなサービスを生み出していくという取組が、都知事杯オープンデータ・ハッカソンでございまして、デジタルサービス開発を競うイベントを行っております。このように各事業の成果を連鎖させ、循環させていくことで、オール東京でのオープンデータの取組をさらに促進していきたいと考えております。
いくつかの事業をご紹介させていただきます。まさにこの会、「東京都オープンデータ・ラウンドテーブル」でございます。民間事業者の方や学術研究機関の方々から、オープンデータの課題や幅広いニーズを聴取し、意見交換を行い、関係部署と調整の上オープンデータ化に繋げるという取組を行います。
今回第10回目の特別な会ということで、有識者よりご講演いただいて、今本当に多く職員に聴講いただいておりますけれども、各局の職員、または区市町村職員のオープンデータに対する意識改革を推進していければと思っているところです。
次に東京都オープンデータコミュニティについてです。
オープンデータ利用者同士のコミュニケーションや利用者と都の繋がりを活性化させることを目的として立ち上げております。
無料で参加ができまして、現在、Slack会員数は600名を超えております。会社員や公務員、学生など多くの方にご参加いただいております。
会員同士の情報共有や意見交換、またサービス開発メンバーの募集といった交流、自らが行ったサービス開発などオープンデータの利活用事例の発信、また有識者による講演等のイベントへの参加、オープンデータの利活用に関する問い合わせやデータ要望などを行える質問や提案などを行える施策となっております。
資料の下にありますが、会員限定の第2回イベントも行う予定でございます。
最後に、「都知事杯オープンデータ・ハッカソン」についてです。
都では、都や区市町村のオープンデータを活用し、行政課題の解決に向けたデジタルサービスの開発を競うイベント「都知事杯オープンデータ・ハッカソン」を開催しており、今年度で5回目を迎えます。応募者数も年々増加しており、今年度は1,327名の方にご応募いただいております。
2024年度受賞作品をいくつかご紹介いたします。昨年10月のFinal Stageの結果、三鷹市様の行政課題への提案である「リアルタイム高解像度熱中症リスクダッシュボード」が都知事杯・オーディエンス賞のW受賞の栄誉に輝きました。
3D都市モデルを用いた高解像度熱中症リスクマップを実装しました。
左下、ビジュアライズ部門では、東京都の基準地価格データを使ってわかりやすく可視化をしていただきました。その他にも、都民に役立つサービスを様々提案いただき、都が開発支援を行いながら、各チームによる社会実装まで行っていただいています。
こうした様々な取組を通じ、オープンデータの公開を一層進め、都政のQOLを継続的に向上させていきたいと思います。東京都のオープンデータの取組状況の報告は以上です。
大迫課長ありがとうございました。
それでは、「外部有識者による講演」に進んでまいります。お一人目として、東京大学大学院情報学環 教授 越塚様よりお話しいただきます。越塚様、お願いいたします。
ご紹介ありがとうございます。
直接オープンデータそのものの話ではないのですが、ちょっとAIの話をさせてください。
AIがあると、データオープンだけじゃなくて、データの作り方とか出し方とか大きく変わるだろうなと思うことがあるのと、昔オープンデータの立上げの頃に、オープンデータって人間相手じゃなくて機械相手に情報公開をする、だからマシンリーダビリティーが大事だ、といった時の「マシン」って一体何なんだという話がありました。
今の時代、もしかするとオープンデータのオープンの対象って、これからAIが主なリーダーなんじゃないのっていう気がしています。
そうすると、AIに公開するためのデータってどうしたらいいのっていうようなこともあって、その辺考えると思うことがあるので今日お話したいと思います。
AIの時代というのは昔から技術があるが、最近ジェフリー・ヒントン名誉教授もノーベル賞を受賞され、それで第3の時代になっていると思います。
マシンラーニングもいろいろありましたけど、多分2022年にChatGPT出てきてOpenAIの生成AIからかなり認識したっていうか、誰でも使うようになって非常に使いやすくなったかなと思います。
これが一つの大きな契機だったんですが、ここで沈滞しているわけではなくて、実は毎日すごく進んでおりまして。
この辺スライドにあるのも皆様もお役所の中でもおそらく使っているものもあると思います。最近はもうAIがエージェントという形で、人間と同じように、何か聞けば答えるだけじゃなくて自発的にいろいろな情報を集めてきます。
この自発的に情報を集めてくる先に多分オープンデータもあるし、公開されているデータもあるしTDPFの中のデータみたいのもあって、そのデータをAIが使いながらいろいろな答えを出していくということだと思います。
AIの研究自体もデータっていうと、AIが学習するときに学習データを集めてきてみたいな話などの学習競争はほとんど終わっていて、その学習の次の推論する段階で、例えばプロンプトを入れて推論しますよね。
推論するときにAIが横にデータベースを抱えていて、データベースを見ながら推論の答えを出すっていうのが主流になっていて、そのときのデータベースといかに繋ぐかっていうところの技術が今急速に発展している。
オープンデータのデータベースも、多分推論をするとき大量のデータベースを横に置きながら、推論に対して答えを出していくんだろうなと思います。
つまりは、データのプラットフォームとAIを組み合わせて使うようになると思います。
主に生成AIの使い方として、今日の話に一番関係するのは、「壁打ち(LLMと議論する)」とか、何かの「調査」の際に、やはりこれ使えますよねって言ったときに、調査の対象はデータだったりするので、もう人間が直接調べずAIを経由して調査しているってことは、調査結果もAI向けに出すのかな、と考えなくてはなりません。
例えば調査であればディープリサーチはちょっと前からありますけど、かなり立派な答えを出してくれます。
最近役所の手続なども自分はChatGPTで調べていて、大阪万博でチケット予約したんだけど、時間変更しなきゃいけなかったので、そんなニッチな情報って探してもなかなか見当たらなかったんですよ。
だけどChatGPTに聞くと一発で出てきました。
また、マイナンバーカードを更新した際も、ChatGPTに聞くのが早い。
あと、アメリカでレストランに行ったらメニューなんか全くわからなかったが、メニューの写真を撮ってChatGPTに何を食べたらいいかっていうのを推薦してもらったりとか。
だから検索するのとか調べるのって、もはや「ググる」から多分AIになっているだろうなと。
そうすると、この辺りが大事になるが、今まで例えば役所が情報発信するとWebページを作ったり、東京都であれば東京都アプリを作ってそれをpullして情報を見ていた。
僕の使い方は今のは多分WebページをLLMがたまたまラグしていて、それを見に行っている感じですよね。
それだったらもう中途半端なWebページじゃなくてまずオープンデータのデータベースでいろいろなデータがあれば、もっとちゃんとLLMでも調べられるのでもっとしっかりとした答えを出すと。
そうするとこういうWebページとかスマホアプリってこれから必要なの、AIに公開するような文書のオープンデータさえあれば出せば良いじゃないの、っていうように僕は考えております。
役所の情報の出し方って大きく変わるんじゃないかなと。こんな感じで役所のデータをAIが食えるようになると、例として被災した人への補助金とかそういうのを役所全体でどれぐらいあるのか石川県の方で調べたところ、県でやったのが全部で20ありました。
これ、各課の方に聞きに行っても、自分の課のことはわかるけど他の課のことはわかりませんと。だけど県庁全体通じて串刺しするのはAIならすぐできるので、これもデータがきちっと揃っていて資料下にあるようなアーキテクチャになっていると、こういうのが可能なんですよね。
そうすると、プッシュ型行政ができます。
役所があって、役所の各種行政データや手続き情報など、全てオープンな情報だと思うので、別に市民情報や都民情報のパーソナルデータは入れなくていいので、公開情報だけ入れて、これをMCPという、後で説明するようなメカニズムレベルでLLMと繋げば、都民の方のライフイベント、それは災害かもしれないし、被災かもしれないけど、赤ちゃんが生まれたとか、転入したとか、人が亡くなったとか、学校に入学したといったライフイベントを教えてあげたらぱーっと調べて、あなたの条件に合うとこんな情報がありますよねってプッシュしてあげられます。
だからこんなプッシュ型というのもできるし、AIとこのデータプラットフォームが繋がると、結構行政をいろいろ変えられるのではないかなと思っています。
LLMにそんな技術があるのかと言われると、重要なのが、世の中にどんなデータがあるかを示していますが、今のLLMでは、非常にオープンな一般知識だけ膨大なものを学習しています。
実際本当は業務する上で重要なのは、右(スライド22)にあるようなもの。役所でも似たような話だと思います。
こういうのって実は学習していなくて、まさに推論するときに、ダイナミックに繋いで答えを出していきます。
この技術が日進月歩でございまして、ラグというのはもう1年前からありますけど、さらに進んでそれがMCPなんていう形で標準化されたり、どんどんこの辺が進展することで、このMCPのシーズンもどんどん進んでいきます。
自治体のデータが、昔日経新聞が作ったオープンなものがあって、それをAIに食わせてやったら、例えば「ウェルビーイングの都市を挙げてください」なんていうことを言うと、ちゃんとデータベースと連携しながら、そこのインデックスを見ながらやってくれます。どういうところを注目したらいいかというのは、あとはプロンプトで書いてやれば、いろいろな指標でできます。
壁打ちのデータベースでテキストができるっていうのがすごい。知らなくてもこんなのができてしまいます。これは、自治体の皆さんにとっては結構有益じゃないかなと思います。
このウェルビーイング指標、勝手に作ったもので、都市ランキングってやると意外とよく新聞とかで言っているのと同じようなのが出てくるというのは、ちゃんとできているなっていう感じ。
あとは観光プランとか、LLMで「こんな観光したい」というのを文学的なザクッとした書き方でやってやると、かなり細かくブレークダウンしていて、最終的にどこまで具体的な提案がしてくるかっていうのは、これはLLMの性能ではなくて、推論時にどれぐらいのデータ、例えば時刻表であるとか、ホテルの値段であるとか、そういうデータをいかに横で与えてやるかによって、具体的結果が決まってきます。ただやはりデータがあるとLLMも生きてくると思うんですね。
そうすると、ちょっとテクニカルの方に行くと、データベース上のデータは自然言語で分析できるようになります。
SQLとかデータベース言語とかプログラミング言語、PythonとかBIツールPower BI、Tableauとかそんなの知らなくても、自然言語で結構同じようなことができちゃう時代になってしまったねという気がします。
あと技術的にはAIが今データを完璧に理解できるかというと、結構データの作り方によりまして、例えばさっきのこのような自治体のデータベースがあって、プロンプトで人の数が多い自治体は、なんて単純なこと聞くじゃないですか。
これ、人の数なんて聞くわけですよね。そうすると、LLMからしたら人の数っていうのは一体何だと。
ここを調べていくと、総人口とか総人口順位とかいろいろ書いてあるけど、どの数なんだっていうので、推論しなきゃいけないですよね。
これを推論して当たるかどうかっていうのは、このカラムの意味とかそういうことをちゃんと理解できるように、あらかじめメタデータをLLMに与えておく必要があって、そういうのをいかに整備するか、人の数というプロンプトで上にあるような総人口が出てくるSQLを吐き出さなきゃいけないので、そのためには五つ星がそういうのを目指していたわけですけど、本当にその五つ星に基づいていれば、LLMはデータをちゃんと理解できるかというと、もうちょっと頑張ってやってみなきゃいけないなと思っていて。
もしかしたら、LLMのための六つ星、七つ星なんていうガイドラインが必要なのかもしれないなというようなところが今とってもホットかなと。
ちょっと研究のところも含まれているんですけど、だんだんそういうふうにLLM、AIとデータが密な感じになってきたかなと思います。
なので、オープンデータも、公開対象がだんだんAIになると今みたいなことがトピックになってくるかなと思います。
以上です。
越塚様、ありがとうございました。機械が読めるものからAIが読めるものにというような形でたくさんのお話いただいたと思います。
続きまして、合同会社山形巧哉デザイン事務所代表社員でオープンデータ伝道師の山形様よりお話しいただきます。山形様、お願いいたします
私の方からは【あつめる、そろえる、つながる。地域を分断しないデータ活用を】ということで、自治体様、都庁の皆さんだとか、いわゆる行政の皆様目線で、今日お話をさせていただこうかなと考えてございます。
私が何者かというとですね、北海道の森町という小さな町があるのですけれど、そこで情報担当をずっとやっていた人間です。
現在はこういうオープンデータの関係だとかいわゆるデジタルトランスフォーメーションに関わるコンサルティングとかをやっている会社を運営しているところでございます。
オープンデータだと、デジタル庁のオープンデータ伝道師だとか、あと一般社団法人北海道オープンデータ推進協議会という、北海道でも実はずっとオープンデータ推進しておりまして、現在そちらの理事もやらせていただいているところでございます。
今日のお話なんですけれども、冒頭申し上げました通り私は24年ぐらい、行政マンとして働きまして、その中でオープンデータの施策についてはもう10年以上ずっとやらせていただいているところでございます。
始めた当時は全国でもわりと先駆けだったということ、小規模団体だったっていうこともあってですね、結構いろいろなところから注目されまして、いわゆる官民データ活用推進基本法というものが制定された後、どうやって小さな町でオープンデータを進めてきたのかとか、そういうことを全国各地へと講演等に回らせていただいておりました。
その中でこれらの経験を基に、日本全体のオープンデータってどうやったら進んでいくのかなっていうのも、私自身もずっと考えていたところなんですけれども、特にこの東京都っていうのは特別区、多摩島しょ部を抱えてもう本当に日本の縮図だなと私は思っています。
本日私がご提案することを、ぜひ東京都を起点としながら、いろいろ進めていただければ、日本国内の大きなインパクトになるんじゃないかなというふうに思いまして、本日お話というかご提案させていただこうかなと考えてございます。
【自身の経験と全国各地の自治体とのやりとりで見えたボトルネック2選】と書いているんですけれども、本当に大きく分けて2個しかないなと思っています。まず一つ目が、要するに担当者依存だとか、部署限定の問題とオープンデータの行っている部署が限定されているというところですね。もう一つが、都庁内政治に関する問題、特に人脈の部分だというふうに考えております。
一つ目については、庁内のオープンデータに関するノウハウっていうのが、どうしてもどんな団体様も限定的になってしまっているなと考えています。
特にオープンデータっていうのは初めの頃というのは担当者さんの義務感だとか熱量で、もうイケイケどんどん、どんどんやっていこうというふうになるんですけれども、担当者さんが変わった瞬間から一気にやっぱり熱量が下がってしまうというケースが多々見られます。
多分オープンデータに関しては、僕たちもいろいろ2周目3周目ぐらいになってそうなかんじはするんですけれども、毎回同じ現象が起きて、この継続性が低いのが一個課題だなと思っております。
もう一つがですね、推進部署だけで完結しないというのもすごく難しい部分だなと思っております。
オープンデータ担当だという人が、すべからくその庁舎内の全データをオープンデータができるのであればいいんですけれども、推進する方とデータを保持・所持しているところが別になってしまっておりまして、あくまでもこのオープンデータの推進担当というのは、各部署にお願いしに行くしかない。ここはやっぱり大きな問題の一つだなというふうに思っております。
なので、私自身もそうだったんですけれど、後輩がいるだとか、仲のいい担当職員がいるとかっていう場合は声掛けしやすくて、そういうところはすぐにオープンデータ化が進むんですけれども、中にはちょっと苦手なんだっていう部署だとか、いらっしゃるじゃないですか。
そういうところに行くと、どうしてもやっぱり声が掛けづらい。そういった場合にどうしていくのかっていうと、やはりニーズだよねと皆さん思ってしまうんですね。
ニーズがあればこれはちょっと頼みやすくなということで、ニーズをたくさん聞いて、実際持っていくんですけれども、結果として、ニーズを出したとしても出したがらないケースっていうのも結構あったりします。
この辺を、ちょっと次のスライドで深堀りしていただけたらなと思います。
この辺は原因の推測。これも個人の見解ですと書いていますけれども、まずそもそもなんでオープンデータ出せないのか、出したがらないのかっていうのは、基礎自治体っていうのは住民の近さの問題があるなというふうに思っております。
出して何か問題があった場合、下手したら顔の見える相手から何か言われてしまう可能性もあるし、何を言われるかわからないものはやはり怖いんですね。
みんな怖いものは出せない、これはもうしょうがないものかなと思っております。
もう一つがですね、国や広域自治体からの周知が不足している。オープンデータの推進っていうのは、例えば今日もデジタル庁の丸田さんがいらっしゃいますけれども、オープンデータの推進はあくまでもデジタル担当部局からデジタル担当部局に対しての推進とかが周知されるんですけれども、これを公開するのはデジタル担当部局じゃなくて、全ての部局が対象になるわけです。
ですので、例えば厚労省のラインからもオープンデータにしていきましょう、ホームページに公開しましょうという書き方がされていても、これはオープンデータであるという明言されていないことがすごく多いんですね。
多分しっかりとこれはオープンデータの政策に基づいて、官民データ活用推進基本法に基づいてちゃんと公開しているんだよっていうことを仕組みとして、ある意味縦割りをしっかりと利用しながら周知していかないと進まない問題かなと思っています。
何よりもこれが一番の問題だと思っているんですけれども、手作業によるデータ作成、何をどうやって公開するのか未だに悩みます。
悩むもう1個の大きな課題感としては、悩んだ挙句これを手で作るのかっていう、大変さも出てきてしまいます。先ほど越塚さんもおっしゃっていましたけど、これから先は機械判読性がもっと求められてきて、そこがすごく重要になってくる。それを手でやるのかっていうのはもうほぼ修行に近いものになっているし、難しいなと思っています。
あとはフォーマットが乱立しがちだとか、あとデータの公開を委託している場合とかもありますので、こういった場合にやはり様々な壁というのが表れているという状況になるのかなと思います。
これらをどうやって解決していくのかっていうところですけど、私の持っているアイディアの一つとしては、やはり思い切って実際公開するものは最低限絞る。
これがですね、自治体標準オープンデータセットかなと私は思っています。再三述べておりますけれども、手作業で作るのは本当に手間がかかるんですね。
なので、手作業ならばもう最低限の流れを作ってしまって、小規模でも広域団体でも理由がつきやすい、自治体標準オープンデータセットに絞る。
自治体標準オープンデータセットというのは、みんなが出しているから出しやすいっていう側面もあります。
また、先ほど課長からもお話がありましたけれども、都知事杯ハッカソンも参加者の方々のサービスだとかを見ても、やはり自治体の基礎情報を欲しがっているケースっていうのが相当数いるなとは思っています。
自治体の基礎情報を多くオープンデータ化しているのは、自治体標準オープンデータセットであると見込まれていますので、この辺をしっかり出していくというのが重要なポイントかなと思っております。
さらにもっと言うと、更新を考えると、広域自治体は都道府県の方々が、自治体標準オープンデータセットをちゃんと出していますかぐらいのかんじで、各団体さんに促したら棚卸するっていうのが私は効率的だなと考えております。
もう一つが、手作業で公開するものを最低限絞るっていう話をしていましたけど、既に広域自治体、都道府県で集めたデータをオープンデータとして公開するというのが、一番重要なポイントかなと思っております。
基礎情報だとか定量的な情報というのはやっぱり国だとか広域自治体で実施している調査に関するものってめちゃくちゃ多い。自治体職員だったら皆さんわかっているところかなと思っております。
それを、「本調査収集後は広域自治体がオープンデータとして公開します」という一文だけでも入れてくれたら、もう自治体側としてはこれオープンになるんだよねっていう認識のもとでできる。
もっと言ったらですね、国だとか都道府県が公開しているんだからそれをオープンデータにしてくれよっていうのが自治体職員として本音の部分なので、この一文を入れてくれたら、逆に広域自治体側、都道府県側も何も考えずにオープンデータとして出すこともできますし、その辺の情報の鮮度としては、やっぱり基礎自治体が随時出してくれっていうニーズがあることも十分承知なんです。
けれども、それも最低限やっぱり年に1回は、定められた期間のちゃんとしたデータが出続けるというのは、すごくいいことかなと思いますので、こんなことをやっていけばいいんじゃないかなというふうに私自身考えているところです。
最後になるんですけれども、「あつめる、そろえる、つながるを東京発全国へ」ということで、やっぱり大事なことっていうのは、人っていうのはそこの自治体だけにとどまっているものではないということです。
私も今日は、北海道から東京まで出てきているんですけれども、人間って常に動いているんですね。動いているとそこの先の自治体で絶対サービスを受けていることもあり得るわけです。
何も行政サービスっていうのは、戸籍だとか住民票だとか印鑑証明を出すことがサービスなのではなく、福祉だけでもなく、移動している人たちもそこのインフラ、水道も使うし、電気も使うし、水も使うわけですし、道路も当然通るわけですし、いろいろなやっぱりサービスって受けているわけです。
そういうものが統一してちゃんとデータベースとしてデータで出るっていうのが、やっぱりこれからの社会、受け売りになりますけど生成AIの話もそうですよね。
そういう形でサービスがどんどん高度化して享受していくことが増えていきますので、ぜひ自治体としては楽しながら、自動的にちゃんと出していく、まとまって同じようなものを揃えて出していくみたいな取組をぜひ東京都でも進めてもらえれば。
やっぱり国内いろいろ見て東京都さんの施策っていうのが、国内トップランナーであることはもう間違いないところがございます。
ぜひ、日本国内の大きなインパクト作りのためにも、実施を、基礎情報の整備手法から、東京都様の方でぜひご検討いただければなというふうに思います。
私からは以上です。ありがとうございます。
山形様、ありがとうございました。
行政現場における解像度の高い課題と、それに対する解決案ということで、ご視聴されている皆様も頷かれているところが多かったのではないかなと思います。
それでは、質疑応答・ディスカッションに移りたいと思います。
オープンデータに対する期待や課題、またオープンデータ利活用促進などにつきまして、ご意見伺いたいと思います。
皆様、今お二方にご登壇を聴講いただいたんですけれども、いかがでしょうか。それぞれ聞かれて感じるところですとか、もしご質問などあればと思います。
GovTech東京 テクノロジー本部 データ利活用グループの畔上と申します。
日頃はデジタルサービス局と連携し、行政サービスのデジタル化を推進しています。
具体的には、オープンデータ事業の技術支援、庁内のデータ利活用の促進、そして最近では、デジタル庁の政策ダッシュボードに類するダッシュボードの作成およびサイト構築等を担当しております。
本日のご講演に関し、以下のとおりコメントいたします。
【1点目(越塚先生のご講演・AI活用について)】
当グループでは本年度より、AIを用いたデータ整備に関する研究開発(R&D)を開始しました。
本日ご紹介の方式とは一部異なりますが、参照用データを整備し、RAG(Retrieval-Augmented Generation)の知識ベースとして活用することで、各ウェブサイト上の情報を効率的に収集・整形する取り組みを進めています。
現時点で一定の有効性を確認し、方向性に手応えを感じております。一方で、精度はなお安定しない部分があり、改善の余地が大きいと認識しています。
AI関連技術が日進月歩であることを踏まえ、行政業務に適合させるためのノウハウ蓄積が重要だと、講演を拝聴して改めて感じました。引き続きご助言を賜れますと幸いです。
【2点目(山形様のご講演・オープンデータ収集の難しさについて)】
現場の生の声を踏まえた発信の重要性、そして技術だけでは解決できない課題の大きさを、改めて実感いたしました。
東京都は比較的、体力・リソースに恵まれているという面があると考えております。その強みを生かし、東京都発のモデルを構築して基礎自治体へ横展開することで、こうした課題の解決に寄与していきたいと考えております。
以上、簡単ではございますが、コメントとさせていただきます。今後ともご指導のほど、よろしくお願い申し上げます。
ありがとうございます。
今のコメントに対して、越塚様、コメントがあればお願いします。
山形さんの話を聞きながら思ったのは、AIはこんなことができるって話をしたんですけど、それによって関係する人がどれぐらい楽になるのかっていうことと、合わせて、情報公開するにしても、AI向けに公開することでまたデータが増えるのかという話もあるんですけど、でもそうすると今度はAIの方がユーザーインターでやってくれると、今まで多分情報を出そうと思うと、都民の方が読んでわかりやすいように、どういう日本語にして、どういう構造にしてとかって結構考えないとできなかったと思う。
そんなのは結構比較的どうでもよくなっていって、だいぶ多分楽になることが増えるんじゃないかなと。
あとさっきのプッシュ型みたいなのも新たなサービスっていう考え方もありますけれども、多分窓口に行っていろいろ聞かれることがだいぶ減るのであれば、それはだいぶ下がってくるしとか、何かちょっとそういうのをペアで考えることが重要なんだろうなと思いました。
先ほどご質問いただいた精度に関しては、これは若干日進月歩なところがあるのと、あとは最後精度を上げるガリガリなところは頑張っていきたいっていうところがあります。
そういうことに関しては結構AIも例外ではなくて、すごいエレガントに綺麗にいくかっていうと、そこはそうでもないんです、というのはその通りかなと思います。
ただ、だいぶ変わってきていて、今ラグってテキストだけじゃなくて、SQLだったり、組み合わせたりとか、あとグラフデータベースでさらに精度が上がったりするとかその辺もだいぶ変わってきているので、もうちょっとやっぱ時代が経ってくると、いろいろ変わるところはあるかなとは思います。
ありがとうございます。山形様はいかがですか。
はい、そうですね。
やっぱり生成AIの登場によって本当に世の中ガラッと変わったなっていうのもありますし、データを出す側の方としても、出し方だとか作り方っていうのも特に今年来年ぐらいにはまた大幅に変わるんだろうなっていう意識はありながら。とはいえ、基礎情報と呼ばれているものがしっかりとやっぱりWebサイトだったり、公表されていないのが事実でして、それを利用者側、僕はデータを利用する側でもあるんですけれど、探しに行って、ホームページのこの辺にありそうだって言って探しに行ったら実はないんだとか、結構あるじゃないですか。
そういうのをやっぱりしっかりと国が定めたオープンデータに全部乗れっていうのはちょっと何だかなと思いながらも、でも、やっぱり我々国民としての生活として、ある程度定められたものにちゃんと乗るっていうのも、もちろん素晴らしいことというか、楽をすることができる。変に独自性出さなくていいものについては、独自性を出さずにちゃんと乗っていこうぜとか、あの自治体側もちゃんといい意味で悪乗りをちゃんとしながら、自分たちが楽をする方向で、今までは国や都道府県の方から出してくれ出してくれって言うことばっかり言われてきたけど、ちょっと口が悪くてすいませんが、「いやいいから、お前らが出してくれよ」みたいな感じの方向性にちゃんとこれからは声を出していかなきゃ駄目なんじゃないかなっていうふうに思っています。そういうのをうまくみんなでやれたらいいなと思いますよね。
はい。ありがとうございます。
チャットのご質問です。
制度ですとかAIに関することで皆さんきっとこれが知りたいじゃないかなというようなご質問も来ましたのでぜひご紹介させていただきたいです。
「AIが読みやすいデータを作っていく点で、一番留意すべき点は何でしょうか」というご質問いただいています。
もしポイントとして一つ、私達というか提供する側・データを作っていく側が留意すべき一番大切なポイント一つ挙げるとしたら、越塚様いかがですか。
どういうデータかにもよるんですけど、さっきの表のような数値データだったら、それがもうカラムの意味はちゃんとよくわかるように、自然言語と書いてあったカラム名がちゃんとしているというだけでもだいぶ違うと思うんですけど、その辺はちょっとまだお作法もちゃんと決まってもないので。
あとLLMの性能によってもどうやったらいいかが決まってくるところがありますけど、そういうのがわかりやすいように、さっきの僕のも総人口とか、今までもそこそこ理解できますけど、あれがカラムA、カラムB、カラムCからも指示されて多分わからなくてみたいなのとか、あと普通に考えると、日本語があったとき主語がちゃんと書いてある。逆に省略されると推論しちゃって、変に解釈されるぐらいだったらくどくても書いた方がいいと思います。
そこは、経験がまだちょっと必要だと思います。いろいろ試してみてやってみて、その経験の積み重ねがまだまだいるかなと思います。
ありがとうございます。
もう一つご紹介しようかなと思っているんですけれども、お二方にご質問です。
「オープンデータ形式でAIリーダブルな情報公開を推し進める重要性については理解していつつも、一方で生成AIを利用してオープンデータを活用する際に、ラグで読み取ってくるデータが多すぎたり、似たようなデータが多数あったりすることによるハルシネーションリスクについてはどう認識されていますでしょうか」、という高度な質問ではありますが、例えば似たような表データを多数公開する場合があると、生成AIがうまく判別できずに迷ったりとかどっちを取ってくるみたいな回答を生成するリスクがあるんじゃないか、というふうに例として挙げていただいています。
なので、自治体として、AIにとってわかりやすい最低限のデータセットを提供して、このAIに向けての回答精度を担保すべきなのか、それとも公開できるデータは雑多でも全て公開して回答精度についてはもうAIの発展に委ねるべきなのかというご質問です。
今みたいに推論するときに、他のデータと連携しながらやるときに、うまく推論できない理由は一つだけじゃないと思います。
色んな理由があるので、色々対処しなきゃいけないことはあると思います。
ただ今のテクノロジーで固定していて100点満点かっていうとそれはもう、まだ全然そんなことはないので、やる必要があると思います。
例えば、今のリアルタイムなデータ知りたいですよねって言って、「今の何とかかんとかの株価はいくらですか」っていうのを調べるとする。
そうするといろいろなサイトを見に行くんですけど、株価の方針って各サイトに全然違うでしょ、タイミングが。そうすると矛盾したデータが入ってきますからね。
だからそれをどう解決するのかとか、それも1個の問題だし、それも減ったりするとハルシネーションをおこす。リアルタイムの方針って結構違ってくるし。
あとは、さっきのその文章の工程のラグの場合だと、切り方とかそういうことにもだいぶよってくるので、だいぶいろいろなバラバラの原因があります。
だからそれぞれ一つ一つ丁寧に潰していくっていうところで、その辺を潰すところの地道にやっていくところがどんどん進んでいるんですよ。
その地道なところをいかにやるかっていうところも結構勝負で、そこの日本の企業、あの役所の皆さんが企業さんだけど、頑張ってやって行ってねっていうふうな感じです。
ありがとうございます。
たくさんご意見をいただいていますが、最後に、大迫課長よりご質問を伺えればと思います
越塚先生、山形様のお話、すごく興味深くオープンデータを推進する側として、頷きながら聞かせていただきました。
私達は東京都オープンデータカタログサイトというウェブサイトを持っていて、オープンデータ化を促しています。越塚先生がおっしゃっていただいましたが、「LLMを生かした将来形」という話で、そのデータベースがある方が私達も楽になるんだろうなと思って、聞かせていただきました。
東京都として自治体標準データセットなどニーズの高いデータはまとめて、あつめてそれをつなげていったらという話もありました。
オープンデータ化をするにあたり、各局からご質問いただくのは、それが本当に二次利用をできるのかどうかというのは判断がつかない。
Webサイトそのものに出しているだけではなくて、さらにそれを2次利用して使ってもらう、つまりオープンデータとして出していくっていうのは、やはり判断が伴うものだという認識で我々もいますし、やっぱり各局の職員さんも思ってらっしゃる。
そうした方々、今聴講していただいていると思うので、その方々にどういうふうに考えていくとよいのか、もっと社会をより良くするためにデータをみんなで使っていけるのか、行政で作っているデータなんだからそれをオープンにして、それでさらに東京都を良くしていこう、日本をよくしていこう、世界もっていう話だと思うので、その辺(オープンデータにすること)の職員の戸惑いだったり、もしメッセージをいただけることがあるのであれば、ぜひお2人にお願いしたいと考えておりました。
僕も行政の方の目線として言うのであれば、そもそもデータベースだとかになってくると、どうしても著作権だとか、そういうものが発生すると思うんですけれど、自治体系の調査って基本的に数値だけのものであり、そこに本当に著作物として見なされるのかどうかっていうのは多分いろいろな議論がある。
その中で、我々としてはそういう調査ものの数値の羅列であれば、それはある意味著作物ではないのだろうというふうに見込んでいるんですけれど、一応これまでの日本の流れだとか、そういうのも含めて一応オープンだっていう明言しようという、そういうものですよっていうのをちゃんと認識した上で、特に国だとか広域自治体の方から調査については、そもそもフォーマットとかも皆さんが作っているものなんで、自治体はそれに含めて調査した数字を出していますという話なので、特に難しく考える必要性ってあまりないのではないのかなと僕個人的には考えてはいるんです。
けれども、その中でもやはり一応ちゃんとオープンデータに出すんだからねっていうのを一言伝える。それだけでも多分、自治体側としての合意形成もしっかり取れるので、それだけやってくれればもう本当にいいんじゃないかなというふうに私は感じています。
課題って二つあると思うんですよ。一つは、データを掲載する人の合意を取ってライセンス上も法的にも契約的にもこれ使っていくよねっていうのをちゃんと見る。
これは比較的難しくないと思うんですよね。確かめていけばまだ何とかなるかなと。
二次利用するときに二の足を踏んじゃうっていうのは、データ使ってもいいんだけど、それは著作権料とかそういうライセンス上はいいんだけど、でもそのデータを使って何か起こったときの責任などがあり、そこの責任は別にライセンスをいくら満たしたからって、何か担保されるわけではないと、何か起こったら何か起こした人の責任だよねというところで、データを何か利用していくと何が起こるかよくわからないから、二の足を踏んでしまうっていうところだと思います。
これに関しては、でも新しいことを何かやっていくってことに関してはデータだけじゃなくてあらゆることに関して、全てそうなのかなとは思うので、これはある程度経験をやはり積んでいかなきゃいけないっていうのと、やっぱりちょっと時間が解決するところもあるのかなっていうのが多いのと、あとそれを促進するときに、僕も年齢的に同世代の人たちに言いたいのは、責任は上司が持ちましょう。
「責任は持つから頑張ってね」というふうに部下の人をマネジメントしていただくっていうのがいいのではと思います。
ありがとうございます。
まだご意見等あるかと思いますが、時間の関係もございますので、質疑応答・ディスカッションはこちらで以上とさせていただきます。たくさんのご意見ありがとうございました。
ここでデジタル庁の丸田様より、デジタル庁のお話をお伺いできればと思います。丸田様よろしくお願いいたします。
オープンデータの最近の状況についてお話させていただきます。
今日は二つお話いたします。一つは公共データ利用規約、通称PDLというものです。
それともう一つが、e-Govデータポータルの自治体オープンデータへの登録という2点についてお話させていただきます。
公共データ利用規約ですが、皆様もご存知だと思いますが官民データ活用推進基本法の11条によって、オープンデータの取組を、国も自治体も義務でやらなければいけないことになっています。
その上でデジタル庁で作成しているオープンデータ基本指針、昨年の7月に改訂しておりますが、こちらの中で基本的に国が持っているデータは全てオープンデータとして公開しましょう、それを原則としますと、自治体においても同様に対応することが望ましいとしています。
それと、もう一つが、Webサイトで公開されているデータは、原則PDLを適用しなければならない。
こちらも地方公共団体も同様に対応することが望ましいということで書かれています。なので、今後オープンデータを進めていく中で、極力公共データ利用規約というライセンスを使ってくださいっていうのが今日のお話です。
この公共データ利用規約PDLなんですが、Webサイトやオープンデータの利用規約、ライセンスになります。
今まではクリエイティブコモンズCC BYというものを多く皆様方は使われているんじゃないかなと思いますが、それに代わるものとしてPDLを使っていただきたいということになります。
詳細は省きますが、Webサイト内のコンテンツ、ホームページのコンテンツは原則オープンデータにしましょう。
Webサイト丸ごとオープンデータにしていきましょうというのが一つのお願いになります。
ただウェブサイトには、著作権を誰が持っているものなのか、例えば業者が持っているものだとか、いろいろなものが混ざっていると思うので最初はライセンスが分からないもの、写真だとか、動画だとか画像そういったものは全てPDLから除外しますっていう形で文字だけをPDL適応させていくっていうのが、一番やりやすいやり方じゃないかなと思います。
東京都さんのホームページもそうですし、日本のほとんどの市町村のWebサイトは、二次利用禁止するって書かれています。
なので、それをやめて、Webサイト丸ごとをオープンデータPDLを適用させていただきたいっていうお願いになります。
詳しくは今年の2月に自治体さん向けの説明会をオンラインで開催しています。そのときの動画を資料下のURLのところで公開しておりますので、ぜひWebサイトのご担当の方は見ていただきたいと思います。
何のためにこれをやるのかっていうと、先ほど越塚先生からもお話ありましたけど、最近はAIでウェブサイトの情報が学習に使われていることがとても多いです。
そうなったときに、二次利用禁止ってなっていると、例えばAIに学習されなくなるとAIで調べようとしたときにその自治体の情報が出てこなくなってくる可能性もございます。
なので、まずは極力今公開しているオープンデータもCC BYからPDLにライセンスを切り替えるということ。
もう一つは、Webサイトのライセンス利用規約を丸ごとオープンデータ化する、PDLを適用させるというお願いになります。
それから2点目。e-Govデータポータルというのを、デジタル庁で設けています。
ここには国のデータのほとんどが登録されていて検索してダウンロードができたりするようなサイトです。
ここに自治体のオープンデータを登録していただきたいというお願いを今後する予定です。現状は政府のデータしか登録されていません。
利用者がデータを探すときには、全国自治体のそれぞれのWebサイトとか見て探し回らなきゃいけないのが現状です。
なので、利用者の検索性を高めるために自治体のオープンデータも登録していただき、検索ができるようにするシステム改修を行っているところです。
まもなくシステム改修が終わりそうなのでその後、全国の自治体さん向けにご案内をしたいと考えています。
ただ間違えないでいただきたいのが、ここにはデータそのものを登録するわけではなくて、メタデータと言われているもの、オープンデータ一覧のデータを登録するという形になります。
東京都さんのようにデータポータルを都道府県が持っていてそこの中に自治体のデータが登録されているパターンもあれば、独自でデータポータル持っているところなど、いろいろあると思います。
この中に自治体標準オープンデータセットのオープンデータ一覧というデータを作っていただき、CSVで置いていただく。
そこをデジタル庁のe-Govデータポータルのサーバーから定期的に見に行きます。
そうすると自動的に登録され、登録されたものは利用者が全て検索できるようになるという仕組みになっています。
こちらも詳しくはサービスが開始された後に、全ての自治体様宛にご案内いたしますので、そちらをご覧いただければと思います。
デジタル庁からは以上になります。ありがとうございます。
丸田様ありがとうございました。また、皆様、本日はご参加いただきありがとうございました。
今回の東京都オープンデータ・ラウンドテーブルは議事録を公開予定です。
それでは、本日はこれにて閉会させていただきます。大変貴重なお時間をいただき、ありがとうございました。